高飞老师,找你请教一个问题,我们搞了一个私有 RAG,用 RAGAS 对搭建的 RAG 进行质量评估,我构造好了用于评估的 dataSet(里面有 50 个问题、答案、真实答案、上下文),然后调用 evaluate 方法进行最终的评估,
results = evaluate(metrics=metrics, dataset=dataset, llm=langchain_llm, embeddings=langchain_embeddings, raise_exceptions=False)
相同的 dataSet、metrics、langchain_llm、langchain_embeddings,但是每次执行的结果确相差很多:
第一次结果:
第二次结果:
第三次结果: