还未发布过话题
  • 高飞老师,找你请教一个问题,我们搞了一个私有 RAG,用 RAGAS 对搭建的 RAG 进行质量评估,我构造好了用于评估的 dataSet(里面有 50 个问题、答案、真实答案、上下文),然后调用 evaluate 方法进行最终的评估,
    results = evaluate(metrics=metrics, dataset=dataset, llm=langchain_llm, embeddings=langchain_embeddings, raise_exceptions=False)
    相同的 dataSet、metrics、langchain_llm、langchain_embeddings,但是每次执行的结果确相差很多:
    第一次结果:
    第二次结果:
    第三次结果: