Master.6 · 回帖 · 测试之家

新手

Master.6

第 90647 位会员 / 2024-03-25

0 篇帖子 • 1 条回帖

0 关注者

0 正在关注

0 收藏

未设置 GitHub 信息.

我们是如何测试人工智能的（八）包含大模型的企业级智能客服系统拆解与测试方法 -- 大模型 RAG at 2024年03月25日

高飞老师，找你请教一个问题，我们搞了一个私有 RAG，用 RAGAS 对搭建的 RAG 进行质量评估，我构造好了用于评估的 dataSet（里面有 50 个问题、答案、真实答案、上下文），然后调用 evaluate 方法进行最终的评估，
results = evaluate(metrics=metrics, dataset=dataset, llm=langchain_llm, embeddings=langchain_embeddings, raise_exceptions=False)
相同的 dataSet、metrics、langchain_llm、langchain_embeddings，但是每次执行的结果确相差很多：
第一次结果：
第二次结果：
第三次结果：