AI测试 大模型 + Search 的评估方法 - 从人工标注到第三方模型测评的系统性实践

andyguo · 2025年10月08日 · 最后由 混泥土瞬间移动工程师 回复于 2025年10月09日 · 638 次阅读

一、引言:当搜索遇上大模型

过去两年,大模型的能力突飞猛进。从 GPT-4 到 Gemini,再到 Claude 3.5,我们见证了语言模型从 “闭卷考试” 走向 “开卷答题”。它们不再仅依赖内部知识库,而是能实时访问网络、调用搜索引擎、引用网页内容,这就是所谓的 “Search-Augmented Generation(SAG)” 或 “Retrieval-Augmented Generation(RAG)”。

在传统的封闭知识体系下,我们评测模型的方式很简单:题目固定、答案固定、人工或自动核对正误即可。但当模型可以调用搜索引擎时,它的答案就不再是一个静态的 “对” 或 “错”。每天的新闻、政策更新、股票波动都会让同一问题出现不同答案。这种动态性,让评测工作充满了挑战,也充满了思考的乐趣。

我经常给新来的评测工程师举一个例子:今天问模型 “为什么特斯拉股价上涨?” 它可能回答 “因为产能预期好转”;明天问同样的问题,它又可能说 “因为宣布新车型”。两者都合理,却没有唯一标准答案。这个现象逼迫我们重新思考评测标准:我们评的到底是 “正确性”,还是 “合理性与可信度”?

当模型具备实时搜索能力后,它回答问题的方式发生了根本变化:
它不再 “知道” 答案,而是 “去找” 答案。

这种变化看似微妙,却彻底颠覆了我们过去的评测体系。传统评估依赖固定题库和标准答案,而 “Search 模型” 的输出,每一次都可能不同。它受时间、搜索源、排名算法乃至地理位置影响。于是一个看似简单的问题浮现出来:

当模型的答案是 “实时生成” 的,我们该如何评估它对不对?

这不是一个学术问题,而是评测团队每天都会遇到的实际难题。

二、从封闭知识到实时检索:评估体系的断层

在过去的封闭知识时代,我们习惯把评测做成一个闭环:模型答题、人工打分、生成统计结果。这种体系的好处是稳定、可复现,但它有一个致命弱点:静态知识。

当模型开始调用实时信息时,这个闭环被打破了。评测者面临三个明显问题:

  1. 信息变化快
    新闻、财经、政策、社会舆情,每时每刻都在更新。昨天的答案,今天就可能过时。

  2. 答案不唯一
    开放性问题,如 “未来三天福建降雨趋势”,本身就没有标准答案。不同气象源可能给出略有差异的预报,评测指标需要从 “事实正确率” 转向 “信息完整度、表达准确度、来源可信度”。

  3. 引用追溯困难
    模型可能引用多个网页,但未提供清晰的引用链。即便输出中写着 “根据路透社报道”,也可能是二次转载。人工无法快速复核,自动化评测几乎无法判断。

这种断层让我意识到:传统评测方法必须升级,否则无法衡量现代大模型的实际价值。

三、评测挑战:动态事实与无标准答案

我总结了在大模型 + Search 场景中,评测面临的三个核心难题:

(1)事实不稳定性
实时新闻、股市波动、政策发布每天变化。同一个问题,不同来源给出的答案可能完全不同。模型如何选择信息?评测如何判定正确?这是一个从未有过的挑战。

(2)无标准答案领域
市场预测、气象预报、社会舆论问题,往往没有唯一答案。我们必须接受 “合理性” 而非 “正确性” 成为评价核心。例如,问 “未来三天福建降雨趋势”,答案必须基于可信气象数据,但不同模型给出的预测可能略有差异。

(3)引用透明性问题
模型引用来源模糊,会导致 “引用幻觉”。这种问题不仅影响答案可信度,也让自动化评测困难重重。我们必须建立额外指标去判断引用的可靠性,而不仅仅是事实正确性。

四、评估体系的演进:从人工标注到裁判模型

早期评测团队完全依赖人工标注。流程很直观:

  1. 构建覆盖新闻、财经、天气、百科等主题的问题集;
  2. 模型调用搜索回答问题;
  3. 人工核查答案的准确性和引用合理性;
  4. 记录结果,用于对比或训练其他模型。

这种方式精准,但痛点明显:成本高、周期长、主观性强,而且无法应对实时变化。

于是,业界引入了裁判模型(Judge Model)。我们用更强、更客观的大模型来评判其他模型的回答。

典型流程如下:
问题 Q + 模型回答 A + 搜索结果 R → 裁判模型 → 评分 S

裁判模型的评测维度包括:

  • 来源可信度:是否引用权威来源;
  • 逻辑自洽性:回答是否前后矛盾;
  • 语言中立性:是否存在夸张、情绪化表述。

裁判模型大幅提高了评测效率,但也带来偏差风险。如果裁判模型本身理解有误,评测结果也会被影响。

因此,混合评测体系成为主流:

  • 第一层:裁判模型自动评分,快速筛查异常样本;
  • 第二层:人工抽查边界样本,确保公正性与可信度。

五、核心指标设计:从正确率到可信度

在现代评测中,传统正确率指标已不再适用。我们建立了 “四维指标体系”:

  1. 时效性(Timeliness)
    回答是否反映最新事实,时间戳是否合理。

  2. 来源可信度(Credibility)
    引用的内容是否来自权威机构或主流媒体,URL 是否合法,域名可信。

  3. 逻辑一致性(Coherence)
    内容是否前后自洽,无矛盾。可用语义一致性检测和裁判模型打分。

  4. 表达准确度(Clarity)
    信息是否清晰、无歧义,结论是否明确。

通过这四个维度,我们能量化评测结果,而不只是单一打分。

六、案例分析:从新闻问答到金融预测

金融预测

“预测 2025 年第二季度中国新能源车销量趋势”,没有固定答案。评测重点为:

  • 是否引用权威数据(中汽协、国家统计局);
  • 是否进行多因素分析(市场、政策、供需);
  • 是否避免无依据推测。

人工裁判与 Judge 模型一致率达到 86.4%,验证了混合评测的可靠性。

六、未来方向:第三方模型测评与开放平台

为了评测更客观、透明,未来趋势是开放、第三方化。

  • Stanford HELM 框架提出多维度 benchmark;
  • OpenEval、Chatbot Arena 引入人机共评机制;
  • 国内部分机构(智源、澜舟、阿里通义)构建动态事实测评集。

未来可能出现 “模型评测交易所”,由第三方平台统一采集问题、调用候选模型、执行 Judge 评测,并标准化公开结果。

七、人工复核的不可替代性

尽管自动化评测日趋成熟,但人工仍是最后防线。人工复核能识别 “合理但虚假” 的回答,感知模型表达中的偏见,并做更细腻判断。

我们建议:让人类裁判成为 “质量监督者”,把精力集中在关键样本,而非重复性验证。

八、结语:让模型评测更像科学实验

大模型 + Search 的评测已不只是打分问题,而是一场科学实验。
你需要明确变量、控制输入、溯源输出、验证假设。

九、我们系统的效果展示:

共收到 3 条回复 时间 点赞

我想请问下评估工作中重要的测试集是怎样获取的

"人工复核能识别 “合理但虚假” 的回答,感知模型表达中的偏见,并做更细腻判断。"
人工复核的效果高度依赖问题类型和人员专业度,通用问答(如 “巴黎是哪个国家的首都?”)只需要普通人即可,但专业领域非专家很难识别真假。

只需要复核真实性跟及时性就可以了吧。避免大模型瞎说话

需要 登录 後方可回應,如果你還沒有帳號按這裡 注册