AI测试 2025，我们这样评测 AI

小志 · 2026年01月08日 · 最后由你说的都对回复于 2026年01月23日 · 13160 次阅读

本帖已被设为精华帖！

背景介绍
AI 评测痛点
AI 评测原则
1. 评测数据构建原则
2. 评测指标选取原则
3. 评测量级确定原则
AI 评测实践
1. 智能问数（ChatBI）
2. 智能文档问答（RAG）
3. Agentic 智能体
4. 语音智能客服
5. 大模型安全
尾声

背景介绍

作为一位在测试开发领域深耕十余年的从业者，我的经历横跨互联网、智能汽车与 AI 服务等多个行业，在 ToC 产品、中台系统、智能客服、自动驾驶及大模型等业务的质量建设中积累了一定的实践。目前，我担任一家 AI ToB 创业公司的质量团队负责人，负责知识库、智能客服、智能问数等产品的整体质量体系建设。

在传统软件质量模型中，质量维度通常包括功能、性能、可用性、易用性、安全性、兼容性等。2025 年，团队除继续推行传统软件测试质量保障方案之外，我们通过建立 “AI 评测原则”（第 3 章节讲述），并以智能文档问答、智能问数、Agentic 智能体、语音类客服等业务场景为实践场地，逐步在项目中探索并完善各类 AI 效果的评测方法。本文也聚焦于易用性质量维度中的 AI 评测维度，其余维度暂不在本文中展开描述。

AI 评测痛点

在 AI 质量保障实践中，我们主要面临以下三方面痛点：

评测数据的构建
- 数据真实性：如何构建能够真实反映业务场景的评测数据集？在构建过程中，应采取哪些方法确保数据分布、用户意图及使用场景与业务实际情况一致？
- 标注权威性：应由谁来负责标注 “标准答案”（Ground Truth），才能保证其准确性与业务权威性？是业务专家、终端用户，还是经过专门培训的标注团队？
如何进行有效断言
- 有标准答案的断言：当存在明确 Ground Truth 时，如何制定评估规则，以判断模型输出在语义上是否与标准答案 “相近” 或 “等效”？
- 无标准答案的断言：对于开放型任务，往往不存在唯一的标准答案。此时应依据哪些维度、标准或方法，来评估输出结果的质量与符合度？
如何控制评测数据规模
- 如何科学设定评测数据的数量与范围？应依据哪些准则来确定既能保障统计信度、又能控制成本的数据规模？

AI 评测原则

评测数据构建原则

在 AI 质量保障过程中，评测数据的构建是确保模型效果符合业务需求的关键环节。目前，评测数据主要来源于以下四类：

客户线上数据回流：直接来自实际生产环境，最能反映真实业务场景与用户行为分布。
客户团队手工标注：由业务专家根据实际场景进行标注，贴近业务需求，但与完全真实的线上数据分布仍可能存在一定差距。
服务提供商通过工具/大模型泛化生成：利用自动化方法或大模型批量生成数据，效率高、覆盖广，但可能存在噪声、过拟合或质量波动等问题。
服务提供商的标注团队手工标注：由经过训练的标注人员完成，质量可控、结果稳定，在某些场景下优于纯自动生成方式，但效率较低，且依赖于标注团队当前的工作负荷及其对业务的理解程度。

在实际应用中，数据源的选取一般遵循以下优先级：

客户线上数据回流＞客户团队手工标注＞通过工具/大模型泛化生成 ≥ 标注团队手工标注

对于我们当前所处的业务来说，大多数是处于探索阶段的 AI ToB 项目，绝大部分项目缺乏充足的线上真实数据，且客户团队对标注工作的支持度和兴趣度往往有限。因此，实践中一般会首先尝试使用工具或大模型泛化生成评测数据。若生成的评测数据经标注团队抽样检验后符合要求，则优先采用该方式；若效果不理想，且优化成本高于手工构建，则转为由标注团队介入构造。另一种常见做法是采用混合构建策略，例如按照一定比例（如 7:3）将工具生成数据与手工标注数据相结合，以在保证效率的同时降低纯自动生成带来的质量风险。

评测指标选取原则

对于一个 AI 算法来说，评测指标的选取一般要经历三个层面：基础测量指标 → 离散函数层 → 直接业务指标。其中基础测量指标为底层指标（例如 Levenshtein 距离、字准率、句准率、BLEU、ROUGE、BERTScore），可以定量的展现评测结果，但不全能展示定性结果；直接业务指标为顶层指标，这是最贴近业务成果的综合性评价，直接回答了 “系统效果好不好”、“业务目标是否达成” 等核心问题；在基础测量指标和直接业务指标之间可能存在一个离散函数层，通过离散函数将基础测量指标中的定量值转化为直接业务指标中的定性值。

基础测量指标选取

基础测量指标类型一般有以下四种：

基于人工复核的指标：虽为主观判断的金标准，能反映复杂语义和领域知识，但其成本高昂、效率低下且难以规模化。
基于传统规则/简单统计的指标：具有规则明确、计算高效、结果完全可解释的优势。它们适用于对确定性要求高、注重表面形式一致性的场景，是快速验证和线上监控的可靠基础工具，但难以处理语义灵活性与复杂性。
基于特定模型的指标：通过预训练模型捕捉深层语义相似度，在语义匹配等任务上提供了比传统方法更接近人类判断的自动化评估。其选取需考虑特定领域微调的成本，并理解其本质仍是另一个模型的输出。
基于 LLM-as-a-Judge 的指标：利用大模型的通用知识与推理能力，能进行灵活、拟人化的综合评估，尤其擅长处理开放性和多维度判断任务。尽管强大且日益普及，但其评估结果本身具有一定黑盒性和波动性，且有一定的调用成本。

各分类的典型指标见下表所示。

基础测量指标分类	核心特点	语音识别类指标	语义匹配类指标	值比较类指标
基于人工复核的指标	基于人类历史经验进行复合，与模型无关，受人类个人能力和对领域知识的理解力影响	人工语义匹配度	人工语义匹配度	-
基于传统规则/简单统计的指标	基于规则、词汇匹配、可解释性强、与模型无关	Levenshtein 距离字准率句准率	ROUGE BLEU	字符串全等字符串前缀匹配字符串关键字匹配
基于特定模型的指标	使用在特定任务上微调的中小模型进行评估	-	BERTScore	-
基于 LLM-as-a-Judge 的指标	利用大模型的强大理解和生成能力，进行零样本/少样本的拟人化评估	大模型语义匹配度	大模型语义匹配度	-

在实践中，对基础测量指标的选取通常遵循一套决策逻辑，以确保评估效果与实施成本之间的平衡：
优先级一：遵循行业共识 ：若该领域已存在广泛认可的标准指标，则优先采纳。例如，在语音识别（ASR）评测中，Levenshtein 距离与字准率已成为事实上的行业基准，具备较强的可比性和公认度。
优先级二：根据任务复杂性自适应选择 ：若无公认指标，则需对评测任务本身的复杂性进行评估：

规则可描述的中低复杂性任务
若任务逻辑相对明确，可转化为清晰规则，则采用基于传统规则/简单统计的指标，如字符串匹配、关键词检出等，兼顾可解释性与执行效率。
实现复杂度与研发相当的复杂任务
若任务高度复杂，且使用大模型进行自动评估的实现难度接近原系统研发（例如需额外构建一套与 ChatBI 等效的 SQL 生成系统），则评估的投入产出比偏低，此时宜采用基于人工复核的指标进行关键样本的深入校验。
适合大模型担任评估员的复杂任务
若任务复杂但可通过提示工程较易调动大模型的评判能力，或评估依赖大量领域知识而测试团队不具备相应背景，则优先使用基于 LLM-as-a-Judge 的指标，以发挥其语义理解与灵活判断的优势。
受限于大模型使用条件的情况
如遇到客户侧禁用大模型、大模型调用成本高、大模型效率低下等约束，无法使用基于 LLM-as-a-Judge 的指标，可降级采用基于特定模型的指标。若该路径仍不可行，则进一步退回到传统规则类指标，在有限条件下实现基础自动化评测。

离散函数层的选取

在计算直接业务指标前，对于某些基础测量指标通常需要先经过一个离散化过程，将一维连续指标的值映射到特定的区间集合，再进行准确率、解决率等方面的计算。当然如果基础测量指标的结果本身就是离散的，则不需要进行此步骤的处理，可直接跳过。

以机器翻译评估为例，设有参考译文 A 和系统输出 B，可通过 BLEU 算法计算两者相似度得分。然而 BLEU 本身是一个连续值，而最终我们需要的是一个 “正确” 或 “错误” 的二元判断。为此，我们可引入一个单层离散函数，例如设定阈值 X ≥ 0.3，当 BLEU 值大于等于 0.3 时即判定为正确。

为进一步支持不同阶段的评估需求，离散函数也可设计为多层，从而兼顾研发调试与产品验收的不同目标。例如，可设计第一级离散函数，将 BLEU 分值划分为四个质量等级：

较差（0 ≤ X ≤ 0.3）
中（0.3 < X ≤ 0.6）
良（0.6 < X ≤ 0.85）
优（0.85 < X ≤ 1）

在此基础上，第二级离散函数可根据具体验收标准，将某些等级判定为 “通过”，其余为 “不通过”。例如可将 “中”“良”“优” 视为通过，“较差” 视为不通过。多层分级设计具有双重优势：一方面，细粒度的等级划分有助于研发团队定位问题、分析模型在不同质量区间的表现；另一方面，客户对 “通过” 标准的定义可能随场景变化，通过灵活调整第二级离散函数的判定逻辑，即可快速适应不同的验收阈值，从而在统一评估体系下满足多样化的业务需求。在我们内部实践中，如果多层分级设计不显著增加评测难度，那么采用该方式的实际效果会更好。

评测指标呈现原则

在指标呈现原则上，应根据受众背景与需求，分层提供不同深度的评测信息：

面向纯业务团队：若客户侧缺乏技术背景或仅关注业务成效，建议只呈现直接业务指标。这类指标直观反映系统整体能力，便于业务方理解与决策。
面向具备技术背景或感兴趣的业务团队：可在此基础上，额外提供基础测量指标及离散函数层。这有助于客户技术团队理解评估细节，增强信任与协作透明度。
面向内部技术团队：应完整呈现全部三层信息——基础测量指标、离散函数层与直接业务指标。这有助于研发进行问题定位、模型迭代和效果归因，支撑全链路优化。

评测量级确定原则

在第 3.1 节提到，部分项目的评测过程仍需依赖人工生成/标注/断言。若评测数据量过大，还是会面临人力问题；而数据量过少，则难以满足 “统计学意义”，导致结果受随机波动影响较大，可信度不足。那么，评测数据集的数量应保持在什么规模，才能在控制人力成本的同时，具备一定的统计学可靠性呢？

一般来说，针对单条评测语料的判断结果通常为 “正确” 或 “错误”。在评测语料来源尽量随机的情况下，评测结果服从二项分布

其中参数 p 可视为模型的准确率。根据数理统计中的参数估计理论，当样本量 n→∞时，在 95% 置信水平下，参数 p 的置信区间可用以下公式表示

假设在一般项目中，评测准确率的准出值设定为 p=85%，则区间边界与 p 的差值可由以下公式计算得出。

其中 x 代表数据条数。数据量与误差之间的关系如下：

x=100，误差 y=6.9%
x=300，误差 y=4.0%
x=500，误差 y=3.1%
x=700，误差 y=2.6%

举例来说，如果在某次评测中使用 300 条数据，测得准确率为 85%，则其实质准确率下限约为 85%−4%=81%，上限约为 85%+4%=89%。在 AI 算法评测的实践中，我们通常选取 n=200~300 条数据，从而将边际误差控制在 4%-5%。与此同时，在构建评测数据时，除关注数据总条数外，还需关注数据分布的合理性，确保各类数据样本均有足够的代表性。

AI 评测实践

智能问数（ChatBI）

背景

智能问数（ChatBI）是一种基于自然语言对话的新型商业智能工具。它将传统 BI 复杂的数据查询、建模和可视化过程，简化为如同与人交谈一般的自然语言交互。用户无需掌握 SQL 或熟悉复杂的报表工具，只需用日常语言提问（如"去年 XX 渠道销售额最高的产品是什么？"），ChatBI 系统便能理解其意图，自动生成并执行相应的数据查询，并以直观的表格、图表或文本摘要形式返回分析结果。其核心价值在于降低数据分析门槛、提升决策效率，并支持灵活、深度的数据探索。

评测语料生成

为确保全面、真实地评估 ChatBI 系统的产品价值，关键在于通过多样性的评测语料覆盖各类用户问法，并将其转化为正确的数据查询与分析结果。评测语料的设计需基于用户自然语言查询的三大核心语义要素：原子指标（如销售额、库存量）、加工逻辑（如求和、同比、排名）以及分析维度（如时间、地区、产品）。这三者是构成任何数据查询意图的基础，如下图所示。

以此为基础，评测语料的生成需遵循一套多维度的系统化策略，以确保覆盖从基础功能到核心价值的全场景测试：

指标体系覆盖：确保查询意图的完整表达 此维度的目标是模拟用户在询问业务指标时的各种可能方式。语料需全面覆盖客户业务中的所有原子指标、加工逻辑（包括基础统计、排序比较、时间序列分析、占比分析等）、分析维度。同时，还要覆盖维度的各种比较方式（如大于、介于、属于、为空）、布尔运算（且、或）以及不同数量的维度组合，以检验系统解析复杂业务问题的能力。
用户问法覆盖：测试自然语言理解的鲁棒性 为体现 ChatBI 在模糊提问与多轮对话方面的价值，语料需从语言本身的变化角度进行设计。这包括：同一意图的多种句式表达（疑问句、陈述句、短语）；分析维度的不同表述顺序；使用别称、缩写及大小写变体；模拟多问题聚合询问；以及构建多轮对话场景，考察上下文继承与指代消解能力。
分析复杂性覆盖：验证处理复杂逻辑的能力 此维度旨在挑战系统的深层分析潜力。语料需从技术实现角度出发，设计涵盖不同 SQL 复杂度的场景，例如涉及多表 JOIN、多个关联条件、以及集合操作（并集、交集等）的查询，以评估系统在应对复杂数据关系时的性能与准确性。
多语言场景覆盖：评估国际化支持能力 根据交付要求，需将核心评测语料翻译为目标语言（如英文），以验证系统在不同语言环境下的意图理解和查询生成是否一致与准确。
算法稳定性覆盖：保障系统的可靠性与健壮性 此维度关注系统的隐性要求。通过设计错误问法（如输入不存在的指标或维度值）来测试系统的容错与引导能力；通过幂等测试（重复请求同一问题）来检验结果的一致性与服务的稳定性。

综上所述，通过将 “原子指标、加工逻辑、分析维度” 这一核心语义模型，与 “指标体系、用户问法、分析复杂性、多语言、稳定性” 这五个维度的生成策略相结合，可以构建出一个覆盖相对全面的评测语料体系。

评测指标计算

为判断结果是否符合要求，一种常见的做法是 SQL 复写法，即由测试人员将评测语料人工翻译为标准 SQL 语句，执行后得到预期结果，再与系统实际输出进行比对。然而，该方法要求测试人员为每条语料编写 SQL，人力成本高昂。

因此，在实践中往往转向一种更为轻量化的断言方案。鉴于 ChatBI 的技术路径（无论是NL2DSL2SQL还是NL2SQL）最终均会将自然语言转换为 SQL 执行，测试人员可在首次测试时，直接对系统生成的 SQL 进行人工评审（Review），并人工判断断言结果为正确（True）或错误（False）。在后续的回归测试中，则以首次评审通过时所对应的执行结果作为基准真值（Ground Truth），进行自动化或半自动化的结果比对，从而在后续工作中相对高效的完成回归验证工作。

ChatBI 的评测通常采用端到端准确率作为核心指标，其定义为：ChatBI 端到端准确率 = 结果完全符合预期的测试用例数 / 测试用例总数。其中，“结果完全符合预期” 是指 SQL Review 正确且系统返回的数据/表格/图表等均一致。

评测工具建设

基于上述方案，我们利用大模型技术开发了一套评测语料生成工具，并已成功应用于多个 ChatBI 类项目的交付测试中。该工具的核心实现思路如下：

第一步：在生成框架中内置多种评测语料场景的 Prompt 模板，覆盖原子指标泛化、加工逻辑泛化、数值比较方式泛化、分析维度泛化、多轮对话泛化、时间维度泛化等典型场景。
第二步：向大模型注入特定项目的领域知识，主要包括：用户典型问法示例、原子指标列表、加工逻辑列表、分析维度及枚举值列表、别称映射或别称规则、有效查询组合、国际化语言列表等。
第三步：融合第一步的 Prompt 模板与第二步的领域知识，生成面向具体场景的、可执行的 prompt。
第四步：通过 YAML 文件对所有 prompt 进行任务编排，构建完整的评测语料生成任务流程，并自动化执行。
第五步：将生成的评测语料按照预设的语料类型进行分类存储，便于后续的测试与管理。

未来优化方向

在 ChatBI 评测的实践过程中，我们主要遇到以下两类问题，需要进行持续优化。

用户问法多样性带来的适配挑战：基于框架生成的评测问法需持续迭代，以覆盖在初始设计时未能预见的用户真实表达方式。例如，在询问某一原子指标在不同维度下的取值时，我们预设的多轮对话模式为：
- 第一轮：“What's the value in dim1？”
- 第二轮：“How about it in dim2？”
  而实际场景中，用户可能将两轮询问合并，并直接要求对比不同维度下的数值，形成如下的复合问法：
  “How does the value compare across dim1 and dim2？”
评测结果断言的效率与门槛问题：尽管人工评审法在效率上优于 SQL 复写法，但仍存在两方面局限：一是对测试人员的 SQL 能力与业务理解要求较高，二是人工逐条审核 SQL 仍存在效率瓶颈。目前该方法是我们实践中的较优解，若有更高效的解决方案，也期待进一步探讨。

智能文档问答（RAG）

背景

RAG 是一种将信息检索与大型语言模型相结合的框架。其核心流程是：当收到一个用户查询时，系统首先从一个外部知识库（如文档集合）中检索出相关的上下文片段，然后将这些片段与原始查询一起输入给 LLM，从而生成一个基于可靠来源、减少幻觉的答案。RAG 的关键优势在于能够利用最新的、特定领域的信息，同时保留 LLM 强大的理解和生成能力。

RAGAS 是评测 RAG 流水线而设计的流行开源框架。它的核心理念是通过分析 RAG 内部组件的输出来评估其质量。RAGAS 主要评估以下几个核心过程指标：

答案相关性：衡量答案与问题的匹配度
忠实度：衡量答案对检索上下文的依赖程度
上下文相关性：衡量检索出的上下文与问题的相关度

我们在实践 RAG 评测时，主要面临以下两类关键问题：

RAGAS 评估指标与业务目标的错位。RAGAS 核心输出是一系列过程指标。这些指标本质上是诊断性的，它们孤立地评测 Query、Answer、Context 三者中任意两者的关系，有助于定位 “检索过程” 或 “生成过程” 的短板。然而，客户往往关心的是一个简单、直接的端到端业务指标，即：“这个系统给出的答案最终准确率是多少？” 如何定义一个能综合反映事实正确性、完整性且符合业务直觉的 “答案准确率”，是 RAGAS 这类工具未能解决的关键需求。
“真值不真” 与 “局部最优” 陷阱：如果不采用 RAGAS 而采用端到端评测时，通常需要依赖人工标注真值。然而，这种方法极易使评测陷入一种 “局部最优” 的误区。所谓的局部最优是指：为控制成本，真值通常基于一个有限的评测文档子集（例如部分文章段落）来反向生成问题并标注答案。但在实际生产环境中，RAG 系统面对的是全量文档。很可能出现这种情况：对于某个评测问题，全量文档中存在比评测子集更相关、信息更丰富的文档，能产生更优的答案。此时，基于局部子集标注的 “真值” 本身就并非全局最优，甚至可能是片面或次优的。用这个 “不真” 的真值作为标准去评判系统，会错误地引导系统向这个局部最优对齐，而抑制了其从更全知识库中寻找更佳答案的能力。寻找 “全局最优” 真值的代价（标注全量文档所有可能的问题与答案）过高，导致这一根本矛盾在实践中难以解决。

为应对上述挑战，我们在评估实践中采用了一套融合有真值评估与无真值评估的综合断言方法，并辅以针对性的评测语料生成策略。这一组合方案在一定程度上缓解前述的两类问题。