✈
帮你 AI 了一下
这是一个非常好的问题,也是很多刚接触这些领域的人会产生的困惑。
简单直接的回答是:它们不是同一个东西,区别很大,但它们之间存在重叠和关联。
我们可以把它们理解成一个逐渐聚焦、层层递进的关系:
下面我们来详细拆解三者的区别和联系。
这是最上位的概念,指的是对任何包含人工智能/机器学习组件的系统进行的测试。
AI 测试是一个大篮子,里面装着大数据测试、大模型测试以及其他 AI 系统的测试。
这主要关注的是数据处理和计算的基础设施与管道,它不一定涉及 “智能”,但它是 AI(尤其是需要大量数据的机器学习)的基石。
可以理解为:大数据测试是确保 “食材” 和 “厨房” 没问题,而 AI 测试是确保用这些食材 “炒出的菜” 好吃。
这是目前最炙手可热的方向,特指针对大语言模型等生成式 AI 模型的测试。它继承了 AI 测试的许多思想,但因其模型的独特性质(生成式、概率性、涌现能力)而发展出专门的测试方法。
为了更好地理解,我们可以用一个比喻:
大数据测试 就像是 “食品加工厂的质量检测”。
AI 测试 就像是 “整个餐厅的品控”。
大模型测试 就像是 “聘请一位特级厨师并对他进行考核”。
| 维度 | AI 测试 | 大数据测试 | 大模型测试 |
|---|---|---|---|
| 核心对象 | 机器学习模型及集成系统 | 数据管道、数据仓库、计算框架 | 大语言模型、生成式 AI 模型 |
| 主要目标 | 模型准确性、系统可靠性、公平性 | 数据准确性、处理完整性、性能 | 内容生成能力、安全性、减少幻觉 |
| 数据焦点 | 特征数据、标签、模型输出 | 原始数据、ETL 过程、数据表 | 提示词、生成内容、上下文 |
| 测试方法 | 模型评估、集成测试、A/B 测试 | 数据比对、管道测试、性能压测 | 评估基准、红队测试、人工评估 |
| 输出验证 | 有明确的标签/标准答案 | 有明确的数据业务规则 | 常无标准答案,需相对评估 |
| 与 “智能” 关系 | 核心就是测试智能 | 基础,本身不产生智能 | 前沿,测试高级智能 |
结论:虽然它们共享一些测试基础理念(如自动化、质量门禁),但三者的侧重点、技术栈和挑战截然不同。一个全面的 AI 质量保障团队,可能需要同时具备这三方面的测试能力。
妈的,半年没搞自动化了,都看不懂了

外包就是压榨中的压榨
这是摆烂了嘛?还是有什么别的情况?
当作家要饿死的,以前在故事会上投过搞,一篇才几十块,青年文摘也投过,一千字才 200 块😂,实在没有动力
那要穿一双耐克去公司才行了
正解,先给出你的观点(提前打个预防针 “告知风险”),测完了给结论(这个很重要关系到你后面会不会背锅),至于后面的事情,别给你背锅就行了
正常来讲,是不能提测的,你就说:
cnm,主流程冒烟都冒不过,我测了干嘛?有什么用?我白测啊?你™修好了我不也要重新跑一遍?
我是小龄老头,可以参考一下吗?
✈