AI测试 AI 赋能测试实践 02——拒绝被新名词忽悠！一文彻底扫清 LLM、Agent 与 RAG 认知盲区

EternalRights · 2026年02月27日 · 最后由 Qiuqiu 回复于 2026年03月05日 · 5505 次阅读

前言

从 AI 元年 2025 到今天，与 AI 相关的概念层出不穷，且事实是今天已经处于 AI 基建时代。在面对眼花缭乱、纷纷扰扰的 AI 技术的时候，我们难免陷入一知半解，所以本篇致力于彻底扫盲。

第一层：核心大脑

LLM（Large Language Model 大语言模型）

一句话扫盲

LLM 是 AI 的 “大脑”，它是一个基于海量数据训练的、能够理解和生成人类语言的深度学习模型。

深度解析

本质

它本质上是一个包含数千亿甚至数万亿参数的神经网络（通常基于 Transformer 的架构）。通过学习海量文本数据（互联网、书籍、代码等），它学会了语言的规律、逻辑、知识和推理能力。

能力

核心能力是 “根据上文，预测下一个字”。它能理解意图、生成文本、翻译、写代码、进行常识推理，甚至展现出未被专门训练过的 “涌现能力”（如解决复杂数学问题）。

局限

LLM 本身只是 “一坨参数”，没有手脚，没有实时记忆（除非你在对话中提供），并且知识有截止日期，还会产生 “幻觉”（一本正经地胡说八道）。

代表模型

GPT、DeepSeek、Gemini、Qwen、文心一言

第二层：交互接口

这一层是我们与 LLM 这个"大脑"沟通的方式。

Prompt（提示/指令）

一句话扫盲

你给 LLM 的 “输入” 或 “指令”，是激活它能力的钥匙。

深度解析

就像你点外卖备注 “可乐不加冰” 的指令一样，Prompt 的质量直接决定了输出的质量。它可以是一个问题、一段描述、一个角色设定（例如：“你现在是一位资深的测试开发专家...”），甚至是几个示例（Flew-Shot Prompting）。在 AI 测试中，Prompt 的编写、优化和版本管理是测试重要的一环。

Context（上下文）

一句话扫盲

LLM 当前的 “视线范围” 和 “背景信息”，即对话的 “前言后语” 和 “环境背景”。

深度解析

LLM 是 “金鱼记忆”，它只认识你在当前对话窗口里喂给它的所有信息。这些信息共同构成了 Context。例如，你先说 “苹果很好吃”，再问 “它是什么颜色的？”，LLM 通过上下文可以知道 “它” 指的是水果苹果，而不是苹果公司。在测试中，你需要关注 Context 窗口的大小（如 128K，1M tokens）、信息注入的准确性以及 Context 是否被正确理解。

第三层：能力拓展

为了让 LLM 这个 “大脑” 能够干实事，我们需要给它加上 “手脚”、“记忆” 和 “资料库”。

Agent（智能体）

一句话扫盲

一个能自主规划、调用工具并执行复杂任务的 “数字员工”。

深度解析

Agent 本身没有智能，它是一个围绕 LLM 的程序化框架。它的工作流是：1.接受用户需求；2.思考并拆解任务；3.判断是否需要查资料（Search/RAG）或调用工具（Function Calling）；4.执行操作；5.将结果整合后返回给用户。你可以把它理解为 “项目经理”，LLM 是它的 “大脑”，负责思考和决策，而 Agent 框架负责流程控制和资源调度。

Memory（记忆）

一句话扫盲

赋予 Agent 超越单次对话的记忆能力

深度解析

短时记忆

即 Context，对话结束，即清空

长时记忆

通过外挂向量数据库（Vector Database）来实现。Agent 可以将重要信息（用户偏好、历史任务结果）进行 Embedding（向量化）后存入数据库，在需要检索时回来，放入当前的 Context 中，这解决了 LLM“金鱼记忆” 的问题。

Tool（工具）& Function Calling（函数调用）

一句话扫盲

Tool 是 Agent 的工具箱，Function Calling 是 Agent“使用工具” 的动作。

深度解析

Tool

挂在 LLM 身上的外部插件，如天气查询、股票 API、计算器、日历等。LLM 本身只能 “说”，不能 “做”，Tool 让它能干实事。

Function Calling

这是 LLM 的一项核心能力。当它判断需要外部信息时，不会直接回答，而是输出一个结构化的 JSON 对象，如{"name":"get_weather","arguments":{"city":"北京"}}。开发者的代码捕获这个 JSON，执行真正的 API 调用，再把结果返回给 LLM，这是 AI 应用落地的关键技术。

Search（搜索）& RAG（检索增强生成）

一句话扫盲

解决 LLM 知识过时和幻觉问题的两大法宝，为 LLM 补充外部知识。

深度解析

Search

联网搜索实时公开信息（如今天的新闻、股价）

RAG（Retrieval-Augmented Generation）

针对企业私有数据（如公司文档、代码库、产品手册）。当用户提问时，系统先在私有知识库中检索相关技术，然后将这些片段和用户提问一起打包成 Prompt，喂给 LLM 生成答案。这确保了答案的准确性和时效性，是企业级 AI 应用最主流的模式。

第四层：生态与协作

当工具和 Agent 越来越多，就需要标准化和协作框架

MCP（Model Context Protocol，模型上下文协议）

一句话扫盲

AI 世界的 “USB-C” 接口标准，由 Anthropic 在 2024 年底推出，旨在统一 AI 与外部工具的连接方式。

深度解析

在 MCP 出现前，每个新工具（如 Notion、Google Drive）都需要为每个 AI 应用（如 Claude、Cusor）单独开发连接器，效率极低。MCP 提供一套通用协议，工具开发者只需要开发一次 MCP Server，任何支持 MCP 的 AI 客户端都能即插即用。这标志着 AI 应用开发从 “手工作坊” 进入了 “工业化标准” 时代。作为测试工程师，你未来会测试大量的 MCP Server 的稳定性和兼容性。

LangChain / Workflow / SKILL / PLUGIN / SubAgent

这些概念本质上就是为了更好的组织和管理上述组件，降低开发和使用成本

LangChain

一个流行的开发框架，提供了大量预制组件（如 RAG 链，Agent 链），像 “乐高积木” 一样帮你快速搭建 AI 应用。

Workflow（工作流）

将复杂的、固定的 AI 任务流可视化、固化下来。比如一个 “合同审核工作流”：提取关键信息 -> RAG 检索相关法条 -> LLM 初步审核 -> 人工确认。它比简单的 Agent 更结构化、更稳定。

SKILL（技能）/PLUGIN（插件）

对特定能力的封装。例如，“Python 代码解释器” 是一个 SKILL，“Jira 工单查询” 是一个 Plugin。它们是 Agent 可按需调用的能力包。

SubAgent（子智能体）

面对超复杂任务（如 “策划并执行一场市场活动”），单个 Agent 可能搞不定。这时可以创建多个 SubAgent，如 “文案 SubAgent”、“设计 SubAgent”、“数据分析 SubAgent”，由一个 “主管 Agent” 进行任务分发和结果汇总，形成多智能体协作（Multi-Agent System）。

后记

这一通庖丁解牛下来是否感觉高高在上的 AI 也不过如此，知其本质方能对 AI 祛魅，这样才能稳定我们测试军心，更好的接受 AI 并为我们赋能。

尤其是，在笔者看来此次 AI 基建核心只有一个 LLM，我们的 AI 大厦能有多高？甚至于此轮是否是 AI 泡沫？通通取决于 LLM 的发展，而此外全是旧时代技术的基础建设，本质上一个个如雷贯耳的 AI 名词就是披着高大上嫁衣的纸老虎。

8 个赞

共收到 2 条回复时间点赞

薄暮 #1 · 2026年03月03日

感谢分享

Qiuqiu #2 · 2026年03月05日 1 个赞

感谢分享，写的很细，一下子解释清楚这些术语，让 ai 从一个遥不可及的东西变成了通俗易懂的分解产物。之前看网上各种各样的消息，悟了好久才理解一点点，看了这一篇后，有了稍微全面一点的认知。很有用。

EternalRights 在 AI 赋能测试实践 05：告别手工脚本，性能测试 Agent 带你玩转测试之家！中提及了此贴 04月05日 20:43

需要登录後方可回應，如果你還沒有帳號按這裡注册。