AI测试 AI 赋能测试实践 02——拒绝被新名词忽悠!一文彻底扫清 LLM、Agent 与 RAG 认知盲区

EternalRights · February 27, 2026 · 117 hits

前言

        从 AI 元年 2025 到今天,与 AI 相关的概念层出不穷,且事实是今天已经处于 AI 基建时代。在面对眼花缭乱、纷纷扰扰的 AI 技术的时候,我们难免陷入一知半解,所以本篇致力于彻底扫盲。


第一层:核心大脑

LLM(Large Language Model 大语言模型)

一句话扫盲

        LLM 是 AI 的 “大脑”,它是一个基于海量数据训练的、能够理解和生成人类语言的深度学习模型。

深度解析

本质

        它本质上是一个包含数千亿甚至数万亿参数的神经网络(通常基于 Transformer 的架构)。通过学习海量文本数据(互联网、书籍、代码等),它学会了语言的规律、逻辑、知识和推理能力。

能力

        核心能力是 “根据上文,预测下一个字”。它能理解意图、生成文本、翻译、写代码、进行常识推理,甚至展现出未被专门训练过的 “涌现能力”(如解决复杂数学问题)。

局限

        LLM 本身只是 “一坨参数”,没有手脚,没有实时记忆(除非你在对话中提供),并且知识有截止日期,还会产生 “幻觉”(一本正经地胡说八道)。

代表模型

        GPT、DeepSeek、Gemini、Qwen、文心一言


第二层:交互接口

这一层是我们与 LLM 这个"大脑"沟通的方式。

Prompt(提示/指令)

一句话扫盲

        你给 LLM 的 “输入” 或 “指令”,是激活它能力的钥匙。

深度解析

        就像你点外卖备注 “可乐不加冰” 的指令一样,Prompt 的质量直接决定了输出的质量。它可以是一个问题、一段描述、一个角色设定(例如:“你现在是一位资深的测试开发专家...”),甚至是几个示例(Flew-Shot Prompting)。在 AI 测试中,Prompt 的编写、优化和版本管理是测试重要的一环。

Context(上下文)

一句话扫盲

        LLM 当前的 “视线范围” 和 “背景信息”,即对话的 “前言后语” 和 “环境背景”。

深度解析

        LLM 是 “金鱼记忆”,它只认识你在当前对话窗口里喂给它的所有信息。这些信息共同构成了 Context。例如,你先说 “苹果很好吃”,再问 “它是什么颜色的?”,LLM 通过上下文可以知道 “它” 指的是水果苹果,而不是苹果公司。在测试中,你需要关注 Context 窗口的大小(如 128K,1M tokens)、信息注入的准确性以及 Context 是否被正确理解。


第三层:能力拓展

为了让 LLM 这个 “大脑” 能够干实事,我们需要给它加上 “手脚”、“记忆” 和 “资料库”。

Agent(智能体)

一句话扫盲

        一个能自主规划、调用工具并执行复杂任务的 “数字员工”。

深度解析

        Agent 本身没有智能,它是一个围绕 LLM 的程序化框架。它的工作流是:1.接受用户需求;2.思考并拆解任务;3.判断是否需要查资料(Search/RAG)或调用工具(Function Calling);4.执行操作;5.将结果整合后返回给用户。你可以把它理解为 “项目经理”,LLM 是它的 “大脑”,负责思考和决策,而 Agent 框架负责流程控制和资源调度。

Memory(记忆)

一句话扫盲

        赋予 Agent 超越单次对话的记忆能力

深度解析

短时记忆

        即 Context,对话结束,即清空

长时记忆

        通过外挂向量数据库(Vector Database)来实现。Agent 可以将重要信息(用户偏好、历史任务结果)进行 Embedding(向量化)后存入数据库,在需要检索时回来,放入当前的 Context 中,这解决了 LLM“金鱼记忆” 的问题。

Tool(工具)& Function Calling(函数调用)

一句话扫盲

        Tool 是 Agent 的工具箱,Function Calling 是 Agent“使用工具” 的动作。

深度解析

Tool

        挂在 LLM 身上的外部插件,如天气查询、股票 API、计算器、日历等。LLM 本身只能 “说”,不能 “做”,Tool 让它能干实事。

Function Calling

        这是 LLM 的一项核心能力。当它判断需要外部信息时,不会直接回答,而是输出一个结构化的 JSON 对象,如{"name":"get_weather","arguments":{"city":"北京"}}。开发者的代码捕获这个 JSON,执行真正的 API 调用,再把结果返回给 LLM,这是 AI 应用落地的关键技术。

Search(搜索)& RAG(检索增强生成)

一句话扫盲

         解决 LLM 知识过时和幻觉问题的两大法宝,为 LLM 补充外部知识。

深度解析

        联网搜索实时公开信息(如今天的新闻、股价)

RAG(Retrieval-Augmented Generation)

        针对企业私有数据(如公司文档、代码库、产品手册)。当用户提问时,系统先在私有知识库中检索相关技术,然后将这些片段和用户提问一起打包成 Prompt,喂给 LLM 生成答案。这确保了答案的准确性和时效性,是企业级 AI 应用最主流的模式。


第四层:生态与协作

当工具和 Agent 越来越多,就需要标准化和协作框架

MCP(Model Context Protocol,模型上下文协议)

一句话扫盲

        AI 世界的 “USB-C” 接口标准,由 Anthropic 在 2024 年底推出,旨在统一 AI 与外部工具的连接方式。

深度解析

        在 MCP 出现前,每个新工具(如 Notion、Google Drive)都需要为每个 AI 应用(如 Claude、Cusor)单独开发连接器,效率极低。MCP 提供一套通用协议,工具开发者只需要开发一次 MCP Server,任何支持 MCP 的 AI 客户端都能即插即用。这标志着 AI 应用开发从 “手工作坊” 进入了 “工业化标准” 时代。作为测试工程师,你未来会测试大量的 MCP Server 的稳定性和兼容性。


LangChain / Workflow / SKILL / PLUGIN / SubAgent

这些概念本质上就是为了更好的组织和管理上述组件,降低开发和使用成本

LangChain

        一个流行的开发框架,提供了大量预制组件(如 RAG 链,Agent 链),像 “乐高积木” 一样帮你快速搭建 AI 应用。

Workflow(工作流)

        将复杂的、固定的 AI 任务流可视化、固化下来。比如一个 “合同审核工作流”:提取关键信息 -> RAG 检索相关法条 -> LLM 初步审核 -> 人工确认。它比简单的 Agent 更结构化、更稳定。

SKILL(技能)/PLUGIN(插件)

        对特定能力的封装。例如,“Python 代码解释器” 是一个 SKILL,“Jira 工单查询” 是一个 Plugin。它们是 Agent 可按需调用的能力包。

SubAgent(子智能体)

        面对超复杂任务(如 “策划并执行一场市场活动”),单个 Agent 可能搞不定。这时可以创建多个 SubAgent,如 “文案 SubAgent”、“设计 SubAgent”、“数据分析 SubAgent”,由一个 “主管 Agent” 进行任务分发和结果汇总,形成多智能体协作(Multi-Agent System)。


后记

        这一通庖丁解牛下来是否感觉高高在上的 AI 也不过如此,知其本质方能对 AI 祛魅,这样才能稳定我们测试军心,更好的接受 AI 并为我们赋能。

        尤其是,在笔者看来此次 AI 基建核心只有一个 LLM,我们的 AI 大厦能有多高?甚至于此轮是否是 AI 泡沫?通通取决于 LLM 的发展,而此外全是旧时代技术的基础建设,本质上一个个如雷贯耳的 AI 名词就是披着高大上嫁衣的纸老虎。

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up