从 AI 元年 2025 到今天,与 AI 相关的概念层出不穷,且事实是今天已经处于 AI 基建时代。在面对眼花缭乱、纷纷扰扰的 AI 技术的时候,我们难免陷入一知半解,所以本篇致力于彻底扫盲。
LLM 是 AI 的 “大脑”,它是一个基于海量数据训练的、能够理解和生成人类语言的深度学习模型。
它本质上是一个包含数千亿甚至数万亿参数的神经网络(通常基于 Transformer 的架构)。通过学习海量文本数据(互联网、书籍、代码等),它学会了语言的规律、逻辑、知识和推理能力。
核心能力是 “根据上文,预测下一个字”。它能理解意图、生成文本、翻译、写代码、进行常识推理,甚至展现出未被专门训练过的 “涌现能力”(如解决复杂数学问题)。
LLM 本身只是 “一坨参数”,没有手脚,没有实时记忆(除非你在对话中提供),并且知识有截止日期,还会产生 “幻觉”(一本正经地胡说八道)。
GPT、DeepSeek、Gemini、Qwen、文心一言
这一层是我们与 LLM 这个"大脑"沟通的方式。
你给 LLM 的 “输入” 或 “指令”,是激活它能力的钥匙。
就像你点外卖备注 “可乐不加冰” 的指令一样,Prompt 的质量直接决定了输出的质量。它可以是一个问题、一段描述、一个角色设定(例如:“你现在是一位资深的测试开发专家...”),甚至是几个示例(Flew-Shot Prompting)。在 AI 测试中,Prompt 的编写、优化和版本管理是测试重要的一环。
LLM 当前的 “视线范围” 和 “背景信息”,即对话的 “前言后语” 和 “环境背景”。
LLM 是 “金鱼记忆”,它只认识你在当前对话窗口里喂给它的所有信息。这些信息共同构成了 Context。例如,你先说 “苹果很好吃”,再问 “它是什么颜色的?”,LLM 通过上下文可以知道 “它” 指的是水果苹果,而不是苹果公司。在测试中,你需要关注 Context 窗口的大小(如 128K,1M tokens)、信息注入的准确性以及 Context 是否被正确理解。
为了让 LLM 这个 “大脑” 能够干实事,我们需要给它加上 “手脚”、“记忆” 和 “资料库”。
一个能自主规划、调用工具并执行复杂任务的 “数字员工”。
Agent 本身没有智能,它是一个围绕 LLM 的程序化框架。它的工作流是:1.接受用户需求;2.思考并拆解任务;3.判断是否需要查资料(Search/RAG)或调用工具(Function Calling);4.执行操作;5.将结果整合后返回给用户。你可以把它理解为 “项目经理”,LLM 是它的 “大脑”,负责思考和决策,而 Agent 框架负责流程控制和资源调度。
赋予 Agent 超越单次对话的记忆能力
即 Context,对话结束,即清空
通过外挂向量数据库(Vector Database)来实现。Agent 可以将重要信息(用户偏好、历史任务结果)进行 Embedding(向量化)后存入数据库,在需要检索时回来,放入当前的 Context 中,这解决了 LLM“金鱼记忆” 的问题。
Tool 是 Agent 的工具箱,Function Calling 是 Agent“使用工具” 的动作。
挂在 LLM 身上的外部插件,如天气查询、股票 API、计算器、日历等。LLM 本身只能 “说”,不能 “做”,Tool 让它能干实事。
这是 LLM 的一项核心能力。当它判断需要外部信息时,不会直接回答,而是输出一个结构化的 JSON 对象,如{"name":"get_weather","arguments":{"city":"北京"}}。开发者的代码捕获这个 JSON,执行真正的 API 调用,再把结果返回给 LLM,这是 AI 应用落地的关键技术。
解决 LLM 知识过时和幻觉问题的两大法宝,为 LLM 补充外部知识。
联网搜索实时公开信息(如今天的新闻、股价)
针对企业私有数据(如公司文档、代码库、产品手册)。当用户提问时,系统先在私有知识库中检索相关技术,然后将这些片段和用户提问一起打包成 Prompt,喂给 LLM 生成答案。这确保了答案的准确性和时效性,是企业级 AI 应用最主流的模式。
当工具和 Agent 越来越多,就需要标准化和协作框架
AI 世界的 “USB-C” 接口标准,由 Anthropic 在 2024 年底推出,旨在统一 AI 与外部工具的连接方式。
在 MCP 出现前,每个新工具(如 Notion、Google Drive)都需要为每个 AI 应用(如 Claude、Cusor)单独开发连接器,效率极低。MCP 提供一套通用协议,工具开发者只需要开发一次 MCP Server,任何支持 MCP 的 AI 客户端都能即插即用。这标志着 AI 应用开发从 “手工作坊” 进入了 “工业化标准” 时代。作为测试工程师,你未来会测试大量的 MCP Server 的稳定性和兼容性。
这些概念本质上就是为了更好的组织和管理上述组件,降低开发和使用成本
一个流行的开发框架,提供了大量预制组件(如 RAG 链,Agent 链),像 “乐高积木” 一样帮你快速搭建 AI 应用。
将复杂的、固定的 AI 任务流可视化、固化下来。比如一个 “合同审核工作流”:提取关键信息 -> RAG 检索相关法条 -> LLM 初步审核 -> 人工确认。它比简单的 Agent 更结构化、更稳定。
对特定能力的封装。例如,“Python 代码解释器” 是一个 SKILL,“Jira 工单查询” 是一个 Plugin。它们是 Agent 可按需调用的能力包。
面对超复杂任务(如 “策划并执行一场市场活动”),单个 Agent 可能搞不定。这时可以创建多个 SubAgent,如 “文案 SubAgent”、“设计 SubAgent”、“数据分析 SubAgent”,由一个 “主管 Agent” 进行任务分发和结果汇总,形成多智能体协作(Multi-Agent System)。
这一通庖丁解牛下来是否感觉高高在上的 AI 也不过如此,知其本质方能对 AI 祛魅,这样才能稳定我们测试军心,更好的接受 AI 并为我们赋能。
尤其是,在笔者看来此次 AI 基建核心只有一个 LLM,我们的 AI 大厦能有多高?甚至于此轮是否是 AI 泡沫?通通取决于 LLM 的发展,而此外全是旧时代技术的基础建设,本质上一个个如雷贯耳的 AI 名词就是披着高大上嫁衣的纸老虎。