引言

大语言模型(LLM)在自然语言理解和生成方面表现卓越,但它们在训练时使用的是静态数据集,缺乏对最新信息的掌握。为了让模型适应特定领域或完成复杂任务,研究人员提出了 微调检索增强生成(Retrieval‑Augmented Generation,RAG) 以及 代理(Agent) 等技术。

本文对这些技术进行梳理,并结合近两年(截至 2025 年)的最新研究成果,阐述其背景、核心方法和前沿趋势。


大模型微调

1. 全参数微调与对齐方法

为了在特定领域产生更准确、符合人类偏好的结果,需要对预训练的大模型进行微调。常见流程包括:

近年来还出现了 RLAIF 等减少人工反馈的新算法,由于 RLHF 消耗显存巨大,通常结合后文介绍的参数高效微调技术。

2. 参数高效微调(PEFT)

当模型规模不断增长时,完整微调所有参数成本高昂。参数高效微调(PEFT) 只更新少量额外参数,既降低了计算和存储成本,又能在许多任务上达到接近全量微调的性能。Hugging Face 文档指出,PEFT 方法通过微调少量新增参数显著减少计算和存储成本,同时仍能获得与完整微调相当的效果。
​​

2.1 选择性微调

这种方法在原模型中只更新部分权重:

优点是无需添加额外模块,参数更新少;缺点是难以捕捉复杂任务模式。

2.2 加性微调(适配器)

加性微调在模型各层间插入小型 适配器 模块,只更新适配器参数:

2.3 重参数化微调(LoRA 及其变种)

LoRA(Low‑Rank Adaptation) 通过添加低秩分解矩阵 A、B 为权重提供旁路,只更新这两个矩阵,显著减少显存需求。

后续改进包括 KronA、QLoRA、LoRA‑FA、IncreLoRA、Delta‑LoRA 及 MPO 分解等,以提高表达能力或降低量化误差。

2.4 提示微调

提示微调通过在输入或模型内部引入可学习的 “提示” 而不修改原始权重:

2.5 方法对比表

类型 核心思想 代表方法 优点
全参数微调 更新全部参数并通过监督数据和 RLHF 调整行为 SFT + 奖励模型 + RLHF 性能高,适合复杂任务
选择性微调 只更新部分权重(偏置、最后几层或自动选出的参数) Freeze Layers、BitFit、PASTA 参数少,易实现
加性微调 在模型层之间插入小型适配器 Bottleneck Adapter、Adapter Fusion、MAD‑X 模块化,易组合
重参数化微调 添加低秩旁路,只更新旁路参数 LoRA、QLoRA、KronA、MPO 显存友好,性能优
提示微调 学习软/硬提示向量,无需改变模型权重 PET、Prefix Tuning、Prompt Tuning、P‑Tuning v2 实现最简单,参数最少

​​​​

图 1:LoRA 微调示意图(来源 Medium,展示低秩矩阵 A、B 在预训练权重旁路中注入以适配任务)。


检索增强生成(RAG)

1. 为什么需要 RAG

LLM 仅凭参数中的隐含知识往往无法回答领域专有或最新的信息,甚至会产生幻觉。RAG 通过检索外部数据并将相关片段与用户问题组合成新的提示,帮助模型生成更准确、实时的答案。然而随着模型能力提升,传统 RAG 的优势正逐渐减弱,需要深入分析其机制和挑战。

2. RAG 的四大模块

  1. 索引(Indexing):将外部文档分块并转为稀疏或密集向量表示;
  2. 检索(Retrieval):包括查询分析、候选检索以及重排序与过滤;
  3. 生成(Generation):把检索到的内容与用户问题拼接成提示,指导 LLM 输出;
  4. 编排(Orchestration):协调索引、检索和生成模块的执行顺序与并行化,动态决定是否检索。

3. 目标与挑战

RAG 既要实现 高召回率(找到所有相关文档),又要保持 高精度(避免噪声)。主要挑战包括:

4. RAG 的演进与前沿

为突破传统 RAG 的瓶颈,提出多种改进方向:

图 2:RAG 架构示意图(来源 K2View,展示用户输入查询、向量检索器、上下文组装和 LLM 生成答案的流程)。


代理(Agent)

1. 基于提示的代理

2. 经验学习与微调代理

ICLR 2026 论文提出通过 RAG 为代理生成提示并内化到模型中:先运行基础代理收集失败轨迹,再借助强大模型提炼提示,在训练过程中一并融入学生模型,显著提升任务成功率并减少推理开销。

3. Agentic RAG 与智能检索代理

Agentic RAG 将自主代理与 RAG 结合,核心要点包括:

4. 代理的发展趋势

图 3:Agentic RAG 架构示意图(来源 Medium,展示 Query Analyzer、Task Orchestrator、Retrieval Planner、Context Assembler、LLM 生成器等模块协同完成回答流程)。


总结与展望

大模型微调、RAG 与代理是现代 LLM 应用的关键组件:

  1. 微调:全参数微调结合 SFT 和 RLHF 可在复杂任务上获得最高性能,但资源消耗大。PEFT 利用选择性、适配器、低秩旁路或提示等技术,大幅降低训练成本,适合资源受限或多任务场景。
  2. RAG:RAG 通过检索外部知识提高 LLM 处理专业或实时信息的能力。设计索引、检索、生成和编排模块时需平衡召回和精度,并解决噪声、查询分解和知识冲突等挑战。Agentic RAG 通过引入代理改善检索规划,是未来趋势。
  3. 代理:代理让 LLM 拥有规划、行动和自我反思能力。ReAct、StateAct 等基于提示的方法奠定基础,结合经验学习和 Agentic RAG 的研究,将推动多代理协作与任务自动化。

面向未来,研究者将继续探索如何让大模型在节省资源的同时具备更强的适应性与知识整合能力,并确保模型的安全、可靠与公平。深入理解 RAG 与 LLM 的交互机制、开发稳定的代理算法以及持续优化参数高效微调方法,将是推动通用人工智能落地的关键。


↙↙↙阅读原文可查看相关链接,并与作者交流