这是鼎叔的第一百二十三篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。
欢迎关注公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。

通过这些天的学习,鼎叔尝试用大白话聊聊截止目前对于 DeepSeek 的理解,包括原理、优势、局限和扩展思考。

DeepSeek 的常识
DeepSeek 目前推出了三个方向的产品:
V3,对标 GPT4o,代表了基础大模型的通用智能水平。V3 在推理成本远小于 GPT4o 的前提下,在一些领域达到甚至超越了 GPT4o。
R1,可以对标 OpenAI o1,代表最热门的研究方向成果。API 调用收费价格不到 OpenAI o1 的 4%。普通用户可以在https://chat.deepseek.com/R1 模型,否则就是使用 V3 模型。这里使用,勾选 “深度思考” 就是使用

在上篇文章聊聊使用大语言模型的技巧说过,提示工程可以把目标拆解为多个步骤,让机器循序渐进完成任务。而 DeepSeek 的 R1 则是自动补全这些拆解过程(推理),无需用户指引。
注意,"你是谁"这个背景角色信息,对 DeepSeek 推理结果影响是挺大的,就像我们写用户故事一样,建议输入清楚。角色会改变结果的表达风格和理解门槛。
R1 另外一大功能就是 RAG(联网搜索并融入推理过程中)。R1 可以根据用户提问的关键词去网上搜索最新资料,然后生成特定风格的结果。R1 会反复强调信息的时效性,并能够推断搜到的信息应不应该纳入后继的思考过程。
Janus,补充了多模态能力。这个本文暂不展开。

用纯强化学习提高逻辑推理能力
DeepSeek 迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步,在不借助任何监督数据的情况下,发展出推理能力的潜在可能性。具体来讲,使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 这种强化学习框架以提高模型在推理方面的自我进化。
在训练过程中,DeepSeek-R1-Zero 展现出诸多强大且有趣的推理行为。经过数千个强化学习步骤之后,R1-Zero 在推理基准测试上表现出超强的性能。
R1-Zero 放弃了雇佣人类标注的监督部分,纯粹采用强化学习,从而大幅降低了训练成本。DeepSeek 为该模型提供一组数学、编码和逻辑问题,并设置了两个奖励函数:其一用于奖励最终正确的答案,其二用于奖励思考过程中的正确格式。
DeepSeek 并不会对过程进行奖励,因为它认为过程奖励很容易被滥用(reward hacking)。DeepSeek 也不会搜索所有潜在答案(AlphaGo 就属于这一类),而是鼓励模型一次尝试多个不同答案,再根据两条奖励函数对其进行评分。
一款能够自主开发推理与思维链(CoT)的模型就此诞生,DeepSeek 团队甚至在其中观察到了牛逼的 “顿悟时刻”:不需要教 AI 如何推理,只需提供充足的计算和数据资源,它自己就能掌握!模型仅仅只是为了得到正确的结果,就会自发地进行越来越长的思考!
思维链论文这里也有介绍过:聊聊使用大语言模型的技巧 https://mp.weixin.qq.com/s?__biz=MzkzMzI3NDYzNw==&mid=2247484797&idx=1&sn=7ab567ff6cec2555bb9e61febdafd454&scene=21#wechat_redirect
把思维推理过程展示出来很有意思,它提升了模型的可解释性,加强了用户的信任感。

R1-Zero 也遇到了可读性、语言杂糅等挑战。最终的 R1 版本,就是将数千条 “高质量冷启动思维链式数据”,辅以 V3 在写作、事实问答和自我认知等领域的监督数据进行微调,充分考虑到各类提示词应用场景,最终得到能力上与 o1 不相上下的强大推理模型。
当强化学习提示词涉及多种语言时,思维链常常出现语言混杂(language mixing)的现象。
为了减轻这个问题,DeepSeek 在 RL 训练过程中引入了「语言一致性奖励」,计算 CoT 中目标语言词汇的比例。OpenAI 最新产品推理中大量出现中文,可能就是缺乏这种一致性奖励。
当前,R1 的推理过程正在产生大量高质量的训练数据,而且这些数据是由用户付费产生的,这种新模式可能彻底改变 AI 数据经济的运作方式。

DeepSeek 的降本增效
这么多年的行业激烈竞争,中国工程师团队在摸爬滚打中琢磨出了各种极致的降本增效手段,性能优化永无止境,但主要就是三板斧,比较容易理解。
去 IOE 化就是当初国内团队自研提效的经典成果。DeepSeek 的行动也是一个很好的剪影。它用到的主要的降本增效手段有:
采用 MoE 混合专家技术架构提高并行计算能力,采用 MTP 提高并行预测速度。
用 MLA 和 FP8 方法大幅压缩训练中的数据。
利用新的负载均衡方法和底层通讯优化,提升处理性能

这些技术突破手段在 V3 版本正式成熟,使得训练成本低廉到令人震惊。这些创新也可能是为了克服 DeepSeek 手中的 H800 内存带宽不足这一先天顽疾。
相对于国内其他公司的 “跟进型微创新”,DeepSeek 也是少有的在框架层面进行底层改动的团队,在大模型这种训练费用昂贵的领域,这种深度探索(正好也是公司名)可能会带来大量金钱的损失,这也是 DeepSeek 难能可贵的地方。

MoE 混合专家技术架构
这是 DeepSeek V2 模型就引入的重大突破。MoE 架构是基于分治思想的深度学习模型,大幅提升并行计算规模,让更多的计算单元同时处理不同的高负载数据任务。
MoE 分为两部分,一部分是 “专家”,每个专家都是一个小的神经网络, 另一部分是路由,它决定每个 token 交给哪个专家来处理。DeepSeek 将模型拆分为多个 “专家”,只针对特定问题激活必要的专家,以更细粒度方式对专业专家和通用型共享专家进行区分。

MLA 多头潜在注意力
也是 V2 模型就引入的重大突破。推理过程中最大的一个限制就是内存占用量:除了需要将模型加载到内存中,我们还需要加载整个上下文窗口。上下文窗口特别消耗内存,因为每个 token 都对应一个键及其对应值。DeepSeek 的 MLA 能够压缩键值存储量,通过动态合并相邻层的特征,大大降低推理期间的内存占用,使得系统能够更快速地处理大量并发的用户检索请求。

训练优化- FP8 混合精度训练
对于训练而言,V3 引入的 FP8 混合精度训练框架是最引人注目的,首次在超大规模模型上验证了其有效性。
FP8 就是用 8 个二进制位来表示数字的格式,相比传统的 32 位(FP32)和 16 位(FP16)格式,精度低了很多,但是占用空间小,计算快。虽然参数是以 BF16 或 FP32 的精度进行存储,但在计算时会降低至 FP8 精度。

FP8 可以带来显存的节省,有利于更好的并行策略。

就好像高尔夫球选手,球局开始时用木杆进行远距离击球,当球距离目标比较近,再依次用铁杆和推杆进行精细化的击球控制。牺牲一些精度来换取效率,在很多场景下已经够用了。

在大模型计算中很容易出现累积误差,导致最后的结果天差地别,DeepSeek 在每次计算一定次数后就转移到高精度的计算进程中,降低累积误差,这点很巧妙。

新的负载均衡方法和底层通信优化
1 引入了新的自适应的负载均衡策略,尽可能降低对模型性能的负面影响。
2 增加训练中的通信开销以换取更高的推理效率。
为了让计算和通信能够尽可能同时进行,数据包在传输过程中尽可能减少空闲等待(就好像成熟的持续交付流水线),DeekSeek 引入了 “双重流水线” 机制,在等待数据传输时,计算单元会马上处理另一批数据。
DeepSeek 专门对每张 H800 上的 20 个处理单元进行了编程,专门用于管理跨芯片通信。这在 CUDA 层面根本就做不到,所以 DeepSeek 不得不下探到 PTX,也就是英伟达 GPU 的低级指令集,类似于汇编语言。这样的优化深度堪称疯狂。
通过 “双重流水线” 和 “跨节点通信优化”,DeepSeek 减少了一半的计算等待和 20% 的通信开销。
创新的负载均衡策略,根据 MoE“专家” 的历史利用率来动态调整任务接收量。当某个专家持续过载时,系统会自动降低接到新任务的概率,反之亦然。

MTP-多 token 预测目标
传统大模型的序列生成过程,都是 token by token 的,每生成一个 token 都要频繁进行内存交互和计算,容易形成训练的瓶颈。
而 MTP 能一次生成多个预测的 token,保证生成内容时,能够加速输出,还能让模型能够更好地捕捉 token 之间的依赖关系,进一步实现训练步骤密集化,把开销压得更低。
其中会有一些预测不准确,那也没关系,打回重新预测即可,整体效率还是提升了。
类似的策略在 LLM 领域并不稀奇。语言模型的本质是文字接龙,不一定都要一个字一个字接龙,也可以一次输出一句话,发现问题再回头修改。

对主流顶尖模型的知识蒸馏
使用功能强大、价格昂贵的模型(教师)来生成数据,借此提升其他功能稍弱、但价格更便宜的模型(学生)的性能,这样的过程被称为蒸馏。作为一类常规实践,蒸馏技术能够帮助 AI 厂商改进其小体量模型,顺利摆脱对于高成本预训练的过度依赖。
各家大模型的服务条款确实可能限制潜在竞争对手对自己模型进行蒸馏,但除了封禁 IP 和限速等手段,很难阻止这类行为,更何况闭源模型没法证实这点,它本身就是个黑盒子。
当然,搭便车蒸馏这种行业普遍行为,会削弱大金主投入海量资金打造顶尖模型的意愿。

DeepSeek 可能面临的局限性
跨硬件移植能力弱
PTX 通常是针对特定硬件型号优化的,除非专门编写适配逻辑,否则很难在不同硬件间移植。
如果中国难以获得先进的 NVIDIA 算力,那 DeepSeek 目前采用的众多能力特性可能受到影响。
需要创造力的生成领域,效果一般
代码和数学题是 DeepSeek AI 验证能力的最佳领域,非常适合自我强化学习的落地,这块水准不在其他顶尖大模型之下。
但是创意内容生成就相对逊色了,开放性任务的表现一般。知识蒸馏过程虽然保障了推理和解题能力的水准,但这个能力能难被泛化到其他领域。
深度思考(CoT)不一定会提高正确率
深度思考虽然给人更靠谱的感觉,但是有可能把原本能答对的题给答错了(尴尬),有句话说的好,大多数日常问题应用不到太聪明的模型。
更多延伸思考

DeepSeek 的组织文化
成功不是偶然。DeepSeek 的愿景和文化令人颇有感触。
从人才招聘上,最看重好奇心和对研究的热爱,每个人有独特的经历和想法。创新型组织支持自下而上地把灵感变成实践成果,如果灵感显示出潜力,公司提供非常灵活的卡资源调配。

这是谁的战争?
DeepSeek 在中美的火爆,并不意味着这是中美之前的战争(虽然吃瓜群众喜欢这么想),本质上还是开源与闭源的路线战争。
一方是垄断封闭的巨头,借助政府禁令护城河的巨头,以及拿着天量投资的 AI 生态位占领者,另一方是拥抱开源的创新公司和科学研究组织。
前者的爆款推出速度会越来越慢,因为要给商业化能力留足付费空间,从而倾向于雪藏新版本,保持在行业的技术领先优势;
后者可以让更多人基于现有成果进行创新,通过不断试错加速系统发展,甚至公摊计算成本,还可以获得国际上普遍的好口碑,最终形成生态。
开源才是吸引人才的关键。

DeepSeek 会导致算力供应商崩盘么?
深入思考下,模型训练需要的算力大幅下降,长期来看对算力供应方是利好,因为门槛下降了,更多中小厂家和研究机构会加入到模型训练中,算力依旧是绕不开的资源。科技巨头也因此大幅降低经营成本(尤其是推理成本),迅速扩张受众群体。
这也就是网上说的杰文斯悖论(Jevons)。
短期来看,DeepSeek 打破了之前 “AI 属于有钱人的游戏,越有钱就肯定越牛” 这种思维定势,算力寡头企业的 “昂贵” 泡沫估值可能会戳破,回归合理价格。

通往 AGI(通用人工智能)之路
R1 在推理过程中,模型可能涌现出推翻自己当前方案的自我反思(Self reflection),并且发出情不自禁的感叹(挺可爱的)!
自我反思是实现 AGI 的前提。参考鼎叔之前的文章:聊聊机器的情感和意识 https://mp.weixin.qq.com/s?__biz=MzkzMzI3NDYzNw==&mid=2247484372&idx=1&sn=a9e91066c7771d0fd0ef54fbece7a80b&scene=21#wechat_redirect

最后一个想法:AI 时代人类最需要什么能力
当将来的 AI 通过强化学习取代人工标注,当 AI 的推理能力比人更强,做到以理服人,人类还有什么能力是最值得坚守的?
正如工程界大佬 Kent Beck 所说:大模型让他 90% 的技能价值变为零,但是剩余的 10% 将会产生 100 倍的杠杆。

从研发效能的老本行来思考,鼎叔认为是 “问题域” 的精准定义能力,截止目前,AI 发展的技术都是围绕着如何高效能地解决问题来进行,一切有章可循,AI 并没有脱离 “工具” 范畴。
“定义好问题” 仍然是一个难题,很多时候,“决定做什么” 比 “做出来” 更有意义;“用户心里想要什么” 比 “用户嘴上说的想要什么” 更有价值;“哪个答案最匹配用户的需求” 比 “无数的答案可供选择” 更有吸引力。

此外,人类自身的创造力仍需保持和发扬。AI 的训练,搜索和推理依然是基于海量人类的知识积累。
如果长期没有人类新的知识贡献,会发生什么?不少文章揭示了其负面效应:
大模型的回答将越来越了无新意,和时代脱节;
与此同时,劣质的 AI 生成内容会充斥网络中,污染网络环境。现在我们感受还不深刻,是因为 AI 生产的污染内容还不够多。


↙↙↙阅读原文可查看相关链接,并与作者交流