AI as Normal Technology

https://knightcolumbia.org/content/ai-as-normal-technology

An alternative to the vision of AI as a potential superintelligence

By Arvind Narayanan & Sayash Kapoor

April 15, 2025

阅读笔记:在 All in AI 的今天,作为一线工程师和科研工作者的你,一方面会有追赶潮流的热忱,另一方面也会有被时代淘汰的担忧。将 AI 视为救世主或是威胁的世界观,把每个人都锁定在乐观或是悲观的两极世界中。然而,本文却另辟蹊径,以史为鉴,旁征博引,站在社会性维度,为大家带来另一种看待 AI 的独特视角,让我们在无限的可能性中保持自我并对未来充满想象。

--------------翻译&阅读笔记 by 张昊翔/ChatGPT/Gemini @2025年5月20日

正文:

本文展现了将人工智能(AI)看成一种 “普通的” 技术的愿景。这种 “普通的” 说法不是在试图低估它的影响力,因为对那些变革性的通用技术,例如电力或是互联网,在我们的认知里也都是普通的。但是,这种观点是为了与那些对未来 AI 的乌托邦或者反乌托邦想象形成对比的。那些想象都有一个共同的倾向:将 AI 看成为一种新物种——一个高度自主的、甚至具备超智能的实体。

阅读笔记:对 AI 的乌托邦式的想象想把 AI 看作是解决人类所有问题的 “救世主”,它能带来前所未有的繁荣、公正、智能社会。而对 AI 的反乌托邦的想象则是强调 AI 将带来会是很大的威胁甚至是灾难,把 AI 想象成一个可能背叛人类、失控、压迫人类的力量。

“AI 只是普通的技术” 包括三件事情:对当前 AI 的描述、对 AI 将来的预测、和我们如何应对的举措。我们将 AI 视为一种我们能够也应当保持控制的工具,并认为实现这一目标并不需要激进的政策干预或重大的技术突破。将 AI 视为类人的智能,这既不符合当前的实际,也无助于理解其对社会的影响。而且,在我们对将来的设想中,这种类比也不可能成立。

"普通的技术"框架主要关注的是技术与社会之间的关系。它从根本上否定论技术的决定论,特别是那种将 AI 视为决定未来一切智能体(Agent)的观点。该框架主要借鉴了过往技术革命的经验教训,例如技术的应用和传播通常都是非常缓慢且和充满不确定性的。此外,该框架还强调,在社会影响和制度作用方面,AI 的发展是有轨迹和时间上连续的,而不是从某天突然冒出来的一个革新性转变。

在第一部分,我们解释了为什么 AI 对经济和社会的变革性影响是缓慢的(以数十年的尺度来记)。我们特别区分了 AI 方法、AI 应用和 AI 采用这三者的不同,并且从时间尺度上的不同,来强调不能把它们混为一谈。

在第二部分,我们讨论了人类与先进的 AI 共存的世界中,可能存在的一种分工模式(但不包括 “超智能”——我们认为这个概念在通常的设想中是自相矛盾的)。

在第三部分,我们深入探讨了将 AI 视为一种普通技术对 AI 风险的影响。在这里,我们分析了事故、军备竞赛、滥用、以及偏离目标问题,并且我们发现,是把将 AI 看成是一种类人超智能体还是一种普通的技术,会在风险缓解策略得到完全不同的结论。

诚然,我们无法确定我们的预测是否准确,我们只是试图通过描述我们的观点,以一种 “中位数般的” 结果呈现给大家。我们也没有去量化可能性,但是我们尝试将这种预测变成对 AI 是不是一种普通的技术的讨论。

在第四部分,我们讨论了对 AI 政策的影响。我们主张将 “减少不确定性” 作为首要的政策性目标,并将 “韧性” 作为应对灾难性风险的总体策略。我们认为,如果 AI 最终只是像普通技术那样运作,而人们却基于 “难以控制超级智能体” 的前提采取激进干预措施,那反而会让情况变得更糟——其负面影响很可能会像以往在资本主义社会中部署的新技术一样,表现为诸如不平等等问题。

比起今天的 AI 发展水平,我们在第二部分描述的世界是一个 AI 发展到更高级的时刻。但是,我们没有声明 AI 的发展,或是人类的发展,会在此刻停滞。那么在此之后又会如何呢?其实我们也不知道。可以参考这样一个类比:在第一次工业革命刚刚开始时,思考一个工业化世界会是什么样,并为之做好准备,是有意义的。但试图预测电力或计算机的出现则是徒劳的。我们在这里探索的内容和它非常类似,因为我们否定了 “快速跃迁” 的情景,所以设想一个比我们所描述的未来更远的世界其实没有必要,也没什么实际价值。一旦第二部分中描述的场景真正出现,我们将会更好的预见并采取应对行动。

致读者:这篇文章的目标不太寻常,它不是为某种主张而进行辩护,而是为了阐述一种世界观。关于 AI 超级智能的文献已经非常多了,我们并没有尝试逐一回应所有可能得反对意见,否则这篇文章的篇幅会成倍增加。这里只是我们观点的初步表达,今后我们还会通过多种形式进一步展开阐述。

第一部分:进展的速度


图 1:与其它普通技术一样,AI 的影响力并非在方法和能力提升以后就自主显现出来。只有当这些影响力被转变成应用并被广泛在实际的经济生产中采用,才能有所体现。而对于每一个阶段,都有制约进展的速度的因素。

阅读笔记:从众效应——组织或者个人在采纳 AI 时可能只是跟风,而非基于理性评估。“最后一公里” 问题——AI 技术在面对具体、复杂、系统性的场景问题时,表现的通常会非常乏力。AI 系统可能在实验室或者特定评测方法下表现非常强大,但是在真实的生产环境中缺乏稳定可靠的表现。新技术的有效性往往依赖于其在社会或者行业中的广泛传播,而这种扩散过程是有很大的不确定性的。AI 的广泛采用与其扩散速度,受到学习曲线、安全性等因素的制约。此外,组织架构要与之对应,并且配套法规也都要跟上。

AI 到底是渐进式发展的,允许个人和机构去去逐步使用 AI 的能力,并缓慢提升采用率?还是说会出现跳跃式的突破,带来大根本性颠覆,甚至说是否有一个所谓的技术奇点存在?我们来反向的讨论这个问题:先将高影响力任务与低影响力任务加以区分,接着分析 AI 的采用和扩散速度,最后再说明创新与发明的速度。

阅读笔记:AI 的名词在 1956 年就被提出了,为什么给人们的感觉就是突然在今天发生的一样?就在 AlphaGO 出现的 2017 年时,我也有类似的感觉——一个革新性时代来了。于是自己拼命的去追求 AI 技术的应用和创新。然后今天再看,2017 年并不是。而 2025 年就是嘛?

我们使用 “发明” 来表示新 AI 方法的发展——例如大语言模型——它提升了 AI 在不同任务上的能力。而 “创新” 被用来指代使用 AI 在产品和应用的研发的过程,并且该产品和应用最终在消费者和商业中得到使用。我们使用 “采用” 这个名词表示个人(或者团队、公司)做出了使用一种技术的决定的行为。最后,“扩散” 则代表该技术在整个社会中被采用的程度,以及提升采用程度的全过程。对于那些颠覆性的技术,其扩散过程可能需要企业结构和组织形式的调整,当然社会规范和法律的变革也是十分必要的。

AI 在安全关键领域的扩散是缓慢的

在论文《反对预测性优化》(Against Predictive Optimization)中,我们整理了一份关于预测性优化应用的详尽清单,涵盖约 50 个实例。所谓预测性优化,是指使用机器学习(ML)来预测个人未来的行为或结果,并据此做出决策。使用绝大多数的这些应用,例如犯罪风险预测、保险风险评估、虐待儿童预测,都会对个人产生非常重要的影响。

尽管这些应用已经广泛传播,但其中存在一个关键的细微差别:在大多数情况下,所使用的仍是几十年前的统计技术——主要是简单、可解释的模型(通常是回归分析),以及一组相对较小、由人工精心挑选的特征。更复杂的机器学习方法(如随机森林)则鲜有使用,而现代方法(例如 Transformer 模型)则几乎完全未被采用。

换而言之,在更广泛的领域中,AI 的扩散通常滞后于技术创新,滞后时间长达数十年。其中一个主要的原因就是安全性。当模型越复杂时,它就会变的越难于理解,并且在测试和验证的过程中越难以去预测所有的可能的部署条件。一个很好的案例就是 Epic 公司开发的败血症预测工具。该工具在内部验证中表现出看似较高的准确率,但在实际医院环境中的表现却要差得多——漏诊了三分之二的败血症病例,同时还向医生发出了大量误报,造成了严重干扰。

阅读笔记:一直有种直觉,Paper 发表或是商业化广告、到公司落地和被认可是非常漫长的,要以十年甚至更久来记。所以,每当看到 “LLM 在公司成功部署、提高能效 200%” 之类的文章或是报道,就觉得噱头胜于价值。但是,组织和社会需要这样的噱头和炒作,这可能就是技术发展的客观规律。你在技术发展过程中以什么角色参与其中,就决定了你的立场和采用的行为,而没有绝对的对错。

Epic 公司的败血症预测工具的失败,主要是当你拥有一个复杂的模型和无限制的功能集合时,错误是很难被捕捉的。具体来说,该模型在训练过程中使用的一个特征是医生是否开具了抗生素——这是治疗败血症的常规手段。而在测试和验证阶段,模型使用了一个来自 “未来” 的特征,它在因果上依赖于预测结果本身。而在实际部署时,这个特征显然是无法获取的。可以预见到,模型的可解释性和审计方法在未来会被不断改进,以帮助我们有效的识别类似的问题,但是目前我们还远未达到那一步。

阅读笔记:国内的一些报道也提及 AI 中的图像识别在影像分析带来优势的分析。但是,目前最大的挑战在数据获取与质量、算法可解释性与伦理风险、以及政策和商业化障碍。深度学习常被认为是黑盒的,医生对 AI 决策信任度普遍还是较低的,医生与 AI 如何协作完成诊断并辅助医疗开展,这个是融入临床流程的难题。

在生成式 AI 的案例中,一些事后看起来非常明显失误,在测试阶段却没有被工程师所发现并纠正。一个例子是早期的必应聊天机器人 “Sydney”,在较长对话过程中表现出了失控的情况,显然开发者并未预料到用户会进行多轮的连续对话。类似的,Gemini 的图像生成器从未在历史人物生成上进行测试,这也导致了争议的出现。所幸,这些问题并未造成严重的后果,因为在那时它们还都谈不上流行并且鲜有被用到。

更多的实验性研究对于解释创新与扩散的滞后的原因上是有帮助的。但是,我们过去的工作所呈现的证据充分表明,在那些影响重大的任务中,存在极其严格的与安全相关的速度限制。这些限制通常都是强制性的法规,例如美国食品药品监督管理局(FDA)关于医疗设备的监管,或者是欧盟(EU)的对于高风险 AI 的严格限制的法案。事实上,现今对于高风险 AI 的过于严苛的监管,会让人们担心致所谓的 “失控的官僚主义”。因此,我们预期 AI 在安全关键领域的扩散将会是缓慢的。

无论如何,只要 AI 在安全关键领域出现创新性的应用场景,必将会导致对其进行监管的出现。一个很好的例子是 2010 年的 “闪电崩盘(Flash Crash)”,因为自动化高频交易在其中发挥了作用。这一事件随后促使监管机构出台了新的交易举措,例如熔断机制(circuit breakers)。

阅读笔记:“闪电崩盘” 的导火索源于一家大型共同基金在芝加哥商品交易所(CME)上执行的一笔大规模卖单。这笔订单涉及价值约 41 亿美元的 E-Mini S&P 500 期货合约,通过自动化的算法交易策略进行。起初,这笔卖单被高频交易者和其他买家部分吸收,但该算法根据市场交易量的增加进一步加大了卖单规模,导致市场流动性迅速枯竭。“闪电崩盘” 暴露了自动化交易和高频交易的风险,促使监管机构迅速采取行动。美国证券交易委员会(SEC)和商品期货交易委员会(CFTC)在事件后联合发布了详细报告,并出台了一系列新措施,其中最重要的是熔断机制(circuit breakers)的引入,旨在防止类似事件重演。

扩散受限于人、组织和机构的改变

除了安全关键领域,AI 在其他领域被采用依旧缓慢,这并不向多数人所认为的那样。例如,在 2024 年 8 月份的一项研究表明,有 40% 的美国成年人在使用生成式 AI。但是,由于大多数人使用的不够频繁,转移到实际的工作时间只有 0.5%-3.5%(而转化为生产效率的提升只有 0.125%-0.875%)。

阅读笔记:中国生成式 AI 的用户规模已突破 2.4 亿,但公开数据中缺乏与美国研究直接可比的使用频率与生产效率转化率统计。企业级应用的效率提升案例显著(如 30%-80%),但个体用户的宏观转化效率仍需更多研究支撑。这里可以考虑的一个因素是美国企业对于隐私和知识产权的保护意识和政干预规明显严格于中国,这决定了美国在生产效率提升方面可能非常保守,以及扩散会慢于中国的事实。

今天的扩散速度与那时相比,是否有所提高,不得而知。有研究表明,美国在生成式 AI 的采用速度快于个人电脑(PC)的普及速度。首款面向大众市场的生成式 AI 产品面世两年内,约有 40% 的美国成年人开始使用,而个人电脑在发布三年内的采用率仅为 20%。

如果宣传技术的普及率增速不明显,这会让人觉得很惊讶(甚至是明显错误的),因为数字技术可以一次性地迅速被分发到上亿台的设备上。但是,我们要知道,采用是软件真的被用起来,而不是只是可以被访问。尽管基于 AI 的产品可以即时地发布在互联网上供人们免费使用,我们还是需要改变工作流程和养成新的习惯,才能享受到新产品带来的好处,并且同时避免风险的出现。

扩散的速度除了仅仅受制于个人,并且与组织和机构也息息相关。这种趋势我们在对以往的通用技术研究中也有所察觉:扩散通常都是以十年甚至更久的时间发生,而不是以年计。

最终,为了真正释放新技术红利,围绕产品生产线的整个框架都必须重新设计。此外,为了改变生产架构,扩散要求组织架构和控制流程都要做出改变,并且这些变革只能通过各行各业不断的试验去发展出来。随着这些改变的发生,生产者获得了更多的自主权和灵活性,这又促使企业在招聘和培训方面采用全新的方法。

外部世界限制了 AI 创新的速度

AI 技术的快速发展是事实,但是有时候我们混淆了 AI 方法和 AI 应用这两个概念的差异。

我们定义了 AI 方法发展的阶梯。阶梯的每一层都重置了低阶的发展阶段,并反映出更先进的通用的计算能力。如图 2 所示,它会减少程序员去使用计算机完成一个新任务的成本。如果基于一个给定数量的程序员(用户),它可以提高了任务的完成数量。例如,机器学习通过消除程序员为每项新任务编写解决逻辑的需求,从而提高了通用性——程序员只需要准备相应的训练样本即可。

阶梯等级 编程工作量 示例
第 6 级:指令调优模型 用自然语言说明任务即可 使用 GPT-4 编写计算机程序
第 5 级:预训练模型 构建小规模数据集微调已有模型 GPT-3 微调用于法律文件分析
第 4 级:深度学习 构建大规模训练数据集 使用 ImageNet 数据训练的图像分类器
第 3 级:机器学习 为每个任务构建训练数据集,并/或调整算法 使用垃圾邮件/非垃圾邮件数据集训练的垃圾邮件过滤器
第 2 级:存储程序计算机 编写一次程序并从内存中调用 IBM System/360 计算机
第 1 级:可编程计算机 每个任务都编写程序并在需要时加载 哈佛 Mark I
第 0 级:专用硬件 为每个任务构建硬件 霍勒里斯电动制表机(Hollerith’s electrical tabulating machine)

图 2:计算的阶梯等级。对于一些任务,更高的等级意味着程序员的付出更少的成本,就可以让计算机去完成一个新任务。或者对于给定数量的程序员(用户),可以完成更多的任务。

这会让人们得到一个结论——如果我们创建更高的阶梯,开发一个应用的成本会持续减少,直到通用人工智能(AGI)的到来。在通用 AI 的时代,AI 系统可以完成任何的任务,而不需要特定的应用开发的工作。

在某些领域,我们确实看到了这样的趋势,应用开发的成本在持续降低。在自然语言处理中,大语言模型已经让语言翻译应用的构建变成一个简单的任务。或者考虑一下围棋:AlphaZero 仅通过自我对弈就达到了在国际象棋等游戏中超越人类的水平,它所需的仅仅是游戏规则和足够的计算能力——这与传统的游戏 AI 方法形成了鲜明对比,后者高度依赖手工编写的规则和特定领域的程序设计。

然而,这样的趋势并没有在有重大影响的、真实世界的应用中发生,因为模拟是非常困难的事情,并且犯错误的代价非常高。以自动驾驶汽车为例:在许多方面,它们的发展轨迹类似于 AlphaZero 的自我对弈过程——技术的进步使其能够在更接近现实的环境中行驶,从而收集到更好或更真实的数据,而这些数据反过来又推动了技术的进一步提升,形成了一个自我强化的反馈循环。但是,与 AlphaZero 在数小时内就能完成自我博弈和学习所不同,自动驾驶技术的发展和提升经历了两个十年还多。因为,安全性的考虑限制了它的快速扩展,在这个反馈循环的每个迭代周期内。

这种 “能力与可靠性的鸿沟” 一次又一次的在现实世界发生,成为构建 AI 智能体去自动化实际任务的最大的阻力。更加具体点儿,很多的任务试图通过使用智能体来帮助人完成现实任务,例如完成旅行预订或是给客户提供服务。尽管他们也耗费了巨大的成本让智能体去从现实世界学习,但这些任务远不及自动驾驶的任务这么影响重大。

阅读笔记:2025 年被称为 AI 智能体元年,ChatGPT 的智能体 Demo 展示了其在编程、写作、语音交互等场景的自动化潜力,核心优势在于上下文感知、多工具调用和动态修正能力。但是正如文中提到的,离自动驾驶等影响重大的任务还有不小差距。

此外,这些阻力也出现在非安全关键领域的应用中。通常的,大量的知识在组织内部存在并转播着,并且很多没有被写下来,以便于可以轻而易举的获得机会去学习。这意味着,这种发展的反馈循环必须在每一个行业中单独发生,而对于更复杂的任务,甚至可能需要在不同的组织中分别进行,从而限制了快速、并行学习的机会。另外一个限制并行学习的原因是关于隐私保护的担忧:组织和个人都会对是否把敏感数据分享给 AI 公司表示抗拒,并且很多法规也限制了哪些数据才能分享给第三方机构,特别像是医疗领域。

阅读笔记:现在还都是在憧憬通用人工智能会否很快的到来,但是只是 “通用的” 而已。现在的大语言模型在拼的还是基于公共知识和信息训练的智能,而缺乏垂直细分领域具体任务的能力,因为收到隐私保护的担忧。

AI 领域我们掌握的一个经验是:那些能够利用计算能力提升的通用方法,最终会远远超过依赖人类领域知识的方法。但是这个非常有价值的发现是关于 “方法” 本身的,但是却常常被错误的迁移到应用开发中,这会导致一些错误的解释。在基于 AI 的产品开发中,这个经验从来都不是真正成立的。我们来说一下社交媒体的推荐系统:它们都是基于机器学习的模型所构建的,但是这并没有消除手工的业务逻辑编程、前端设计和代码实现、其他一些模块的开发,并最终通过将上百万行代码集成在一起变成一个系统。

最后,当我们需要让 AI 超越对现有人类知识的学习时,进一步的限制就会凸显。我们认为最有价值和意义的知识是关于科学和社会学,它们通过技术和大规模社会组织(例如政府)推动着文明的发展。AI 有可能去在这个基础上扩展知识的边界吗?这有很可能需要与人或者组织去交互或者实验,从药物测试到经济策略。这里就产生了强烈的阻力,一种获取知识的阻力,因为这需要付出巨大的社会性的实验成本和代价。社会学家很大可能会阻碍(甚至不允许)AI 的开发迅速的扩展到这一范畴。

基准测试无法衡量真实世界的实用性

“方法” 与 “应用” 的区分对于我们衡量和预测 AI 的发展具有重要的意义。AI 的基准测试在衡量方法的发展进程上是有意义的。但是不幸的是,这些基准测试的结果通常被错误的用在衡量应用的发展水平上。并且,这样的混淆推动了许多对即将到来的经济变革的炒作。

例如,尽管 GPT-4 的报告声称它在律师资格考试中的得分达到前 10% 的水平,但是他对于我们了解 AI 是否具备职业能力没有太多的帮助。律师资格考试过分的强调了主观性知识却对于考察实际的律师能力无能为力,因为后者很难被计算机信息系统去标准化。换而言之,它精准的强化了语言模型所擅长的能力——获取和应用记忆信息的能力。

更广泛地说,那些可能对法律行业带来最重大变革的任务,恰恰也是最难评估的任务。对于诸如按法律领域对法律请求进行分类这类任务,评估是相对简单的,因为存在明确的标准答案。但是,一旦涉及到有创造力和判断力的任务上,例如准备一个法律诉讼材料,就没有一个标准的答案,再理性的人们也可能在策略上产生分歧。

这一发现不仅仅局限在法律行业上。另外一个例子是:AI 在封闭式的编程题目中表现的是非常优异的,但是现实世界的软件工程中,其影响力却难以量化和衡量。即使是那些受到高度评价、超越了简单练习题的编程基准测试,为了实现量化和利用公开数据进行自动评估,也不可避免地排除了现实软件工程中的诸多维度的场景和问题。

所以我们发现一个显而易见模式:一个任务越容易通过基准测试被衡量,那么它越难以代表现实的、复杂的、上下文相关的、专业性的实践。AI 社区一直致力于通过基准测试的结果告诉大众 AI 的发展状况,但是却持续地高估 AI 对于真实世界的影响。

阅读笔记:PC、手机、芯片、AI 模型、用户体验等技术产品再做提升和优化时,需要有一把尺子,这就是基准测试。而后来,基准测试被用到了商业竞争、并最终造成对大众的误解和偏见性的影响。这就好比一个国家一个地区的发展好与坏,人们首先会想到通过 GDP 去量化和排序。但是,当我们针对一些风土民情的讨论时,大多数人都会建议你去旅游或者生活一段时间再主管评说。

这是一个 “构念效度”(construct validity)的问题,指的是测试是否真正测量了其预期测量的内容。衡量一个潜在应用在现实世界的实用性的唯一确认的可靠方法,就是把它做出来,然后在真实的场景中由专业人士进行评测(根据预期用途的不同,替代或者辅助他们的工作)。这种关于 “提升” 的研究表明,一些职业确实可以从已经构建的 AI 系统中受益,但是效果确实十分有限,更多的是辅助而非替代,这与仅凭静态基准测试(如考试)所得到的结论截然不同。(少数的职业,例如文案和翻译,已经经历了大规模岗位流失。)

阅读笔记:构念效度(construct validity)是心理测量和社会科学研究中的一个重要概念,指的是一个测量工具或测试是否能够准确测量其所设计要测量的理论构念或抽象概念。换句话说,它衡量的是测试结果与研究者所关注的心理特质或行为模式之间的一致性和相关性。一个具备良好构念效度的测量工具,能够区分不同的概念,避免混淆,并且能够反映理论预期的特征。构念效度通常通过多种方法进行评估,包括收敛效度(测量结果应与相关构念高度相关)和区分效度(测量结果应与无关构念低相关)。在 AI 评估中,如果一个基准测试缺乏构念效度,意味着该测试可能不能真实反映 AI 在现实世界任务中的表现和能力,从而导致对 AI 实际能力的误判。

我们的结论是,尽管基准测试对于衡量 AI 方法的发展状况是有价值的,我们必须继续探寻其他的评价方式来衡量 AI 的影响。当衡量 AI 的采用情况时,我们必须考虑 AI 使用的强度。应用的类型也是至关重要的:辅助还是代替、高影响力还是低影响力。

确保构念效度的问题不仅困扰着基准测试,也同样影响预测——而预测正是人们评估未来 AI 影响力的一种主要的方式。避免含糊不清对于确保预测的有效性至关重要。预测领域通常通过将里程碑定义为相对狭窄的技能(例如考试成绩)来实现这一目标。例如,Metaculus 上关于 “人机智能对等” 的预测问题,就是通过 AI 在数学、物理和计算机科学考试题目上的表现来定义的。基于这一定义,我们就不会怀疑,AI 会有 95% 的概率在 2040 年以前达到 “人机智能对等”。

阅读笔记:“人机智能对等(human-machine intelligence parity)” 是指 AI 系统在某些特定任务上达到或超过人类智能水平的状态。简单来说,就是机器在解决问题、理解语言、做决策等方面,表现得和人类一样好,甚至更好。例如,AI 能够通过考试、完成复杂计算,或者像人类一样理解和回答问题。当我们说 “人机智能对等”,通常是指 AI 在某些领域实现了与人类相当的能力,但不一定意味着 AI 具备全面的、像人类一样的智慧。这个概念常用于评估 AI 进步的里程碑,帮助研究者和公众理解 AI 发展的实际水平,以及预测未来 AI 可能带来的影响和挑战。

然而不幸的是,这样的定义对于 AI 所能产生的影响的理解,没有太多的意义。就像前文提到的律师和其他专业基准测试一样,AI 在测验中的表现缺乏 “构念效度”,我们也就无法预测 AI 在将来是否会取代某个行业的专业人员。

对经济影响是渐进性的

有人认为,AI 的发展可能会对经济产生突然而剧烈的影响,其依据是一旦 AI 的通用性提高,经济中大量任务可能就会变得可自动化。这与一个关于通用人工智能(AGI)的定义有关——AGI 是一个统一的系统,它可以用来完成所有的能够产生经济效益的任务。

从 “普通的” 技术视角出发,这种突发的经济影响是不可信的。在前文中,我们已经讨论了其中一个原因:AI 方法的突然提升是有可能的,但是很难转换成为对于经济的直接影响,因为这需要创新(通过应用的研发)和扩散

创新和扩散都会在同一个反馈循环中发生。在安全关键型应用中,这个反馈循环通常是非常缓慢。但即便超出安全领域,也有许多理由表明它可能依然会很慢。基于过去的一些通用技术,例如电力、计算机、互联网等,反馈循环可以持续到数十年之久。我们同样相信 AI 发展的反馈循环也是相同的。

另一个关于对经济的渐进影响的观点是:当我们自动化一些任务以后,其生产成本和价值往往会随着时间的推移相比于人工成本大幅下降。随着自动化的增加,人们会更加关注那些没有被自动化的任务上,很可能这些任务在今天还没有出现(在第二部分我们会讨论这些任务会是什么)。

自动化会不断改变 “有价值的工作” 的标准,所以 AGI 的终点也会随之变化。人类总能找到新的角色或任务,即使旧的任务被机器取代。

AI 的影响不会是一夜之间席卷整个经济,而是会在不同领域以不同速度逐步展开。

AI 方法革新速度受到限制

我们认为 AI 的影响是持续释放的,这主要基于发明扩散反馈循环,就算 AI 方法有革命性突破。我们也看到,收益和风险主要是从 AI 的部署中带来,而不是从 AI 的研发中而来。因此,AI 方法的发展进程不会与 AI 的影响有直接的相关性。尽管如此,探讨同样适用于方法研发的速度限制仍然是有意义的。

AI 研究的成果是爆发性的,发表在 arXiv 上的 AI/ML 的文章在过去两年依然翻倍。但是文章数量的增长很难翻译成 AI 发展的状况。衡量进展的一个方式是核心理念的更替速度。但是不幸的是,在其发展历史中,AI 领域经常表现出对于流行理念的高度跟风,同时对那些不那么热门的方向探索不足。一个明显的例子就是神经网络的研究曾经被边缘化达数十年之久。

今天的状况不一样吗?尽管新理念以越来越快的速度逐步积累,但它们真的在取代已有的核心理念吗?Transformer 架构在过去若干年一直是统治性的,尽管它也有一些明显的局限性。在分析了 241 个学科中数十亿条引用数据后,Johan S.G. Chu 和 James A. Evans 告诉我们,在文章数量越多的领域,新理念越难有所突破。这会产生称之为 “规范知识的僵化” 窘境,并且很有可能用在当今的 AI 方法研究领域。

阅读笔记:“规范知识的僵化” 指的是将知识体系化、标准化后,由于过于固守这些规范而导致的灵活性丧失和创新受限的现象。规范知识通常是通过规则、标准或最佳实践的形式被整理和固定的,虽然这有助于保持一致性和效率,但当这些规范无法适应新环境、无法及时更新时,就会变得僵化,阻碍进步和发展。这种现象在快速变化的领域中尤为明显。

此外,其他一些因素也阻碍了 AI 方法的革新。回顾历史,由于没有与之匹配的硬件算力(特别是图像处理单元,GPU),深度神经网络一直处于发展停滞的状况。算力和成本一直是限制新范式的发展的阻力,包括对于推理时间的提升。减速可能也正在发生中:最近一些信号表明,行业正在逐步远离开发知识共享的文化。

由 AI 主导的 AI 研究是否会缓解这种限制,我们有待观察。或许在方法上实现递归自我改进是可能的,从而带来无限的速度提升。但是,我们要看到 AI 的发展已经强烈地依赖 AI 本身,更可能的情况是:我们会继续看到自动化在 AI 开发中的作用逐步增强,而不是突然出现某个突变时刻,实现所谓的递归自我改进。

上文中,我们已经讨论了基准测试误导了我们对于 AI 应用效力的判断。与此同时,它也导致我们在 AI 方法革新速度上的过分乐观。原因之一是,我们很难设计出超越当前技术进展视野且依然合理有效的基准测试。过去若干年,图灵测试一度被认为是 AI 评判的北极星,因为假如任何系统如果能通过图灵测试,它们都会被认为非常接近人类智慧,进而这样的系统可以被用来自动化各种复杂的任务。如今大型语言模型虽然能勉强通过该测试,但实际上对测试背后的期望满足度较低,因此该测试的重要性已经减弱。

这里用登山来做对比再恰当不过了。每当我们通过一个基准测试时(到达我们认为的山顶),我们会发现基准测试的限制(发现这不过是半山腰),然后开始构造新的基准测试(重新设定现在认为的下一个 “真正的” 山顶)。这就带来了所谓的 “移动目标” 的问题,但考虑到基准测试本身所面临的内在挑战,这是可以预期的现象。

阅读笔记:回望过去,AI 模型的发展就是一个 “移动目标” 的过程。一个新的目标出现,让很多 100 分成绩 AI 模型倒退到 80 分,或者 60 分一下。这又能说明什么呢?此外,抛开基准测试,现实世界问题的复杂性也会随着采用技术的提升而不断提升,这山更比那山高。

AI 的先驱者已经考虑到两个很大的挑战(我们现在把它称为 AGI)——硬件和软件。如何我们能够构建可编程机器,那么 AGI 就离我们不远了。1956 年的 Dartmouth 的会议组织者就曾经提到:“给我 10 个人,两个月的时间,我们就能在通往 AI 的目标上实现重大突破。” 今天,我们已经攀登到更高的阶梯,依然还能听到:只要继续扩大模型规模,或者打造通用 AI 智能体,或者实现更高效的学习方法,我们终究会迎来 AGI。

但我们需要牢记的是,某些看似 “单一步骤” 的目标,实际上可能远非如此。例如,可能根本不存在某种可以在所有环境中实现样本高效学习的 “突破性算法”。事实上,大型语言模型中的 “上下文学习” 已经在某种程度上取得了效率提升,但它仅适用于一小部分任务。

第二部分:拥有先进 AI 的新世界

对 “智能” 和 “超级智能” 的这些模糊概念的依赖,限制了让我们清晰刻画在先进 AI 加持下的新世界的面貌。通过将 “智能” 拆解为两个不同的基础概念——“能力”(capability)与 “控制力”(power),我们反驳了这样一种观点:在一个拥有 “超级智能” AI 的世界中,人类劳动将变得多余。同时,我们也提出了另一种可能的图景。这样的拆解也为我们在第三部分对相关风险的讨论奠定了基础。

生物学限制无法限制人类能力

AI 能够突破人类智慧吗?如果可以,会到什么程度?根据一种流行的说法,其程度将是难以想象的。人们常用不同物种在统一维度中的位置来形象地展示这一点。


图 3:通过自主进化的 AI 引发的智能爆发,是一个常见的担忧,常常通过上图所示的方式来描述。本图为重绘版本。

然而,这张图从从概念和逻辑上都有一些瑕疵。从概念层面来看,智能——用来对比不同物种的先进性的概念——没有被精准的定义,就直接用来在一个维度去衡量 “智能” 的大小,显得非常缺乏严谨性。

更重要的是,“智能” 本身就不是分析 AI 影响力的一个真正需要被关注的核心属性。真正应该被关注的,应该是 “控制力”(power)——改变自身环境的能力。要清晰的分析技术的影响(特别是越来越通用的计算技术),我们必须考察技术是如何改变人类所被赋予的改变自身环境的控制力。从这个角度讲,我们可以得到一副完全不一样的图景。


图 4:分析技术对于人类控制力。我们对环境具有更高的控制力,不是因为我们的智慧,而是因为我们使用的技术增加了我们的能力

这种视角的改变,澄清了人类一直在使用技术去提升我们改变自身生存环境的能力。早期人类和现代人类在生物和生理上没有什么很大的差别。反倒是在知识、理解力、工具、技术、AI 上,如今的人类和早期有明显的不同。我们会认为,在与 “前技术” 人类相比,当今人类就是因为具备了改变地球和环境的能力,才被看成为 “超智能” 生物。然而,在许多基础研究文献中,当分析超级智能可能会带来的风险时,使用 “智能” 这一术语时缺乏精确性。

阅读笔记:对"智能"存在差异化定义:计算学派强调算法效率,神经科学家关注认知模拟,哲学家则侧重意识属性。这种跨学科差异导致风险讨论时出现概念漂移。现有文献常混淆包括狭义 AI、AGI、ASI 等,并且学术界缺乏统一的智能评估框架。智能是工具属性还是主体属性?超级意识是否必然伴随智能提升?价值观是外部输入的,还是系统自我生成的?这些问题都是 “智能” 演化过了的终极问题,目前依旧悬而未决。


图 5:AI 能力的增加引起失控的两种不同的视角

当我们停止使用 “智能” 和 “超级智能” 这样的术语后,事情会变得更加清晰(如图 5 所示)。让我们担忧的是,如果 AI 能力持续无节制的提升(它们到底是类人还是超人以及不再重要),它会导致 AI 系统越来越有控制力,从而最终走向失控。如果我们承认能力可能无限提升(我们确实这样认为),那么要防止失控,我们的选择就只能是对两个关键因果环节之一进行干预。

“超级智能” 观点对图 5 中的第一条箭头持悲观态度——阻止具备任意能力的 AI 系统获得足以造成灾难性风险的控制力——而是更关注通过 “对齐技术” 来防止具备任意强大控制力的 AI 系统违背人类利益的行为。我们的观点恰恰相反,后文将对此进行详细阐述。

“棋” 影响了我们对超级智能的判断

弱化对 “智能” 这个概念的关注,不只是为了说辞好听或者表达技巧,因为我们认为,在任何有意义的 ‘智能’ 定义下,AI 并不比人在 AI 辅助下的表现更聪明。人类的智能之所以特殊,是因为我们能够使用工具并将其他智能纳入自身,而不是只将其放在一个单一的智能先进性演化的维度上。

人类的认知能力确实存在某些关键性限制,尤其是速度方面。这正是机器在国际象棋等领域能完全超越人类的原因所在,而在人机协作场景中,人类操作者往往只能被动遵从 AI 的决策。但速度限制在绝大多数应用场景中并不构成实质障碍,因为这些领域并不要求高速序列化运算或毫秒级响应能力。

在那些需要超高速反应的少数现实任务中,比如核反应堆控制,我们擅长构建范围明确的自动化工具来完成高速操作部分,而人类则保留对整个系统的控制权。

基于人类这种能力的视角,我们提出一种预测:在现实世界中,真正由于人类认知能力的局限性而使得 AI 能像在棋类运动那样远超人类表现的任务其实相对较少。在其他一些领域,包括那些人类对 AI 表现寄予厚望或者担忧的领域,我们认为存在较高的 “不可约误差”——即现象本身具有随机性而不可避免的误差——而人类的表现实际上已经接近这个极限。

阅读笔记:还记得 2016 年左右,AlphaGo 的横空出世以后,我也是一度陷入盲目追逐 ML 的狂热阶段。从 0 学习 AI 和深度神经网络,夜以继日的思索和实践,直至最后创新性地在实际项目中应用(而广泛采用)。然而看着现在的朋友们在经历着同样过程,不禁要有更多的反思和自我辩论,LLM 真的能够解决我的工程问题吗?我们已经践行的实践是不是到了人类表现的极限呢?“不可约误差” 真的是限制 AI 发展的铁律吗?——我们只能就事论事的去逐一应用然后逐一评价了

具体来说,我们提出这样两个方面概念:预测和说服。我们预测,AI 在预测地缘政治事件(例如选举)方面,不太可能显著超越受过训练的人类,特别是由人类组成的团队(尤其是在配合简单自动化工具的情况下)。我们对 AI 在说服人们做出违背自身利益的行为这一任务上也持有相同的判断。

“说服” 中的 “自身利益” 这一维度至关重要,但往往未被充分重视。作为一个常见模式的例子,可以参考研究《评估前沿模型的危险能力》(“Evaluating Frontier Models for Dangerous Capabilities”),该研究评估了语言模型说服他人的能力。他们的一些说服测试对被说服者来说是没有代价的;在与 AI 互动结束后,他们只是被问及是否相信某个陈述。其他测试涉及一些小的代价,比如放弃向慈善机构捐赠的 20 英镑奖金(当然,捐款本身是人们经常自愿做的事情)。因此,这些测试并没有真正反映 AI 有能力去说服人们去做一些危险性的任务。值得肯定的是,作者们承认了他们研究缺乏 “生态效度”(ecological validity),并强调这项研究并不是一项 “社会科学实验”,而只是为了评估模型的能力。但这样一来,这种脱离具体情境的能力评估是否具有任何安全意义就变得不明确,然而它们通常被误解为具有安全影响。

阅读笔记:本文把更多的笔墨放在具有西方国情的案例上,例如地缘政治、慈善捐赠等社会性事件上,是受限于作者本人、和写这篇文章的立意。不得不说的是,虽然技术无国界,但是国界以外的附属品也随着技术输出到远在大洋彼岸的我们这里。我们不能又想拿别人的,又不想不要别人的,要创造自己的才行。从这个意义上将,讨论 AI 的未来不再是一门纯粹的技术,而是一种看待未来世界的价值体系。

为了让我们的预测更加精确,考虑一些因素是必要的——目前尚不清楚在已知的较小的人类局限性方面(例如预测中的校准不足,或说服中的耐心有限),应允许多少余地存在。

控制方式的多样性

如果我们假设超级智能是存在的,那么控制问题就像是在建造一个 “银河大脑” 然后将其封闭起来一样,这样的设想无疑是令人恐惧的。但如果我们的判断正确——即 AI 系统并不会比人类在 AI 辅助下的能力显著更强,那么控制将变得不再是问题,尤其是在超人类级说服力被证明是一种毫无根据的担忧的情况下。

对于 AI 的控制的讨论,让我们仅仅只关注一些有限的方法,包括模型对齐和保持人类在环路之中。我们可以粗略地将这两种方式看作是两个极端:一种是在系统运行期间将安全决策完全交由 AI 来处理,另一种则是让人类对每一个决策都进行反复推敲和审核。这两种方法都有其适用场景,但它们的作用非常有限。第三部分,我们会解释为什么我们对模型对齐持怀疑态度。人类参与控制,这意味着 AI 的每次决策或者动作都会接受人类的审核与许可。在大部分的场景下,这种控制方式会极大的抵消自动化带来的优势,因此最终演变成人类只是走个过场,形式上的批准,要么被一个更不安全但效率更高的方案所取代。我们强调,“人类参与控制” 并不等同于 “人类对 AI 的监督”;它只是众多监督模式中的一种,而且是一种极端形式。

幸运的是,在这两个极端之间,有其他形式各异的控制方式,例如审计和监控。审计给我们提供了一种预发布或者周期性评估的机制,它帮助人类检查 AI 系统是否按照既定的目标在合适的运行着,并提供了在问题出现前的人类可以介入和处理失效的机会。而监控则是允许对系统行为偏离预期时进行实时监督,使得在人类确实需要介入的时候能够及时采取行动。

还有一些思路来自系统安全。我们可以借鉴工程上的原则,通过系统性的分析和设计,来预防复杂系统的事故的发生。例如故障保护机制(fail-safes),可确保系统在发生故障时自动转入安全状态,比如执行预设规则或硬编码的操作;又如断路器(circuit breakers),在超过预设的安全阈值时会自动停止操作,以防止进一步的风险。其他的技术还包括在关键部件进行冗余设计,和系统操作的安全属性验证。

在其他的一些计算领域,包括信息安全、形式化验证、人机交互,都包含了很多的控制技术。这些技术已经在传统的软件按系统中被部署,所以对于 AI 也同样适用。在信息安全领域,最小权限原则保证了最少得资源权限被授权给任务的执行单元。访问控制可防止处理敏感数据和系统的人员接触与其工作无关的机密信息和工具,从而降低误用或泄露风险。在 AI 系统至关重要的设置中,我们也能够设计类似的保护机制。形式化验证方法确保了安全相关的代码按照规格说明去工作。当前,形式化方法也被用在验证 AI 生成代码正确性的验证上。我们可以从人机交互那里借鉴设计系统关于状态变化行为可被撤回的思想,让人类可以始终保持对 AI 有意义的控制,甚至是在高度自动化的系统中。

除了从其他领域借鉴已有的思想来控制 AI,技术性的 AI 安全研究本身也有很多新的思路。这里有很多的示例,包括使用语言模型自动的判断行为的安全性,根据不确定性和风险等级自主学习合适将审核请求发给人类操作员,将具备自主行为的系统(agentic systems)设计得对人类可见和可被理解,创建分层的控制架构并让简单并可靠的 AI 系统去监控那些可能不可靠的 AI 系统。

技术性的 AI 安全研究有时被用来衡量一个模糊且不现实的目标:确保未来 “超级智能” 的 AI 能够 “符合人类价值观”。从这个角度来看,技术性 AI 安全往往被视为一个尚未解决的问题。但是换一个角度,如果让 AI 系统的开发人员、部署人员和运维人员能够更简单地减少事故发生的概率,那么技术性的 AI 研究工作已经带来很多卓越的成绩。因此我们预测:随着先进 AI 被不断开发和采用,将会有越来越多的关于人类控制 AI 的创新模型被发明。

随着自动化逐渐能够胜任更多体力和脑力工作,我们预测对 AI 控制的工作和任务将会逐步增加。如果你认为这种看法过于激进,我们不妨重新思考一下:一种彻底重新定义 “工作” 概念的情况将会出现,并且在历史上它就其实曾经发生过。在工业革命之前,几乎所有的工作都是基于人力的。随着时间的推进,越来越多的人力劳动被自动化取代,各种各样的操作、控制、和监督机器运行的工作就此出现。今天的工厂里,工人的工作就变成了一种将 “控制”(监督自动化组装流水线、为机器人系统写程序、管理质量控制节点、以及协调设备发生故障时的应对措施)、需要一定程度认知能力的任务、和机器尚未具备的灵活性这三者组合在一起的模式。

阅读笔记:2023 年-2024 年,萝卜快跑曾经一度遭到出租车司机的抵制与破坏,因为 AI 的部署让一部分人失业,造成了现实利益冲突问题。这个冲突问题,也会在 AI 技术在企业和组织内部应用和部署时碰到同样的阻力。这时,管理和制度的制定者就会起到至关重要的作用了,这也是技术创新是否能够被采用的成败关键,也是一线工程师和创新人员所需要考虑和给管理者送去的 “金钥匙”。

Karen Levy 为我们描述了这种转变正在卡车司机与 AI 结合的案例中逐步展开的场景:

除了开车,卡车司机每天的工作还包括很多其他内容。卡车司机会监控他们运送的货物,确保冷藏卡车中的食品保持在适当温度,平板车上的货物牢固固定。他们每天要进行两次规定的安全检查,负责保护贵重货物的安全。他们还要维护卡车并进行维修——有些是例行的,有些则更复杂。当卡车司机到达终点站或交付地点时,他们并不只是卸货离开:有些人亲自装卸货物;与客户沟通;处理各种文书工作;他们可能花费数小时进行所谓的 “场地移动”(等待空出的卸货位并驶入,就像飞机在繁忙机场所做的一样)。这些任务中有些是否可以由 AI 取代?当然,有些可以,而且将会被取代——但这些工作内容要比高速驾驶复杂得多,因此在自动化方面会来得更晚。

除了对 AI 的控制,对任务的定义和明确描述也会变成一种人类所需要从事的工作(这取决于我们对 “控制” 这个概念的定义,对任务的定义也可以看成是 “控制” 的一部分)。任何曾尝试外包软件或产品开发的人都知道,清晰明确地说明需求,占用了整个工作中的大部分精力。因此,人力工作——定义任务和监控执行——会在 AI 系统与各种不同的任务之间的边界存在。消除这些效率瓶颈,让 AI 系统能够自主完成更大范围的 ‘端到端’ 任务,将始终是一个诱人的选择,但这会增加安全风险,因为它会降低系统的可理解性和可控性。这些风险将成为一个自然的制约,防止过度放弃控制权。

阅读笔记:明确 AI 的需要完成的任务,也就是通过某种语言描述人与 AI(或者由 AI 构造的系统)交互的边界,将会是后 AI 时代的一个新兴的工作。而基于对 AI 的可解释性和可干预性的程度,对 AI 进行控制以便防止它执行越界,似乎就成了问题的 B 面。

我们进一步的做出预测:这种变革主要是受到市场作用力的驱动。如果 AI 控制不好,出错太多,就不可能对商业有价值。不过,监管应当加强并保障各类机构有能力、也必须让人类掌握主导权。

第三部分:风险

我们来考虑五种类型的风险:事故、军备竞赛(会导致事故)、滥用、偏离目标、以及非灾难性的系统风险。

前文已经讨论过关于事故的问题。我们认为,正如其他技术一样,AI 系统的部署者和开发者应当承担起减少事故负的责任。他们在多大程度上能有效履行这一责任,取决于其所面临的激励机制,以及缓解方法的进展情况。在许多情况下,市场力量会提供足够的激励,但安全监管也应当弥补其中的空白。至于缓解方法,对 AI 控制的研究正迅速发展中,我们已经在前文中提到。

这种乐观的估计可能不成立,其原因有几点。首先,由于 AI 给企业抑或是国家带来的竞争优势极大,它可能成为一个打破常规模式的例外,从而引发 “军备竞赛”。我们将在下文对此进行讨论。

其次,一家部署了 AI 的公司或实体可能会非常庞大和强大,以至于即使知道它最终会因对事故缓解态度不佳而倒闭,也无法带来多少安慰——因为在那之前,它可能已经将整个文明拖入灾难之中。例如,如果一个 AI 智能体错误地控制了与之相连的所有设备,并最终导致毁灭性的数据丢失发生。尽管这种可能性是存在的,但如此集中的权力本身就是比 AI 事故更严重的问题,这也正是我们在政策中强调韧性和去中心化的原因所在(第四部分)。

最后,即使是由一个相对不起眼的部署者导致对 AI 控制的失败,也可能引发灾难性风险——例如 AI 智能体 “逃逸”、自我复制等等。我们将此视为 “错位风险”,并将在下文中进行讨论。

在第三部分接下来的内容中,我们会基于 “AI 只是个普通的技术” 的这一观点,探讨其他四种风险:军备竞赛、滥用、偏离目标、以及非灾难性的系统性风险。

军备竞赛只是个老问题

AI 的军备竞赛发生在两个或者多个竞争者之间,可以是公司、国家规则制定者、或者军队,它们持续部署增强 AI 的能力,而不加以监管和控制。危险在于,追求安全的竞争者可能会被忽视风险的竞争者挤出竞争之列。上面的危险因素,我们认为它不会在 AI 方法的开发中,而只会存在于 AI 的应用中。

一个重要的警告是:我们明确将军事 AI 排除在本分析之外,因为它涉及机密能力和独特的动态机制,这需要更深入的分析,已经超出了本文的讨论范围。

让我们首先讨论公司。在已有的大量研究中,我们可以看到在安全方面的 “逐底竞争” 在历史上各行业中极为常见。而且,这类问题非常适合通过监管手段来干预。例如,美国服装业在 20 世纪初的消防安全问题,美国肉类加工行业在 19 世纪末至 20 世纪初的食品安全与工人安全问题,19 世纪的美国蒸汽船行业,以及 19 世纪至 20 世纪初的采矿业和 20 世纪初的航空业。这些行业都曾出现过严重的 “安全逐底竞争”,最终促使了监管制度的建立与完善。

阅读笔记:不得不承认,国内在行业监管制度的建立和完善方面还有很长的路要走。所以,一个看似繁荣的 AI 技术发展的盛况,在行业中采用并产生影响,特别是在关键性行业和领域(运输、医疗、金融、民生等)而不只是服务性娱乐性行业,很多西方人走过的老路我们还得继续走一遍——“安全逐底竞争”。

这些 “逐底竞争” 之所以发生,是因为企业能够将安全隐患带来的成本外部化,最终导致了市场失灵。让消费者来评估产品安全性是非常困难的(让工人评估工作场所的安全性也是如此),所以一旦监管缺位,市场失灵就会发生。一旦安全生产的法规被执行,公司就只能把安全隐患的成本内部化,逐底竞争就会立马消失。这里有很多的可以采取的监管策略,包括针对流程的控制(标准、审计、和巡检)、对结果追责、和纠正信息的不对称(打标签和认证)。

AI 不是特例,自定驾驶就给我们提供了一个学习安全与竞争两者关系的好机会。下面我们来看一下四个公司的不同安全政策和实践。据报道,Waymo 拥有一种注重安全的企业文化,强调谨慎部署和自愿公开透明;它在安全表现方面也是行业领先者。Cruise 在部署自动驾驶方面就更加激进,因此也带来较差的安全性上的表现。Tesla 也曾经一度推行出激进的政策,并因为靠客户去对自动驾驶技术进行 Beta 测试而备受职责。最后是 Uber,它的自动驾驶部门以安全管理松懈而臭名昭著。

阅读笔记:去年和国内的朋友聊到,一些车企内部开始将造出一辆新能源汽车压缩到 3 个月完成作为目标,要用互联网赋能造车快速迭代。2025年3月29日,小米 SU7 的严重车祸事件后,雷军停更涉及媒体一个月之久。我不知道雷军和小米都反思了什么,后面真的会采取一些什么措施?但是,我也开始慢慢体会到欧美车企将安全性作为任何工作开展的前提和目标,都是监管、和安全隐患成本内化在背后起的巨大作用。

市场上的成功与安全性则是强相关的。Cruise 在 2025 年宣布彻底关闭。Uber 也被强制要求出售它的自动驾驶部门。Tesla 一直饱受法律诉讼和监管审查,这让大家看到自身安全的态度所给公司带来的巨大成本。据此,我们认为市场的成功和安全是因果相关的。Cruise 的许可被吊销是它落后于 Waymo 的首要原因,而安全性则是 Uber 的自动驾驶在市场上失败的重要因素。

法规和监管的角色虽然小,但是很有帮助。联邦和州/地方各级的政策制定者都展现了前瞻性,认识到这项技术的潜力,并采取了一种 “轻监管、分散式” 的策略(也就是由多个监管机构共同监管,而不是由单一机构负责)。总结下来,它们主要负责监察、标准制定、证据收集、以及始终拥有 “随时吊销执照” 的权利来对公司的行为进行约束。

同样,在航空业中,AI 的应用仍然必须符合原有的安全标准,而不是为了推动 AI 的采用就降低标准——这主要是因为监管机构有能力处罚那些不遵守安全规定的公司。

总而言之,AI 的军备竞赛可能会发生,但是只在特定区域,并且要受到特定区域的法规的约束。

下面我们来说一下社交媒体的案例,它们与自动驾驶和航空业有着不同的情况。采用推荐算法来生成内容流是 AI 的一种应用。这些系统被指责造成了许多社会问题,而社交媒体公司在设计和部署这些算法系统时,可以说对安全问题重视不够。而军备竞赛也是存在的,例如 TikTok 就给竞争对手施加了很多压力,迫使其他公司也重度地使用内容流的推荐方式。可以说,市场力量不足以让公司赚钱的方式和社会利益保持一致。更糟的是,监管机构反应迟缓,这是为什么呢?

阅读笔记:Tiktok 在推荐算法上的革新,甚至是短视频社交产品,是否真的要为带来的心理健康风险、极端化与仇恨言论传播、政治偏见与信息操控(在 2024 年美国总统大选期间,研究人员发现,TikTok 的推荐算法对不同政治倾向的内容存在偏向性)去负责任,是存在争议的,这是 AI 技术应用时要考虑的阻力。在国内,我们似乎涉及此类的研究和讨论还很少,但是 AI 带来的社会性和伦理性的问题不能只在 AI 来了以后再做。

社交媒体和交通运输有着个显著的差异。当危害和事故出现以后,归咎为产品(汽车和飞机)的失效是非常直接和显而易见的,并快速的造成公司形象的受损。但是,我们将一些社会危害归咎为像 TikTok 这样的社交媒体产品,是极其困难的,而相关的研究也还没有明确的结论或是存在争议。第二个不同是,我们经历了一个世纪才开发出适合交通安全的法规,而在汽车出现的早期,安全性也并没有成为制造商的责任。

AI 的范畴是很大的,基于 AI 的应用在将来可能会是交通领域,也可能是更像社交媒体。这就主动获取证据和提升透明度将是基于 AI 应用的变得非常重要。我们将在第四部分强调它。此外,‘前瞻性 AI 伦理’ 也是很重要的——在新兴技术生命周期的早期尽可能识别伦理问题,制定相关规范和标准,并利用这些规范积极引导技术部署,从而最大程度地减少军备竞赛的可能性。

AI 安全监管之所以可能更加困难,其中一个原因是其采用速度过快,以至于监管机构尚未来得及采取干预措施,问题就已经发生了。到目前为止,即使没有监管,我们也还没看到 AI 在那些影响重大的任务中被迅速采用的例子。我们在第一部分中提出的 ‘反馈循环模型’ 或许可以解释这种情况。未来,AI 新应用的采用速度仍然是一个需要重点关注的指标。

同时,即使未来 AI 的扩散速度不会加快,监管本身推进得太慢也已经是个问题了。我们会在第四部分讨论这个 “速度” 问题。

现在,我们开始考虑国家之前的竞争问题。各国政府会不会因为竞争压力而放任 AI 安全性不管的呢?

同样的,这不是一个新问题。在创新和监管直接寻求平衡,这向来都是一个循环发生的窘境。到目前为止,我们看到了不同的方法出现,例如,欧盟强调预防式监管路径(如《通用数据保护条例》《数字服务法》《数字市场法》及《欧盟人工智能法案》),而美国更倾向于仅在出现已知危害或市场失灵后再进行监管。

尽管中美 “军备竞赛” 的言论甚嚣尘上,但目前尚不清楚两国的 AI 监管是否真的放缓。在过去的 2024 年,美国各个州总共收到了多达 700 个 AI 相关的提案,并且很多已经通过。正如我们在前面部分所指出的,大多数高风险行业都受到严格监管,并且这些监管措施是否适用,与采用 AI 与否没有直接关系。那些声称 AI 监管处于无序状态的观点,往往过度强调了一种狭隘的、以模型为中心的监管类型。在我们看来,监管机构强调对 AI 使用环节(而非开发环节)的监管是恰当的(如下文将讨论的透明度要求等例外情况除外)。

如果未能对 AI 的安全应用进行充分监管,就会通过局部事故产生负面影响,而不会让企业(安全文化松散的)将安全成本转嫁到外部。因此,没有直接理由认为各国之间会因此爆发 “军备竞赛”。需要注意的是,本节讨论的核心是事故风险(而非滥用风险),针对外国的网络攻击等内容不在此范畴,我们将在下一节探讨滥用问题。

与核能技术类比让这个问题更加清晰一些。AI 通常被类比成核武器。但是,在我们没有讨论军事 AI(我们同意这是一个值得怀疑的领域但是这篇文章不会展开讨论)带来的风险之前,这样的类比是错误的。当我们思考由于部署 AI 应用而产生事故时,更合适的类比是核能(而不是核武器)。核武器与核能差别解释了我们的观点——尽管过去出现核武器的军备竞赛,但是核能竞赛却从来没有发生过。实际上,由于安全问题对局部产生了影响,这项技术就会在很多国家引发了强烈的反对浪潮,这股反弹普遍被认为大大限制了这项技术的发展潜力。

从理论上讲,在大国冲突的背景下,政策制定者可能会选择在本国承担一定的安全成本,以确保本国的 AI 产业能够在全球竞争中胜出。但就目前而言,如果我们把重点放在 “采用 AI”(而非仅仅是 “开发 AI”)上,目前还没有迹象表明这种情况正在发生。美中之间所谓的 “军备竞赛” 更多是集中在模型开发(即技术发明)方面,而我们并没有看到相应的 “匆忙采用 AI” 现象。安全领域的专家应继续向政策制定者施加压力,以确保这种情况不会发生。与此同时,国际合作也必须发挥重要作用。

阅读笔记:确实如此,中美之间的竞争在创新和发明层面,而 “AI 的采用” 似乎并不是主战场。这就好比你把一个 AI 用在中国的金融公司的一个案例传播给美国公司的同行,似乎不太有现实意义,并且也是不适用的。所以军备竞赛在这里不成立。

防止滥用必须在模型的下游

模型对齐是一种防止模型被滥用的常规手段。它目前都是通过后训练来进行干预,比如在人类和 AI 的反馈下通过强化学习实现。然而不幸的是,通过模型对齐来防止滥用已经被证明是极其不稳定的。我们认为这一限制是内在的且难以克服,因此防止滥用的主要防线应设在其他环节。

基础性的问题是一种能力是否有害主要取决于上下文——而模型本身时常缺少上下文信息。

假设一名黑客发了一封钓鱼邮件,用 AI 技术去攻击大型企业的一位员工,攻击的链条可能包括很多的步骤:扫描社交媒体中的个人资料、根据公开的个人信息确定攻击目标、构建个性化的钓鱼消息、和利用窃取的凭证攻破账户。

这些步骤单独的看,没有一个原本是恶意的。而把这些能力组合在一起,系统才具备破坏性。这种破坏性的信息只存在于黑客编写的协调代码中,而不是在模型自身。写一封邮件,模型并不知道它是用在拓展市场还是网络钓鱼——所以基于模型的滥用干预是无效的。

阅读笔记:2025 年的 AI 已经延伸到智能体,而不只是模型本身,最终 AI 的系统将是智能体与模型的混合,并且两者的界限越发模糊。黑客行为链条也纳入 AI 的范畴的话,滥用防护就得在智能体上加以实施。

这里我们看到了一种重复出现的模式——试图让 AI 模型不被滥用就好比让计算机不被用来做不好的事情一样。模型层面的安全性控制要么会过于严格(会阻碍一些有益的场景),要么对能够将看似无害的能力用于有害目的的对手无效。

如果我们把 AI 模型看作一个可以由我们来决定安全事项的类人系统,那么模型对齐似乎是一种自然的防御手段。为了让这个机制能够正确地工作,我们需要给模型输入大量用户和上下文的信息——例如,广泛访问用户的个人信息将使其更容易判断用户的意图。但是,如果将 AI 视为普通技术,这样的架构会降低安全性,因为它违反了基本的网络安全原则,例如最小权限原则,并引入了新的攻击风险,例如个人数据泄露。

我们不是在反对模型对齐。在商业化的大语言模型产品中,它已经被证实可以有效的降低输出破坏性和偏见的结果。对齐还可以对付那些非专业的威胁行为者,给他们制造阻力。

然而,鉴于模型层面的防护措施不足以防止滥用,防御重点必须放在下游的攻击面上——也就是那些恶意行为者真正部署 AI 系统的地方。这些防御措施往往会看起来像是我们已经用来对付非 AI 威胁的老办法,针对在 AI 帮助下的新攻击方式,这些方法需要进行调整和加强。

我们再次考虑一下钓鱼邮件的例子。最有效的防御措施不是限制邮件写作功能(因为那样会影响正常用途),而是应该:通过邮件的扫描和过滤系统来发现可疑的模式、通过浏览器层面组织恶意网站、通过操作系统安全功能来拒绝非授权访问、和通过安全教育提高使用者的防范意识。

所有的这些途径都没有试图去阻止 AI 来生成钓鱼邮件。事实上,这些下游的防御措施在过去很多年来,非常有效地阻止了人类黑客的恶意攻击行为。虽然它们需要被加强来处理基于 AI 的攻击,但是背后的基本方法始终有效的。

在其他领域也是一样的道理:要防御由 AI 引发的网络威胁,最有效的办法是加强已有的漏洞检测机制,而不是去限制 AI 的能力本身。同样的,对于 AI 可能带来的生物风险(比如制造生物武器),更应该在采购和筛查材料的环节加强控制,而不是从源头就封锁 AI 工具。

AI 在防御上也有作用

我们不应该只是把 AI 的能力当成风险的来源,我们应该认可它在防御上的潜力。在信息安全中,通过脆弱自动检测、威胁分析、攻击面监控,AI 已经在努力强化防御的能力。

给防御方(比如安全人员)提供强大的 AI 工具,通常能提升他们的防御能力,让他们比攻击者更占优势。这主要是因为,防御方可以先于攻击方去使用 AI 全方位地探究系统并找到和修复那些安全漏洞和隐患。例如,Google 最近就将语言模型集成到他们的模糊测试工具中,用来测试开源软件,并且比传统方法更有效地发现了潜在的安全问题。

其他领域也是如此。在生物安全上,AI 可以增强筛查系统,以便识别危险的生物序列。在内容审核领域,AI 可以帮助识别那些背后有组织、有目的的操控舆论的行动。这些防御性的应用告诉我们一味地限制 AI 的开发可能导致后院起火——我们需要强大的 AI 系统站在防御防去抵御利用 AI 发起的威胁。如果我们坚持去对齐语言模型,那么它们在这些任务上将不再有用(例如发现关键网络架构中的缺陷),防御者也将失去对这样强大系统的利用。但是,对手可以训练自己的 AI 工具来发动此类攻击,从而在攻击能力增强的同时,防御能力却没有相应提升。

阅读笔记:十年前,骚扰诈骗电话盛行,我开始思考 AI 的一个应用场景:是否可以用 AI 来替我们接电话和分析语音内容,以此来甄别和避免诈骗的发生。然而,骗子也可以使用 AI 去提高骗术,绕过用户的甄别器。于是,一个攻防战场就此构建出来,这与病毒防火墙和病毒制造的战场一样。菜刀可以用来切菜,也可以用来剥夺他人的生命,我们不能因此而禁售菜刀。同样,我们必须鼓励模型的开发和使用,而不是去限制模型的能力本身。

我们不应仅仅以进攻能力来衡量 AI 的风险,而应关注每个领域中进攻与防御的平衡指标。此外,我们应认识到自己有能力积极调整这一平衡,通过投资防御性应用来实现,而不是试图限制技术本身的发展。

灾难性偏离目标是一种推测性风险

偏离目标的 AI 表现为行为与开发者或用户的期望不一致(术语 “一致”,alignment,被以不同的方式使用,在此我们不讨论其他定义)。与滥用场景有所差别,在偏离目标的情境中,使用者并没有表现出恶意的动机。而与事故不同的是,在这种情况下系统按设计或指令运行,但由于难以完全且正确地指定目标,所以导致该设计或指令本身并未符合开发者或用户的真实意图。与日常的偏离目标案例(例如聊天机器人产生有害输出)不一样,我们在这里关注的是高级 AI 的偏离目标并导致灾难性或生存层面的危害。

在我们的观点中,防止偏离目标也是依赖于模型的下游。在前文中提到的防止滥用的手段——从强化关键架构设计到提高网络安全——也同样可以被用来预防系统偏离目标的风险。

在 AI 只是一个 “普通的” 技术的视角下,灾难性偏离目标是我们讨论的所有风险中最难以让人推测的。但是,什么是难以推测的风险——不是所有的风险都难以推测吗?这一区别归结为两种类型的不确定性,以及与之对应的不同概率解释方式。

2025 年初,当天文学家评估小行星 YR4 在 2032 年撞击地球的概率约为 2% 时,这个概率反映的是测量上的不确定性。在此类情境中,实际的撞击概率(如果没有干预)要么是 0%,要么是 100%。在 YR4 的案例中,进一步的观测消除了这种 “认知不确定性”(epistemic uncertainty)。相反的,当某个分析人士预测未来十年发生核战争的风险(比如说)10% 时,这个数字主要反映的是 “随机不确定性”(stochastic uncertainty),即未来式如何展开的是我们现在不知道的,这种不确定性通常无法通过进一步观察来消除。

推测性的风险,我们认为它代表着一种认知的不确定性,即尚不清楚真实风险是否为零的情况——这种不确定性有可能通过进一步的观察或研究来消除。小行星 YR4 对地球的影响就是一个推测性风险,而核战争不是。

为了更好的解释灾难性偏离目标是一个推测性风险,我们来考虑一个著名的思想实验——它最初的目的是为了展现偏离目标的危害性的。这个实验涉及一个 “回形针最大化器”(paperclip maximizer)的概念:一个被赋予了尽可能多制造回形针这一目标的 AI。我们的担忧在于,这个 AI 会按照字面理解这个目标:它会意识到通过获取世界上的权力和影响力,并控制所有资源,有助于实现这个目标。一旦它掌握了全部的力量,可能会占用世界上所有的资源,包括人类生存所需的资源,用来制造回形针。

阅读笔记:思想实验 “回形针最大化器”(Paperclip Maximizer),由瑞典哲学家尼克·博斯特罗姆(Nick Bostrom)在 2003 年提出。这个思想实验旨在说明,如果一个超级智能人工智能(AI)被赋予一个看似无害但目标狭隘的任务,如 “制造尽可能多的回形针”,在没有适当约束的情况下,它可能会采取极端手段(获取地球上所有资源、防止人类关闭它、可能会选择消除人类如果有人类阻止他完成这个任务)来实现这一目标。

人们担心 AI 系统可能会对指令产生灾难性的误解,这种担忧基于对现实世界技术部署方式的可疑假设。在系统被赋予重大决策权限之前,它必须在较不关键的环境中证明其可靠的表现。任何过于字面理解指令或缺乏常识的系统,都无法通过这些初期测试。

再考虑一个更简单的案例:一个机器人被要求 “以尽可能快的速度从商店获得回形针”。系统在按照字面意思去解释这个指令的时候,通常会忽略交通规则甚至去尝试盗窃。这种行为会导致系统被立即关闭并重新设计。技术被采纳的过程本质上要求它在越来越重要的场景中表现出恰当的行为。这不是幸运的偶然,而是组织采用技术的根本特征。

一个更加复杂的关于这种担忧的版本是基于一个概念 “欺骗性一致”——当系统在评估或是部署的早期,系统的行为表现与目标完全一致,但是它会在获得足够的权利后放任破坏性行为的存在。一定程度的欺骗一致性现象已经在头部的 AI 模型中被察觉到。

从超级智能的视角来看,欺骗一致性就像一个定时炸弹——由于具备超级智能,这个系统将轻而易举地躲避人类检测其是否真正符合一致性的所有尝试,并会耐心等待时机。但从 “普通的” 技术观点来看,欺骗只是一个工程问题,尽管重要,但可以在开发和部署过程中加以解决。确实,它已经成为对超强 AI 模型进行安全评估的一个标准过程。

至关重要的是,AI 在这个过程中也是有用的。AI 的强大优势不仅仅会制造欺骗,同时也可以提升检测欺骗的能力。在网络安全中,防御者会有更多的非对称优势,包括能够检查目标系统内部构成(这个优势是否有效依赖于我们的系统设计以及我们在可解释性技术上的投入)。另一种优势是纵深防御,而且许多针对滥用以及偏离目标 AI 的防御措施都将部署在 AI 系统下游的位置。

偏离目标的担忧尝尝基于这样一种假设:AI 系统都是自主的在执行,它可以给出很多极其重要的决定,并且脱离人类的监督。但是,正如我们在第二部讨论的那样,人类的控制始终占据着 AI 部署的中心位置。已经在关键性决策周围存在的制度性管控——从财务控制到安全控制——构建起了多道防御灾难性偏离目标风险的防护网。

比起其他因素,一些技术设计的决定是导致偏离目标的首要因素。这方面一个臭名昭著的例子是:使用强化学习在较长时间范围内优化某一个目标函数(该函数可能被意外地指定不全或指定错误)。游戏智能体中有很多令人发笑的例子,比如一个赛艇游戏的智能体学会了在同一区域不断绕圈,以反复击中目标得分,而不是朝终点前进。重申一点,我们认为在开放式的现实世界场景中,以这种方式设计的智能体是无效的,而不是危险的。无论如何,一个重要的研究方向变成了——探索不那么容易被 “规则漏洞” 利用的替代设计范式。

阅读笔记:OpenAI 在研究中发现了一个生动的例子:在名为 CoastRunners 的竞速游戏中,AI 代理的目标是尽快完成比赛。然而,游戏中的奖励机制是基于收集赛道上的目标物(如绿色方块)来得分。结果,AI 代理学会了一种策略:在一个孤立的环礁湖中不断转圈,反复收集这些目标物,从而获得高分,而不是完成比赛。这个结果反映出强化学习算法和奖励机制的局限性(或者说是有 Bug),但是偏离目标是显而易见的。这在人类看更像是钻规则的漏洞。

简而言之,关于 “回形针最大化者” 情景存在非零风险的论点,基于一些可能成立也可能不成立的假设。我们认为,通过研究可以更好地判断这些假设是否适用于正在构建或设想的各类 AI 系统。基于这些原因,我们将其称为 “推测性” 风险,并将在第四部分探讨这一观点的政策含义。

历史告诉我们 “普通的” AI 可能引入各种系统性风险

尽管前文讨论的风险有可能是灾难性的或毁灭人类的,但是在这个等级之下,我们会看到一长串的 AI 风险,它们规模大且具有系统性,可以超过任何单一 AI 系统的直接影响。这些风险包括:系统性的强化偏见和歧视、某个行业失去大量的工作、劳动状况恶化、不平等增加、权利集中、社会信任被侵蚀、信息生态系统污染、新闻自由的衰落、民主倒退、监控泛滥、和助长威权主义。

阅读笔记:欧美国家更关注 AI 带来的就业替代、算法偏见、隐私侵犯等问题。例如,美国公众对 AI 的信任度较低,部分原因是对技术失控和数据滥用的担忧 。欧美在 AI 伦理和监管方面投入较多,强调透明度、公平性和问责制。而中国则更侧重于 AI 在社会治理和经济发展中的应用,监管更多集中在内容控制和社会稳定方面。虽然中国在某些 AI 系统性风险方面的表现与欧美不同,但这并不意味着风险不存在,而是它们可能以不同的形式出现,并受到不同的关注和处理。

如果 AI 是一个 “普通的” 技术,这些风险就变得比前面的提到的灾难性风险更加重要。这是因为这些风险源于人们和组织为了自身利益而使用 AI,然后 AI 只是放大了我们社会中已有的不稳定因素。

在历史上,很多革新性技术出现后,都造成了社会和政治的扰乱。值得注意的是,工业革命带来了快速的大规模城市化,这一过程伴随着恶劣的工作条件、剥削和不平等现象,不仅催生了工业资本主义,也引发了社会主义和马克思主义的发展作为回应。

我们建议的关注重点的转变,大致对应了 Kasirzadeh 所区分的 “决定性风险(decisive x-risk)” 与 “累积性风险(accumulative x-risk)”。决定性风险指的是 “明显的 AI 接管路径,例如无法控制的超级智能” 所引发的场景;而累积性风险则是指 “AI 所导致的一系列严重威胁的逐步积累,如严重漏洞和经济政治结构的系统性侵蚀”。但两者之间也存在重要差异:Kasirzadeh 所描述的累积性风险在很大程度上仍依赖于诸如网络攻击者等威胁行为体,而我们关注的核心则是当前资本主义路径本身所带来的问题。我们认为,这类风险虽然不太可能导致人类灭绝,但依然极其严重。

第四部分:政策

阅读笔记:第四部分更多的在给政策的制定者提供建议,讨论 AI 治理的挑战、目标、策略,以及从 AI 扩散中收益。如果只是对 AI 的现状和将来预测感兴趣,可以直接跳过这部分的内容,绝大多数人都不是这部分的潜在读者。

AI 未来的是什么——是一个普通的技术还是一个可能失控的超级智能——这个分歧给政策的制定者带来了一个窘境,因为预防其中的一些风险会让另外的风险变得更糟糕。我们提供了一系列的原则来处理这个不确定性。更具体地说,政策制定者应以韧性为核心策略,即现在就采取行动,以提高我们未来应对意外事态发展的能力。政策制定者应该拒绝不扩散,因为它违反了我们概述的原则,并降低了韧性。最后,阻碍扩散的不利因素意味着 AI(AI)的好处并非唾手可得,需要政策制定者采取行动。

关于 AI 的治理,人们已经讨论了很多。我们的目标不是提出一个全面的治理框架;我们只是强调将 AI 视为普通技术的政策含义。

在不定性中制定政策的挑战

关于 AI 安全性的不同论述,都是基于世界观的不同的。我们认为这种不同不大可能自行消失。对 AI 的治理,形成了根深蒂固的阵营:AI 安全联盟已经根基稳固,而那些对灾难性风险持更怀疑态度的人则在 2024 年团结在一起,尤其是在关于加州 AI 安全法案的辩论过程中。同样,AI 安全阵营的思想根源要早得多,而采纳 “普通的” 技术范式的学术研究正在逐步形成;包括本文在内,我们许多工作的目标就是为常态思维奠定更坚实的思想基础。

我们支持关于减少社区内两极分化和碎片化的呼吁。即使我们改善了话语的基调,我们可能仍会面临世界观和认知实践上的差异,这些差异不太可能通过经验得到解决。因此,关于 AI 风险的 “专家” 共识不太可能实现。两个阵营所设想的 AI 风险情景截然不同,商业行为者抵消这些风险的能力和动机也同样如此。面对这种不确定性,政策制定者应该如何应对?

在政策制定中,一种自然的倾向是妥协。但这不太可能奏效。一些干预措施,例如提高透明度,对于风险缓解是无条件有益的,无需妥协(或者说,政策制定者将不得不平衡行业和外部利益相关者的利益,这在很大程度上是一个正交维度)。其他干预措施,例如不扩散,可能有助于遏制超级智能,但通过增加市场集中度来加剧与普通技术相关的风险。反之亦然:通过促进开源 AI 等方式提高韧性将有助于治理普通技术,但也有可能释放出失控的超级智能。

这种张力是不可避免的。防范超级智能需要人类团结起来对抗共同的敌人,可以说,这需要集中权力和对 AI 技术进行中央控制。但我们更担心的是人们将 AI 用于自身目的所带来的风险,无论是恐怖主义、网络战、破坏民主,或者仅仅是——也是最常见的——加剧不平等的掠夺性资本主义。抵御这类风险需要通过防止权力与资源集中来提高韧性(这通常意味着让强大的 AI 更广泛地可用)。

在不确定性中寻找出路的一种常见方法是估计各种结果的概率,然后进行成本效益分析。AI 安全社区非常依赖对灾难性风险,特别是生存风险的概率估计,以指导政策制定。其理念很简单:如果我们认为某个结果具有主观价值或效用 U(可以是正值或负值),并且它有比如 10% 的发生概率,那么我们就可以像它必然会发生且价值为 0.1×U 那样行事。然后我们可以将每个可用选项的成本和收益相加,并选择使成本减去收益最大化的选项(即 “预期效用”)。

在最近的一篇文章中,我们解释了为什么这种方法是不可行的。AI(AI)风险的概率缺乏有意义的认知基础。有根据的概率估计可以是归纳性的,基于过去类似事件的参考类别,例如汽车保险定价中的车祸。或者可以是演绎性的,基于对所讨论现象的精确模型,如扑克牌。不幸的是,在 AI 风险方面,既没有有用的参考类别,也没有精确的模型。实际上,风险估计是 “主观的”——预测者个人的判断。由于缺乏任何依据,这些估计往往差异巨大,通常相差几个数量级。

除了概率之外,计算中的其他组成部分——各种政策选择(包括不作为)的后果——也存在巨大的不确定性,不仅在程度上,而且在方向上。我们无法可靠地量化由于限制 AI 可用性政策而放弃的利益,并且我们将在下文论证,不扩散可能会使灾难性风险变得更糟。

此外,我们对某些结果所赋予的效用可能取决于我们的道德价值观。例如,一些人可能认为灭绝具有深不可测的巨大负面效用,因为它排除了未来可能存在的所有人类生命,无论是物理的还是模拟的。当然,涉及无穷大的成本效益分析往往会得出荒谬的结论。

另一个例子是,限制自由的政策与不限制自由的政策之间存在不对称性(例如,要求某些 AI 模型获得许可与增加开发应对 AI 风险的防御措施的资金)。某些类型的限制违反了自由民主的核心原则,即政府不应基于合理的人们可以拒绝的有争议的信念来限制人民的自由。正当性对于政府的合法性及其权力的行使至关重要。目前尚不清楚如何量化违反此类原则的成本。

当然,论证的重要性当然可以在规范层面进行辩论,但从经验来看,迄今为止,它似乎在 AI 政策中得到了证实。正如前面提到的,加州的 AI 安全法规导致了反对该法案的人士抱团。反对阵营中的一些成员是自私自利的公司,但另一些则是学者和进步倡导者。根据我们的经验,在许多情况下,第二群体的主要动机是政府越权,因为对于那些不认同该法案未声明前提的人来说,所提出的理由是多么缺乏说服力。

价值观和信仰上不可避免的差异意味着政策制定者必须采纳价值多元主义,偏好那些能被具有广泛价值观的利益相关者所接受的政策,并努力避免利益相关者可以合理拒绝的自由限制。他们还必须优先考虑稳健性,偏好那些即使其关键假设被证明是错误的,也仍然有效或至少无害的政策。

降低不确定性作为政策制定的一个目标

尽管由于上面讨论的原因,我们无法消除不确定性,但是它可以被降低。然而,这个目标不应该留给专家们。政策的制定者必须站出来承担更多的责任。我们推荐如下的五个方法:

政策类型 如何帮助获取信息 示例(包括非 AI 领域)
举报人保护 内部人员可能掌握无法曝光的危险应用信息 各种安全领域的举报人保护,如食品安全和工人安全
基于部署者的透明度要求 聊天机器人等技术部署者拥有大量日志数据,显示其在实际使用中如何被滥用 社交媒体透明度报告要求,以揭示有害内容的传播
政府使用清单 政府透明度以增进信任 2020 年美国行政命令
产品注册 追踪部署速度 美国联邦航空管理局 (FAA) 无人机注册要求
事件报告 促成案例研究和统计分析,以提高安全知识 工作场所或道路事故报告要求
已部署系统红队安全港 鼓励对实际部署系统中漏洞的研究 《数字千年版权法案》(DMCA) 网络安全研究安全港

图 6:关于可以增加 AI 使用、风险和失效的信息公开一些政策的类型

对风险研究进行战略性资助。当前 AI 安全研究严重侧重于有害能力,并未采纳普通技术视角。对技术能力下游问题的关注不足。例如,关于威胁行为者如何实际使用 AI 的知识严重匮乏。AI 事件数据库等努力确实存在并且很有价值,但数据库中的事件来源于新闻报道而非研究,这意味着它们经过了此类事件成为新闻所经历的选择性和有偏见的过程的过滤。

幸运的是,研究资助是一个可以健康妥协的领域;我们倡导增加对风险(和收益)研究的资助,以解决在常态技术视角下更相关的问题。其他可能减少或至少澄清不确定性的研究类型包括证据综合工作以及持不同世界观研究人员之间的对抗性合作。

对 AI 的使用、风险和故障进行监测。虽然研究资助有助于监测实际应用中的 AI,但也可能需要监管和政策——即 “寻求证据的政策”。我们在图 6 中提出了一些此类政策。

对证据价值的指导。政策制定者可以指导研究界,使其更好地理解哪种证据是有用且可操作的。例如,各种政策制定者和咨询机构已经表明,“边际风险” 框架对于分析开源模型和专有模型的相对风险很有用,这有助于指导研究人员未来的研究。

将证据收集作为首要目标。到目前为止,我们已经讨论了专门旨在产生更好证据或减少不确定性的行动。更广泛地说,在评估任何 AI 政策时,可以将其对证据收集的影响与对最大化收益和最小化风险的影响一并考虑。例如,支持开源模型和开放权重模型的一个原因可能是为了促进对 AI 风险的研究。反之,支持专有模型的一个原因可能是更容易对其使用和部署进行监控。

韧性的案例

Marchant 和 Stevens 描述了治理新兴技术的四种方法;参见图 7。其中两种是事前方法:风险分析和预防;另外两种是事后方法:责任和韧性。这些方法各有优缺点,并且可以相互补充;尽管如此,有些方法显然比其他方法更适合某些技术。

Marchant 和 Stevens 认为(我们也同意),事前方法不适合 AI,因为在部署前难以确定风险。责任方法表现较好,但也存在重要局限性,包括因果关系的不确定性以及它可能对技术发展产生的寒蝉效应。

方法 含义 适合作为主要监管策略的技术/风险示例
风险分析 对风险发生的可能性进行科学评估,并结合风险管理规定 一种新化学物质
预防原则 在有充分安全证据之前,限制该技术的使用 病毒的基因改造
责任机制 使开发者或部署者对任何损害承担经济责任 自动驾驶汽车事故
韧性策略 尽量减少伤害的严重程度和持续时间(而非减少伤害发生的可能性) AI

图 7. 基于 Marchant 和 Stevens 的新兴技术治理四种方法总结

他们将韧性定义为:韧性,其最简单的形式,是系统应对伤害的能力。[脚注已省略] 韧性方法不一定试图维持稳定或平衡。相反,它认识到复杂系统中的变化是不可避免的,并试图以保护和保持原始系统的核心价值和功能的方式来管理和适应这种变化。因此,韧性是 “一个系统在经历冲击时仍能保持基本相同的功能、结构、反馈以及身份的能力。” 韧性被描述为一种策略,旨在确保在重大的外部冲击或破坏造成损害后实现 “软着陆”。

在 AI 的语境中,伤害可能源于特定已部署系统中的事件,无论这些事件是意外还是攻击。也可能存在不一定会造成伤害的冲击,包括攻击能力(例如赋能生物恐怖分子)的突然增强,以及能力通过发布开源模型或窃取专有模型的权重而突然扩散。我们认为,韧性既要求在伤害发生时将其严重性降至最低,也要求在冲击发生时将伤害的可能性降至最低。

韧性结合了事前和事后方法的要素,包括在伤害发生之前采取行动,以便在伤害发生时能够更好地限制损害。许多基于韧性的治理工具有助于缓解 “步速问题”(pacing problem),即传统的治理方法无法跟上技术发展的速度。

许多针对 AI 的韧性策略已经被提出,它们可以分为四大类。前三类是 “不后悔” 政策,无论 AI 未来如何发展,它们都将有所助益。

广泛的社会韧性: 重要的是要加倍努力保护民主的基础,特别是那些被 AI 削弱的基础,例如新闻自由和公平的劳动力市场。AI 的进步并非现代社会面临的唯一冲击,甚至不是唯一的技术冲击,因此无论 AI 的未来如何,这些政策都将有所帮助。

有效技术防御和政策制定的前提条件: 这些干预措施通过加强技术和机构能力,使下一类措施得以实施。例子包括资助更多关于 AI 风险的研究、对高风险 AI 系统开发者的透明度要求、在 AI 社区中建立信任和减少碎片化、提高政府的技术专业知识、加强 AI 领域的国际合作以及提高 AI 素养。即使事实证明我们对 AI 当前或未来的影响有误,这些措施也将有助于建立技术和机构能力以缓解 AI 风险。

无论 AI 未来如何,都有帮助的干预措施:这些措施包括开发早期预警系统,开发针对已识别的 AI 风险的防御措施,激励防御者(例如网络攻击中的软件开发者)采用 AI,为研究人员提供法律保护,以及不良事件报告要求和举报人保护。

提升韧性的干预措施,如果 AI 是普通技术,将会有所帮助,但可能会使控制潜在的超级智能 AI 变得更加困难,例如:促进竞争(包括通过开放模型发布),确保 AI 广泛可用于防御,以及多中心化(这要求监管机构多样化,理想情况下在它们之间引入竞争,而不是让一个监管机构负责所有事情)。

我们希望,即使在对 AI 风险和未来轨迹持截然不同观点的专家和利益相关者之间,也能就前三类达成共识。我们建议,目前政策制定者也应谨慎地推行最后一类干预措施,但同时也应提高改变策略的准备,以防 AI 的轨迹发生变化。

不扩散难以强制执行并会导致单点故障

不扩散政策旨在限制能够获得强大 AI 能力的参与者数量。例子包括:对硬件或软件进行出口管制,旨在限制国家构建、获取或运行强大 AI 的能力;要求许可才能构建或分发强大 AI;以及禁止开放权重 AI 模型(因为它们的进一步扩散无法控制)。

如果我们认为未来的 AI 是超级智能,那么非扩散似乎是一种有吸引力的干预措施,甚至可能是必要的。如果只有少数参与者控制着强大的 AI,政府就可以监控他们的行为。

不幸的是,构建有能力的 AI 模型所需的技术知识已经广泛传播,许多组织共享其完整的代码、数据和训练方法。对于资金充足的组织和国家来说,即使训练最先进模型的高昂成本也微不足道;因此,非扩散将需要前所未有的国际协调水平。此外,算法改进和硬件成本降低不断降低进入门槛。

强制执行非扩散面临严峻的实际挑战。恶意行为者可以简单地无视许可要求。随着训练成本的降低,监视模型训练的数据中心的建议变得越来越不切实际。随着能力的变得越来越容易获得,维持有效的限制将需要越来越严厉的措施。

非扩散引入了新的风险:它将减少竞争,增加 AI 模型市场的集中度。当许多下游应用程序依赖相同的模型时,该模型中的漏洞可以在所有应用程序中被利用。软件单一文化的网络安全风险的一个经典例子是 2000 年代针对微软 Windows 的蠕虫病毒的扩散。

依赖非扩散会在面对冲击(例如模型权重泄露、对齐技术失败或对手获得训练能力)时产生脆弱性。它将注意力从更强大的防御措施上转移开,这些防御措施侧重于 AI 风险可能实现的下游攻击面。

非扩散带来的风险不仅仅是单点故障——当开发最先进模型所需的专业知识仅限于少数公司时,只有他们的研究人员才能获得安全研究所需的深度访问权限。

为了倡导非扩散,人们援引了许多 AI 的潜在滥用,包括化学、生物和核威胁,以及网络攻击。

生物武器的风险是真实存在的。由于大型语言模型是通用技术,它们很可能会被生物恐怖分子利用,就像它们在大多数领域都被利用一样。但这并不能使生物恐怖成为 AI 风险——就像它不是互联网风险一样,考虑到生物武器信息在网上广泛可用。我们针对现有生物恐怖主义风险(例如限制危险材料和设备的获取)所采取的任何防御措施,也将对 AI 驱动的生物恐怖主义有效。

在网络安全方面,正如我们在第三部分讨论的那样,自动化漏洞检测的进步往往有利于防御者而不是攻击者。除非这种攻防平衡发生变化,否则试图限制这些能力的扩散将适得其反。

长期以来,人们一直认为政府在许多文明风险领域(例如流行病预防)投资不足。如果恶意行为者利用 AI 来利用这些现有漏洞的可能性增加了解决这些问题的紧迫性,那将是一个好的结果。但将现有风险重新定义为 AI 风险并优先考虑 AI 特定的缓解措施将是极具 B. 反作用的。

非扩散是一种心态,而不仅仅是一种政策干预。这种心态可以被模型和下游开发者、部署者和个人所采纳。它不仅涉及技术获取的集中,还涉及对它们的控制。考虑 AI 系统控制中心(从集中到分散)的层级:政府、模型开发者、应用程序开发者、部署者和最终用户。在非扩散的心态下,控制在尽可能高的(最集中的)级别行使,而在韧性心态下,它通常在尽可能低的级别行使。

以下是非扩散性干预措施的例子:

除少数例外,我们认为基于不扩散的安全措施会降低韧性,从而从长远来看加剧 AI 的风险。它们导致的设计和实施选择可能在权力意义上促成超级智能——增加自主性、组织能力、资源访问等水平。矛盾的是,它们增加了本应防御的风险。

实现 AI 的效益

AI 作为普通技术的观点产生了一个重要结果是,AI 并非自动发生并且在扩散中存在许多障碍。正如 Jeffrey Ding 所示,在整个经济中扩散创新的能力因国家而异,并对其整体实力和经济增长产生重大影响。正如上文所述的工厂电气化为例,扩散可能成为瓶颈。政策可以缓解或加剧这些障碍。

实现 AI 的效益将需要实验和重新配置。对这些需求不敏感的监管有扼杀有益 AI 应用的风险。监管往往会创建或固化类别,从而可能过早地冻结商业模式、组织形式、产品类别等。以下是一些例子:

明确地说,监管与扩散并非虚假权衡,正如监管与创新也并非虚假权衡一样。 上述例子都不是反对监管的论据;它们仅仅说明了细致入微和灵活变通的必要性。

此外,监管在促进扩散方面扮演着至关重要的角色。 举一个历史例子,美国 2000 年的《电子签名法案》(ESIGN Act)在推动数字化和电子商务方面发挥了关键作用:确保电子签名和记录具有法律效力,有助于建立人们对数字交易的信任。

在 AI 领域,也有许多促进扩散的监管机会。举例来说,将新闻和媒体内容整合到聊天机器人和其他人工智能界面中,受到媒体机构对人工智能公司的正当警惕的限制。迄今为止达成的人工智能与新闻业的大部分交易都是剥削性的,因为人工智能公司与出版商之间的权力不对称,以及后者无法进行集体谈判。在监管监督下进行强制性谈判的各种模式是可能实现的。(可以说,此类监管更重要的原因是保护出版商的利益,我们将在下文重新讨论)。

在存在法律或监管不确定性的领域,监管可以促进扩散。责任法对人工智能的适用性往往不明确。例如,小型无人机领域就是这种情况,直到美国联邦航空管理局(FAA)在 2016 年对这个新兴行业进行监管,建立了明确的规则和要求。由此产生的清晰性刺激了采用,并导致注册无人机、认证飞行员和不同行业用例的数量迅速增加。

除了政府作为监管者的角色,促进人工智能扩散的一个强大策略是投资于自动化补充物,即随着自动化程度的提高而变得更有价值或更必要的事物。一个例子是促进人工智能素养以及公共和私营部门的劳动力培训。另一个例子是数字化和开放数据,特别是开放政府数据,这可以让人工智能用户从以前无法访问的数据集中受益。私营部门很可能会在这些领域投资不足,因为它们是所有人都可以受益的公共产品。对能源基础设施(例如电网可靠性)的改进将促进人工智能创新和扩散,因为它将有助于人工智能训练和推理。

政府在重新分配人工智能效益以使其更加公平以及补偿因自动化而可能蒙受损失的人方面也扮演着重要角色。加强社会保障网络将有助于降低许多国家目前公众对人工智能的高度焦虑。艺术和新闻业是受人工智能损害的重要生活领域。政府应考虑通过对人工智能公司征税来资助它们。

最后,政府在公共部门采纳人工智能方面应把握好微妙的平衡。行动过快将导致信任和合法性的丧失,就像纽约市聊天机器人一样,它显然测试不足,并因告诉企业违法而登上新闻头条。美国政府效率部门(DOGE)使用人工智能的许多应用都值得怀疑。但行动过慢可能意味着基本的政府职能被外包给私营部门,在那里它们的问责制较低。

例如,税收和福利等领域的规则复杂性意味着人们经常求助于聊天机器人寻求指导,而政府目前在提供此类服务方面远远落后,原因是对所涉及风险的可以理解的谨慎。

但行政部门应对这些风险的方法过于谨慎,被 Nicholas Bagley 描述为一种 “程序迷恋”,可能导致 “失控的官僚机构”。除了失去人工智能的效益之外,Bagley 警告说,无能的表现将导致政府机构失去它们通过强调程序和问责制所寻求获得的合法性。

最后的一些想法

与把 AI 看成是一个马上就要实现的超级智能相对,AI 只是一个普通的技术是另一个世界观。世界观通常是由很多内容组成:假设、词汇表、证据的解释、认知工具、预测、和(可能的)价值。每个因素相互影响和作用,对彼此影响,并最终构成一个完整的世界观。

举个例子,我们假定,不论 AI 和过去的技术有多少明显的不同,它们都足够的相似。因此在没有具体相反证据的情况下,我们应该预期诸如扩散理论等既定模式也适用于 AI。

词汇差异可能有害,因为它们可能掩盖了潜在的假设。例如,我们不认同对超级智能这一概念的普遍理解所必需的某些假设的意义。

关于 AI 未来的差异,往往部分源于对当前证据的不同解读。例如,我们十分不认同将生成式 AI 的采纳描述为会迅速发生(这强化了我们关于 AI 扩散与过去技术相似的假设)。

在认识论工具方面,我们淡化了概率预测,并强调在从过去推断未来时,需要对我们所说的 AI 进行细分(通用性水平、方法进展与应用开发与扩散等)

阅读笔记:这个总结,是作者站在事物发展连续性这样一种世界观上,通过对当前的证据进行分析,给出一种 AI 发展趋势的解读的,最后再提出如何去应对的策略的。这种假设->定义->分析->预测->应对的科学研究的逻辑链条,不单单可以用在 AI 的发展预测上,也可以用在各个领域。

我们认为我们世界观的某个版本得到了广泛认同。不幸的是,它没有被明确阐述,也许是因为对于持有这种观点的人来说,它可能看起来是默认的,而阐述它可能显得多余。然而,随着时间的推移,超级智能观点在 AI 话语中占据主导地位,以至于沉浸其中的人可能无法认识到还存在另一种连贯的方式来概念化 AI 的现在和未来。因此,可能难以认识到不同的人为什么会对 AI 的进展、风险和政策真诚地持有截然不同意见的根本原因。我们希望本文能在促进更大的相互理解方面发挥微薄的作用,即使它不能改变任何信念。

致谢

我们深切感谢 Gillian Hadfield、Seth Lazar 以及我们匿名的同行评审员,他们在 Knight 第一修正案研究所关于人工智能与民主自由的研讨会期间和之后,对我们的论文提供了详细的评论。我们还要感谢研讨会的参与者,包括 Alex Abdo、Borhane Blili-Hamelin、Kevin Feng、Henry Farrell、Katy Glenn-Bass、Atoosa Kasirzadeh、Sydney Levine、Nik Marda、Deirdre Mulligan 和 Daniel Susskind。我们很幸运能收到许多其他人的草稿反馈,包括 Shazeda Ahmed、Dean Ball、Nicholas Carlini、Alan Chan、Ajeya Cotra、Justin Curl、Jeffrey Ding、Benjamin Edelman、Jobst Heitzig、Noam Kolt、Mihir Kshirsagar、Timothy B. Lee、Steve Newman、David Robinson、Matthew Salganik、Zachary Siegel、Ollie Stephenson 和 Zach Vertin。我们感谢 Shira Minsk 和 Mandy Soulsby-Bodart 提供的编辑支持。最后,我们感谢澳大利亚国立大学 MINT 实验室成员以及普林斯顿大学 “预测的局限性” 课程学生提供的反馈。

© 2025, Arvind Narayanan 和 Sayash Kapoor 引用方式:Arvind Narayanan 和 Sayash Kapoor,《人工智能即普通技术》,25-09 Knight First Amend. Inst. (2025年4月14日),AI as Normal Technology | Knight First Amendment Institute [Perma | AI as Normal Technology | Knight First Amendment Institute]。

[略去 119 个引用的链接和翻译]

Arvind Narayanan 是普林斯顿大学计算机科学教授,并曾于 2022-2023 年担任 Knight 研究所的访问高级研究科学家。

Sayash Kapoor 是 Mozilla 的高级研究员,普林斯顿大学人文价值中心的 Laurance S. Rockefeller 研究员,以及普林斯顿大学信息技术政策中心的计算机科学博士候选人。

阅读笔记:就像作者说的,本文没有打算过多的证明自己观点的正确性,而只是提供了一个理解 AI 的世界观。它是面向社会和从人文角度去理解 AI 的,并且也在呼吁决策者去采取合适的法规政令去迎合 AI 的发展,而不要意味的限制和打压。这样的内容似乎与当下中国 AI 研发现状多有不符,或者你会觉得大部分内容远离你的实际工作,有种彼此在两个不同的时空之中的推测。但是,不可否认的是,我们需要秉持一种世界观,去看待和解释这个世界,然后再去适应它和改造它,同与你想法不可能一致的他们一起。


↙↙↙阅读原文可查看相关链接,并与作者交流