这是鼎叔的第一百四十篇原创文章。行业大牛和刚毕业的小白，都可以进来聊聊。
欢迎关注公众号《敏捷测试转型》，星标收藏，大量原创思考文章陆续推出。
具身智能是 AI 和物理世界的交集，就像 RWA 是传统金融和区块链金融的交集一样。这篇用大白话聊聊对具身智能现状和未来发展的观点。

之前聊过，人工智能演进史分为三大流派:符号主义，联结主义和行为主义。

三大流派与具身智能
个人理解，符号主义构建了智能体的精准运算和操作逻辑，联结主义升级了智能体的语言理解和决策效率，行为主义则让智能体在现实世界飞速成长。
一
符号主义认为，一个拥有智能的物理符号系统需要包括以下功能:
输入符号。类似人类的眼睛、耳朵、鼻子，计算机用键鼠、语音识别、手势输入。
输出符号。计算机借助屏幕和打印设备输出，类似人类用文字、语音和肢体输出表达内容。
存储符号和复制符号。人类用记忆存储信息，计算机用硬盘、光盘等介质存储数据。人类通过重复外界刺激强化记忆，计算机则可以轻松复制。
建立符号结构，找到各种符号之间的关系，归纳出新的系统结构。这就对应人类的归纳法，和计算机的数据结构与函数。
条件迁移。依赖已经掌握的符号完成任务，把已有的知识扩展到新领域。
符号主义认为，人具有智能，所以人就是一个物理符号系统。专家系统就是这类著名的应用。
二
联结主义学派并不排斥符号主义，他们认为，符号代码只是工具，并非实现智能的唯一途径。解决智能问题需要依赖常识。
机器人在某些挑战上不管多么出色，仍然无法胜任简单的家务需求。后者需要的感知和运动能力是人类或其他生物在百万年的自然选择中逐渐习得的，而 AI 训练则缺失了巨大的相关样本。
有些问题即使能够被形式化，也不一定能归纳出算法。因为程序并没有自主的目标，只是老老实实执行，不知道如何验证目标是否达成。另外，很多问题需要的计算复杂度远超过普通计算机的能力。
能不能把常识一条条输入计算机呢?
也不行，因为人类的常识量极其惊人，另外，常识也不是多多益善，需要针对场景来筛选有效性。计算机也没有演化出人类的前额叶皮质这种神奇的外挂器官。
联结主义学派通过感知机来模拟神经元的工作方式:接收信息，分配权重，激活决策，得出最终答案，学习改进（即调整权重）。它和符号主义的区别是分布式并行，冗余容错，并能自适应变化。
科学家发现，生物体演化到今天，不只依靠大脑的高级认知功能，其他基础器官也演化出了一定的预处理能力，降低中央处理的压力。
三
行为主义流派认为，与其费力构建一个理解世界模型的大脑，不如让机器在实际环境中直接感知和行动，通过研究反馈和刺激的关系来了解对象的特性。机器只要能针对环境的输入提供合适的输出，便是智能的表现，不必纠结它在机械上是否懂人类。

人类通过漫长的进化来快速识别环境中的资源和威胁，机器也需要换位思考，仅仅依赖视觉信息是远远不够了，机器需要像人类一样建设一个小小的世界模型。
如自动驾驶汽车的智能体就需要包括交通法规、道路和行人交互的先验知识。机器把现实数据进行特征表示的粗加工，再进行建模和预测:例如判断行人会不会冲上马路，前车会不会急刹。

结合世界模型的强化学习可以显著提升学习效率，它模仿了人类大脑的奖励机制，在内部模拟中不断实验。
每当智能体执行一个行动，它就会从环境中获得设计者设定的奖励。在多步骤任务中，智能体需要在短期收益和长期收益中做出权衡，甚至要通过犯错才能学到更有用的策略。
我们通常用 Q 值来衡量行动优劣的指标，它就是智能体在某一状态 S 采取行动 A 后，所有可能轨迹的加权回报期望。再然后就是创建贝尔曼方程并迭代求解。
预测各种情况下的物体运动轨迹就是机器的想象力，它能弥补现实数据的不足。
当前机器智能的迁移能力还远弱于人类，人走过几次楼梯就能走世界上的各种楼梯，但机器得训练所有能找到的楼梯才能具备上下楼梯的泛化能力。

对具身智能的理解
图灵认为，抽象出逻辑活动就是离身智能，而赋予机器身体感官并训练该智能体，就是具身智能。
我们想让智能体在物理环境互动并和人类交流协作，那首先需要感知环境的能力:视觉、听觉、触觉等等。
其次，对收到的信息进行 “感知 - 决策 - 行动” 的闭环。决策通常与三个方面密切相关:任务目标，环境状态，智能体自身能力。
生物的智能并非静态的和孤立的，它是由多种器官能力共同协作的，而互联网大模型的静态数据训练是远远不够的。当前的训练方式无法捕捉智能发展的动态性。就好像我们无法看着比赛的照片和视频就能掌握一种运动技能一样。在机器智能领域，跨模态融合知识的建立还处于起步阶段。
在行动维度，机器人交互的难度在于对象、环境和动态性。对象的类型无穷无尽，每种对象的属性也不同。物理世界的环境充满了噪声和干扰。交互过程也充满了各种动态变化。
那些选择人型机器人的创业公司，理由是希望提升通用性，即现实社会的各种设施都是为人类体型特征打造的，那么人型机器人就更容易匹配。我认为这个观念有待商榷，人型机器人更容易受到大众的关注，放大商业潜力，可能这才是最重要的原因。
具身智能如何进化
具身智能也有生物体没有的强大优势，就是物联网的连接，机器连接的信息处理效率远高于人类。如果我们把智能体交互环境的各种物体都打上电子标签，就可以极大提高智能体的识别、规划和导航能力。
业界目前用端到端大模型 VLM（visual-language model）给智能机器进行感知训练，能够直接生成行动代码。研究者也提供了强大的仿真平台作为智能体进化的土壤。仿真环境最大的优势就是大规模并行能力，超强的渲染速度，支持高保真物理模拟和复杂物体交互能力。

当前另一个很火的学习方向是模仿游戏:通过人类关节动作的数据采集来克隆，再用监督学习训练机器人，但这个方法的泛化性是极为有限的。外部行为可以模仿，但内在的适应性和理解难以复制。行为的克隆还会面临误差累积的挑战，每个时间步骤的微小误差，会导致智能体的行为与理想结果产生越来越大的偏离。
智能体在虚拟环境中完成各种复杂任务后得到进化，这些任务包括动 “腿” 的具身导航，动 “嘴” 的具身问答，动 “手” 的物体操作。
具身导航研究如何使智能体在没有外界直接指导的情况下，通过自我感知和环境感知去到特定目的地。
具身问答是要求智能体在环境中做动作并利用收集到的信息来回答问题。
抓取物体是具身智能体的一项最基础且复杂的行动任务，它通过视觉系统观察物体，识别物体的位置、方向、大小和形状，精确控制好力度，以避免物体受损或滑落。机器需要学习观察物体表面的粗糙程度，并感知物体的质心以提高稳定性。

当前机器人与具身智能的差距
即使引入了大语言模型和强化学习，机器人的智能化并没有新闻里演示得那么突飞猛进，因为具身智能是多门学科的综合技术。一方面，机器人的硬件机械发展不会很快，另一方面，虚拟互联网的大模型训练并不匹配真实世界。
大家知道，大模型的海量数据来自互联网上的文本和图片，这些信息并不含有精确的实体动作数据。
举个例子，针对 “我拿起一杯水” 这个任务，网上不会存储 “我是怎么移动的”，“我的手臂是怎么移动，手指转动了多少度抓握杯子的”，“运动速度多少，加速度多少，角度怎样” 等等具体信息。

人体关节自由度可能超过 200 个，远比现在机器人的自由度高，所以机器人的动作还是显得僵硬。
但是特定任务必需的自由度并不多，生物进化出了足够的冗余度，以便让人在面对不同环境和条件时，灵活调整或冻结关节动作以执行策略。具身智能领域也在借鉴人类神经系统的这种模块化控制策略。

端到端 VLM 的描述并不适合具身智能的机械运动学习，其训练数据有几个数量级的差距，表现如下:
一从视觉角度，神经网络学习方法难以涵盖复杂的视觉体验，比如边缘复杂，形状重叠，阴影，颜色变化等。很多机器人演示必须有专人掌控，稍微引入一些干扰因素就会出糗，难以应对用户灵活的任务诉求。
二从强化学习的角度，具身智能的 “奖励函数” 是一座技术高山，稀疏数据可能无法满足物理世界的奖励需求。还有另一座高山 - 如何模拟足够多的真实场景，这块正在用 AIGC 来填补。也许未来，在视频生成领域大放异彩的扩散模型，也能在具身智能的场景模拟中起到革命性作用。
三机器人在触觉上的学习和能力还有很大短板，这块是具身智能发展的最大瓶颈。触觉至今仍缺乏完善的训练学习系统，它仍然是个瞬时的、难以存储、难以回放的直觉体验。但触觉对于具身智能的灵活性至关重要。
高级的人类活动需要丰富的触觉感知，光人类的手掌就包含上万个感受器，区分为快适应/慢适应/局部敏感/广度敏感等不同类型。触觉设计的刺激类型也丰富多彩，其包括一系列温度和化学物质。没有强大的触觉感应系统，机器人就难以像真人一样完成各种灵活任务。

四最后，具身智能可能有无意伤害人类用户的行为（比如人形机器人跑步撞倒了围观行人），其安全性如何保障，事故责任如何认定，仍然是未来法律和伦理发展的难题。当机器人正好摔倒，腿部会释放出大量自由动能，猛烈撞击障碍物体，机器人保持平衡的机制就是注入（电力）能量。
因此机器人的运动更需要可解释性，确保安全控制。如果我们期待机器人给老年人做家庭护理，身体碰撞和操作的安全要求就更高了。

以上这些问题都是虚拟测试平台无法充分训练，也难以采集改进数据的。
PS: 当前阶段发展小尺寸机器人很有意义，其能量冲击可能是尺寸比例的立方。

结语
想偷懒必遭惩罚。具身智能想绕过百万年的演化过程，必须做更多艰辛的苦活累活。我们是模仿进化的方式让机器人拥有和人一样复杂的冗余的运动能力，还是直接编程赋予机器预设的功能和特性，这两种路线都能引发哲学思辩。
仅收集视觉数据，绝非具身智能的 “正确数据”。人类灵巧性中大量关键信息——压力、滑动、材质、内部张力——视觉完全无法提供。实验室环境和仿真测试平台都是极简环境，而真实世界的任务存在控制指数爆炸的现实，描述运动轨迹的复杂度也超越语言和视觉。
以现在最火的机器人运动会为例，人型机器人的行走方式和人类其实并不相同，人类是一个高度弹性的动力系统，步态上的低冲击力的高效行走方式，是数百万年进化出的结果。
反过来想，机器人的器官部署也不一定要模仿人类，比如在裆部安装摄像头，可以向下方觉察凹凸不平的地面。
参考书目:
人工智能的下一个浪潮。
Why Today’s Humanoids Won’t Learn Dexterity？

↙↙↙阅读原文可查看相关链接，并与作者交流