开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 瓒 an、@ 鲍勃
1、逐际动力发布具身智能体系统 LimX COSA,实现机器人「大小脑」一体化
昨天,逐际动力正式发布面向物理世界原生的具身 Agentic OS「LimX COSA」。
该系统旨在通过深度融合高阶认知与全身运控,实现机器人的「大小脑一体化」,全尺寸人形机器人 Oli 已搭载该系统,成为兼具运动智能和高阶认知的人形智能体。
LimX COSA 被设计为连接机器人与物理世界的关键枢纽,其核心逻辑在于以 Agent 范式打造 OS,管理模型、技能、记忆及情感,从而对齐 VLA(视觉 - 语言 - 动作)与全身运控 。在架构上,COSA 采用自底向上的三层结构:
底层:小脑基础模型,提供高鲁棒性的全身平衡与运动控制能力;
中层:具备环境感知与适应能力的高阶技能层,负责调度导航、避障、抓取等技能,实现大小脑能力的融合;
顶层:自主认知与决策层,主要体现为交互、记忆与思考能力。
在实际应用中,COSA 赋予了机器人知行合一的能力 。依靠高阶认知与推理能力,面对「拿两瓶水到前台」或「找出红色快递送到车间」等模糊指令,机器人能自主进行长程任务的拆解与规划,并根据环境变化动态调整优先级,实现多任务并发处理。
此外,该系统还引入了语义记忆与主动感知机制。机器人能够对环境、对象及交互历史进行建模,构建自身的世界观。
在运动控制方面,基于实时感知的全身运控技术让机器人能在连续长楼梯等复杂环境中保持稳定,并在移动过程中流畅完成各种操作,通过大小脑一体化保障了机器人「想得到,更做得到」。
逐际动力表示,COSA 的发布代表了具身智能行业从关注模型能力向关注 OS 系统能力转变,也是从以技术 Demo 为主导向以产品交付与体验为主导的一次升级 。
( @APPSO)
2、梁文锋署名新论文曝光:DeepSeek V4 或引入全新记忆架构
今日凌晨,DeepSeek 开源全新架构模块「Engram」,并同步发布技术论文,署名作者中再次出现梁文锋。
据悉,Engram 模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。
DeepSeek 在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。
传统 Transformer(无论 Dense 或 MoE)均需通过多层注意力与 MLP 重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。
Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1)查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。
论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。
与 MoE 的条件计算不同,Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。
论文显示,Engram 通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。
DeepSeek 在 27B 参数规模的实验中,将部分 MoE 专家参数重新分配给 Engram 记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。
在 X 平台上,相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。
部分开发者指出,这种架构让大规模静态记忆得以脱离 GPU 存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。
多位观察者推测,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。
( @APPSO)
#####
2026年1月12日,千寻智能正式开源自研 VLA 基础模型 Spirit v1.5。
据悉就在前一天,该模型在全球具身智能模型评测平台 RoboChallenge 的 Table30 榜单上,以 66.09 的综合得分和 50.33% 的成功率排名第一,是唯一成功率超过 50% 的模型,超越了此前霸榜的 Pi0.5 模型。
RoboChallenge 榜单由 Dexmal 原力灵机、Hugging Face、智源研究院等全球知名机构联合发起,是全球首个专为专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人直接在真实物理世界里硬碰硬,检验模型的实战泛化能力。
RoboChallenge 的核心优势在于「真机实测」,支持单机械臂(Franka、Arx5 和 UR5)和双臂系统(ALOHA)等主流机型 7×24 小时运行,提供多视角 RGB 与深度信息,精准评估 VLA 算法在物理世界的泛化能力,其测试场景还涵盖时间依赖性、多阶段长序列任务等关键能力维度,同时考验模型在多构型、全新任务上的迁移效率,是检验通用机器人策略的标准测试。
值得注意的是,此次 Spirit v1.5 并不是靠某一项独门绝技胜过 Pi0.5,而是实现了综合能力全面超车。搭载该模型的人形机器人「小墨」,已于 2025 年 12 月底落地宁德时代中州基地,正式投入新能源动力电池 PACK 生产线运行。
根据官方披露的数据,小墨机器人在 PACK 生产线插接成功率超 99%,作业效率较人工提升三倍,有效规避了人工操作的高压安全风险,保障了生产质量稳定。由此可见,千寻智能 Spirit v1.5 模型在宁德时代产线的稳定运行,足以证明其已具备工业级场景的工程化应用能力。
千寻智能 Spirit v1.5 模型的登顶与技术落地,不仅是单一模型的突破,更意味着国产具身模型已具备从「备选项」升级为「主选项」的条件,也标志着中国具身模型首次在「可评测性能」与「真实工业场景可用性」两大核心维度完成双重验证,成功跻身行业性能第一梯队。
(@ 即智 Ultra)
#####
博主「智慧皮卡丘」曝光了 OpenAI 智能硬件的更多信息,根据其 X 披露:
从上次的报告中听到了 OpenAI「To-go」硬件项目的新细节。现在已确认这是一款专门的音频产品,用来替代 AirPods,内部代号为 「Sweetpea」。
在制造方面,富士康已被告知要在 2028 年第四季度前准备总共 5 款设备。目前细节尚未完全确定,但一款 家用型设备 和一支 笔形设备 仍在考虑之中。
不过,多个消息源都提到了同一件事:由于 Jony Ive 团队的优先级,Sweetpea 现在已经排在最前面。据称发布时间将在 9 月前后,首年出货量预计为 4000–5000 万副。目前已知的细节只有这些:
硬件设计据称「独特、前所未见」,主设备将采用金属材质,外形类似 鹅卵石 / 蛋形石。
在「蛋形石」内部有两颗 胶囊状耳塞(pills),可取出后像上图那样挂在耳后。
主处理器目标是 2nm 智能手机级芯片(Exynos 最被看好)。同时还在开发一款 定制芯片,使该设备能够「通过语音指令 Siri 来替代 iPhone 的操作」。
由于所使用的材料和组件更接近手机的 BOM,因此担心其物料成本会非常高,但设备功能据称会更强。
富士康高层仍因把所有 AirPods 项目都输给 立讯(Luxshare) 而感到尴尬。现在他们认为这是赢回这一品类的黄金机会。
( @AI VISION)
#####
#####
多模型兼容架构:平台打破单一模型依赖,支持接入 OpenAI、Anthropic 等主流 LLM。企业可根据通话场景的逻辑复杂度、成本预算及垂直行业语料需求,灵活选择或切换底层语言模型。
自学习迭代机制:语音智能体具备对话模式识别与持续优化能力。通过分析交互模式、用户偏好及成功转化路径,模型可随通话量增加自动优化回复逻辑,无需人工频繁调整 Prompt。
高并发响应与性能指标:在垂直行业(如房地产)实测中,入站响应时间从 4 小时以上降低至 20 秒以内;智能体在处理咨询到预约看房的链路中,实现了 23% 的转化率。
全链路业务集成与规模化出站:支持通过 API 深度对接 CRM 系统与办公日历;具备基于 CSV 上传的大规模出站营销功能,并提供实时通话记录、文本转录及情感分析看板。
平台已正式上线,主要面向房地产、医疗、金融、物流及制造业提供企业级订阅服务。服务包含定制化智能体人格配置及专属 Prompt 工程支持。
相关链接:https://voagents.ai/
#####
#####
Amazon 在 CES 2026 期间宣布去年收购的 AI 硬件初创公司「Bee」的新计划,旨在填补 Alexa 在户外场景的行为数据缺口。该设备通过物理按键触发录音,利用 AI 模型将环境对话转化为结构化摘要,并整合第三方服务数据构建个人知识库。
自动化语义分割技术:不同于常规的全文转录,Bee 可将音频自动切分为具有主题背景的段落(如「产品细节」、「行业趋势」),并在 App 中以颜色区分,支持点击特定片段查看原始转录文本。
隐私优先的数据处理策略:系统在完成文本转录后会立即丢弃原始音频文件。这一架构设计在提升隐私合规性的同时,也意味着该设备无法像专业录音笔一样进行音频回溯校对。
硬件交互与状态监测:采用物理按键逻辑(单按:录音开关;双按:标记或处理;长按:语音笔记)。硬件设有绿色 LED 指示灯以明示录音状态,解决 AI 穿戴设备常面临的「隐形监听」伦理争议。
技术栈整合预期:目前采用混合模型架构,计划未来接入 Amazon 内部的 Alexa+ 模型。此举意在利用其 8 人核心团队优化移动端 UI/UX 体验,并实现室内(Alexa)与户外(Bee)数据的闭环。
该团队已整体并入 Amazon 旧金山硬件部门;2026 年内将持续推送语音笔记、每日洞察等新功能。
( @TechCrunch)
#####
#####
个性化声学模型训练:用户需朗读指定的样本文本,为系统提供平均 8 至 10 小时的语音数据,用于训练 AI 识别用户特定的发音特征。
解决非标准发音识别偏差:针对听障人士因听力受限导致的独特发音差异(不同于标准语音),该应用通过垂直领域的定向微调,弥补了通用 STT 产品的识别短板。
提升实时协作效率:该应用旨在替代低效的文字书写或即时通讯录入,允许用户在办公及会议场景中直接进行口头表达,降低沟通延迟与心理门槛。
目前处于内部测试阶段,计划于 2026 年 3 月(本财年结束)前正式商业化发布。
( @The Asahi Shimbun)
#####
据《经济日报》报道,近日,特斯拉 CEO 伊隆 · 马斯克在参加《Moonshots with Peter Diamandis》播客节目时表示,人们无需过分担忧 10 到 20 年后的退休储蓄,因为在未来这将无关紧要。
马斯克认为,AI、能源和机器人技术的进步将极大提升生产力,创造出一个资源「富足」的未来。
Musk 描绘了一个 AI 驱动的乌托邦图景,届时将实现全民高收入,人们可以随心所欲地获取各类商品和服务,且不再有稀缺性。
他特别提到,未来五年内,每个人都能享受到比当前最高水平还要优质的医疗保健服务,教育资源也将免费开放。基于此,他直言:「如果我们的预测成真,存钱养老将变得毫无意义。」
尽管愿景美好,Musk 也警告通往这一未来的道路将是崎岖的,可能会伴随破坏性的社会变革和动荡。
他还指出,当物质需求得到彻底满足、想要什么就能得到什么时,人类可能会面临工作价值消解、丧失生活目标的心理危机。
关于技术发展的具体时间表,马斯克认为人类正处于技术爆发的临界点。他预测通用人工智能(AGI)最早可能在今年实现,并确信到 2030 年,AI 的智力水平将超越全人类的总和。
( @APPSO)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考