图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、Google DeepMind 通过人才并购整合 Hume AI 核心团队:强化 Gemini 原生语音情感识别能力

图片

Google DeepMind 通过一项非独占许可协议,吸收了语音 AI 创业公司 Hume AI 的 CEO Alan Cowen 及约 7 名核心工程师。此举旨在将 Hume AI 的情感计算技术整合至 Gemini 模型中,提升原生语音交互的共情能力与语调感知精度。

核心团队已入职 Google DeepMind;Hume AI 原有业务维持商业化运作。

( @TechCrunch)

2、Qwen3-TTS 系列开源:采用 Dual-Track 架构,端到端延迟缩减至 97ms

图片

图片

「Qwen」团队开源 Qwen3-TTS 语音生成模型全家桶,涵盖 1.7B 与 0.6B 两种参数规模。该系列基于自研多码本语音编码器,实现了从音色克隆、音色创造到自然语言指令控制的端到端建模,将语音合成的首包延迟优化至百毫秒以内。

全系列模型(1.7B / 0.6B)及各功能变体(VoiceDesign, Instruct, VoiceClone)已在 GitHub、HuggingFace 及 ModelScope 开源,同时已集成至 Qwen API。

ModerScope: 

https://www.modelscope.cn/collections/Qwen/Qwen3-TTS

HuggingFace: 

https://huggingface.co/collections/Qwen/qwen3-tts

Github:

https://github.com/QwenLM/Qwen3-TTS

(@ 千问 Qwen)

3、Ringg AI 获 550 万美元 A 轮融资:自建 GPU 算力支持私有化部署,实现 75% 语音通话全自动化闭环

图片

印度语音 AI 初创公司「Ringg AI」完成 550 万美元 A 轮融资,由「Arkam Ventures」领投。本轮资金将用于构建自研模型及内部 GPU 基础设施,旨在摆脱对第三方 API 的依赖,并为高合规行业提供私有化部署能力。

目前已为「CRED」、「Flipkart」、「Shell」等 20 多家企业提供服务;私有化部署方案及新一代 AI 原生 CRM 正在开发/试点阶段。

( @The Economic Times)

02 有亮点的产品

1、曝 OpenAI 悄然推进机器人项目:百人团队昼夜采集训练数据

图片

据《商业内幕》报道,OpenAI 在过去一年里悄然建立了一个人形机器人实验室。知情人士称,自 2025 年 2 月启动以来,该实验室规模已扩大四倍多。

报道称,相关实验室建立在旧金山,规模超过 100 人,并计划在今年于加州里士满开设第二处实验设施。

该实验室与公司财务团队位于同一栋楼,主要由数据采集员通过 3D 打印控制器「GELLO」远程操控 Franka 机械臂执行家务任务,包括放置吐司、折叠衣物等。

相关人员表示,这些基础动作训练是 OpenAI 构建人形机器人长期计划的一部分。

OpenAI 曾在 2020 年关闭早期机器人项目,当时公司称需将资源「重新聚焦」至其他方向。

如今,随着生成式 AI 的快速发展,OpenAI 再度押注机器人方向,并在去年向美国本土制造商发出合作意向征集,涉及消费级设备、机器人以及云数据中心等硬件项目,但未披露预算与时间表。

知情人士称,OpenAI 当前的机器人研发仍处于早期阶段,实验室内部展示区放置着一台被描述为类似 iRobot 的人形机器人,但鲜少被实际启用,主要工作仍集中在机械臂的远程操控与数据采集。

与特斯拉等公司依赖全尺寸人形机器人和动作捕捉训练不同,OpenAI 选择以低成本、可扩展的方式积累大量机械臂操作数据。

研究人员指出,这种方法更易让机器人学习人类动作与机械臂运动之间的映射关系,有望在未来形成类似 ChatGPT 的「机器人时刻」。

目前,OpenAI 的数据采集工作采取三班倒模式,全天候运行,实验室也在持续提升数据采集效率。部分数据将用于模拟环境训练,并定期测试机械臂的实际表现。

( @APPSO)

2、曝 vivo 叫停 AI 眼镜项目

图片

据《智能涌现》援引多名知情人士报道,vivo 近期已叫停其筹备约半年的 AI 眼镜项目。

知情人士称,该项目此前已与歌尔、中科创达等多家 ODM 厂商合作推进 demo,涵盖音视频与带单绿显示等多种方案,但在尚未最终确定方向前即被叫停。

vivo 高层判断,在当前阶段 AI 眼镜产品「很难做出差异化」,因此选择暂停推进。

报道指出,vivo 的快速收缩折射出当前 AI 眼镜行业的普遍困境。

供应链人士透露,已有厂商因芯片选型等问题导致体验不佳,例如闪极、小度等品牌的首代产品均遭遇通话质量或解析力不足等问题,甚至引发退货潮。

一名 AI 眼镜厂商 CEO 直言,目前行业内「几乎没有一款产品真正达到体验标准」。

除 vivo 外,小米也被曝下调第二代 AI 眼镜的出货预期,从首代的 30 万台降至约 12 万台,显示行业整体进入更为谨慎的阶段。

报道提到,尽管暂停 AI 眼镜项目,vivo 并未放弃对下一代硬件入口的探索。vivo 将继续聚焦混合现实(MR)方向,其在去年 8 月发布的 vivo Vision 探索版主打轻量化与自然交互,但未公开销售,仅面向用户体验。

( @APPSO)

03 有态度的观点 

1、黄仁勋谈 AI 泡沫:真正的挑战是投资还不够

图片

据《财富》和《福布斯》报道,英伟达 CEO 黄仁勋近日在达沃斯论坛回应外界对「AI 泡沫」的担忧,强调当前巨额资本开支并非投机迹象,而是为了支撑「人类历史上规模最大的基础设施建设」。

黄仁勋表示,外界之所以感受到泡沫,是因为投资规模空前庞大,但这些投入主要用于建设 AI 所需的能源、芯片、数据中心等底层基础设施。

他指出,全球正处于 AI 工业化的早期阶段,「我们只投入了几千亿美元,但未来需要建设的基础设施规模以万亿美元计」。

在与全球规模最大的投资管理公司之一贝莱德 CEO Larry Fink 的对谈中,黄仁勋进一步提出「五层 AI 蛋糕」框架:底层为能源,其上依次是芯片与计算、云基础设施、AI 模型以及最上层的应用。

他强调,当前资本主要流向底层基础设施,而非投机性应用,「这不是泡沫,这是产业重建」。

黄仁勋以 GPU 租赁价格作为「反泡沫」证据:不仅最新一代 GPU 供不应求,连两代前的产品租金也在上涨,显示真实需求强劲。

他指出,包括制药企业在内的传统行业正在将研发预算从实验室转向 AI 超算,推动算力需求持续攀升。

在谈及就业结构时,黄仁勋特别提到,AI 并不会在短期内冲击所有岗位,相反,职业技工的需求正在快速上升。

他表示,数据中心建设需要大量水管工、电工、暖通工程师及建筑工人,这些岗位的薪资水平正在被推高,「六位数薪资将成为常态」。

他强调,AI 带来的不仅是软件革命,更是一次覆盖能源、制造、建筑等行业的「实体世界基建潮」。

在《福布斯》的报道中,黄仁勋还提到过去一年 AI 出现三项关键突破:模型推理能力显著增强、开源模型加速行业创新、AI 在蛋白质结构等物理领域取得进展,使其成为真正的产业级技术。

面对欧洲能源与产业结构问题,黄仁勋认为欧洲在制造业与深度科研方面具备优势,应抓住「物理 AI」与机器人技术的窗口期,但前提是加大能源基础设施投入。

尽管市场在去年下半年因 GPT‑5 表现不及预期等因素出现波动,黄仁勋再次强调,AI 投资并未过热,甚至可能「投入不足」。他呼吁更多国家与企业参与基础设施建设,「每个人都应该参与进来」。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流