开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的「涌现」行为。

后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

不止开源,欲与闭源试比高

多重创新,多个首次

全方位开源:

模型:
https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

完整实例展示:
https://xiaomimimo.github.io/MiMo-Audio-Demo/

详细链接:

https://mp.weixin.qq.com/s/5TjOye3yLNAfVkOKRlb8rg

(@ 小米 AI / @GitHub

2、面壁智能 & 清华大学 VoxCPM 开源:0.5B 参数语音生成模型,树立零样本声音克隆新标杆

9 月 18 日,面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

VoxCPM 支持音素标记替换,实现自定义读音纠正(需关闭文本正则选项,中文为拼音,英文为 ARPAbet)

VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来「声」临其境的听觉体验。比如,化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂地演讲、甚至还可以模拟方言主播:

VoxCPM 模型已在 GitHub、Hugging Face、ModelScope 上全面开源,并提供在线 PlayGround 体验平台和音频样例页面。详细技术报告即将发布。

Github:
https://github.com/OpenBMB/VoxCPM/

Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

详细链接:
https://mp.weixin.qq.com/s/8vTOZkhWYnqVUQRDVPIuEA
(@ 面壁智能 / @ 清华大学)

02 有亮点的产品

1、Google Chrome 集成「Gemini」:推出 AI 智能体浏览助手,重塑更主动、更安全的上网体验

Google 近日宣布将旗下强大的 LLM「Gemini」深度集成到 Chrome 浏览器中,推出一系列 AI 驱动的创新功能。这一举措旨在将 Chrome 从一个被动的「网页窗口」,转变为一个主动、智能且更安全的「浏览伙伴」,通过理解用户上下文、提供多步任务「智能体」能力和增强全能框智能搜索,彻底改变用户的上网体验。

关键亮点

1、通过 Chrome autofill 安全填写登录凭据。

2、主动阻止新型诈骗。

3、帮助用户修复密码泄露和垃圾通知等安全问题。

4、简化敏感权限授予等隐私决策。

5、AI 驱动的警告已使 Android 用户每日减少约 30 亿次诈骗和垃圾网站通知。

详细链接:

https://blog.google/products/chrome/chrome-reimagined-with-ai/

@Google Chrome Blog)

2、Xbox 推出「Gaming Copilot」:AI 游戏助手登陆 PC Game Bar 与 Xbox 移动应用,体验沉浸式游戏

Xbox 正式推出其 AI 游戏助手「Gaming Copilot」,旨在通过个性化推荐、游戏内帮助和实时洞察,重塑玩家的游戏体验。该功能已于即日起逐步在 PC Game Bar 面向 18 岁及以上玩家推出,并将于 10 月登陆 Xbox 移动应用。Gaming Copilot 旨在通过 AI 技术,让玩家更专注于游戏本身,享受更流畅、更便捷的互动。

关键亮点

1、语音模式(Voice Mode): 提供「Push to Talk」快捷键和「Mini Mode」小窗模式,实现无缝的游戏内语音交互,不打断游戏进程。

2、实时游戏理解: Gaming Copilot 不仅识别玩家正在玩的游戏,还能实时理解屏幕上的游戏内容,提供针对性帮助(如:询问敌人信息、NPC 背景、攻略技巧等)。

3、个性化推荐与成就追踪: 可根据玩家喜好或游戏历史推荐新游戏,并帮助追踪和寻找未解锁的成就。

4、初期反馈积极: 在预览阶段,玩家最常使用 Gaming Copilot 来提升游戏玩法,解决关于任务、策略和角色构建等问题。

5、优化玩家体验: 旨在通过 AI 创新,提供更个性化的游戏体验,节省玩家时间,让他们更专注于享受游戏乐趣。

Gaming Copilot 将于即日起逐步面向 18 岁及以上玩家在 PC Game Bar 上线。10 月将登陆 Xbox 移动应用。未来将扩展至掌机(如 10 月 16 日发布的 ROG Xbox Ally 和 Ally X)及 Xbox 主机。支持除中国大陆以外的所有地区。

详细链接:

https://news.xbox.com/en-us/2025/09/18/gaming-copilot-xbox-pc-mobile/

@Xbox Wire)


03 有态度的观点

1、宇树科技副总:机器人还是要「进厂打工」

据澎湃新闻报道,在日前的 2025 世界储能大会上,宇树科技副总经理杜鑫峰表示,人形机器人虽然在文娱表演、格斗和舞蹈等场景中广受关注,但其真正的价值仍在于进入工厂,承担复杂操作和繁重、重复的工作。

杜鑫峰介绍,随着近两年 AI 大模型的突破,机器人产业正从「打通关」模式转向「分工」模式:硬件由硬件公司负责,学习交给模型公司,行业应用则由专业场景训练完成,最终通过硬件与模型的结合实现快速落地。这也是人形机器人在 2024 年、2025 年迅速走红的重要原因。

值得注意的是,宇树科技近期与国网杭州供电公司、具身智能基地公司、国网浙江华电研究院签署了「电力 + 具身智能」框架合作协议,计划在平台建设、科技攻关、标准制定和人才培养等方面展开深度合作。

杜鑫峰透露,公司已推出统一大模型,通过孪生平台先行训练,再在现场快速应用,目标是打造「所见即所得、即插即用」的机器人模式。

根据公开数据,2024 年宇树科技机器狗年销量达到 2.37 万台,占全球市场近 70%;人形机器人交付超过 1500 台。公司创始人兼 CEO 王兴兴也强调,宇树的目标是让机器人真正「干活」,解放并提升生产力,而不仅仅停留在表演层面。

目前,宇树科技正处于上市辅导阶段,预计将在 10 月至 12 月间提交 IPO 文件,相关运营数据也将随之披露。

@APPSO

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流