开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@ 鲍勃

01 有话题的技术

1、清华、东大等发布 EMAGE：音频自动生成动作丰富的视频
东京大学、清华大学、庆应义塾大学等研究人员联合开发了创新模型——EMAGE。

EMAGE 可以根据音频自动生成连贯、逼真、一致的全身动作、面部表情和手部动作的共语手势视频。例如，上传一段歌曲或者旁白的音频，就能生成一个带丰富动作的视频。这可以帮助数字人等应用生成更精准的动作手势和表情。

此外，研究人员还发布了目前最大的「共语手势」数据集 BEAT2。该数据集整合了 SMPLX 人体模型和 FLAME 面部模型，将原始的动作、面部捕捉数据转换为高质量的全身三维网格序列，总时长超过 60 小时。

EMAGE 主要通过遮罩手势重建特征以增强人体提示编码能力，并与音频特征相结合，生成面部表情、手部动作和身体动作一致的共语手势。

（@ AIGC 开放社区）

2、Kyutai 发布实时同声传译语音模型 Hibiki，小模型版本可在 iPhone 运行

Kyutai 推出了一款先进的实时同声传译语音模型——Hibiki，旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译，保留说话者的声音特征，并自动调整语速以适应源语言的语义内容。目前，Hibiki 支持法语到英语的实时翻译。

Hibiki 的「小模型」版本——Hibiki-M，甚至能够在设备上实时运行，且具备 17 亿参数，是完整模型的蒸馏版本。Hibiki-M 能够在 iPhone 16 Pro 上运行超过一分钟，显示出其强大的实时处理能力。

Hibiki 基于 Moshi 的多流音频 - 文本语言模型（LM）构建，能够同时处理源语言和目标语言的语音，类似于 Moshi 处理对话的方式。此外，Moshi 的「内心独白」（Inner Monologue）功能帮助改善口语翻译，提供了更加流畅的实时同声传译体验。(@ kyutai@X)

3、RIME 发布 TTS 模型重大更新 Mist v2

RIME 兴奋地宣布其旗舰 TTS 模型的重大更新——Mist v2，具备以下特点：

增强的真实感和对话韵律
多语言，从西班牙语开始
高度直观的发音控制
低延迟 + 本地部署（70 毫秒）
更多声音多样性

该技术目前已为每月数百万次互动提供支持，且用户增长迅速。(@ lily clifford@X)

02 有亮点的产品

1、ChatGPT ：公开 o3 思维链，但不完整

DeepSeek 带来的压力已经传递给了每一个科技公司。最近一段时间，很多生成式 AI 产品正在加速更新技术。

今天凌晨，OpenAI 为 ChatGPT 上线了多项更新，其中之一是让用户可以更详细地查看 o3-mini、o3-mini-high 的思维链内容。

但遗憾的是，ChatGPT 向用户展示的并非完整的思维链，而是经过总结的版本（而且这个总结版有时候还是错误的）。

相较之下，今年 1 月份推出的 DeepSeek R1 可以展示其完整的思维过程。在 AI 社区的很多人看来，展示完整的思维链不仅有助于科学研究，而且在很多时候也能为用户创造更好的使用体验，帮助用户引导模型的思考过程，从而得到满意的结果。

科技媒体 TechCrunch 从 OpenAI 获悉，为 o3-mini 更新思维链的目的是「让人们更容易理解模型的思维方式。通过此更新，你将能够跟踪模型的推理，从而更清晰、更有信心地理解其响应。」

而 OpenAI 之所以选择展示总结版本，而不是完整的思维链，部分原因是竞争。该公司表示其找到了一个平衡：o3-mini 可以「自由思考」，然后将其「思维」组织成某个总结版本。（@ 机器之心）

2、Mistral AI 推出全新聊天机器人应用「Le Chat」：基础版免费

Mistral AI 近日在苹果 App Store 上架了一款全新的聊天机器人应用「Le Chat」。这款应用的推出让用户能够更加方便地进行自然语言对话、实时网页搜索、文档分析以及图像生成等多种功能。

目前，用户可以免费下载基础版，享受基本的聊天功能；此外，用户也可以选择每月 14.99 美元的 Pro 订阅，体验更为专业的模型。

Mistral AI 是一家总部位于法国的人工智能公司，由多位曾在谷歌和 Meta 工作的工程师共同创办。该公司专注于开发开源的大型语言模型，而「Le Chat」则是其推出的一款独立应用，旨在为用户提供便捷的 AI 聊天体验。之前，「Le Chat」已在网页上开放使用，而此次上线的移动应用则是基于浏览器的客户端，暂时只支持 iPhone 和 iPad，不支持 macOS 系统。

「Le Chat」应用的功能设计十分实用，用户可以利用该应用进行自然语言的交流，AI 能够理解并生成相关的回应。此外，应用还支持实时网页搜索，让用户能够迅速获取所需信息。文档分析功能则帮助用户更好地处理和理解各种文档内容，而图像生成能力则为用户带来了全新的视觉体验。（@ AIbase 基地）

3、AI Chat-avatar：一款多模态智能对话助手

（图片来源：Product Hunt）

AI Chat-avatar 是 Pitch Avatar 推出的对话式人工智能助手，定位于需要提升客户互动效率的 B2B 企业，主要服务于销售团队、客户成功部门及培训机构。其核心价值在于通过角色化行为引擎，使虚拟助手能自动适配销售代表、客户经理等不同岗位的沟通策略，解决传统客户互动中个性化不足、响应滞后等痛点。产品差异化体现在多模态交互能力，支持在对话中实时调用幻灯片、图片、视频等动态内容，结合 5 种预置角色模板快速部署。功能亮点包括基于岗位自动调整话术、兼容 6 种文件格式以及对通过主动提问推进业务流程。体验设计强调低代码配置，提供实时会话分析看板与话术优化建议。(@ Z Potentials)

4、Stella AI ：集成于即时通讯工具的智能行政助理

（图片来源：Product Hunt）

Stella AI 是一款面向个人用户和中小企业的智能生产力工具，通过与 WhatsApp 和 iMessage 的深度集成，将复杂的行政任务简化为自然语言对话。产品定位于需要高效时间管理但缺乏专职行政团队的创业者、自由职业者和职场人士，核心价值在于通过 AI 技术将日程安排、邮件处理、待办管理等高频任务转化为即时通讯场景中的对话式操作。Stella AI 解决了传统效率工具使用门槛高、多平台切换繁琐等痛点，为用户提供一站式的行政事务管理解决方案。在功能设计上，Stella AI 突出了智能日程管理和多语言支持两大特点。智能日程管理系统能自动识别时间冲突并提供调整建议，大幅提升用户的时间管理效率。多语言支持（覆盖 50+ 种语言）则满足了国际化团队的沟通需求。

产品的差异化优势主要体现在其原生嵌入即时通讯工具的交互模式，通过对话式指令交互显著降低了用户的操作复杂度。(@ Z Potentials)

03 有态度的观点

1、木头姐：DeepSeek 只是加速了降本进程；堪比大萧条时期的极端集中市场格局将改变

（图片来源：Bloomberg Television）

木头姐（Cathie Wood）在发言中提到，专注于 AI 推理的公司，例如云计算服务提供商、边缘计算公司以及 AI 应用企业，可能将迎来强劲的市场需求增长。她还强调，未来的监管措施将逐步放宽，尤其是 AI 领域的监管。她认为，比特币和区块链技术正在成为金融服务行业重大革命的核心，同时比特币正逐步融入全球货币体系。

木头姐指出，未来最强劲的牛市应当是广泛覆盖各个行业的市场，而不仅仅由少数几只股票主导。她认为这一趋势与「成本正在大幅下降」这一观点相符。她进一步解释，成本本就处于下降轨道，而 DeepSeek 则加速了这一进程。(@ Z Potentials)