开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@ 鲍勃

01 有话题的技术

1、清华、东大等发布 EMAGE:音频自动生成动作丰富的视频
东京大学、清华大学、庆应义塾大学等研究人员联合开发了创新模型——EMAGE。

EMAGE 可以根据音频自动生成连贯、逼真、一致的全身动作、面部表情和手部动作的共语手势视频。例如,上传一段歌曲或者旁白的音频,就能生成一个带丰富动作的视频。这可以帮助数字人等应用生成更精准的动作手势和表情。

此外,研究人员还发布了目前最大的「共语手势」数据集 BEAT2。该数据集整合了 SMPLX 人体模型和 FLAME 面部模型,将原始的动作、面部捕捉数据转换为高质量的全身三维网格序列,总时长超过 60 小时。

EMAGE 主要通过遮罩手势重建特征以增强人体提示编码能力,并与音频特征相结合,生成面部表情、手部动作和身体动作一致的共语手势。

(@ AIGC 开放社区)

2、Kyutai 发布实时同声传译语音模型 Hibiki,小模型版本可在 iPhone 运行

Kyutai 推出了一款先进的实时同声传译语音模型——Hibiki,旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译,保留说话者的声音特征,并自动调整语速以适应源语言的语义内容。目前,Hibiki 支持法语到英语的实时翻译。

Hibiki 的「小模型」版本——Hibiki-M,甚至能够在设备上实时运行,且具备 17 亿参数,是完整模型的蒸馏版本。Hibiki-M 能够在 iPhone 16 Pro 上运行超过一分钟,显示出其强大的实时处理能力。

Hibiki 基于 Moshi 的多流音频 - 文本语言模型(LM)构建,能够同时处理源语言和目标语言的语音,类似于 Moshi 处理对话的方式。此外,Moshi 的「内心独白」(Inner Monologue)功能帮助改善口语翻译,提供了更加流畅的实时同声传译体验。(@ kyutai@X)

3、RIME 发布 TTS 模型重大更新 Mist v2

RIME 兴奋地宣布其旗舰 TTS 模型的重大更新——Mist v2,具备以下特点:

该技术目前已为每月数百万次互动提供支持,且用户增长迅速。(@ lily clifford@X)

02 有亮点的产品

1、ChatGPT :公开 o3 思维链,但不完整

DeepSeek 带来的压力已经传递给了每一个科技公司。最近一段时间,很多生成式 AI 产品正在加速更新技术。

今天凌晨,OpenAI 为 ChatGPT 上线了多项更新,其中之一是让用户可以更详细地查看 o3-mini、o3-mini-high 的思维链内容。

但遗憾的是,ChatGPT 向用户展示的并非完整的思维链,而是经过总结的版本(而且这个总结版有时候还是错误的)。

相较之下,今年 1 月份推出的 DeepSeek R1 可以展示其完整的思维过程。在 AI 社区的很多人看来,展示完整的思维链不仅有助于科学研究,而且在很多时候也能为用户创造更好的使用体验,帮助用户引导模型的思考过程,从而得到满意的结果。

科技媒体 TechCrunch 从 OpenAI 获悉,为 o3-mini 更新思维链的目的是「让人们更容易理解模型的思维方式。通过此更新,你将能够跟踪模型的推理,从而更清晰、更有信心地理解其响应。」

而 OpenAI 之所以选择展示总结版本,而不是完整的思维链,部分原因是竞争。该公司表示其找到了一个平衡:o3-mini 可以「自由思考」,然后将其「思维」组织成某个总结版本。(@ 机器之心)

2、Mistral AI 推出全新聊天机器人应用「Le Chat」:基础版免费

Mistral AI 近日在苹果 App Store 上架了一款全新的聊天机器人应用「Le Chat」。这款应用的推出让用户能够更加方便地进行自然语言对话、实时网页搜索、文档分析以及图像生成等多种功能。

目前,用户可以免费下载基础版,享受基本的聊天功能;此外,用户也可以选择每月 14.99 美元的 Pro 订阅,体验更为专业的模型。

Mistral AI 是一家总部位于法国的人工智能公司,由多位曾在谷歌和 Meta 工作的工程师共同创办。该公司专注于开发开源的大型语言模型,而「Le Chat」则是其推出的一款独立应用,旨在为用户提供便捷的 AI 聊天体验。之前,「Le Chat」已在网页上开放使用,而此次上线的移动应用则是基于浏览器的客户端,暂时只支持 iPhone 和 iPad,不支持 macOS 系统。

「Le Chat」应用的功能设计十分实用,用户可以利用该应用进行自然语言的交流,AI 能够理解并生成相关的回应。此外,应用还支持实时网页搜索,让用户能够迅速获取所需信息。文档分析功能则帮助用户更好地处理和理解各种文档内容,而图像生成能力则为用户带来了全新的视觉体验。(@ AIbase 基地)

3、AI Chat-avatar:一款多模态智能对话助手

(图片来源:Product Hunt)

AI Chat-avatar 是 Pitch Avatar 推出的对话式人工智能助手,定位于需要提升客户互动效率的 B2B 企业,主要服务于销售团队、客户成功部门及培训机构。其核心价值在于通过角色化行为引擎,使虚拟助手能自动适配销售代表、客户经理等不同岗位的沟通策略,解决传统客户互动中个性化不足、响应滞后等痛点。产品差异化体现在多模态交互能力,支持在对话中实时调用幻灯片、图片、视频等动态内容,结合 5 种预置角色模板快速部署。功能亮点包括基于岗位自动调整话术、兼容 6 种文件格式以及对通过主动提问推进业务流程。体验设计强调低代码配置,提供实时会话分析看板与话术优化建议。(@ Z Potentials)

4、Stella AI :集成于即时通讯工具的智能行政助理

(图片来源:Product Hunt)

Stella AI 是一款面向个人用户和中小企业的智能生产力工具,通过与 WhatsApp 和 iMessage 的深度集成,将复杂的行政任务简化为自然语言对话。产品定位于需要高效时间管理但缺乏专职行政团队的创业者、自由职业者和职场人士,核心价值在于通过 AI 技术将日程安排、邮件处理、待办管理等高频任务转化为即时通讯场景中的对话式操作。Stella AI 解决了传统效率工具使用门槛高、多平台切换繁琐等痛点,为用户提供一站式的行政事务管理解决方案。在功能设计上,Stella AI 突出了智能日程管理和多语言支持两大特点。智能日程管理系统能自动识别时间冲突并提供调整建议,大幅提升用户的时间管理效率。多语言支持(覆盖 50+ 种语言)则满足了国际化团队的沟通需求。

产品的差异化优势主要体现在其原生嵌入即时通讯工具的交互模式,通过对话式指令交互显著降低了用户的操作复杂度。(@ Z Potentials)

03 有态度的观点

1、木头姐:DeepSeek 只是加速了降本进程;堪比大萧条时期的极端集中市场格局将改变

(图片来源:Bloomberg Television)

木头姐(Cathie Wood)在发言中提到,专注于 AI 推理的公司,例如云计算服务提供商、边缘计算公司以及 AI 应用企业,可能将迎来强劲的市场需求增长。她还强调,未来的监管措施将逐步放宽,尤其是 AI 领域的监管。她认为,比特币和区块链技术正在成为金融服务行业重大革命的核心,同时比特币正逐步融入全球货币体系。

木头姐指出,未来最强劲的牛市应当是广泛覆盖各个行业的市场,而不仅仅由少数几只股票主导。她认为这一趋势与「成本正在大幅下降」这一观点相符。她进一步解释,成本本就处于下降轨道,而 DeepSeek 则加速了这一进程。(@ Z Potentials)

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流