AI测试 Kyutai 推出模块化语音 AI 工具 Unmute，赋予大模型语音能力；开源语音硬件「小智 AI 」演示视觉理解能力丨日报

RTE开发者社区 · May 26, 2025 · 2279 hits

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Mistral AI 高精度 Document AI 支持公式手写多语言解析

Mistral AI 最新推出企业级 Document AI 解决方案，基于 OCR 技术实现高精度文档解析。

官方号称该产品能够以 99% 以上的准确率提取复杂文本内容，包括数学公式、手写笔记、表格数据和图像信息，在单个 GPU 上每分钟处理多达 2,000 页，延迟极低且吞吐效率高，并支持全球多种语言处理。背后应该是通过 Mistral OCR 提供支持。

支持 API 调用，官网的演示案例包括表格、图形、数学公式、阿拉伯文等。Mistral AI 的 OCR 模型，作为 Document AI 的一部分，标准使用费用为每 1000 页 1 美元（每页 0.001 美元）。批量推理费用为每 2000 页 1 美元（每页 0.0005 美元），现在可以在 Mistral 的 AI 助手 Le Chat 中试用。

Mistral Document AI 官网：

https://mistral.ai/solutions/document-ai（@ 三花 AI、@MistralAI\@X）

2、Kyutai 推出 Unmute：模块化语音 AI 工具，让任何文本 LLM 具备实时语音能力

Kyutai Labs 近日推出了 Unmute，一款高度模块化的语音 AI 工具，旨在为任何文本大型语言模型（LLM）赋予实时语音交互能力。通过整合先进的语音转文本（STT）和文本转语音（TTS）技术，Unmute 允许开发者将语音功能集成到现有的文本 LLM 中，实现智能语音交互。

Unmute 与 Kyutai 去年推出的音频原生模型 Moshi 互补。Moshi 在延迟和自然性方面表现出色，但尚未达到文本模型在功能调用、推理能力和上下文学习等方面的能力。Unmute 填补了这一空白，将文本 LLM 的扩展能力带入实时语音对话中。

关键特点：

模块化设计： Unmute 通过包装 STT 和 TTS 模型，使任何文本 LLM 都能即时支持语音输入和输出，极大地提升了其灵活性和可定制性；
智能打断与话轮转换： Unmute 的 STT 模型配备了 Semantic VAD，能够准确预测用户是否已结束发言，从而实现低延迟且不中断用户的自然对话体验；
语音克隆与个性化： 开发者可以通过上传 10 秒的语音样本，条件化 TTS 模型，生成与特定声音和语调相匹配的语音输出。Kyutai 将以受控方式提供语音克隆模型的访问；
流式处理优化： TTS 模型支持文本流式处理，即使在完整文本响应生成之前即可开始语音输出，进一步降低了延迟；
开源计划： Kyutai 计划在未来几周内开源 Unmute 的 STT、TTS 模型以及相关网站，开发者可随时关注最新进展。(@ kyutai_labs\@X)

02 有亮点的产品

1、Notion AI：智能会议助手，实现会议内容自动转录与任务管理联动，Product Hunt 周最佳产品

Notion AI 会议笔记是一款集成于 Notion 生态的 AI 会议助手，核心价值在于将会议语音自动转录为结构化笔记，并与任务、项目管理无缝衔接。目标用户主要为产品经理、远程团队及知识型工作者，聚焦于提升会议记录效率、减少信息遗漏和后续跟进难度等关键痛点。产品通过高准确率的实时转录、智能要点提炼和自动生成待办事项等功能，显著优化了会议内容的整理与流转体验。其最大差异化优势在于与 Notion 数据库的原生兼容，能够直接将会议纪要转化为可执行任务，形成高效的工作闭环。市场机会在于远程协作普及下，企业对智能会议记录和知识管理工具的需求持续增长。

网站链接：

https://www.notion.com/product/ai-meeting-notes（@Z Potentials）

2、Nomi：实时销售助手，在通话过程中提供实时建议

Nomi 一款基于 Recall.ai（YC W20）基础设施构建的产品，能够在通话过程中为您提供实时销售建议。并且永久免费提供 AI 记笔记功能。该产品现支持无限录音和转录，并且会在每次通话后发送智能摘要和自动填写您的 CRM。

Nomi 会分析用户的通话，并在屏幕上实时显示对用户的问答建议。

具体功能：

查看对任何问题的完美回应；
即时提出推动交易进展的问题；
准确把握提出成交请求的时机。

链接：

https://www.heynomi.com/（@YCombinator）

3、谷歌推出人工智能视频工具 Flow

谷歌在「I/O 2025」全球开发者大会上发布了影视级 AI 制作工具 Flow。

Flow 是谷歌之前发布的 Video FX 迭代版，由最新的 Veo 3、文生图片模型 Imagen 和大模型 Gemini 提供技术支持，集成了目前谷歌最强的多种模型。

Flow 在文本指令遵循、多动一致性、色彩、对比度、光影等很不错，尤其是物理模拟方面非常出色。

此外，Flow 还提供了一系列专业影视制作功能：

相机控制：用户可以直接控制相机的运动、角度和视角随意掌控镜头；
场景构建器：该功能能无缝编辑和扩展现有镜头，通过连续的动作和一致的角色展现更多动作或过渡到接下来的场景，例如，当你发现一些镜头的信息量、时长不足时，可以通过该功能快速延长镜头长度，增加丰富叙事层次；
资产管理功能可轻松管理和组织所有元素和提示；

此外，谷歌还将推出「Flow TV」，这是一个精选的视频片段和内容流，用户可以查看这些视频背后的具体提示词，从而了解其他用户的创作思路。

目前，Flow 已经开放使用，Google AI Pro 订阅用户每月可生成 100 次视频。最新的 Google AI Ultra 还能使用 Veo 3 模型，将环境声音和角色对话直接带入视频创作中。（@AIGC 开放社区、@TheCreativeTech）

03 Real-Time AI Demo

1、小智 AI 更新：具有视觉理解能力的语音智能体硬件

来自小智 AI 的创始人 @ 虾哥要早起：「让我康康你帅不帅」——那个被 AI 视觉支配的下午。

（@ 虾哥要早起）

04 有态度的观点

1、Google 联合创始人：AI 的未来难以预判

日前，Google 联合创始人 Sergey Brin 接受了公司的专访，其中他提到了不少关于 AI 现状和未来的情况。

在讨论「当前 AI 发展与过去预期的对比」这一话题时，Brin 表示，AI 从「游戏式想象」到如今的显示，AI 的突进令人惊讶。他表示，当年人们对未来的预测，如同一次具备理论性的「聊天」，没人能预判到，如今的 AI 突破已经让一切「真实得令人吃惊」。

随着像 Gemini 2.0 这样的多模态 AI 系统发布，Brin 认为人类已经进入了「模型即系统」的新阶段：它不再是一个仅仅输入输出的模型，而是一个原生支持搜索、代码执行和工具调用的完整生态体。这种系统思维将彻底改变大众对 AI 能力的定义。

Brin 预测，AI 将从「快速出答案」转向「长期深度思考」——通过延长模型的运行时间，比如让模型推理一小时、一天甚至一个月，从而在复杂任务中获得更可靠、更有深度的结果。这一点，被他形容为「AI 的一种超能力」。

🔗 原视频链接：

https://www.youtube.com/watch?v=o7U4DV9Fkc0（@APPSO）

更多 Voice Agent 学习笔记：

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨 Voice Agent 学习笔记

a16z 合伙人：语音交互将成为 AI 应用公司最强大的突破口之一，巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up。