AI测试 Kyutai 推出模块化语音 AI 工具 Unmute,赋予大模型语音能力;开源语音硬件「小智 AI 」演示视觉理解能力丨日报

RTE开发者社区 · May 26, 2025 · 743 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Mistral AI 高精度 Document AI 支持公式手写多语言解析

Mistral AI 最新推出企业级 Document AI 解决方案,基于 OCR 技术实现高精度文档解析。

官方号称该产品能够以 99% 以上的准确率提取复杂文本内容,包括数学公式、手写笔记、表格数据和图像信息,在单个 GPU 上每分钟处理多达 2,000 页,延迟极低且吞吐效率高,并支持全球多种语言处理。背后应该是通过 Mistral OCR 提供支持。

支持 API 调用,官网的演示案例包括表格、图形、数学公式、阿拉伯文等。Mistral AI 的 OCR 模型,作为 Document AI 的一部分,标准使用费用为每 1000 页 1 美元(每页 0.001 美元)。批量推理费用为每 2000 页 1 美元(每页 0.0005 美元),现在可以在 Mistral 的 AI 助手 Le Chat 中试用。

Mistral Document AI 官网:

https://mistral.ai/solutions/document-ai(@ 三花 AI、@MistralAI\@X

2、Kyutai 推出 Unmute:模块化语音 AI 工具,让任何文本 LLM 具备实时语音能力

Kyutai Labs 近日推出了 Unmute,一款高度模块化的语音 AI 工具,旨在为任何文本大型语言模型(LLM)赋予实时语音交互能力。通过整合先进的语音转文本(STT)和文本转语音(TTS)技术,Unmute 允许开发者将语音功能集成到现有的文本 LLM 中,实现智能语音交互。

Unmute 与 Kyutai 去年推出的音频原生模型 Moshi 互补。Moshi 在延迟和自然性方面表现出色,但尚未达到文本模型在功能调用、推理能力和上下文学习等方面的能力。Unmute 填补了这一空白,将文本 LLM 的扩展能力带入实时语音对话中。

关键特点:

  • 模块化设计: Unmute 通过包装 STT 和 TTS 模型,使任何文本 LLM 都能即时支持语音输入和输出,极大地提升了其灵活性和可定制性;

  • 智能打断与话轮转换: Unmute 的 STT 模型配备了 Semantic VAD,能够准确预测用户是否已结束发言,从而实现低延迟且不中断用户的自然对话体验;

  • 语音克隆与个性化: 开发者可以通过上传 10 秒的语音样本,条件化 TTS 模型,生成与特定声音和语调相匹配的语音输出。Kyutai 将以受控方式提供语音克隆模型的访问;

  • 流式处理优化: TTS 模型支持文本流式处理,即使在完整文本响应生成之前即可开始语音输出,进一步降低了延迟;

  • 开源计划: Kyutai 计划在未来几周内开源 Unmute 的 STT、TTS 模型以及相关网站,开发者可随时关注最新进展。(@ kyutai_labs\@X)

02 有亮点的产品

1、Notion AI:智能会议助手,实现会议内容自动转录与任务管理联动,Product Hunt 周最佳产品

Notion AI 会议笔记是一款集成于 Notion 生态的 AI 会议助手,核心价值在于将会议语音自动转录为结构化笔记,并与任务、项目管理无缝衔接。目标用户主要为产品经理、远程团队及知识型工作者,聚焦于提升会议记录效率、减少信息遗漏和后续跟进难度等关键痛点。产品通过高准确率的实时转录、智能要点提炼和自动生成待办事项等功能,显著优化了会议内容的整理与流转体验。其最大差异化优势在于与 Notion 数据库的原生兼容,能够直接将会议纪要转化为可执行任务,形成高效的工作闭环。市场机会在于远程协作普及下,企业对智能会议记录和知识管理工具的需求持续增长。

网站链接:

https://www.notion.com/product/ai-meeting-notes(@Z Potentials)

2、Nomi:实时销售助手,在通话过程中提供实时建议

Nomi 一款基于 Recall.ai(YC W20)基础设施构建的产品,能够在通话过程中为您提供实时销售建议。并且永久免费提供 AI 记笔记功能。该产品现支持无限录音和转录,并且会在每次通话后发送智能摘要和自动填写您的 CRM。

Nomi 会分析用户的通话,并在屏幕上实时显示对用户的问答建议。

具体功能:

  • 查看对任何问题的完美回应;

  • 即时提出推动交易进展的问题;

  • 准确把握提出成交请求的时机。

链接:

https://www.heynomi.com/(@YCombinator

3、谷歌推出人工智能视频工具 Flow

谷歌在「I/O 2025」全球开发者大会上发布了影视级 AI 制作工具 Flow。

Flow 是谷歌之前发布的 Video FX 迭代版,由最新的 Veo 3、文生图片模型 Imagen 和大模型 Gemini 提供技术支持,集成了目前谷歌最强的多种模型。

Flow 在文本指令遵循、多动一致性、色彩、对比度、光影等很不错,尤其是物理模拟方面非常出色。

此外,Flow 还提供了一系列专业影视制作功能:

  • 相机控制:用户可以直接控制相机的运动、角度和视角随意掌控镜头;

  • 场景构建器:该功能能无缝编辑和扩展现有镜头,通过连续的动作和一致的角色展现更多动作或过渡到接下来的场景,例如,当你发现一些镜头的信息量、时长不足时,可以通过该功能快速延长镜头长度,增加丰富叙事层次;

  • 资产管理功能可轻松管理和组织所有元素和提示;

此外,谷歌还将推出「Flow TV」,这是一个精选的视频片段和内容流,用户可以查看这些视频背后的具体提示词,从而了解其他用户的创作思路。

目前,Flow 已经开放使用,Google AI Pro 订阅用户每月可生成 100 次视频。最新的 Google AI Ultra 还能使用 Veo 3 模型,将环境声音和角色对话直接带入视频创作中。(@AIGC 开放社区、@TheCreativeTech

03 Real-Time AI Demo

1、小智 AI 更新:具有视觉理解能力的语音智能体硬件

来自小智 AI 的创始人 @ 虾哥要早起:「让我康康你帅不帅」——那个被 AI 视觉支配的下午。

(@ 虾哥要早起)

04 有态度的观点

1、Google 联合创始人:AI 的未来难以预判

日前,Google 联合创始人 Sergey Brin 接受了公司的专访,其中他提到了不少关于 AI 现状和未来的情况。

在讨论「当前 AI 发展与过去预期的对比」这一话题时,Brin 表示,AI 从「游戏式想象」到如今的显示,AI 的突进令人惊讶。他表示,当年人们对未来的预测,如同一次具备理论性的「聊天」,没人能预判到,如今的 AI 突破已经让一切「真实得令人吃惊」。

随着像 Gemini 2.0 这样的多模态 AI 系统发布,Brin 认为人类已经进入了「模型即系统」的新阶段:它不再是一个仅仅输入输出的模型,而是一个原生支持搜索、代码执行和工具调用的完整生态体。这种系统思维将彻底改变大众对 AI 能力的定义。

Brin 预测,AI 将从「快速出答案」转向「长期深度思考」——通过延长模型的运行时间,比如让模型推理一小时、一天甚至一个月,从而在复杂任务中获得更可靠、更有深度的结果。这一点,被他形容为「AI 的一种超能力」。

🔗 原视频链接:

https://www.youtube.com/watch?v=o7U4DV9Fkc0(@APPSO

更多 Voice Agent 学习笔记:

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up