开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、线上活动 RTE Meetup:主动式语音 AI:全双工、对话轮次管理、VAD 技术交流会
本次线上 RTE Meetup 在本周六 28 日上午 10:00 举办。
本期 meetup 邀请到来自 Soul、Voila、MagicHub 社区、TEN VAD 和 TEN Turn Detection 等项目的开发者和专家。主题覆盖全双工、情境感知、轮次检测和管理、语音 VAD 等话题。
同时,来自 Voice Agent Camp 的创业者,也会分享这些技术在不同语音对话场景里的具体需求、遇到的问题和解决方案。
也鼓励你带上自己的项目或 idea 报名参与,并特别设置了快闪 demo 环节,邀请大家展示和交流。
这是一场轻松的开发者聚会,既可以交流技术也可以交朋友。期待你的报名!
Web 端也可直接访问网页报名:
https://www.rtecommunity.dev/t/t_uXNEywfHWzqcrn(@RTE 开发者社区)
1、全能多模态 AI 工具 vivago2.0,提供唇形同步功能
全新多模态 AI 工具 vivago2.0 由梅涛团队推出,集图片、视频和播客生成于一体,支持百种特效模板,极大简化创作流程。该工具的 AI 模型 HiDream-I1 在文生图竞技场中开源 24 小时内登顶,展现出强大的市场竞争力。用户只需简单输入文本或上传参考图,系统就能生成高质量的图像和视频,同时提供唇形同步功能,方便制作 AI 播客。
生图方面的 Image Agent,提供了一种全新的图片生成交互形式。在聊天框中用户表达需求,不论是修图还是生图,Agent 会基于上下文信息,准确判断理解用户意图。生图和修图都可以批量完成。Image Agent 还提供了「重写」、「帮我写」prompt 的功能,创作点什么用户用自然语言表达就行。
视频生成方面,有图片生成视频和文字生成视频两种方式。
AI 播客制作功能也就是唇形同步,自己配音或者是写一段文本让 AI 配音都可以支持。当输入文字时,图片中的人物能根据文本自然地完成口型同步。与此同时,人物的肢体动作也会随着话语同步变化。
目前,vivago2.0 已在 Web 端与 App 全球同步上线。(@ 量子位、@ 果比 AI)
2、谷歌捐赠 A2A 协议打破 AI 垄断壁垒
谷歌将自主研发的 AI 代理通信协议 A2A(Agent-to-Agent Protocol)捐赠给 Linux 基金会管理,此举旨在消除行业对巨头技术垄断的担忧,推动跨厂商 AI 智能体协作。A2A 协议基于 HTTP、JSON-RPC 等现有标准构建,支持文本、音视频等多模态交互,可实现不同企业 AI 代理间的无缝通信与任务协同,例如供应链管理中的需求预测与物流调度、IT 服务自动化中的多环节协作等。
协议设计遵循安全认证、长时间任务支持等原则,已获得微软、SAP、德勤等 50 余家企业支持,与 Anthropic 的 MCP 协议形成互补,共同构建多智能体协作基础设施。这一开源举措标志着 AI 从单一系统竞争迈向生态协同的新阶段。(@AI 智前沿)
3、微软发布设备端小语言模型 Mu:3.3 亿参数专供 Win11 设置助手
微软推出 3.3 亿参数的设备端小语言模型 Mu,专为 Windows11 设置应用的 AI 助手打造。该模型通过量化技术和参数共享实现本地高效运行,响应速度达每秒 200 次样本生成,首词延迟降低 47%。支持 AMD/英特尔/高通的 NPU 硬件,无需云端处理保障用户隐私。
Mu 是一款拥有 3.3 亿参数的编码器 - 解码器语言模型,专为 Co pilot+ PC 上的 NPU 优化,目标是通过自然语言指令简化 Windows 设置操作。例如,用户只需说出「打开暗黑模式」或「调高屏幕亮度」,Mu 即可直接调用相应设置功能,无需手动导航复杂菜单。这一 AI 代理目前已在 Windows Insiders Dev Channel 的 Co pilot+ PC 上开放测试,支持数百种系统设置的精准理解与执行。目前,Mu 仅支持搭载高通骁龙 X 系列处理器的 Co pilot+ PC,但微软已承诺未来将扩展至 AMD 和英特尔平台的 NPU 设备,覆盖更广泛的用户群体。
原文链接:
https://www.aibase.com/zh/news/19197
博客:
https://blogs.windows.com/windowsexperience/2025/06/23/introducing-mu-language-model-and-how-it-enabled-the-agent-in-windows-settings/
(@AIIbase 基地)
1、VibrantSnap :支持录制屏幕并添加 AI 虚拟人讲解
VibrantSnap 是一个专门录制 demo 的工具,主要功能是帮助用户录制屏幕并添加 AI 虚拟人讲解,无需绿幕或复杂的编辑过程。
亮点:
支持录制屏幕并添加 AI 虚拟人讲解,无需绿幕或复杂编辑;
提供丰富的动画背景和高质量静态图片,一键切换;
拖拽式布局,内置 12+ 动效模板,支持光标缩放和镜头切换;
自动去除语气词、停顿,提升语音和画面专业度;
支持截图、视频录制,4K 输出,适配 TikTok、YouTube、Instagram 等平台;
多平台兼容,界面友好,适合新手和专业用户;
付费按需,按分钟计费,试用免费;
适合产品演示、营销短视频、教育内容创作等场景。
官网链接:
https://vibrantsnap.com(@elliotchen100\@X)
2、谷歌真 AR 眼镜原型「Martha」曝光,基于 Android XR 平台设计
谷歌真 AR 眼镜开发者版本曝光,代号「Martha」,基于 Android XR 平台设计;配套应用界面类似 Pixel Watch,包含通知、设置、视图记录和反馈等功能,明显针对测试人员;这款 Android XR 眼镜配有内置相机、麦克风和右镜片上的小型棱镜,后者可以显示时间和温度。虽然关于眼镜的硬件和操作系统的详细信息仍然不多,但根据应用程序显示,眼镜可能允许用户录制自己所看到的内容,并且能够快速查看通知。
(@ 腾讯研究院、@ 三次方 AIRX)
3、语音 AI 转录应用 Wispr Flow 完成 3000 万美元 A 轮融资
近日,语音转录应用 Wispr Flow 宣布完成 3000 万美元的 A 轮融资,由 Menlo Ventures 领投。迄今为止,该公司已融资 5600 万美元。
核心技术亮点:
专注用户体验: Wispr Flow 致力于打造高效的数字意图转录方式,重视用户在说话时的自然表达,而非专注于降低单词错误率。
多语言支持: 目前 Wispr Flow 支持 104 种语言的语音转录,其中英语占 40%,其余语种占 60%,西班牙语、法语、德语、荷兰语、印地语和普通话是使用最多的语种。
广泛的用户基础: 该应用的用户群体正以每月 50% 的速度增长。用户分布广泛,美国用户占 40%,欧洲用户占 30%,其他地区用户占 30%。此外,超过 30% 的用户来自非技术背景。
发布计划与未来展望:
Wispr Flow 计划利用这笔资金扩大其 18 人的团队,招聘工程和市场推广方面的人才。
公司将发布 Android 应用,并通过建立公司范围内的短语上下文和支持团队来满足企业用户的需求。
Wispr Flow 致力于将产品打造成 AI 驱动的个人助理,了解用户的个人习惯,并帮助用户完成日常任务,如发送消息、做笔记和设置提醒。
此外,该公司还与一些 AI 硬件合作伙伴合作,以增强交互体验,具体合作伙伴信息尚未披露。(@Techcrunch)
4、饿了么上线骑手 AI 助手,支持语音唤醒,会主动发起询问
6 月 24 日,饿了么宣布在「蜂鸟众包」App 上线智能 AI 助手「小饿」,并号称「提高骑手的跑单效率」。据悉,「小饿」是国内首个基于大模型技术打造的骑手端智能体,全面覆盖蓝骑士的配送场景,拥有以下三大核心能力:
语音交互与智能响应:支持语音唤醒,可直接完成接单、确认到店、查询活动等操作,减少手动点击步骤,提升操作效率。
多维度主动服务:通过实时分析骑手位置、订单状态及环境数据,主动推送权益提醒(如福利领取)、天气预警、路线封路提示等,降低配送风险。
个性化智能分析:基于骑手历史数据与周边订单热力图,提供「哪里订单多」「当前收入预估」等智能分析,帮助骑手优化接单策略。
对于蓝骑士们经常遇到的「忘记取货」、「忘点送达」等场景,「小饿」会在识别后主动语音提醒,降低违规操作;以及在「取送点定位疑似不准」、「订单超时风险较高」时,或者「小饿」识别到订单所在小区可能不让进入,顾客有备注需要提前打电话联系时,会主动发起询问,并可语音唤起一键联系顾客。目前每日主动服务超过 2000 万次。(@APPSO、@ 饿了么蓝骑士)
5、乐鑫发布与火山引擎扣子联名 AI 智能体喵伴:会听、会动、会陪伴的 AI 萌宠
EchoEar(喵伴)是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。设备支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。
EchoEar 主控采用乐鑫 ESP32-S3-WROOM-1-N32R8 模组,支持 2.4 GHz Wi-Fi 和 Bluetooth 5(LE)无线连接。存储方面,整机具备 8MB PSRAM、32MB Flash 的存储空间,同时还配备了一个可支持高达 32GB 的 microSD 卡插槽,满足语音交互和多媒体处理需求。配备 1.85 英寸圆形触摸屏(360×360 分辨率)与 ESP32-S3 原生触摸传感器,提供直观丰富的交互体验。
音频方面,EchoEar 内置 3W 扬声器和双麦克风阵列,支持本地语音唤醒和声源定位。电源系统兼容 5V DC 和 3.7V 700mAh 锂电池供电。此外,还集成一个 USB-C 接口支持供电与编程下载,同时预留 Pogopin 接口方便功能拓展。
作为 EchoEar 的一大技术亮点,设备搭载的 esp-brookesia 框架不仅承担了整体 UI 的构建与渲染,还深度融合了火山引擎扣子平台和乐鑫全新音视频框架 esp-gmf ,集成了多项面向端侧优化的智能功能,借助该框架,EchoEar 可实现全双工语音交互、多模态识别与智能体控制,构建更具沉浸感的人机交互体验。(@ 乐鑫朋友圈)
1、宇树科技创始人王兴兴:AI 和机器人的时代才刚刚开始
日前,宇树科技创始人王兴兴在个人账号上,向高考生发出了大学报考建议,并表示「请不要放弃努力寻找自己喜欢和擅长的事,寻找新的方向,并且一定努力去实践。」
王兴兴表示,目前大家正处于「AI + 机器人」的时代,同时站在这个激动人心又充满不确定性的技术爆发点前,因此他结合自身经历,对想投身具身智能行业的同学给出一点建议:
如果从小喜欢拆解维修一些电子产品,或者动手 DIY 做点东西,推荐学习机械或电子相关专业。王兴兴还强调,要仔细了解各学校和专业的具体内容,「哪怕专业名字一样,学校之间的差别也很大」。王兴兴还表示,中间如果想多学习 AI,也可以多花时间自学。 如果对智能如何产生感兴趣、如果有 AGI 的梦想,且数学还不错,推荐直接学习计算机科学/人工智能相关专业。王兴兴同时建议,中间可以稍微花一些时间,学习一些硬件相关的原理。
对于没能进入理想学校、理想专业,或是进入后发现不喜欢、不适合的同学,王兴兴则认为「这其实完全不是大问题,非常常见和正常。」他表示:
请不要放弃努力寻找自己喜欢和擅长的事,寻找新的方向,并请一定努力去实践。可以直接去找自己感兴趣方向的老师,直接沟通去他的实验室做事,甚至完全可以直接全都自学。
对于上学时的建议,王兴兴则强调「要超脱课本,主动持续学习,学习当下最前沿的科技领域。」他表示,具身智能是物理世界的智能,一定要多动手,在实战中迅速提升自己。
最后,王兴兴还表示,「请不要灰心,AI 和机器人的时代才刚刚开始,还有大量的挑战和机会在等你们。」(@APPSO)
更多 Voice Agent 学习笔记:
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻