图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、「ElevenLabs」发布「Dubbing v2」:基于 Audio-to-Audio 架构,支持 90+ 语言的原生性能条件化配音

AI 语音技术公司「ElevenLabs」推出新一代 AI 配音模型「Dubbing v2」。该模型采用端到端的 Audio-to-Audio 架构直接对原始音频的语气、情感和语调进行条件化建模(conditioning),而非依赖文本转译。此更新实现了全自动化的多语种配音流水线,大幅提升了音色克隆与时间戳同步的精准度

(@Elevenlabs)

2、阶跃星辰发布「Step 3.7 Flash」:多模态智能体吞吐达 400 TPS,支持 Advisor 级联模式减产 89% 编码成本

图片

阶跃星辰(StepFun)推出 196B 参数量(含 1.8B ViT、11B 激活参数)的原生多模态大模型「Step 3.7 Flash」,将智能体(agent)执行吞吐提升至最高 400 TPS。该模型原生集成了视觉搜索与 Python 统一代码接口,并通过引入「Advisor Mode」级联架构,让轻量化执行模型在关键决策点调用大模型,在保持 Flash 级别低成本的同时达到前沿模型 97% 的编码性能

参考链接:

https://static.stepfun.com/blog/step-3.7-flash/

https://github.com/stepfun-ai/Step-3.7-Flash

https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF

(@stepfun)

3、Mistral AI 将 Le Chat 更名为 Vibe 并推出 Work 与 Code 模式

图片

Mistral AI 正式将其对话产品 Le Chat 更名为 Vibe,定位为执行长周期、多步骤复杂任务的统一 Agent。

全新上线的 Work 模式支持接入 Google Workspace 等办公工具执行计划与搜索。

Code 模式则在网页端提供隔离沙盒以实现并行编码和自动提交 PR,同时推出了配合该模式的 VS Code 扩展。

据媒体报道,此举旨在与 OpenAI 等公司的同类 Agent 展开竞争,且 Pro 订阅价格已下调至每月 14.99 美元

(@ 橘鸦 Juya)

02 有亮点的产品

1、光帆 AI 穿戴设备接入腾讯出行

图片

昨天,光帆科技宣布与腾讯出行服务达成合作,光帆 AI 全感穿戴设备将接入腾讯出行服务,相关功能将于 6 月 5 日上线。

用户可通过语音发起叫车需求,系统根据当前位置、目的地等信息,引导完成价格预估、下单叫车和自动支付流程。

光帆 AI 全感穿戴设备是光帆科技旗下首款产品,已于 5 月 15 日正式开售。官方信息显示,该产品上线后登顶京东 AI 耳机热卖榜 TOP1,并连续 8 天保持榜首位置,首批产品目前已售罄,现已开启新一轮预售。

( @APPSO)

2、「HMD」联合「Sarvam AI」发布首款预装本地化大模型手机:搭载 105B 参数「Indus」聊天机器人,定价 10,999 卢比

图片

芬兰手机制造商「HMD」宣布推出其首款智能手机「Vibe 2 5G」,该机型原生预装了印度人工智能创业公司「Sarvam AI」开发的智能手机聊天机器人「Indus」。通过这一硬件级捆绑,Sarvam AI 将其针对本地特定语境训练的 105B 参数大模型直接推向印度大众硬件市场,旨在解决英语 LLM 在非英语语系及高流动性方言地区的落地渗透瓶颈

( @TechCrunch)

3、 Silbo 机器人:集成情感识别系统与户外跟随功能的活跃老人陪伴智能体

图片

图片

设计师 Taeyoon Kim 与韩国弘益大学(Hongik University)合作开发了 AI 机器人 Silbo。该产品放弃了主流养老科技侧重的生命体征监测功能,转而通过习惯学习算法与多模态交互,为身体自理能力较强的「活跃老人」提供情绪价值与社交连接支持。

(@ 新智独角兽)

4、Willow 发布语音 AI 写作助手 Willow Scribe:集成全局热键,支持应用内上下文回复与跨应用高亮文本语音重写

Willow 推出语音 AI 写作助手 Willow Scribe。该工具通过全局热键唤醒,使用户能够通过口头粗略指令生成符合个人风格的文本草稿。通过读取当前应用(如 Slack、邮件)的屏幕上下文,Willow Scribe 可实现应用内自动回复及高亮文本的即时重写与翻译。

全局热键唤醒与模糊口令草稿生成:用户按下自定义热键并输入「给 John 写一封设计评审的跟进邮件」等模糊语音指令,系统即可自动学习并模拟用户的个人写作风格,生成完整的邮件或消息草稿。

第三方应用线程上下文感知回复:在 Slack、电子邮件等通讯软件的特定讨论线程(Thread)中,系统能够自动读取上下文历史记录,并根据用户的简短语音指示(如「回复他我周五发 PPT」)自动合成语义连贯的行内回复。

屏幕高亮文本行内语音编辑(Inline Editing):用户可在任意文本区域内高亮选定特定段落,触发热键并通过语音下达「让这段话更清晰」或「将其翻译为中文」等指令,系统将直接在当前光标处进行文本的重写、润色与多语言翻译。

Willow Scribe 将传统的「语音转文字(ASR)」升级为「语音转语义意图(Speech-to-Intent)」的智能体级工作流。

目前产品已上线并开放体验,官方正通过社交媒体互动提供 1 个月的免费试用额度。

@Willow

03 有态度的观点

1、罗福莉:MiMo API 降价来自更低推理成本

图片

小米 MiMo 官方日前宣布 MiMo-V2.5 系列 API 永久降价,相比原始 API 定价最高降幅可达 99%,且不再区分上下文窗口长度。小米 MiMo 负责人罗福莉随后在 X 平台发文,解释这次降价背后的技术原因。

罗福莉表示,MiMo 的原始推理成本远低于行业平均水平,新价格「基本可以维持收支平衡」。她把原因归结为模型和系统两侧:模型本身在推理效率上做了压缩,后端服务也通过工程优化降低了单位 token 成本。

罗福莉强调,MiMo-V2.5 不再按上下文窗口长度区分价格,意在把长上下文使用门槛拉低,让开发者更容易在实际应用里试用。值得关注的是,罗福莉在帖文中还建议同行不要「盲目降价」:

我们之前建议 LLM 公司不要「盲目降价」,正是因为很少有模型架构和推理优化能够阻止 API 成本在亏损情况下运行

她认为,MiMo 的低成本源于特定的架构设计与推理优化能力,若其他公司不具备类似基础,盲目跟进可能导致亏损。

她还从更宏观的角度阐述了这一逻辑的产业意义:价格合理、高性能的模型 API 将推动真正规模化的推理需求,进而带动芯片、服务器、液冷、供电及数据中心等 AI 基础设施链加速发展,形成行业良性循环。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流