图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、微软发布 STT 模型 MAI-Transcribe-1.5:15 秒完成小时级音频转录,WER 降低至 2.4%

图片

Microsoft 发布多语言语音转文本(STT)模型 MAI-Transcribe-1.5,将支持语言扩展至 43 种。该模型通过优化推理架构,在长音频转录速度上达到竞品的 5 倍,并在保持 SOTA 级准确率的同时大幅降低了企业级部署成本。

So, um, for the next phase, Sean will, uh, take care of the documentation. Oif, right, uh, she’ll handle the user testing sessions. Societal is, um, leading the workflow design. Soren will, uh, set up the analytics, and Niamh is going to coordinate the deployment timeline.

参考链接:

https://microsoft.ai/news/mai-transcribe-1-5more-accurate-context-aware-and-built-for-production/

( @microsoft.ai)

2、微软发布 MAI-Voice-2:支持 15 国语言零样本语音克隆,单次参考音频仅需 5-60s

Microsoft 推出新一代文本转语音(TTS)模型 MAI-Voice-2,旨在提升商业级语音交互的自然度与情感表现力。该模型实现了从单语种到 15 种语言的原生支持,并显著增强了长文本场景下的说话者一致性,直接降低了企业构建定制化品牌语音的技术门槛与成本。

参考链接:

https://microsoft.ai/news/mai-voice-2expressive-speech-in-10-languages/

( @microsoft.ai)

02 有亮点的产品

1、OpenAI 现场演示无 APP 手机:所有界面实时生成,推理甩给云端 GPT

据媒体报道,在 OpenAI Voice Hack Night 活动上,一支团队现场展示了一款为手机打造的「Agentic 操作系统」原型。演示中的所有界面均为「即时生成」,无需调用任何传统 App

图片

其核心设计理念被概括为「UI 即系统」:手机上不再安装常规应用,界面由端侧本地模型实时生成(on the fly),重推理任务则交由云端 GPT 处理。开发者全程通过语音指令完成了一系列操作,包括预订机票、删除日历日程、查找 AI 新闻、发送邮件以及列出待办事项。

此前有消息称,OpenAI 正在加速推进其 AI 智能体手机项目,最新计划是在 2027 年上半年实现量产,这一时间表比外界普遍预期更早。

OpenAI 首席执行官山姆·奥特曼曾多次暗示公司正在研发手机项目,并表示「现在是认真重新思考操作系统和用户界面设计的合适时机」

(@ 极客公园)

2、Google 为 Android 推出 AI 伪造通话检测:基于 RCS 的硬件级「数字握手」验证

图片

Google 在 Android 系统(Phone by Google 应用)中上线 AI 伪造通话检测功能,旨在对抗利用深度伪造(Deepfake)音频进行的号码欺诈。该功能通过建立设备间的验证机制,实时拦截冒充联系人、家人或权威机构的冒名电话。

( @TechCrunch)

###

03 有态度的观点

1、山姆 · 奥特曼承认错误:拥抱 AI 最积极的公司仍在招聘

图片

OpenAI CEO Sam Altman 昨日在 CNBC 采访中指出,在他所接触的大型企业样本中,AI 采用程度最深的公司,反而正在大规模招聘;而那些以 AI 为由宣布裁员的公司,往往是 AI 落地最慢的一批。

Altman 表示,AI 可以成为企业解释裁员的「便利借口」,但这与技术实际应用情况并不相符。他同时承认,自己对 AI 影响就业的判断正在变得更为乐观,原因是观察到企业在使用 OpenAI 编程工具 Codex 等产品后,并未出现预期中的岗位萎缩

他将这一现象归因于大模型自身的局限性——

这些模型在某些事情上表现极好,但在长期、复杂任务的监督执行上完全力不从心

Altman 还就 OpenAI 此前的公关表述表示遗憾。他指出,去年 12 月一份有关 GPT-5.2 的新闻稿声称该模型「在 44 个职业中超越专业人士」,措辞过于笼统,引发了不必要的公众焦虑

我们应该说,它在 44 个职业的细分任务上超越专业人士,这才是更准确的说法。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流