开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、小米大模型团队登顶音频推理 MMAU 榜

3 月 17 日,小米技术官方账号宣布,小米大模型团队通过迁移 DeepSeek 算法,让 7B 模型登顶音频推理 MMAU 榜。小米也公布了其训练的目的之一:通过一段汽车行驶中的座舱录音,利用 AI 判断出汽车是否存在潜在的故障。据小米大模型团队介绍,其尝试将 DeepSeek-R1 的 GRPO 算法(强化学习算法)迁移到通义千问的 Qwen2-Audio-7B 模型上。结果显示,在仅使用由清华大学发布的 AVQA 的 3.8 万条训练样本情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 —— OpenAI 的 GPT-4o 有近 10 个百分点的优势。小米方面还提到了一点有趣的实验结果:当团队在训练中强制要求模型输出 < thinking >< /thinking > 推理过程时(类似传统思维链方法),准确率反而下降至 61.1%。

团队表示,这说明显式的思维链结果输出可能并不利于模型的训练。本次使用的 MMAU 评测集是这种音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能的表现。作为基准上限,人类专家在 MMAU 上的准确率为 82.23%,而本次小米所选用的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。

小米大模型团队表示,此次实验验证了强化学习在音频推理领域的独特价值,也为后续研究打开了一扇新的大门,同时小米预测,当机器不仅能「听见」声音,还能「听懂」声音背后的因果逻辑时,真正的智能听觉时代将会来临。目前该项目的训练代码、模型参数、技术报告均已公开,同时还公布了交互 Demo:http://120.48.108.147:7860/Demo。(比较有趣的是, 点开来是小米创始人雷军的「名场面」— Are U OK)(@ APPSO)

2、阿里云启动「T 项目」,加速 AI 研发

据科创板日报获悉,阿里云已启动了「T 项目」,主要指面向下一代 AI 技术,做 AI 引擎、LLM、多模态等未知领域探索,员工以类似项目「借调」的方式加入。知情人士透露,项目是为了加速 AI 的研发。而阿里巴巴 CEO 吴泳铭上个月为进一步提振投资者的信心,他宣布阿里准备在未来三年内投入 3,800 亿元建设其 AI 基础设施,这一金额超过了过去十年的总投入。据知情人士透露,阿里今年计划投入 390 亿元采购 AI 芯片,比去年高出近 50%。如果增长超出预期,这一数额还有可能在年内上调。

此外,据金融时报昨日发布深度文章信息显示,吴泳铭主张在阿里现有业务中全面实现「AI 化」。知情人士透露,阿里所有部门已被告知,他们 2025 年的绩效将通过如何利用 AI 促进增长来评估。文章中还指出,阿里在 2023 年 3 月首次尝试战略转型,但因早期投资者声音及市场环境的影响,阿里在六个月后被迫改变了策略,也在这时,阿里巴巴创始人马云及现任阿里巴巴董事长蔡崇信决定,将阿里重塑为一家 AI 公司。同年 9 月,此前曾在多个阿里部门担任领导职务的吴泳铭,被选中接替张勇担任 CEO,并同时宣布其领导云业务。在吴泳铭的领导下,阿里及其管理层的局势开始好转。

吴泳铭开始出售阿里旗下大部分陷入困境的零售业务,以便将资源重新配置到 AI 领域的发展上,并寻求新的投资机会。与此同时,阿里还将通义千问模型训练团队的规模扩大至 100 人左右,成为中国规模最大的团队之一,并且开始推出越来越多具有竞争力的模型。得益于通义千问的竞争力,阿里还深受苹果公司的信任。蔡崇信在上个月透露,苹果已选择阿里作为其合作伙伴,在今年晚些时候在中国的 iPhone 上推出 AI 功能。(@ APPSO)

3、通义千问:QwQ-32B 登顶全球最强开源模型

据通义千问官方微博消息,3 月 17 日,阿里通义千问最新开源的推理模型 QwQ-32B,在国际权威测评榜 LiveBench 中,超越 OpenAI-GPT-4.5-preview、Google-Gemini2.0、DeepSeek-R1 等国内外顶尖模型,冲进全球前五,成为」全球性能 No.1 的开源模型。

LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)领衔发起的大模型评测榜,对 QwQ-32B 的推理、编程、数学、数据分析、语言理解和指令遵循等能力进行综合全面评估,采用自动评分。(@ 通义千问微博)

4、谷歌云重磅推出高清语音模型 Chirp 3,支持 248 种声音

谷歌云在位于伦敦的 DeepMind 总部举行了一场会,正式推出其高清语音模型 Chirp3。该模型通过 Vertex AI 统一机器学习平台向开发者开放,提供了丰富的开发工具,助力程序的创新。

Chirp3 支持 248 种不同的声音,并可用 31 种语言进行语音合成。开发者可以利用这一模型创建多种应用,如智能语音助手、有声读物和视频配音等。谷歌表示,Chirp3 的语音功能能够捕捉人类语调的细微差别,使得对话更加生动和引人入胜。

除了使用现成的语音,用户还可以通过谷歌云的文本转语音 API 创建自定义语音。然而,谷歌为了确保负责任的使用,限制了这一语音克隆功能的访问权限,以防止潜在的滥用行为,并确保符合伦理 AI 的实践。

在发布会上,谷歌云首席执行官托马斯・库里安(Thomas Kurian)强调,谷歌的总体愿景是提供一系列广泛的模型,除了 Chirp3 外,还包括 Gemini、Imagen、Veil 等多款产品。谷歌还推出了一个名为 Agent Space 的新产品,专为商业用户设计,以满足其特定需求。(@ AIbase 基地)

02 有亮点的产品

1、Zoom 发布全平台 Agent,智能体大爆发

今天凌晨,全球视频会议领导者 Zoom 在官网宣布,发布一系列 AI Agent 产品来增强全平台功能,同时 Zoom 进入全新的智能体自动化时代。

本次通过 Agent 增强的产品包括 Zoom Meetings、Zoom Phone、Zoom Team Chat、Zoom Docs、Zoom Contact Center、Zoom Workplace 等。

其中最重要的就是 Zoom 的类 ChatGPT 助手 AI Companion,将从一个简单的 AI 助手演变成智能体搭建平台, 具备记忆、推理、任务执行和协调四大功能,帮助用户从重复、繁琐的工作中解脱出来,节省大量时间提升效率。

AI Companion 获得 Agent 增强后拥有了记忆、推理、任务执行和协调四大功能,也是帮助其他功能自动执行重复、复杂数字化业务的基石。

AI Companion 增强了 Zoom Phone 功能,能够生成语音邮件总结,并支持 Zoom for Microsoft Teams 应用程序。

用户可以在 Microsoft Teams 中直接接收 Zoom Phone 的通话总结,并优先处理语音邮件中的任务。此外,移动应用上的新语音记录器功能将允许用户在面对面交流时无需手动做笔记,AI Companion 会自动转录、总结并捕捉行动内容。

在客户体验方面,Zoom Contact Center 引入了 Agent 功能,能够自动处理复杂的客户查询并代表客户执行任务。这些虚拟 Agent 不仅支持聊天渠道,还将扩展到语音渠道,提供无缝的 7*24 小时全天候服务。(@ AIGC 开放社区)

2、WarpTuber:快手 LivePortrait 驱动的即时 VTubing 工具

WarpTuber 是一个基于快手 LivePortrait 的即时 VTubing 工具。它允许用户通过摄像头,将自己的脸部表情和面部动作即时「套」到一张照片或角色图像上,从而创造出会动的虚拟形象。(@ 三花 AI )

03 有态度的观点

1、李飞飞:在 AI 前沿,要保持好奇心

近日,李飞飞接受微软总裁 Brad Smith 的对话采访,前者回顾了自己的个人经历,讲述了她如何在 AI 中找到方向。李飞飞回顾了自己的青年时期:那段时间教会她要保持好奇心,同时更要保持上进与学习的心态,而且还要选择自己所热爱的。李飞飞表示,也正因为自己的青年时期,才有了后来的自己,以及对 AI 的探索心。同时李飞飞也谈及了自己的 ImageNet 项目。其通过 ImageNet 发现,创业需要独立、自主。当时 ImageNet 并不被认可,而李飞飞坚持自己的想法——机器也需要类似的视觉数据进行学习,最后 ImageNet 成为了深度学习革命的关键数据集。由此,李飞飞也表示,AI 前沿需要保持自己的热爱与好奇心。最后,李飞飞还分享了她目前专注的创业项目 World Labs。她通过强大的好奇心与意识能力,预测着计算机视觉领域正经历一场新的革命,因此李飞飞也提出了自己经典的「空间智能(Spatial Intelligence)时代」,她认为,空间智能是一项基础技术,能够让 AI 理解并生成三维世界,并为用户带来前所未有的交互体验。(@ APPSO)

04 Real-Time AI Demo 分享

1、一个实时双向传输二维码数据,实现 Agent 之间通讯的协议 demo

来自@Orion Reed:开发了一个巧妙的协议,可以通过 QR 码实现双向数据传输。它通过要求每个设备确认收到前一个数据块来确保数据传输的可靠性,从而优雅地处理中断。这个协议是为 WebRTC 信令等场景设计的,也是与 @chrisshank23 合作的 Folk Canvas 项目的一部分。

2、debdeb.io:一个 AI 语音辩论项目

来自@rtilleard:分享了一个周末做的 AI 教育项目,结合了文本和音频,非常有意思!基于 @elevenlabsio@lovable_dev 构建,立即体验:https://debdeb.io

你可以:

这展示了我们在文本、音频、图像和视频中可以实现的互动式「思考」潜力。

更多 Voice Agent 学习笔记:

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流