AI测试 通义 R1-Omni 模型:通过音视频判断人物情绪;Google 开源端侧多模态模型 Gemma 3,最小 1B 参数丨日报

RTE开发者社区 · 2025年03月13日 · 502 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 社区活动推荐

1、今晚直播丨慢热的 MCP 终于火了:什么是 MCP,以及智能体通信协议的未来

⏰ 时间: 今晚(周四)20:00~21:15

🔗 地点: RTE 开发者社区微信视频号直播,扫海报二维码参与

📋 主题分享:什么是 MCP,以及智能体通信协议的未来

  • 常高伟,ANP 开源技术社区发起人。

💻 圆桌对谈:打破 Agent 孤岛:Multi-Agent 系统和开源智能体协议

  • 李国豪,CAMEL-AI.org 社区发起人

  • 常高伟,ANP 开源技术社区发起人

  • 林旅强,RTE 开发者社区主理人,开源社联创

主持人: 白宦成,AI 产品经理,独立开发者,RTE 开发者社区布道师

02 有话题的技术

1、Google 推出开源多模态模型 Gemma 3

3 月 12 日,Google 正式推出新一代开源多模态模型 Gemma 3,该模型采用与 Gemini 2.0 相同的研发和技术,同时也是 Google 迄今为止最先进、最便携的开源模型。Google 介绍,Gemma 3 专为端侧设备设计:从手机和笔记本电脑到工作站,帮助开发者在任何需要的地方进行 AI 应用开发。

值得关注的是,Google 称 Gemma 3 是「全球最佳单加速器模型」,能够在单个 GPU 或 TPU 主机上运行。Gemma 3 在 LMArena 排行榜上的初步人类偏好评估中,超越了 Llama-405B、DeepSeek-V3 和 o3-mini。Gemma 3 也提供多个尺寸的版本,分别为 1B、4B、12B 和 27B。除 1B 参数的版本,其他版本均支持理解 140+ 种语言,其中 35 种语言支持「开箱即用」;同时具备分析文本、图像及短视频的能力;Gemma 3 还提供 128k tokens 的上下文窗口,从而处理复杂任务;此外,Gemma 3 支持函数调用和结构化输出。

目前,Gemma 3 已上线 Google AI Studio,并且能够通过 Hugging Face、Kaggle 下载该模型。(@APPSO)

2、Open-Sora 2.0 全面开源,20 万复刻百万级大片!11B 媲美闭源巨头,224 张 GPU 创奇迹

Open-Sora 2.0——全新开源的 SOTA(State-of-the-Art)视频生成模型正式发布,仅用 20 万美元(224 张 GPU)成功训练出商业级 11B 参数视频生成大模型,性能直追 HunyuanVideo 和 30B 参数的 Step-Video。权威评测 VBench 及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。

此次发布全面开源模型权重、推理代码及分布式训练全流程,让高质量视频生成真正触手可及,进一步提升视频生成的可及性与可拓展性。

亮点:

  • 动作幅度可控: 可根据需求设定运动幅度,以更好地展现人物或场景的细腻动作。

  • 画质与流畅度: 提供 720p 高分辨率和 24 FPS 流畅视频,让最终视频拥有稳定帧率与细节表现。

  • 丰富场景切换: 从乡村景色到自然风光场景,Open-Sora 2.0 生成的画面细节与过渡平滑度都有出色的表现。(@ 新智元)

3、蚂蚁医疗大模型拿下 MedBench 测评「双料」冠军,支持图、文、音视频等多模态交互

36 氪获悉,近日,国内权威医疗大模型评测平台 MedBench 在官网更新了榜单。多个医疗 AI 产品及研究团队入榜,其中蚂蚁 AI 健康管家团队研发的蚂蚁医疗大模型以评测榜单 97.5、自测榜单 98.2 的高分再度夺得双料冠军。

据了解,蚂蚁医疗健康团队近期完成了基于强化学习的新一代医疗推理模型研发。AI 引擎升级后,该垂直行业大模型不仅具备「医学思维」推理能力,还能完成「图、文、音视频等」多模态交互。(@36 氪)

5、阿里开源全模态模型,可充分理解音频信息、判断人物的情绪

智东西 3 月 12 日报道,昨日,阿里通义实验室开源 R1-Omni 模型——业界首个将具有可验证奖励的强化学习(RLVR)应用于全能多模态大语言模型。

R1-Omni 能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与 SFT(传统监督微调)相比,RLVR 显著提高了情绪识别任务的性能,在同分布测试集(DFEW 和 MAFW)上,R1-Omni 相较于原始基线模型平均提升超过 35%,相较于 SFT 模型在 UAR 上的提升超 10%。

R1-Omni 的一大亮点在于其透明性(推理能力)。通过 RLVR 方法,模型可以充分理解音频信息和视频信息并判断人物的情绪,论文中给出了下面的示例:指令:作为情绪识别专家,在整个视频中角色传达的哪种情感对你来说最明显?将思考过程输出到中,将最终的情感输出到中

HumanOmni-0.5B:恐惧

EMER-SFT:在视频中,一名身穿棕色夹克的男子站在一幅充满活力的壁画前,他的脸上明显流露出愤怒的迹象。他皱起的眉毛和张开的嘴巴表达了他的不满。从他的表情和发声特征可以推断出他正在经历情绪动荡。音频内容提到了「恐惧」和「降低声音」,暗示他正面临紧急情况或在情绪紧张的时刻表现出强烈的情绪。总体而言,分析表明该男子正在经历一种深深的害怕和焦虑感。

MAFW-DFEW-SFT:生气

R1-Omni:在视频中,一个穿着棕色夹克的男人站在一幅充满活力的壁画前。他棕色夹克下面穿着一件粉红色的衬衫,头发又黑又卷。他的面部表情复杂,睁大眼睛,微微张开嘴巴,眉毛上扬,眉头紧皱,透露出惊讶和愤怒。语音识别技术表明,他的声音中包含「你」、「降低你的声音」、「freaking out」等词,表明情绪强烈和激动。总体而言,他表现出困惑、愤怒和兴奋的情绪状态。(@ 智东西)

03 有亮点的产品

1、理想同学网页版正式上线

3 月 12 日,理想汽车旗下人工智能助手「理想同学」网页版正式上线,即日起,用户可在电脑端使用理想同学。理想同学网页版将与其手机 App 端协同构建跨场景智能服务生态。目前,理想同学网页版全面接入 DeepSeek R1 / V3 671B 满血版,问答支持切换选择 MindGPT-3o 模型、满血版 DeepSeek 模型,支持选择是否连接互联网进行搜索(MindGPT 模型下默认支持联网)。

据悉,理想同学网页版支持千字长文本输入,并且在 MindGPT 模型下支持传图问答;支持用户随时打断生成的结果,开始新的对话;「多端历史对话同步」能够确保跨设备对话的连贯性。此外,理想同学网页版还带来了全新的理想同学形象交互功能,理想同学可以 360° 注视鼠标位置,赋予交互灵动趣味。此外,理想同学 App 手机端也同步迎来更新,优化长文本输入,新增答案输出打断能力等,进一步提升了交互效率。(@APPSO)

2、智元机器人「灵犀 X2」:双足人形机器人新突破,支持语音、视觉等多种交互方式

近日,知名开发者稚晖君在社交媒体上发布了一段引人注目的视频,展示了智元机器人的全新成果——「灵犀 X2」。这款搭载情感计算引擎的双足智能交互人形机器人,成功整合了运动、交互和作业三大智能功能,充分展现了其卓越的技术实力。

据了解,灵犀 X2 在硬件配置上运用了诸多前沿技术,包括小脑控制器 Xyber-Edge、域控制器 Xyber-DCU 以及智能电源管理系统 Xyber-BMS。这款机器人全身拥有 28 个自由度,且完全没有使用任何并联结构,这为其带来了极高的灵活性和动作精准度。

交互智能:情感理解与自然交互

交互智能是灵犀 X2 的又一关键特性。该机器人搭载了定制的多模态交互大模型,支持语音、视觉等多种交互方式。情感计算引擎的加入,使其能够理解人类的情绪并做出相应的反应,极大地提升了人机交互的自然度和沉浸感。(@AI TOP100)

3、阿里巴巴推出 AI 旗舰应用「新夸克」全面升级为「AI 超级框」

3 月 13 日,阿里巴巴正式推出其 AI 旗舰应用——新夸克。这款全新升级的夸克基于阿里通义领先的推理及多模态大模型,打造了一个无边界的「AI 超级框」,为用户带来全新的 AI 体验。

新夸克的创新之处在于将 AI 对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的「AI 超级框」中,一站式满足用户多样化的需求。与传统的对话式 AI 不同,夸克不仅能够进行智能对话,还能通过其智能中枢系统自动识别用户指令的意图,并进行深度思考、规划和执行,从而完成 AI 搜索、AI 写作、AI 生图、AI PPT 制作、学术研究、AI 搜题、AI 健康问答以及旅行计划等任务,实现不同场景下的问题解答与任务达成。(@AIbase 基地)

04 有态度的观点

1、阿里董事长:AI 市场规模至少 10 万亿美元

近日,阿里巴巴集团董事长蔡崇信出席由 CNBC 主办、在新加坡举办的 CONVERGE LIVE 论坛活动。蔡崇信在访谈中表示,人工智能未来可能会减少对分析师的需求,并认为分析师可能会被 AI 取代。其分析,AI 可以撰写一份英伟达或者苹果的报告,并且 AI 会完成得很出色。

但蔡崇信也强调,上述情况并非意味着分析师这一岗位会完全消失。蔡崇信认为,AI 并不会完全取代人类,实际上它只会帮助人类提升工作效率;蔡崇信表示,如果很多常规的研究工作都由机器完成,人们就可以运用自己的判断力给出更好的建议,研究的质量也就能得到真正提升。

蔡崇信在论坛上称,AI 的潜在市场规模至少有 10 万亿美元,甚至可能比预想的更大,而这一规模超过了交通运输和医疗保险等行业。此外,蔡崇信还在论坛上谈及 DeepSeek,其认为所谓的「DeepSeek 时刻」真正的意义并非国与国之间谁更优秀,而是在于开源的力量。蔡崇信强调,一旦实现开源,人们就可以获取到相关模型并对应自己的情况进行部署,而这也很好地帮助大小企业,甚至是个人爱好或者是创业者,去进行开源项目的开发升级。(@APPSO)

更多 Voice Agent 学习笔记:

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册