AI测试 Meta 斥资 35 亿美元入股全球最大眼镜商;Proactor AI:实时监听语音对话,主动识别用户需求并自主行动丨日报

RTE开发者社区 · 2025年07月09日 · 430 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、马斯克:Grok 4 明天发布

7 月 8 日,马斯克宣布 xAI 将在太平洋时间周三晚 8 点(北京时间 7 月 10 日上午 11 点),发布旗下最新模型 Grok 4 系列。

而据此前爆料,Grok 4 系列将拥有 Grok 4 和编程版本 Grok-4 Code。

新版本模型将支持多模态输入(文字 + 图像)、130k token 上下文、结构化输出、数学推理和函数调用等功能。其中,Grok 4 Code 将深度集成在 Cursor 编辑器中,具备智能补全、调试和执行功能,力图打造「主动编程」的 AI 助手。

性能表现上,据 X 博主 @legit_api 消息,在被称为「人类最后的考试」(HLE)的评估中,Grok-4 取得了 35% 的基础得分,开启推理功能后进一步提升至 45%,显著领先于 OpenAI 的 o3 以及 Google Gemini 系列在该测试中的表现。

除了 HLE,Grok-4 在其他基准测试中也表现出色。在 GPQA 测试中,该模型得分达到了 87%-88%;而面向代码能力的 SWE Bench 评测中,Grok-4 Code 的得分则在 72%-75% 之间。

不过,部分网友对其成绩的真实性提出质疑,认为该分数「过于理想」,不排除存在测试策略优化甚至「刷榜」的可能。尽管如此,从目前流出的功能配置来看,Grok-4 系列相较前代已实现大幅升级。

另外,马斯克还在昨天再次提到了 xAI 的 3A 大作进度:第一款游戏可能明年年底结束。今年 2 月,马斯克曾发文称通过 Grok 3 看到了制作游戏的可能性,因此有机会在明年某个时间制作出一款 3A 游戏。(@APPSO)

2、Vidu Q1 上线 AI 音效功能:一句话生成精准专属音效,支持多种音效叠加

近日,AI 视频模型 Vidu Q1 推出参考生功能,号称「颠覆传统内容生产流程」。

官方表示,Vidu Q1 参考生能够「零分镜生成」:仅需参考图,Vidu Q1 基于参考生功能对于各元素的深层理解和各元素之间的互动关系,可直接将多个参考元素融合为一段视频素材。

Vidu Q1 参考生还在主体一致性上有了大幅提升,可最多支持 7 个主体同时输入并始终保持一致。

另外,Vidu Q1 也在「极致高质量」等方面进行了全面升级:

  • Vidu Q1 文生视频和图生视频支持 1080P 视频直出;只需两张图,即可生成大师级运镜;

  • Vidu Q1 在动画风格的生成效果上再度升级,高动态的运动表现力,更加多元化的动画风格;

  • 上线 AI 音效功能:一句话就能生成精准专属音效,还可实现多种音效叠加,承包专业创作全流程。

目前,Vidu Q1 参考生功能已上线官方。(@APPSO)

3、阿里通义实验室开源多模态推理模型 HumanOmniV2,支持结合视频、音频综合判断

近日,阿里通义实验室开源多模态推理模型 HumanOmniV2HumanOmniV2 通过引入强制上下文总结机制、大模型驱动的多维度奖励体系,以及基于 GRPO 的优化训练方法,实现了对多模态信息的全面理解,使得模型不会错过图像、视频、音频中的隐藏信息,一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。

如在生成最终答案前,模型会在<context>标签内输出上下文概括,系统性分析多模态输入内容中的视觉、听觉、语音信号,为后面的推理过程提供依据。

如图提问「女人为什么翻白眼」,HumanOmniV2 基于视频、音频等信息给出正确答案「她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应,非对其他人表示不满」。

基于 GRPO 的模型,通过演讲人的肢体语言、面部表情判断其没有说谎,HumanOmniV2 而是结合了视频中人物所处的环境、语气,并结合视觉、听觉因素综合判断,得出了他没有说出全部最难忘经历的答案。

HumanOmniV2 在推理过程中,会捕获多模态输入中更为细粒度的视频和音频线索,如「黑裙女子以平静温和的语气回应」、「刻意放慢说话速度以缓解紧张情绪」、「浅蓝色衬衫的男人用快速而兴奋的语气说话」等。

现阶段 HumanOmniV2 已开源。阿里通义团队还推出包含 633 个视频和 2689 个相关问题的评测基准 IntentBench,在此之上,HumanOmniV2 准确率达到 69.33%。

论文:https://arxiv.org/abs/2506.21277

GitHub:https://github.com/HumanMLLM/HumanOmniV2

魔搭社区:https://modelscope.cn/models/iic/humanomniv2

Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2(@ 智东西)

4、谷歌 Veo 3 升级,上传一张照片即可生成音频和视频

7 月 8 日,谷歌 Veo 3 全新升级,只需一张图即生成音频 + 视频大片,进入谷歌 Flow 创作平台即可体验。同一个角色,能在多个镜头下,保持高度一致性。可以选择首帧,并进行调换来设置想要生成视频的内容。

本次更新需要在 Flow 平台下进行,选择「Frames to Video」的选项,就能从一张图片开始生成视频。此次更新,加入非常丰富的运镜功能,比如 Dolly in 推镜头等。

还可以通过选择更好的 Quality 模型,生成质量更高的视频,但要消耗更多的 credits。Quality 消耗的是 Fast 的 5 倍,Fast 消耗 20credits,Quality 是 100credits。

需要注意的是,在 Gemini Veo3 入口目前还无法使用该项功能。

体验链接:https://labs.google/fx/tools/flow/

相关链接:https://x.com/venturetwins/status/1942371183644794987

相关链接:https://www.youtube.com/watch?v=-xthML25JOs(@ 新智元)

02 有亮点的产品

1、OpenAI 安全体系升级

近日,OpenAI 宣布对其安全体系进行全面升级。

据悉,此举是响应全球间谍活动增加的背景下,OpenAI 对数据保护和技术安全的高度关注。尤其是在全球多个国家加强对 AI 技术的审查和监管的环境下,OpenAI 采取了更加严格的安全措施。

根据《金融时报》报道,OpenAI 从 2024 年初开始,就针对外部威胁实施了新的安全防范策略,尤其是为了应对外国间谍活动的增加。公司加强了对技术研发数据和内部信息流动的监控,此外,还加大了与全球政府和监管机构的合作,以确保合规性和安全性。

此次安全体系的升级涉及了多方面的改进,特别是加强了对技术数据的保护。OpenAI 还提到,公司在加强安全防护的同时,注重与国际监管机构的协作,确保其技术的安全性和全球合规性。该公司负责人表示:「在全球间谍活动愈加频繁的今天,我们必须保证技术的安全性,保护我们研发的数据。」

这一举措在行业内引发了广泛关注。随着 AI 技术的飞速发展,数据泄露和技术盗窃的风险不断上升。行业观察家普遍认为,AI 企业必须在安全性和创新之间找到平衡,以应对日益复杂的安全挑战。

OpenAI 的安全升级不仅保障了其技术研发的安全,也为其他科技公司提供了应对外部威胁的借鉴经验。在未来,如何持续创新与确保技术安全将是全球 AI 行业必须面对的核心问题。(@APPSO)

2、Meta 注资 35 亿美元入股全球最大眼镜商

据彭博社报道,Meta 近期砸下 35 亿美元(约合 252 亿元人民币),投资雷朋母公司——全球最大眼镜制造商依视路陆逊梯卡(EssilorLuxottica)。Meta 通过此举收购其不到 3% 的股份,未来可能继续增持到 5%。

Meta 与雷朋合作推出的 AI 眼镜已是市场销冠。依视路陆逊梯卡是全球眼镜行业巨头,旗下拥有雷朋、欧克利、万里路、暴龙等知名品牌,同时为香奈儿、普拉达等奢侈品牌代工眼镜。

Meta 入股雷朋母公司则是进一步在 AI 眼镜上押重注,有望强化其在 AI 眼镜设计及分销上的掌控力,抢占大众市场。

早在 2021 年,双方就联合推出了首款 Ray-Ban Stories 智能眼镜,内置摄像头与语音助手。上个月,两家公司还新发布了 Oakley 联名款眼镜,并计划 2025 年推出带显示屏的升级版产品,集成实时翻译、AI 助手等功能。去年 EssilorLuxottica 的 CEO Francesco Milleri 就曾透露,Meta 有意入股,但彼时计划尚未敲定——如今终于「如愿以偿」。

AI 已成为 Meta 的首要任务和主要支出项。近期扎克伯格支付 7 到 9 位数的薪酬,疯狂挖角 OpenAI、苹果 AI 研究员,投资雷朋母公司则表现了其在 AI 硬件上同样势在必得。

相关链接:

https://www.bloomberg.com/news/articles/2025-07-08/meta-invests-3-5-billion-in-essilorluxottica-in-ai-glasses-push

(@ 智东西、@Z Finance、@AI 智前沿)

3、语音智能体成本计算器 Voice Agents Cost Estimator

Voice Agents Cost Estimator 是一个用于估算运行语音智能体成本的工具,涵盖不同智能体提供商:包括对话式 AI 平台、实时语音模型和自定义 Pipeline 等。

体验链接:https://www.livetok.io/cost-calculator(@anarchyco\@X

4、Proactor AI:实时监听,主动识别用户需求并自主行动

Proactor AI 是一个类似贴心伙伴的产品,其支持实时监听,主动识别用户需求,甚至在用户提出请求之前自主采取行动。

Proactor AI 支持核实对话内容信息并指出错误,在会议或课堂上,它能自动记录实时笔记、识别潜在任务并扩展相关知识。该产品也适用于对话场景,甚至还可以「劝架」。

Proactor AI 内置知识库功能。用户只需向 Proactor AI 提问,即可实时获得答案,帮助用户快速回忆笔记内容。

体验链接:https://proactor.ai/(@aigclink\@X

03 有态度的观点

1、理想创始人:AI 时代下,应该关注如何造硅基人

日前,理想创始人李想参加央视《对话》节目,其围绕公司发展,对未来的 AI 时代进行了部分预测和看法分享。

节目中,李想表示,「人工智能 4 个字定义了这一代的生产力的核心,其实它关注的是角色,是我们如何通过训练的方式来提升角色的能力。」

李想解释道,到了人工智能时代的时候,其实就是怎么去创造硅基的人,怎么创造数字的人。其进一步表示,当大家同时跨着工业时代、数字化时代、人工智能时代的时候,我们要够拿数字化去赋能工业,拿人工智能创造出来的硅基的员工去有效的运用数字化,而不是让他去替代数字化。

李想还表示,大家都在用新技术和人工智能去解决最难的物理世界的问题。他强调,它(人工智能)是要持续的 2-3 年以后才会出现物理世界的 ChatGPT 时刻,「用户看到的是产品,但背后其实是你的技术的基本功。」(@APPSO)

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册