AI测试 Meta 斥资 35 亿美元入股全球最大眼镜商；Proactor AI：实时监听语音对话，主动识别用户需求并自主行动丨日报

RTE开发者社区 · 2025年07月09日 · 3346 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、马斯克：Grok 4 明天发布

7 月 8 日，马斯克宣布 xAI 将在太平洋时间周三晚 8 点（北京时间 7 月 10 日上午 11 点），发布旗下最新模型 Grok 4 系列。

而据此前爆料，Grok 4 系列将拥有 Grok 4 和编程版本 Grok-4 Code。

新版本模型将支持多模态输入（文字 + 图像）、130k token 上下文、结构化输出、数学推理和函数调用等功能。其中，Grok 4 Code 将深度集成在 Cursor 编辑器中，具备智能补全、调试和执行功能，力图打造「主动编程」的 AI 助手。

性能表现上，据 X 博主 @legit_api 消息，在被称为「人类最后的考试」（HLE）的评估中，Grok-4 取得了 35% 的基础得分，开启推理功能后进一步提升至 45%，显著领先于 OpenAI 的 o3 以及 Google Gemini 系列在该测试中的表现。

除了 HLE，Grok-4 在其他基准测试中也表现出色。在 GPQA 测试中，该模型得分达到了 87%-88%；而面向代码能力的 SWE Bench 评测中，Grok-4 Code 的得分则在 72%-75% 之间。

不过，部分网友对其成绩的真实性提出质疑，认为该分数「过于理想」，不排除存在测试策略优化甚至「刷榜」的可能。尽管如此，从目前流出的功能配置来看，Grok-4 系列相较前代已实现大幅升级。

另外，马斯克还在昨天再次提到了 xAI 的 3A 大作进度：第一款游戏可能明年年底结束。今年 2 月，马斯克曾发文称通过 Grok 3 看到了制作游戏的可能性，因此有机会在明年某个时间制作出一款 3A 游戏。(@APPSO)

2、Vidu Q1 上线 AI 音效功能：一句话生成精准专属音效，支持多种音效叠加

近日，AI 视频模型 Vidu Q1 推出参考生功能，号称「颠覆传统内容生产流程」。

官方表示，Vidu Q1 参考生能够「零分镜生成」：仅需参考图，Vidu Q1 基于参考生功能对于各元素的深层理解和各元素之间的互动关系，可直接将多个参考元素融合为一段视频素材。

Vidu Q1 参考生还在主体一致性上有了大幅提升，可最多支持 7 个主体同时输入并始终保持一致。

另外，Vidu Q1 也在「极致高质量」等方面进行了全面升级：

Vidu Q1 文生视频和图生视频支持 1080P 视频直出；只需两张图，即可生成大师级运镜；
Vidu Q1 在动画风格的生成效果上再度升级，高动态的运动表现力，更加多元化的动画风格；
上线 AI 音效功能：一句话就能生成精准专属音效，还可实现多种音效叠加，承包专业创作全流程。

目前，Vidu Q1 参考生功能已上线官方。(@APPSO)

3、阿里通义实验室开源多模态推理模型 HumanOmniV2，支持结合视频、音频综合判断

近日，阿里通义实验室开源多模态推理模型 HumanOmniV2HumanOmniV2 通过引入强制上下文总结机制、大模型驱动的多维度奖励体系，以及基于 GRPO 的优化训练方法，实现了对多模态信息的全面理解，使得模型不会错过图像、视频、音频中的隐藏信息，一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。

如在生成最终答案前，模型会在<context>标签内输出上下文概括，系统性分析多模态输入内容中的视觉、听觉、语音信号，为后面的推理过程提供依据。

如图提问「女人为什么翻白眼」，HumanOmniV2 基于视频、音频等信息给出正确答案「她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应，非对其他人表示不满」。

基于 GRPO 的模型，通过演讲人的肢体语言、面部表情判断其没有说谎，HumanOmniV2 而是结合了视频中人物所处的环境、语气，并结合视觉、听觉因素综合判断，得出了他没有说出全部最难忘经历的答案。

HumanOmniV2 在推理过程中，会捕获多模态输入中更为细粒度的视频和音频线索，如「黑裙女子以平静温和的语气回应」、「刻意放慢说话速度以缓解紧张情绪」、「浅蓝色衬衫的男人用快速而兴奋的语气说话」等。

现阶段 HumanOmniV2 已开源。阿里通义团队还推出包含 633 个视频和 2689 个相关问题的评测基准 IntentBench，在此之上，HumanOmniV2 准确率达到 69.33%。

论文：https://arxiv.org/abs/2506.21277

GitHub:https://github.com/HumanMLLM/HumanOmniV2

魔搭社区：https://modelscope.cn/models/iic/humanomniv2

Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2（@ 智东西）

4、谷歌 Veo 3 升级，上传一张照片即可生成音频和视频

7 月 8 日，谷歌 Veo 3 全新升级，只需一张图即生成音频 + 视频大片，进入谷歌 Flow 创作平台即可体验。同一个角色，能在多个镜头下，保持高度一致性。可以选择首帧，并进行调换来设置想要生成视频的内容。

本次更新需要在 Flow 平台下进行，选择「Frames to Video」的选项，就能从一张图片开始生成视频。此次更新，加入非常丰富的运镜功能，比如 Dolly in 推镜头等。

还可以通过选择更好的 Quality 模型，生成质量更高的视频，但要消耗更多的 credits。Quality 消耗的是 Fast 的 5 倍，Fast 消耗 20credits，Quality 是 100credits。

需要注意的是，在 Gemini Veo3 入口目前还无法使用该项功能。

体验链接：https://labs.google/fx/tools/flow/

相关链接：https://x.com/venturetwins/status/1942371183644794987

相关链接：https://www.youtube.com/watch?v=-xthML25JOs（@ 新智元）

02 有亮点的产品

1、OpenAI 安全体系升级

近日，OpenAI 宣布对其安全体系进行全面升级。

据悉，此举是响应全球间谍活动增加的背景下，OpenAI 对数据保护和技术安全的高度关注。尤其是在全球多个国家加强对 AI 技术的审查和监管的环境下，OpenAI 采取了更加严格的安全措施。

根据《金融时报》报道，OpenAI 从 2024 年初开始，就针对外部威胁实施了新的安全防范策略，尤其是为了应对外国间谍活动的增加。公司加强了对技术研发数据和内部信息流动的监控，此外，还加大了与全球政府和监管机构的合作，以确保合规性和安全性。

此次安全体系的升级涉及了多方面的改进，特别是加强了对技术数据的保护。OpenAI 还提到，公司在加强安全防护的同时，注重与国际监管机构的协作，确保其技术的安全性和全球合规性。该公司负责人表示：「在全球间谍活动愈加频繁的今天，我们必须保证技术的安全性，保护我们研发的数据。」

这一举措在行业内引发了广泛关注。随着 AI 技术的飞速发展，数据泄露和技术盗窃的风险不断上升。行业观察家普遍认为，AI 企业必须在安全性和创新之间找到平衡，以应对日益复杂的安全挑战。

OpenAI 的安全升级不仅保障了其技术研发的安全，也为其他科技公司提供了应对外部威胁的借鉴经验。在未来，如何持续创新与确保技术安全将是全球 AI 行业必须面对的核心问题。(@APPSO)

2、Meta 注资 35 亿美元入股全球最大眼镜商

据彭博社报道，Meta 近期砸下 35 亿美元（约合 252 亿元人民币），投资雷朋母公司——全球最大眼镜制造商依视路陆逊梯卡（EssilorLuxottica）。Meta 通过此举收购其不到 3% 的股份，未来可能继续增持到 5%。

Meta 与雷朋合作推出的 AI 眼镜已是市场销冠。依视路陆逊梯卡是全球眼镜行业巨头，旗下拥有雷朋、欧克利、万里路、暴龙等知名品牌，同时为香奈儿、普拉达等奢侈品牌代工眼镜。

Meta 入股雷朋母公司则是进一步在 AI 眼镜上押重注，有望强化其在 AI 眼镜设计及分销上的掌控力，抢占大众市场。

早在 2021 年，双方就联合推出了首款 Ray-Ban Stories 智能眼镜，内置摄像头与语音助手。上个月，两家公司还新发布了 Oakley 联名款眼镜，并计划 2025 年推出带显示屏的升级版产品，集成实时翻译、AI 助手等功能。去年 EssilorLuxottica 的 CEO Francesco Milleri 就曾透露，Meta 有意入股，但彼时计划尚未敲定——如今终于「如愿以偿」。

AI 已成为 Meta 的首要任务和主要支出项。近期扎克伯格支付 7 到 9 位数的薪酬，疯狂挖角 OpenAI、苹果 AI 研究员，投资雷朋母公司则表现了其在 AI 硬件上同样势在必得。