AI测试 OpenAI 即将推出 AI 浏览器;Perplexity 发布 AI 浏览器 Comet,语音操控网页丨日报

RTE开发者社区 · July 10, 2025 · 469 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、昆仑万维开源 Skywork-R1V 3.0 版本

7 月 9 日,昆仑万维发布并开源 Skywork-R1V 3.0 版本。

官方介绍,Skywork-R1V 3.0 后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。

性能表现上,Skywork-R1V 3.0 在多领域获得优秀成绩:

  • 多模态评测 MMMU 中,Skywork-R1V 3.0 取得了 76 的开源模型最高成绩;在 2025 年高考数学新一卷上,R1V 3.0 取得了 142 分的突出成绩,超越了 OpenAI o3、Qwen3-235B。

  • 考验视觉推理的 EMMA-Mini(CoT)上,以开源领先的 40.3 分超过更大尺寸的 Qwen2.5-VL-72B-Instruct 和 InternVL3-78B 等模型,并缩小了与闭源模型 Claude-3.7-Sonnet 的差距。

  • 在物理推理、逻辑推理、数学推理中,R1V 3.0 均取得优异成绩。

据悉,Skywork-R1V 3.0 最核心的改进体现在训练算法的创新,即通过精巧的强化学习(GRPO)策略,以及关键熵驱动的模型判别机制,高效激发了模型本身潜在的推理能力。

目前,Skywork-R1V 3.0 已全面开源,并上架 HuggingFace、GitHub。

HuggingFace:https://huggingface.co/Skywork/Skywork-R1V3-38B

GitHub:https://github.com/SkyworkAI/Skywork-R1V

技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf(@APPSO

2、vivo 发布端侧多模态模型,支持理解 GUI 界面

vivo AI Lab 发布 AI 多模态新模型模型 BlueLM-2.5-3B,专门面向端侧设计,融合文本和图文的理解和推理能力,支持长短思考模式自由切换,并引入思考预算控制机制。

与同尺寸模型相比,BlueLM-2.5-3B 在多个文本与多模态评测任务中表现出色。

BlueLM-2.5-3B 支持思考预算控制(thinking token budget),能够有效平衡思考深度和推理成本。

thinking 模式下,与 4B 以下同规模具有思考模式的文本模型 Qwen3-4B-thinking 相比,BlueLM-2.5-3B 除代码类任务外其他大部分文本任务效果相近;与同规模多模态模型如 Qwen2.5-VL-3B 相比指标全面领先;与更大规模的具有思考模式的多模态模型 Kimi-VL-A3B-16B-thinking 相比,文本效果全面领先。

BlueLM-2.5-3B 在 thinking、non-thinking 不同模式下,在多模态任务上领先于同规模多模态模型,与更大规模的多模态模型效果相近。

thinking 模式下,与更大规模模型 Kimi-VL-A3B-16B-thinking 相比,大多数评测任务的差距在 5% 以内;在推理相关任务如 MathVista 和 MathVision 的效果优于没有 thinking 模式的 Qwen2.5-VL-72B。

BlueLM-2.5-3B 模型由 ViT、Adapter、LLM 组成。如图所示:

技术报告:https://arxiv.org/abs/2507.05934O(@ 量子位)

3、智谱开源 GLM-4.1V-Thinking,多模态推理能力跃升

智谱 AI 正式开源新一代多模态模型 GLM-4.1V-Thinking。该模型升级 GLM-4V 架构,引入思维链推理机制,显著提升处理复杂认知任务的能力。支持图像、视频、文档等多模态输入,适用长视频理解、图像问答、学科解题等广泛场景。其在 28 项权威评测表现出色,23 项夺得 10B 级模型最佳成绩,18 项持平或超越 72B 参数的 Qwen-2.5-VL。

与上一代模型 CogVLM2 和 GLM-4V 系列相比,GLM-4.1V-Thinking 提供了以下改进:

  • 该系列中首个以推理为重点的模型,不仅在数学领域取得世界领先的表现,还在多个子领域表现卓越;

  • 支持 64k 上下文长度;

  • 支持任意宽高比和最高 4K 图像分辨率;

  • 提供支持中英文双语使用的开源版本。

相关链接:https://chatglm.cn/main/alltoolsdetail?lang=zh

HuggingFace:https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking(@DDian 研习日常)

4、Browser Use 团队发布 MacOS-USE,支持用 AI 来操作 MacOS

Browser Use 团队发布 MacOS-USE,支持用 AI 来操作 MacOS。该项目旨在为 Apple 的 MLX 框架构建 AI 智能体,使得该智能体能够在任何 Apple 设备上执行任何操作。

其主要功能包括执行复杂任务,例如进行计算、处理在线登录(包括 OAuth 服务),以及进行网络查询,从而极大地提升用户体验和自动化能力。该项目的核心亮点在于其能够跨越不同应用进行操作,并展望未来通过 Apple 的 MLX 框架实现本地私有推理,最终目标是扩展其能力至 iPhone 和 iPad 等所有 Apple 设备,构建一个统一的 AI 操作平台。鉴于项目尚处于早期开发阶段,其能够访问和使用私人凭据,并与任何 UI 组件互动,因此目前建议谨慎使用,避免无人监督操作。

团队的最终目标是打造一个开源项目,任何人都可以克隆,依托 mlx 和 mlx-vlm 实现本地私有运行,且可以零成本运行。

文中演示视频里面的提示词是:前往 http://auth0.com,使用谷歌认证登录,选择 ofiroz91 Gmail 账户,登录网站并在完成后调用 done。 MacOS-USE 顺利完成了任务。

GitHub:

https://github.com/browser-use/macOS-use(@karminski3\@X、@ 每日 AI 新工具)

5、马斯克发布 Grok 4,推理能力提升;语音能力显著增强,Grok 角色 Eve 支持唱歌和低语

7 月 10 日的 xAI 发布会上马斯克发布了 Grok 4。马斯克在直播间说:「这是世界上最好的 AI,让我们来展示一下。」

马斯克表示,Grok 4 每次都能在 SAT 考试(美国高考)中获得满分,无需事先查看题目,它也可以做到 GRE 任何学科接近满分,超过了全世界所有研究生的水平。Grok 4 最强大的地方是其推理能力,它已经实现了超越人类的推理水平。

大模型性能评估平台 Artificial Analysis 的全套基准测试成绩表明,Grok 4 已经成为当前领先的 AI 模型,总成绩达到了 73 分,领先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。

得益于计算能力的增强、强化学习的训练,Grok 4 的推理能力相较于前代提升了 10 倍。从 Grok 2 到 Grok 4,采用的技术范式不同,分别为下一个 token 预测、预训练计算、预训练 + RL、RL 计算。

其中,Grok 2 到 Grok 3 预训练阶段的计算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微调,带来了深度推理能力。Grok 4 reasoning 的强化学习再度提升了 10 倍的计算量,这意味着显著的推理能力提升。

值得一提的是,Grok 4 的语音能力相较于上代速度快了 2 倍,端到端延迟更低;支持 5 种语音;单日用户总停留时长提升了 10 倍。

新增的 Grok 角色 Eve 和 Sal 现已可在 iOS 版 Grok 中使用,Sal 支持多种性格,Eve 可以唱歌和低语。

下一步,xAI 预计还将发布代码模型、多模态智能体以及视频生成模型。

Grok 4 已经上线,不过需要付费使用,其付费模式分为年付和月付两种,其中 SuperGrok 是每年 300 美元(折合人民币约 2154 元),SuperGrok Heavey 则是每年 3000 美元(折合人民币 21540 元)。

官网链接:https://grok.com/(@ 机器之心)

02 有亮点的产品

1、谷歌 Gemini AI 助手正式登陆 Wear OS 智能手表,提供更自然的语音交互

谷歌的 AI 助手 Gemini 已开始登陆 Wear OS 4 及以上版本的智能手表,提供更自然的语音交互并与谷歌及手表品牌应用深度集成。

谷歌宣布,其 AI 助手 Gemini 将开始陆续登陆运行 Wear OS 4 及以上版本的智能手表,包括 Pixel、三星、OPPO、一加和小米等品牌。要开始与 Gemini 对话,用户需要说「Hey Google」、长按手表侧边按钮或点击屏幕上的 Gemini 应用图标。新的三星 Galaxy Watch8 系列将是首款出厂即内置 Gemini 和 Wear OS 6 的设备。

在手表上,Gemini 能够以更自然的方式进行交互,提供快速简洁的回答,并能与 Gmail、Google Calendar 等谷歌服务以及三星健康等手表品牌自有应用集成,以处理日程安排、信息发送、路线导航等复杂任务。用户还可以利用 Gemini 来记录和提醒生活中的琐碎细节。

相关链接:

https://blog.google/products/wear-os/gemini-wear-os-watches/(@ 橘鸭 Juya、@HokiGameHub

2、Perplexity 正式发布 AI 浏览器 Comet,支持用户通过语音搜索或命令操控网页

7 月 9 日,AI 搜索初创公司 Perplexity AI 正式发布其首款 AI 驱动浏览器 。

Comet 最大的特色在于「AI 原生设计」:内置的 Comet Assistant 可实时理解网页内容,并智能反馈,例如:

  • 自动总结网页内容;

  • 回答网页视频、社交帖子或文档的相关问题;

  • 执行搜索指令、查找信息、计划路线、查日程等任务。

这意味着用户不再需要切换到 ChatGPT 或复制网页内容——AI 助手就在浏览器内无缝工作。其语音交互能力也已部署,支持用户通过语音搜索或命令操控网页。

目前,Comet 浏览器优先开放给每月订阅费 200 美元的付费用户,后续将逐步邀请登记用户参与公测。

相关链接:

https://perplexity.ai/comet(@ 智深 AI 观、@PerplexityComet\@X

3、Hugging Face 发布开源桌面机器人 Reachy Mini

Hugging Face 联合 Pollen Robotics 最新推出的 Reachy Mini 是一款专为 AI 开发者打造的开源桌面型人形机器人。Reachy Mini 完全支持 Python 编程(即将支持 JavaScript 和 Scratch)适合研究人员、教育工作者和机器人爱好者,为探索人机交互、创意编程和 AI 实验提供了绝佳平台。

Reachy Mini 高约 28 厘米(11 英寸),宽约 16 厘米(6.3 英寸),在「休眠模式」下约为 23 厘米(9 英寸)高,重量为 1.5 千克。它以套件形式提供,可选择基础版(Lite)或具备完整自主功能的无线版,后者配备板载计算单元、无线连接与电池系统。

价格方面:

  • Reachy Mini Lite 版:299 美元(约合人民币 2147 元)

  • Reachy Mini Wireless 版:449 美元(约合人民币 3224 元)

该机器人不能移动,只能旋转和头部移动。目前预售已经突破 13 万欧了。

预定链接(基础版):https://buy.stripe.com/6oUfZj78P1a5e6b0FS73G02

预定链接(无线版):https://buy.stripe.com/9B65kFfFlaKFbY34W873G03

Hugging Face 官方博客:https://huggingface.co/blog/reachy-mini(@ 三花 AI、@Hugging Face)

4、OpenAI 即将推出 AI 浏览器,直接集成 OpenAI 的 AI 智能体产品

据路透社消息,OpenAI 即将发布一款革命性的人工智能浏览器,这将对目前占据市场主导地位的 Google Chrome 构成直接挑战。

三名知情人士向路透社透露,这款由人工智能驱动的网络浏览器预计在未来几周内正式发布。与传统浏览器不同,OpenAI 的这款产品旨在利用 AI 技术彻底改变用户的网络浏览体验。

更重要的是,这款浏览器将为 OpenAI 提供一个重要机会——直接获取用户数据,而这正是 Google 成功的核心要素。

据消息人士透露,OpenAI 的浏览器将采用创新设计,用户可以在类似 ChatGPT 的原生聊天界面中处理部分操作,而无需频繁跳转到其他网站。

这款浏览器还将直接集成 OpenAI 的 AI 智能体产品(如 Operator),使浏览器能够代表用户执行各种任务——比如预订服务、填写表格等,这些操作都可以直接在用户使用的网站内完成。

据了解,OpenAI 的浏览器基于 Google 的开源代码 Chromium 构建,这与 Microsoft 的 Edge 和 Opera 采用了相同的技术基础。

更值得关注的是,OpenAI 去年聘请了两名 Google 资深副总裁,他们都是开发 Google Chrome 的原始团队成员。这一人事变动显示出 OpenAI 在浏览器领域的野心。(@AI 范儿、@testingcatalog\@X

03 有态度的观点

1、纽约时报:AI 时代下,谁的就业会被冲击

近日,《纽约时报》发布了一篇名为《哪些工作者会受到 AI 最大的冲击:年轻人还是资深员工?》( Which Workers Will A.I. Hurt Most: The Young or the Experienced?)的报道,指出了各行各业在 AI 的影响下,该何去何从。

报道提到,亚马逊 CEO Andy Jassy 近期曾表示,自己预计公司未来几年将利用 AI 减少整体员工数量,而这也证实了不少员工对 AI 将取代自己的担忧。在 Andy 发表了自己的想法后,微软就开始了高达 9000 人的裁员,而该裁员计划的原因之一就是为了加大 AI 投入。

部分专家认为,AI 最有可能影响的就是初入职场的新人——因为他们的任务通常最简单,容易通过自动化实现。而 AI 创企 Anthropic CEO Dario Amodei 曾公开表示,AI 可能在五年内吞噬掉一般的初级白领岗位。

但也有人持不同意见。OpenAI 首席运营官 Brad Lightcap 在 6 月底的一次采访中暗示,AI 可能会给那些资历看似更深、更习惯于某种特定方式按部就班的员工带来问题。

报道指出,AI 与员工之间的问题的最终答案,将会对社会产生深远影响。若入门工作风险最大,则大家可能需要重新思考大学生的教育方式以及大学本身的价值;而若资深员工的风险更大,并伴随大规模裁员成为劳动市场常态,那么有可能会引发经济甚至是政治层面的动荡。(@APPSO)

2、硅谷风投报告揭示 AI 使用画像:学生使用率最高,家长成 AI 重度用户

7 月 9 日消息,硅谷风投机构 Menlo Ventures 日前发布《2025 年消费级 AI 现状》报告,显示全球消费级 AI 市场规模已达 120 亿美元,用户数量突破 18 亿,标志着人工智能正式进入主流阶段。

该报告基于 2025 年 4 月对逾 5000 名美国成年人的调查,指出 61% 的受访者在过去六个月中使用过 AI 工具,近五分之一(19%)为日常用户。按此比例推算,全球已有 17 至 18 亿人使用 AI 工具,其中 5 至 6 亿人每天使用,表明 AI 正在加速融入日常生活与行为习惯。

报告还显示,不同人群在 AI 使用上呈现出明显差异。千禧一代的日活跃率为 24%;在校成年学生中,使用率高达 85%;职场人群中约三分之二已开始使用 AI 工具。

尤其值得注意的是,家长群体的每日使用率达到 29%,几乎是非家长群体(15%)的两倍,成为 AI 的「重度用户」。

尽管 AI 展现出广泛的实用性,但单项任务的使用率仍低得惊人——超过一半的美国成年人表示使用过 AI,但没有任何一项活动的依赖率超过五分之一,即便是最常见的「撰写邮件」,使用率也仅为 19%。AI 的应用并非集中在某一个主导场景,而是分散在大量任务中,这既凸显了当今通用人工智能工具的多功能性,也反映出一个现实:AI 必须提供更深层次的价值,才能推动更高频率的使用和更稳定的使用习惯。

尽管 61% 的受调查者已接纳 AI 工具,但仍有 39% 的人不为所动。这些抗拒者并非单纯的反技术者或技术恐惧者,而是尚未找到足够理由将 AI 融入日常生活的理性消费者。

调查显示,非使用者的担忧存在诸多重叠,但有一个障碍尤为突出:人际连接。高达 80% 的人表示,相比机器,他们更愿意与人类互动——这不仅关乎便利性,更反映了他们对「重要事务应如何处理」的认知。与此相关,53% 的人认为自己需要对他人负责,希望在决策过程中获得监督、承担责任并建立真实联系。(@ 腾讯科技)

更多 Voice Agent 学习笔记:

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up