AI测试 阿里小号停止续费,10 月底下架 App;音频技术公司 Bragi 联合 OpenAI 为第三方耳机引入 GPT 语音助手丨日报

RTE开发者社区 · 2025年07月30日 · 511 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理 SOTA

Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的升级版本(该模型是 Meta 的 Llama-3.3-70B-Instruct 的衍生模型),专为复杂推理和智能体任务设计。

模型在科学、数学、编程及 agent 任务中实现 SOTA 表现的同时,还将吞吐量提升至前代的 3 倍,且可在单卡高效运行。

Llama Nemotron Super v1.5 采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5 隶属于英伟达 Nemotron 生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。

相关链接:https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5(@ 量子位)

2、Qwen3 开源新模型 Qwen3-30B-A3B-Instruct-2507

阿里巴巴通义千问团队全新开源模型 Qwen3-30B-A3B-Instruct-2507。

该模型采用「非思考模式」(non-thinking mode)。「非思考模式」是通义在模型架构上的一种创新方式,目标是在极低计算成本下发挥高性能。你只需激活模型中核心的 3B 参数部分,就能体验到远超传统轻量模型的表现。

模型具有以下关键改进:

  • 显著提升了通用能力,包括指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用;

  • 大幅增加了多种语言的长尾知识覆盖;

  • 在主观和开放式任务中与用户偏好更加一致,能够提供更有帮助的回答和更高质量的文本生成;

  • 增强了在 256K 长上下文理解方面的能力。

现在已经在 魔搭社区(ModelScope)和 HuggingFace 上完全开放了,开发者现在就可以免费下载使用。

相关链接:https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507(@ AIGC 面面观、@ 智深 AI 观)

02 有亮点的产品

1、微软「AI 浏览器」上线,支持用户通过语音或文字发起指令以及语音导航

近期,微软在 Edge 浏览器推出了一个新的实验性功能:「Copilot 模式」,它将 Edge 从一个传统的网页浏览器,彻底改造为一款「AI 原生」的浏览器。

目前,Copilot 模式仍被视为一项实验性功能,还在测试迭代中。用户可以像在 ChatGPT 里一样提问、让它理解网页内容、发起操作,甚至尝试完成任务。

根据微软官方的博客介绍,全新的 Copilot 模式为 Edge 带来了崭新的标签页、跨越标签页的全局上下文浏览、能够动手处理各种任务的 Action 操作功能。

传统的新分页被一个极简的输入框所取代。这个输入框整合了聊天、搜索和网页导航。输入要查询的内容之后,对比之前的 Edge 直接搜索,现在的 Copilot 会根据已打开的标签页,试图预判意图,让用户更快地开始任务,而不是被动地等待点击。

除了总结和对话,Copilot 模式新增了名为「Actions(操作)」的能力,支持用户通过语音或文字发起指令,让 AI 去「执行操作」。

目前,Copilot 也已经支持语音导航 ,对于不熟悉电脑操作的用户,或者行动不便的用户,确实更友好。我们可以直接对它说:「帮我打开几个页面,比较一下 iPhone 15 和 S24 Ultra」,Copilot 就会执行操作 。

微软还展示了即将推出的新功能,未来在获得用户对历史记录、甚至登录凭据的授权后,Copilot 将能执行更复杂的「Agent 任务」。

在演示视频里,我们只需说一句「帮我找个公司附近的桨板租赁」,Copilot 不仅能找到最佳选项,甚至还能查好天气、完成预订,并推荐防晒霜和教学视频 。

在测试期间,这项功能是完全免费使用(未来可能会是付费订阅),而使用 Copilot 模式需要用户自愿选择加入。(@ APPSO)

2、Google Search AI 模式推出多项学习与探索新功能

Google 为其搜索引擎的 AI 模式推出一系列更新,包括支持图片和 PDF 提问、新增 Canvas 计划功能以及集成视频输入的 Search Live 实时对话。

Google 宣布为搜索引擎中的 AI 模式(AI Mode)推出一系列新功能,旨在帮助学生、教育工作者和所有好奇的用户。用户现在可以在桌面端的 Google 主页上找到新的 AI 模式按钮来启用这些功能。

新功能包括在桌面端支持对图片和 PDF 文件提问,用户可以上传文件进行复杂提问,AI 会分析内容并结合网络信息提供回答。未来还将支持 Google Drive 中的文件类型。新增的 Canvas 功能可以帮助用户在动态侧边栏中创建和组织计划。Search Live 功能现已集成视频输入,将 Project Astra 的先进能力引入 AI 模式,用户可通过 Google 应用中的 Lens 与 AI 进行实时视觉对话。此外,通过 Chrome 浏览器中的 Lens 和 AI 模式,用户可以对屏幕上显示的任何内容进行提问。

功能:

  • 图片/PDF 提问:在桌面端上传图片或 PDF 进行复杂提问,AI 结合网络信息回答;

  • Canvas:在动态侧边栏中创建和组织计划,如备考计划;

  • Search Live:集成视频输入,通过 Lens 与 AI 进行实时视觉对话;

  • 页面提问:在 Chrome 浏览器中通过 Lens 对当前屏幕内容提问。

相关链接:https://blog.google/products/search/ai-mode-updates-back-to-school/(@ APPSO)

3、Eigent 发布,首个桌面多智能体协作系统

首个桌面多智能体协作系统 Eigent 已发布,它由一组可并行协作的 AI agent 组成,目前已推出公开测试版并完全开源。由 CAMEL-AI 团队打造,Eigent 是全球第一个桌面端 Multi-agent Workforce 系统,基于开源项目 CAMEL(13k Stars)与 OWL(17k Stars)构建。

一款名为 Eigent 的桌面多智能体系统发布。Eigent 被描述为首个桌面上的多智能体工作团队,它由一组 AI agents 组成,能够并行协作以完成复杂任务。该系统定位为用户的长期工作伙伴,提供完全可定制的 workers 和 MCPs。

Eigent 目前已推出适用于 MacOS 和 Windows 的公开测试版,并在 GitHub 上 100% 开源。

  • 自定义 Agent:用户可以根据自己的行业需求自定义专属的 Agent,例如一个懂合规的法务 Agent、一个会抓关键词的社媒编辑、一个善于做调研的搜索 Agent 等;

  • 多智能体并行执行;

  • 人类可随时介入(Human-in-the-loop);

  • 灵活接入 massive MCP 工具:内置 MCP 工具库已超过 200 种,还支持上传常用的 MCP 工具,给 Agent 配备更合适的工具;

  • 100% 开源 + 本地部署:不仅可以免费使用,还能接入用户自己的本地模型。

相关链接:https://github.com/eigent-ai/eigent

官网链接:https://www.eigent.ai/(@ CAMEL AI)

4、Bragi 携手 OpenAI,为第三方耳机引入 GPT-4.1 语音助手

7 月 29 日,德国音频技术公司 Bragi 宣布与 OpenAI 达成合作,推出名为 ChatAI 的技术解决方案,旨在让第三方耳机及音频设备制造商能够轻松集成由 GPT-4.1 驱动的生成式 AI 语音助手。

这项合作标志着 Bragi 自 2019 年从硬件制造转型为技术授权后,在 AI 领域迈出的重要一步。通过 ChatAI 平台,任何耳机品牌都能够为其产品增加先进的 AI 功能,如即时问答、信息查询和语音笔记等,用户仅需通过按键或唤醒词即可激活。

核心技术亮点:

AI 模型与处理流程:

  • 核心引擎采用 OpenAI 的 GPT-4.1 模型。

  • 用户的语音请求会先由 ChatAI 应用内的 多模态本地模型 进行预处理和格式化,然后安全上传至 OpenAI,最后将生成的文本响应通过语音合成在耳机中播放。

智能识别与集成:

  • 内置 说话人识别技术,能够学习并识别用户的声音,从而最大限度地减少对周围环境噪音和他人对话的误触发。

  • 正在与 Apple 合作进行 MFi 认证,以实现更无缝的后台通信和 iOS 设备体验。

隐私保护:

  • Bragi 承诺其服务器 不接收或存储任何用户数据。所有请求均由本地设备直接发送至 OpenAI,且本地数据在请求发送后不会被保留。

平台可扩展性:

  • 允许合作品牌在 ChatAI 基础上构建 定制化和品牌化的体验,甚至开发「智能代理(Agentic)」功能,例如根据用户习惯和场景,主动调整耳机的 均衡器(EQ)设置。

发布计划与市场信息:

  • 上线时间: ChatAI 应用计划于今年夏季正式推出,但具体搭载该技术的耳机产品将由各合作品牌自行公布。

  • 支持语言: 初期将支持英语、德语、法语、西班牙语和中文,并计划在未来扩展到更多语种。

  • 市场前景: Bragi 分享的一项调查显示,89% 的消费者愿意为具备 AI 功能的耳机平均多支付 25 美元。(@ 9to5Mac)

5、中国电信首款智能眼镜发布:自带天翼星辰 AI 大模型,支持全双工、远距拾音等多项高端对话功能

7 月 29 日,中国电信宣布其首款 AI 眼镜 —— TeleAI GLASSES 正式发布,标价 1999 元,该产品配备了高性能的星辰大模型。深度整合了通义千问技术,拥有即时翻译、知识问答等实用工具。

其采用超轻半框设计,重 38 克,有可调节鼻托和特殊镜腿。

配备一颗 1200 万像素超广角摄像头,支持最高 1440P 30 帧视频拍摄,并具备一系列先进算法:从电子防抖到人像优化,一应俱全。

内置天翼星辰 AI 大模型,有智能识物等功能。

集成五麦阵列和高通 ADSP 平台,加上七大核心算法支持,赋予这款眼镜全双工、远距拾音等多项高端对话功能。还匹配开放式扬声器等,有降噪算法。

内置 2GB RAM 和 32GB 存储,电池续航 7 小时,充电盒可实现 10 次完整充电。(@ 雨询、@ 数科雷达站)

6、阿里小号停止续费,10 月 31 日下架其 App

IT 之家 7 月 29 日消息,阿里通信今天(7 月 29 日)发布公告,宣布根据运营商要求,阿里通信将不再使用手机号面向个人用户提供号码保护服务。

公告表示,用户使用的阿里小号将于2025年7月29日开始停止续费,并将按如下顺序分批结束服务并下线,对应号码将回收。若用户号码注册了互联网账号请及时解绑,通信余额最晚将在号码结束服务并下线的次日起 10 个工作日内按照订购价完成退回。

IT 之家注:阿里小号是一款由阿里巴巴集团旗下的阿里通信提供的虚拟手机号服务,于2025年4月29日关停下线。如果用户使用阿里小号的号码注册了互联网账号,建议及时解绑,以避免因号码回收带来的不便。(@IT 之家、@ 江南都市报)

03 有态度的观点

1、WAIC2025 闭幕:签约投资额超 150 亿

日前,为期三天的 2025 世界人工智能大会(WAIC2025)在上海正式落幕。

据悉,今年大会汇聚了来自 70 多个国家和地区、1500 余位顶尖专家,其中包括 12 位图灵奖、诺贝尔奖等顶奖得主,80 余位中外院士和多个国际顶尖实验室代表,超过 800 家企业,全面展现大模型、多模态与具身智能的发展新趋势和最新成果。

而据财联社报道,在 7 月 28 日的闭幕式上,一批重大项目集中签约,涵盖智能驾驶、具身智能和机器人等领域,共有 31 个项目签约,投资额超过 150 亿元。根据主办方的数据:

  • 展览面积上,今年大会突破了 7 万平方米。2023 年 WAIC 主展区为 5 万平方米,2024 年超过 5.2 万平方米;

  • 展品方面,今年展示前沿科技 3000 余项,包括 100 余款「全球首发」「中国首秀」产品,展品总数、首发首秀实现「双倍增」;

  • 智能机器人亦是亮点:2023 年有 20 余款机器人亮相,2024 年上演了 18 台人形机器人矩阵展示,而今年参展的智能机器人则达 60 余款,整体人形机器人有 150 余台。(@ APPSO)

2、前 Google CEO:开源已成为 AI 发展中的重要特点

7 月 26 日,在世界人工智能大会(WAIC)上,前 Google CEO 埃里克·施密特(Eric Schmidt)围绕「人工智能全球合作展望」的主题,与香港科技大学校董会主席沈向洋展开了一场「炉边对话」。

施密特强调,过去两年,中国的 AI 技术,特别是 DeepSeek 和 Mini Max、Kimi 等大模型,已经取得了举世瞩目的成就。施密特指出,「在中国,这些领先的 AI 模型并非所有主要模型都像美国那样采取封闭策略。」而这也成为了当前 AI 发展中的一个重要特点。

对话中,施密特坦言自己更倾向于支持开源。其表示,开源技术虽然有一些潜在风险,但人类可以通过设定一些限制措施来管理这些风险,并根据需要对其进行调整。而对于这种情况,施密特则认为:

问题的关键在于技术的「编辑者」是谁,以及这些技术在哪些地方得以应用,在哪些地方去设置「防护栏」。理想的场景是,我们能根据人类的价值观来训练和对齐这些模型。

另外,施密特认为,未来超级智能之间的协作最终是不可避免的。因为随着技术的发展,人类将会拥有一个超级智能系统,未来这些系统会有能力去相互协作和协调。而对于这种情况,施密特则认为「需要让中国和西方的研究人员能够互相交流,合作探讨,达成在价值观方面一致性」。(@ APPSO)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册