AI测试亚马逊收购 AI 初创公司 Bee，后者主打可穿戴语音设备；阿里巴巴将于本周发布首款自研 AI 眼镜，深度整合阿里内部生态丨日报

RTE开发者社区 · 2025年07月25日 · 3355 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阿里云即将推出升级版 Wan 2.2，支持文本到视频、图像到视频、视频到音频等

阿里云宣布旗下视觉生成基座模型万相 2.1（Wan）开源后，即将推出升级版 Wan 2.2。

Wan2.2 沿用 Apache2.0 许可证，通过 Alibaba Cloud ModelScope 和 Hugging Face 免费提供代码和模型权重。新技术优化时空变分自编码器和扩散变换器架构，大幅提升性能。

新功能包括文本到视频、图像到视频、视频到音频等，支持高分辨率和多语言风格。14B 和 1.3B 双版本覆盖专业与消费级场景。在权威评测集 VBench 中，万相 2.1 以 86.22% 的总分超越 Sora、Luma 等模型，1.3B 版本仅需 8.2GB 显存即可生成 480P 视频，性能接近闭源模型。

Wan 2.2 预计将进一步优化长视频编解码效率，支持更高分辨率（如 1024x1024）和复杂物理场景还原，同时强化中英文文本生成能力。目前全球开发者可通过 Github 等平台下载体验，未来或推动 AI 视频创作进入全模态开源时代。（@OneThingAI Lab、@AI 智前沿）

02 有亮点的产品

1、OpenAI 为增强与 Veo 3 的竞争，正酝酿推出 Sora 2 模型

7 月 24 日消息，科技媒体 bleepingcomputer 昨日（7 月 23 日）发布博文，报道称 OpenAI 为增强与谷歌 Veo 3 的竞争，正酝酿推出 Sora 2 模型，有望成为最强视频生成 AI 模型。

消息源 @btibor91 于 7 月 21 日在 X 平台发布推文，在挖掘 OpenAI 服务器时，在代码中发现了 Sora 2 的相关引用，表明 OpenAI 已开发新的视频生成模型。

OpenAI 于2024年12月9日发布 Sora 模型，距离上次更新已经过去了六个月。尽管 Sora 的热度已经不再，但近期因微软将其免费添加到 Bing Video Creator 中，而再次成为关注焦点。（@IT 之家）

2、YouTube 上线全新 AI 视频工具：可根据视频氛围自动匹配背景音乐

7 月 24 日，YouTube 官方宣布将为 Shorts 短视频平台推出革命性 AI 创作工具，用户可一键将静态照片转换为 6 秒动态视频，并获得全新 AI 特效功能。用户只需上传手机相册中的普通照片，AI 就能自动生成 6 秒短视频，添加自然动态效果。官方演示中，一张静止的行人信号灯照片被转化为「跳舞版行人标志」动画，静态风景照则能自动添加云层流动、阳光变化等特效。

核心功能亮点：

智能场景识别：自动分析照片内容，为风景照添加天气特效，为人物照生成自然动作；
风格迁移：支持将照片转换为动画、油画等 12 种视觉风格；
智能配乐：根据视频氛围自动匹配背景音乐；
双重版权保护：右下角显示「AI 生成」标识，同时嵌入 SynthID 不可见水印。

这些功能背后，是 Google 最新的视频生成模型 Veo 2。YouTube 也明确表示，所有由 AI 生成的内容都会加上 SynthID 水印和清晰标注。

这个工具将在接下来的一周内，首先登陆美国、加拿大、澳大利亚和新西兰，后续会扩展到更多地区。而 Google Photos 也将上线类似的功能。

另外，YouTube 推出了一个名为「AI Playground」的创作空间。这里汇集了所有生成式 AI 工具、创作案例和推荐提示。创作者只要点击「创作」按钮，然后点右上角的小星星图标就能进入。

官方推文：https://x.com/YouTube/status/1948050473761595461（@AI 云帆、@AI 星球视界）

3、360 公司将于本月将发布智能录音笔与 AI 智能眼镜，显示功能成核心卖点

新浪科技 7 月 23 日披露，在北京中国互联网大会现场，周鸿祎向媒体透露，360 公司将于本月发布两款 AI 硬件：智能录音笔与 AI 智能眼镜。

他表示「做眼镜必须带显示功能」——在深度分析小米智能眼镜用户反馈后指出，无显示设计的眼镜难以超越耳机基础功能，如点头接听/摇头挂断。周鸿祎阐释显示核心价值：「提词器需求具有普适性，实时翻译场景中屏幕显示对话内容将创造不可替代的体验，这正是显示型智能眼镜的突破点。」

即将面世的 360 智能眼镜将搭载 AI 视觉系统，重点实现三大场景：演讲提词、跨语言对话翻译、以及结合环境信息的实时交互提示。

此次同步发布的还有 AI 智能录音笔，突破传统转写局限，通过场景识别自动提炼会议要点。两款硬件均接入 360 纳米搜索的 AI 能力，形成「视觉 + 听觉」协同生态。（@XR 控）

4、亚马逊收购 AI 初创公司 Bee，后者主打可穿戴语音设备

7 月 23 日消息，据外媒报道，亚马逊已收购 AI 可穿戴初创公司 Bee，Bee 联合创始人 Maria de Lourdes Zollo 在 LinkedIn 发文中证实了这笔交易。

亚马逊也向外媒确认了收购消息，但指出交易尚未最终完成。交易金额未透露。

Bee 公司总部位于美国旧金山，去年曾获得 700 万美元融资。该公司生产了一款售价 49.99 美元的腕带手环，外观与 Fitbit 智能手表类似。该设备配备了自研的 AI 模型和麦克风，可以监听和分析对话，提供摘要、待办事项列表和日常任务提醒。收购后，Bee 的技术有望强化亚马逊 Alexa 的「听觉」能力，还可以用于云办公、物流配送和健康管理等场景。

Bee 目前的政策说得很清楚：用户可以随时删除数据，录音不会保存，也不会用来训练 AI。但它会保存 AI「学会的东西」——比如你的习惯、语气、偏好，这些都储存在 App 里，用来提供服务。

Bee 还强调，它只录下「明确同意」的人的声音。还在开发一个功能，用户可以设置话题或地理位置上的「禁区」，自动让设备暂停学习。同时，公司打算把 AI 运算转到设备本地完成，这样也能减少上传云端带来的隐私风险。

Bee 的团队也将加入亚马逊。这意味着，这不只是一笔技术收购，更是一次 AI 硬件人才的「打包」引入。

从语音助手 Echo 系列开始，亚马逊在 AI 硬件上的布局一直围绕「家」。但 Bee 这类设备，意味着亚马逊准备将 AI 延伸到「人」本身——每天戴在手上，时时陪在身边。（@ 智次方、@ 电子发烧友网、@AI 星球视界）

5、阿里巴巴将于本周发布首款自研 AI 眼镜，深度整合阿里巴巴内部生态

阿里巴巴该款自研 AI 眼镜硬件采用高通骁龙 AR1 + 恒玄 BES2800 双芯片架构，平衡性能与功耗，前者保障 AI 功能流畅运行，后者延长续航，减少电量焦虑。

该款眼镜的基础模型将调用通义千问，为产品提供强大的底层智能支持。通义千问经过大量数据的训练，具备强大的语言理解与生成能力，能让眼镜在理解用户指令、提供准确回答上表现卓越。而夸克则会训练学习、健康等方向的垂类模型，满足用户在这些特定领域的专业需求。

阿里即将发布的这款 AI 眼镜功能十分丰富，囊括了市面上多数产品所具备的基础功能。

语音助手可随时响应指令，为用户提供便捷的交互服务；
音乐播放功能让用户在出行等场景中能随时享受喜爱的旋律；
电话通话功能让沟通不受时间和空间限制；
实时翻译功能对于跨国交流、旅行等场景极为实用；
会议纪要功能则能高效记录会议内容，方便用户后续查看。

这款产品最大的亮点之一，是对阿里巴巴生态内的深度整合。地图、支付、购物等功能都被融入其中。据了解，高德、支付宝、淘宝等技术团队都参与了进来。

用户通过这款 AI 眼镜，借助高德地图能实现便捷的导航；利用支付宝可完成各类支付操作；

在淘宝上购物也变得更加轻松，比如查询商品信息、下单购买等操作都能通过眼镜完成。

已超越 Ray-Ban Meta 智能眼镜，分两个版本：

不带显示的 AI 智能眼镜，侧重语音交互等基础功能，适合运动爱好者；
带显示的 AI+AR 智能眼镜，优先级更高，能提供直观视觉体验，助力导航、购物等。（@ 木星课堂）

03 有态度的观点

1、DeepMind CEO：AI 或能学会大自然的一切规律

日前，Google DeepMind CEO Demis Hassabis 接受 Lex Fridman 的采访。在这场对话中，Hassabis 分享了一个大胆的判断：大自然的一切规律，都有可能被 AI 学会，甚至超越。

Hassabis 认为，如果自然界中的任何结构都可能通过经典的学习算法被高效建模，那么流体动力学、蛋白质折叠，甚至复杂的生命起源，都有望被 AI 解构重建。像 DeepMind 的 Veo 这样的模型，已经能惊人地还原液体运动与光影物理，表明 AI 正在「逆向工程」物理世界中的规律。

而在复杂性理论上，Hassabis 致力于提出一个新的复杂性类别——「可学习自然系统」。他认为，那些经过进化筛选、具有结构性且稳定存在的自然现象，其实是可被现代算法模拟与预测的，只要我们找到正确的「搜索策略」。关于 AGI 的路径，Hassabis 提到 DeepMind 团队在过去一年中，从似乎落后到迅速反超，在 Gemini 系列模型上取得弹性进展。他强调「速度就是护城河」，强调构建更广、更深、更快获取反馈的研究文化和团队体系。(@APPSO)

2、特朗普签署「AI 行动计划」，万亿美金押注全球 AI 霸权

2025 年 7 月，美国白宫正式发布《美国 AI 行动计划》，目标明确：争夺全球 AI 领导地位。这份长达 28 页的文件包含 90 多项行政命令，围绕三大核心支柱展开：加速 AI 创新、构建 AI 基础设施、引领国际 AI 外交与安全。

美国大幅放松 AI 监管，废除此前拜登政府的严格 AI 行政令，鼓励科技企业自由发展。计划特别强调开源 AI 模型的重要性，推动全球自由使用和研究，助力学术与初创企业发展。同时，政府将投资算力资源，支持科研机构和企业创新。

AI 发展离不开强大支撑。美国计划加速数据中心审批流程，动用联邦土地建设超算中心，并保障电网稳定供电。半导体制造也将回归本土，简化监管流程，提升芯片生产能力。

报告地址：https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf（@ 新智讯）