AI测试 亚马逊收购 AI 初创公司 Bee,后者主打可穿戴语音设备;阿里巴巴将于本周发布首款自研 AI 眼镜,深度整合阿里内部生态丨日报

RTE开发者社区 · 2025年07月25日 · 479 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阿里云即将推出升级版 Wan 2.2,支持文本到视频、图像到视频、视频到音频等

阿里云宣布旗下视觉生成基座模型万相 2.1(Wan)开源后,即将推出升级版 Wan 2.2。

Wan2.2 沿用 Apache2.0 许可证,通过 Alibaba Cloud ModelScope 和 Hugging Face 免费提供代码和模型权重。新技术优化时空变分自编码器和扩散变换器架构,大幅提升性能。

新功能包括文本到视频、图像到视频、视频到音频等,支持高分辨率和多语言风格。14B 和 1.3B 双版本覆盖专业与消费级场景。在权威评测集 VBench 中,万相 2.1 以 86.22% 的总分超越 Sora、Luma 等模型,1.3B 版本仅需 8.2GB 显存即可生成 480P 视频,性能接近闭源模型。

Wan 2.2 预计将进一步优化长视频编解码效率,支持更高分辨率(如 1024x1024)和复杂物理场景还原,同时强化中英文文本生成能力。目前全球开发者可通过 Github 等平台下载体验,未来或推动 AI 视频创作进入全模态开源时代。(@OneThingAI Lab、@AI 智前沿)

02 有亮点的产品

1、OpenAI 为增强与 Veo 3 的竞争,正酝酿推出 Sora 2 模型

7 月 24 日消息,科技媒体 bleepingcomputer 昨日(7 月 23 日)发布博文,报道称 OpenAI 为增强与谷歌 Veo 3 的竞争,正酝酿推出 Sora 2 模型,有望成为最强视频生成 AI 模型。

消息源 @btibor91 于 7 月 21 日在 X 平台发布推文,在挖掘 OpenAI 服务器时,在代码中发现了 Sora 2 的相关引用,表明 OpenAI 已开发新的视频生成模型。

OpenAI 于2024年12月9日发布 Sora 模型,距离上次更新已经过去了六个月。尽管 Sora 的热度已经不再,但近期因微软将其免费添加到 Bing Video Creator 中,而再次成为关注焦点。(@IT 之家)

2、YouTube 上线全新 AI 视频工具:可根据视频氛围自动匹配背景音乐

7 月 24 日,YouTube 官方宣布将为 Shorts 短视频平台推出革命性 AI 创作工具,用户可一键将静态照片转换为 6 秒动态视频,并获得全新 AI 特效功能。用户只需上传手机相册中的普通照片,AI 就能自动生成 6 秒短视频,添加自然动态效果。官方演示中,一张静止的行人信号灯照片被转化为「跳舞版行人标志」动画,静态风景照则能自动添加云层流动、阳光变化等特效。

核心功能亮点:

  • 智能场景识别:自动分析照片内容,为风景照添加天气特效,为人物照生成自然动作;

  • 风格迁移:支持将照片转换为动画、油画等 12 种视觉风格;

  • 智能配乐:根据视频氛围自动匹配背景音乐;

  • 双重版权保护:右下角显示「AI 生成」标识,同时嵌入 SynthID 不可见水印。

这些功能背后,是 Google 最新的视频生成模型 Veo 2。YouTube 也明确表示,所有由 AI 生成的内容都会加上 SynthID 水印和清晰标注。

这个工具将在接下来的一周内,首先登陆美国、加拿大、澳大利亚和新西兰,后续会扩展到更多地区。而 Google Photos 也将上线类似的功能。

另外,YouTube 推出了一个名为「AI Playground」的创作空间。这里汇集了所有生成式 AI 工具、创作案例和推荐提示。创作者只要点击「创作」按钮,然后点右上角的小星星图标就能进入。

官方推文:https://x.com/YouTube/status/1948050473761595461(@AI 云帆、@AI 星球视界)

3、360 公司将于本月将发布智能录音笔与 AI 智能眼镜,显示功能成核心卖点

新浪科技 7 月 23 日披露,在北京中国互联网大会现场,周鸿祎向媒体透露,360 公司将于本月发布两款 AI 硬件:智能录音笔与 AI 智能眼镜。

他表示「做眼镜必须带显示功能」——在深度分析小米智能眼镜用户反馈后指出,无显示设计的眼镜难以超越耳机基础功能,如点头接听/摇头挂断。周鸿祎阐释显示核心价值:「提词器需求具有普适性,实时翻译场景中屏幕显示对话内容将创造不可替代的体验,这正是显示型智能眼镜的突破点。」

即将面世的 360 智能眼镜将搭载 AI 视觉系统,重点实现三大场景:演讲提词、跨语言对话翻译、以及结合环境信息的实时交互提示。

此次同步发布的还有 AI 智能录音笔,突破传统转写局限,通过场景识别自动提炼会议要点。两款硬件均接入 360 纳米搜索的 AI 能力,形成「视觉 + 听觉」协同生态。(@XR 控)

4、亚马逊收购 AI 初创公司 Bee,后者主打可穿戴语音设备

7 月 23 日消息,据外媒报道,亚马逊已收购 AI 可穿戴初创公司 Bee,Bee 联合创始人 Maria de Lourdes Zollo 在 LinkedIn 发文中证实了这笔交易。

亚马逊也向外媒确认了收购消息,但指出交易尚未最终完成。交易金额未透露。

Bee 公司总部位于美国旧金山,去年曾获得 700 万美元融资。该公司生产了一款售价 49.99 美元的腕带手环,外观与 Fitbit 智能手表类似。该设备配备了自研的 AI 模型和麦克风,可以监听和分析对话,提供摘要、待办事项列表和日常任务提醒。收购后,Bee 的技术有望强化亚马逊 Alexa 的「听觉」能力,还可以用于云办公、物流配送和健康管理等场景。

Bee 目前的政策说得很清楚:用户可以随时删除数据,录音不会保存,也不会用来训练 AI。但它会保存 AI「学会的东西」——比如你的习惯、语气、偏好,这些都储存在 App 里,用来提供服务。

Bee 还强调,它只录下「明确同意」的人的声音。还在开发一个功能,用户可以设置话题或地理位置上的「禁区」,自动让设备暂停学习。同时,公司打算把 AI 运算转到设备本地完成,这样也能减少上传云端带来的隐私风险。

Bee 的团队也将加入亚马逊。这意味着,这不只是一笔技术收购,更是一次 AI 硬件人才的「打包」引入。

从语音助手 Echo 系列开始,亚马逊在 AI 硬件上的布局一直围绕「家」。但 Bee 这类设备,意味着亚马逊准备将 AI 延伸到「人」本身——每天戴在手上,时时陪在身边。(@ 智次方、@ 电子发烧友网、@AI 星球视界)

5、阿里巴巴将于本周发布首款自研 AI 眼镜,深度整合阿里巴巴内部生态

阿里巴巴该款自研 AI 眼镜硬件采用高通骁龙 AR1 + 恒玄 BES2800 双芯片架构,平衡性能与功耗,前者保障 AI 功能流畅运行,后者延长续航,减少电量焦虑。

该款眼镜的基础模型将调用通义千问,为产品提供强大的底层智能支持。通义千问经过大量数据的训练,具备强大的语言理解与生成能力,能让眼镜在理解用户指令、提供准确回答上表现卓越。而夸克则会训练学习、健康等方向的垂类模型,满足用户在这些特定领域的专业需求。

阿里即将发布的这款 AI 眼镜功能十分丰富,囊括了市面上多数产品所具备的基础功能。

  • 语音助手可随时响应指令,为用户提供便捷的交互服务;

  • 音乐播放功能让用户在出行等场景中能随时享受喜爱的旋律;

  • 电话通话功能让沟通不受时间和空间限制;

  • 实时翻译功能对于跨国交流、旅行等场景极为实用;

  • 会议纪要功能则能高效记录会议内容,方便用户后续查看。

这款产品最大的亮点之一,是对阿里巴巴生态内的深度整合。地图、支付、购物等功能都被融入其中。据了解,高德、支付宝、淘宝等技术团队都参与了进来。

用户通过这款 AI 眼镜,借助高德地图能实现便捷的导航;利用支付宝可完成各类支付操作;

在淘宝上购物也变得更加轻松,比如查询商品信息、下单购买等操作都能通过眼镜完成。

已超越 Ray-Ban Meta 智能眼镜,分两个版本:

  • 不带显示的 AI 智能眼镜,侧重语音交互等基础功能,适合运动爱好者;

  • 带显示的 AI+AR 智能眼镜,优先级更高,能提供直观视觉体验,助力导航、购物等。(@ 木星课堂)

03 有态度的观点

1、DeepMind CEO:AI 或能学会大自然的一切规律

日前,Google DeepMind CEO Demis Hassabis 接受 Lex Fridman 的采访。在这场对话中,Hassabis 分享了一个大胆的判断:大自然的一切规律,都有可能被 AI 学会,甚至超越。

Hassabis 认为,如果自然界中的任何结构都可能通过经典的学习算法被高效建模,那么流体动力学、蛋白质折叠,甚至复杂的生命起源,都有望被 AI 解构重建。像 DeepMind 的 Veo 这样的模型,已经能惊人地还原液体运动与光影物理,表明 AI 正在「逆向工程」物理世界中的规律。

而在复杂性理论上,Hassabis 致力于提出一个新的复杂性类别——「可学习自然系统」。他认为,那些经过进化筛选、具有结构性且稳定存在的自然现象,其实是可被现代算法模拟与预测的,只要我们找到正确的「搜索策略」。关于 AGI 的路径,Hassabis 提到 DeepMind 团队在过去一年中,从似乎落后到迅速反超,在 Gemini 系列模型上取得弹性进展。他强调「速度就是护城河」,强调构建更广、更深、更快获取反馈的研究文化和团队体系。(@APPSO)

2、特朗普签署「AI 行动计划」,万亿美金押注全球 AI 霸权

2025 年 7 月,美国白宫正式发布《美国 AI 行动计划》,目标明确:争夺全球 AI 领导地位。这份长达 28 页的文件包含 90 多项行政命令,围绕三大核心支柱展开:加速 AI 创新、构建 AI 基础设施、引领国际 AI 外交与安全。

美国大幅放松 AI 监管,废除此前拜登政府的严格 AI 行政令,鼓励科技企业自由发展。计划特别强调开源 AI 模型的重要性,推动全球自由使用和研究,助力学术与初创企业发展。同时,政府将投资算力资源,支持科研机构和企业创新。

AI 发展离不开强大支撑。美国计划加速数据中心审批流程,动用联邦土地建设超算中心,并保障电网稳定供电。半导体制造也将回归本土,简化监管流程,提升芯片生产能力。

报告地址:https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf(@ 新智讯)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册