图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 鲍勃 和 Gemini(尽量不生产 AI Slop)

01 有话题的技术

1、Vision Agents + Gemini + Ultralytics YOLO 构建 AI 语音瑜伽教练

图片

Vision Agents 发布了一个教程,将 LLM、实时视频分析和语音转语音 API 相结合,创建一个名为「AI 瑜伽教练」的交互式 Python 应用。该教练可以通过用户的摄像头分析瑜伽姿势,并提供实时的语音指导和反馈,旨在革新居家和健身房的锻炼体验。

教程:

https://getstream.io/blog/ai-voice-yoga-instructor/

(@Vision Agents Blog)

2、巨人与清华、西工大发布「视频 X 音乐」多模态生成新进展

多模态生成技术在图像、视频、语音等方向的快速突破,使「视频 × 音乐」的多模态生成变成新的研究热点。然而在真实业务场景中,仍然存在诸多未被充分解决的技术空白,例如:

在此背景下,巨人网络 AI Lab 继 2024 年发布 YingGame 有声游戏生成模型之后,继续在多模态领域发力,本次联合清华大学与西北工业大学推出三项研究成果:YingVideo-MV、YingMusic-SVC 与 YingMusic-Singer,分别面向音乐驱动的视频生成、歌声转换与歌声合成任务,完善了真实业务场景中多项关键能力链路,为「视频 × 音乐」的多模态生成方向带来了系统性的技术进展。

详细介绍:

https://mp.weixin.qq.com/s/r8de9g9tGFbgk466i8-2Gg

(@ 巨人网络 AI Lab)

3、All Voice AI 联手 Factory Berlin 推出全球首个语音 AI 广告平台,将 AI 电话变为收入渠道

U.S. 公司「All Voice AI」与欧洲创投机构「Factory Berlin」合作,推出了全球首个能在实时 AI 语音通话中嵌入广告的平台。这项技术旨在将传统的客户支持电话转变为可直接变现的收入渠道,通过在对话中适时推送相关优惠,为品牌开辟了全新的互动广告模式。

(@PR Newswire)


02 有亮点的产品

1、Sam Altman 和 Jony Ive 透露合作硬件:「如湖畔山间小屋般平静」

图片

品玩 11 月 27 日讯,据 TechCrunch 报道,OpenAI CEO Sam Altman 与苹果前首席设计师 Jony Ive 近日在旧金山 Emerson Collective 活动上透露,双方合作的 AI 硬件设备已进入原型阶段,预计两年内面世。

该设备被描述为「无屏幕、口袋大小」,强调极致简约与宁静体验。Altman 称其愿景是打造一款如「湖畔山间小屋般平静」的产品,能长期理解用户情境、主动过滤干扰,并赢得用户信任。Ive 表示,理想设计应「看似天真简单」,却内含高度智能,让人无负担地自然使用。

目前 OpenAI 尚未公布具体技术细节。

(@ 品玩)

2、阿里发布 AI 眼镜夸克 S1,双目 AR 光波导 +AI 拍摄

图片

继小米、百度之后,国内第三家科技互联网巨头发布 AI 眼镜。

11 月 27 日,阿里夸克在北京举办「先见之明」新品发布会,正式发布了「夸克 AI 眼镜 S1」。作为阿里 AI 战略中的关键落子,夸克 S1 在技术路径的选择上并未采用保守的 ODM 通用方案,而是展现出了极强的「创新欲」:搭载「千问」对话助手、采用双芯片架构、双目 AR 光波导与 AI 拍摄结合的高集成度方案。

这种从底层技术逻辑出发的产品定义,让夸克 AI 眼镜 S1 与此前小米、百度等厂商推出的以「拍摄」为主的 AI 眼镜形成了显著差异。它不局限于单一的影像捕捉,而是基于「近眼显示」能力,将阿里庞大的服务生态通过 AI 多模态形式延展至眼镜端。更为难得的是,在堆叠如此复杂硬件的同时,整机重量依然被控制在了 51g(含 0 度近视镜片)。

(@VR陀螺)

3、Gloo 收购 XRI Global,开发全球数千种语言 AI 模型

Gloo 公司,一家技术平台,近日宣布收购 AI 公司 XRI Global。此次战略性举动旨在将其平台 Gloo AI 和 Gloo360 嵌入 XRI Global 先进的多语言和语音 AI 能力,从而大幅拓展 Gloo 的市场潜力,并赋能全球数千种语言的用户。

(@Gloo)

4、迪士尼下场做机器人,把《冰雪奇缘》雪宝(Olaf)从电影里硬生生地「拽」了出来!

(@ 香港迪士尼乐园度假区、@ 机器人前瞻)


03 有态度的观点 

1、「AI slop」(AI 劣质内容)当选澳洲 2025 年度词汇

图片

据澳洲九号台新闻 11 月 25 日报道,《Macquarie Dictionary》宣布「AI slop」成为 2025 年度词汇,用以描述由生成式人工智能大量生产的、缺乏意义且充满错误的低质量内容。

该词语的入选,反映了公众对人工智能技术滥用现象的关注日益增强。

每年,《Macquarie Dictionary》都会组织特别委员会评选年度词汇。今年的评审成员包括词典编辑团队、广播主持人兼作家 David Astle,以及语言研究专家 Tiger Webb。

委员会指出,2025 年「我们已理解『slop』的含义——即无意义、无用途的 AI 产物」,并进一步提出:「那些摄取并传播这类内容的人,是否也将被称作『AI sloppers』?」

除「AI slop」外,今年的荣誉提名还包括「clanker」,用于贬义地称呼取代人类完成任务的 AI 机器人,以及「medical misogyny」,意指医疗和知识体系中,特别是在女性生殖健康领域存在的性别偏见。

这些新词汇反映出科技发展、社会结构与公共意识在过去一年中的显著变化。

(@ 澳洲九号台)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片


↙↙↙阅读原文可查看相关链接,并与作者交流