开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、FlowDirector:无需反演的视频编辑新方法
西湖大学 AGILab 提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirector。
FlowDirector 直接特征空间构建「源视频→目标视频」的演化路径,但这种直接演化范式并非完美无瑕,直接编辑路径产生的编辑流作用于全视频特征,会导致无关区域发生意外变化,严重影响编辑视频的保真度。为此,研究团队提出了空间感知流矫正(Spatially Attentive Flow Correction,SAFC):SAFC 通过定位并限制编辑视频中关键对象所在的空间区域,来防止编辑流干扰无关区域。
实验结果表明,FlowDirector 在多个评测指标上均表现优异,显示了其在视频编辑领域的先进性。
相较于其他视频编辑方法,FlowDirector 有以下方面值得关注:
开销低:FlowDirector 无反演过程,不需要存储任何额外的控制信息(如 Attention Map),单卡 4090 就可实现高质量视频编辑;
支持广泛:除可进行传统的对象替换外,FlowDirector 可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换;
背景 100% 保持:通过对非编辑区域的「动力」进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。
相关链接:https://arxiv.org/abs/2506.05046
相关链接:https://flowdirector-edit.github.io
相关链接:https://github.com/Westlake-AGI-Lab/FlowDirector
相关链接:https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector
(@ 量子位、@ 果比 AI)
2、Cartesia 发布语音转文本模型 Ink-Whisper,专门为实时语音 AI 打造
Cartesia 发布了语音转文本模型 Ink-Whisper,它是 OpenAI Whisper 的一个变体,专门针对对话环境中的低延迟转录优化,且专为企业级语音智能体设计。该模型以转录速度和理解真实语境为核心,专门为实时语音 AI 打造。
核心改进之一是动态分块。标准 Whisper 在处理完整的 30 秒音频块时表现最佳,但对话式 AI 处理的是更小、更零散的音频片段。开发团队对 Whisper 升级,使其能够处理在语义上有意义点结束的可变长度音频块。这意味着出错更少,尤其是在静音或音频间隙期间,幻觉现象也大大减少。
为了确保 Ink-Whisper 在实际应用中表现更佳,开发团队创建了一套评估数据集,优化使用体验:
背景噪音数据集:在交通、咖啡馆或办公室等嘈杂环境中录制的对话;
专有名词数据集:来自 SPGISpeech 的 100 个样本,包含大量金融术语和品牌名称;
语音口音数据集:包含多种英语口音的转录文本,用于测试跨人口统计的鲁棒性
相关链接:
https://docs.cartesia.ai/2025-04-16/api-reference/stt/stt
(@cartesia_ai\@X、@Cartesia 官方网站)
3、字节推出了豆包大模型 1.6 系列:全系列均原生支持多模态思考能力,包括「实时视频通话」、「视频实时链接」等功能
在 6 月 11 日火山引擎举办的 Force 原动力大会上,字节系 AI 产品线推出了豆包大模型 1.6 系列,由三个模型组成,分别是:
它支持深度思考、多模态理解,还能操作图形界面。深度思考有三种模式:开、关和自动。在自适应模式下,模型会根据任务难度自动决定是否启用深度思考,既能省时间又省 token。而且,它还是国内第一个支持 256k 上下文的模型。
1.6- thinking 是本次升级的重点,思考能力得到强化,能更准确地理解和处理复杂任务。在 coding、数学、逻辑推理、指令遵循等方面都有进一步的提升,同样也支持 256k 上下文和多模态推理。
延迟极低,非常适用于低延迟敏感场景。文本理解比豆包 1.5-lite 强,视觉理解也能媲美其他厂商的顶级产品。
豆包 1.6 全系列均原生支持多模态思考能力,让模型更好地理解和处理真实世界的问题。多模态理解支持了豆包最新的「实时视频通话」功能。而在企业端,则可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。
为方便企业用户使用「边想边搜」和「DeepResearch」功能,火山引擎官网上线了大模型应用实验室,并开源了代码,可以搭建自己的 AI 应用原型,灵活编排自己的智能体。
目前,豆包大模型 1.6 系列已在火山引擎上线,企业和开发者可调用 API 体验。而且豆包大模型 1.6 采用统一定价模式,无论是否开启深度思考模式,无论是文本还是视觉,tokens 价格均一致,按照输入上下文长度区间定价。(@APPSO)
4、Meta 开源基于视频训练的世界模型:V-JEPA 2,具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划
Meta 开源了基于视频训练的世界模型:V-JEPA 2,该模型具备对物理世界的视觉理解与预测能力,并支持零样本机器人规划。
V-JEPA 2 是一种自监督视频编码器训练方法,利用互联网规模的视频数据,在运动理解和人体动作预测任务上达到最先进的性能。V-JEPA 2-AC 是基于 V-JEPA 2 后训练的潜在动作条件世界模型(使用少量机器人轨迹交互数据),能够解决机器人操作任务,无需环境特定的数据收集或任务特定的训练与校准。 这使得 V-JEPA 2 能通过看视频来理解世界是怎么运转的,能预测接下来会发生什么,还能让机器人在新环境中与不熟悉的物体进行交互。
V-JEPA 2 模型有两个主要部分,分别是编码器和预测器。编码器和预测器通过使用掩码潜在特征预测目标,从视频中进行自监督学习预训练,利用丰富的自然视频来引导对物理世界的理解和预测。 该模型可以应用于视频里动作识别与预测、回答视频问题、让机器人抓取物体、把物体放到指定位置等。
GitHub:
https://github.com/facebookresearch/vjepa2
1、Scouts:实时在线的 AI 智能体,能够实时跟踪用户关心的网络内容
Scouts 是一款旨在为用户跟踪和提醒感兴趣的特定信息的 AI 智能体。
用户可以通过告诉 Scouts 关注小众新闻、难以预订的餐桌、折扣信息或特定的预约。该智能体会实时跟踪相关信息,并及时通过电子邮件向用户发送提醒。
为了获得更佳使用体验,请确保用户的查询指令具体明确,如提供确切的 URL 或指定通知时间(如「每天上午 10 点」或「当价格低于 100 美元时」)。现在 Scouts 尚无法穿透身份验证墙。
目前团队正通过候补名单开放 Beta 版访问。(@abhshkdz\@X)
2、AI Andrew Ng 2.0 正式上线:响应更快,语音对话更佳,界面更简洁
DeepLearning.AI 更新了 AI 吴恩达 2.0,语音对话功能也得到了进一步优化,支持在语音模式下与 AI 交流问题。
体验链接:
https://www.deeplearning.ai/avatar/(@realavatarai\@X)
3、Mirage 音频驱动的虚拟人模型:具备嘴型同步和丰富的表情与动作
Gorden Sun 在社交媒体上分享了 Mirage 虚拟人模型。通过音频驱动,Mirage 能生成生动的人物视频,具备嘴型同步和丰富的表情与动作,功能与 HeyGen 相似。尽管 Mirage 是付费产品,但 Gorden Sun 特别强调,该产品的详细技术报告对研究人员具有极高的参考价值,并提供了深入的技术分析和应用示例。
相关链接:https://mirage.app/research/seeing-voices
相关链接:https://cdn.prod.website-files.com/6838307790b677e58ca6f9af/68471e59ff304cf92d7f1593_Mirage%20White%20Paper.pdf(@ 沃友 AI)
4、Niantic Spatial 与 Snap 合作,共同开发 AR 眼镜 AI 地图系统
专注于从事地理空间计算的 Niantic Spatial 日前宣布与 Snap 达成一项多年协议,共同为 AR 眼镜构建基于人工智能的全球地图。
据悉,Snap 将把 Niantic Spatial 的扫描技术和视觉定位系统(VPS)引入 Snap 生态系统。据 Niantic Spatial 称,预计这将支持 40 万 AR 开发者创建关于数百万个地点的数字体验,同时允许 9 亿 Snapchat 用户发现相关的 Lens,并为扩展地图做出贡献。(@ 映维网 Nweon)
1、OpenAI CEO:某种意义上,ChatGPT 已经比任何人都强大
6 月 11 日凌晨,随着 OpenAI o3-pro 的发布,CEO Sam Altman 还发布了个人新博客《The Gentle Singularity(温和的奇点)》,探讨 AI 发展对人类社会的影响。
用他的话来说,这可能是他最后一次在完全没有 AI 帮助下写出的文章,「相对论的角度看,奇点是一点一点发生的,融合则是缓慢进行的。」
Altman 表示,虽然现在 AI 还没有做到无处不在、如影随形,但他们最近已经构建出在许多方面比人类更聪明的系统,并且这些系统能显著放大人类的产出。同时他也略带感激地表示,此前的 AI 科学突破来之不易,「但它们将带我们走得更远。」
对于 AI 融合的未来,Altman 表示「无尽的美好」:
AI 将在多个方面为世界带来贡献,但 AI 加速科学进步与提升生产力所带来的生活质量提升将是巨大的;未来有望远比现在更加美好。科学进步是整体进步的最大驱动力;一想到我们有可能获得多少更多的成果,就令人振奋。
随后,他强调道:从某种意义上说,ChatGPT 已经比历史上任何一个人都更强大。而这种强大不仅仅是性能强大,而是人们已经依赖上 ChatGPT,无论它是对是错,都会对社会带来不同的影响。
Altman 还很大胆地预估了未来:2025 年我们将见到「真正进行认知工作的 Agent」;2026 年我们能见到「产生原创见解的系统」;2027 年或许会出现能在现实世界中执行任务的机器人。到了 2030 年,一切都会变得极其丰富,届时我们能在理论上实现一切。(前提是资源充足,良好治理)
另外,Altman 还在文中提到了一个观点:「相比 AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。」( @APPSO)
更多 Voice Agent 学习笔记:
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻