AI测试 通义万相即将开源一款「语音转视频」模型;微软开源长篇幅、多角色 TTS 模型 VibeVoice 丨日报

RTE开发者社区 · 2025年08月27日 · 162 次阅读

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 子禾、@ 鲍勃

01 有话题的技术

1、 微软开源 VibeVoice:长篇幅、多角色播客文本转语音框架

VibeVoice 是一款创新的文本转语音(TTS)框架,专为生成富有表现力、长篇幅、多说话人的对话音频(如播客)而设计。它解决了传统 TTS 技术在可扩展性、说话人一致性和自然轮替方面存在的痛点。

该模型能够合成最长 90 分钟的语音,并支持最多 4 位不同说话人,显著优于许多模型仅支持 1-2 位说话人的能力。

VibeVoice 的关键创新是使用了连续语音分词器(声学和语义),以 7.5 Hz 的超低帧率运行。这在高效保留音频保真度的同时,大幅提升了处理长序列的计算效率。该框架结合了 LLM(用于理解文本上下文和对话流)和扩散头部(用于生成高保真声学细节),构建了下一代代币扩散模型。

https://github.com/microsoft/VibeVoice

(@Github@X\@op7418)

2、通义万相即将开源一款「语音转视频」模型 Wan2.2-S2V

8 月 25 日,通义万相团队在 X 上预告即将开源一款「语音转视频」(speech-to-video)模型 Wan2.2-S2V,这将是一款音频驱动的电影级视频生成模型。

官方账号还在评论区分享了一个可能由 Wan2.2-S2V 根据歌曲生成的视频 demo。

@X\@Alibaba_Wan)


02 有亮点的产品

1、AI 硬件 Haivivi 完成 2 亿元融资

据《晚点科技》获悉,AI 玩具公司跃然创新(Haivivi)近期完成 2 亿元 A 轮系列融资。据介绍,本轮融资由中金资本旗下基金、红杉中国种子基金、华山资本、愉悦资本领投,招银国际等参投,香港科技大学工学院原院长高秉强创立的 Brizan Ventures 等老股东加注。目前,Haivivi 已获得奥特曼、小猪佩奇、奶龙等知名 IP 的 AI 玩具授权,同时在开发自研 IP。今年下半年, Haivivi 将陆续发布十几个 IP 产品。8 月 27 日,Haivivi 将正式推出旗下第二代 AI 玩具产品 —— CocoMate 系列,硬件部分直接嵌入玩偶本体,并且支持拆卸。首批发售的 CocoMate 将包含奥特曼 IP 限定款——赛罗和迪迦——及 Haivivi 原创 IP「泡泡」礼盒。据悉,去年 9 月,Haivivi 发布了 BubblePal,这是一款可挂在毛绒玩具脖子上的对话硬件,目前该产品的累计销量已突破 20 万台。

@APPSO

2、NotebookLM 视频和音频概览支持 80 余种语言,包含中文

Google Labs 宣布对 AI 笔记本应用 NotebookLM 进行两项重大更新:视频概览(Video Overviews)功能现已在全球范围内支持多达 80 种语言(包含中文),同时,音频概览(Audio Overviews)也获得了显著升级,能够提供更全面、更深入的内容分析。

此次更新旨在为全球用户提供更便捷、高效的知识整理体验,帮助用户快速理解和掌握复杂信息。

核心技术亮点

  • 视频概览多语言支持:此功能将 NotebookLM 笔记本中的内容转化为视频演示文稿。现在,该功能已向全球 80 多种语言的用户开放,无论是学生复习课程视频、研究人员梳理学术报告,还是普通用户学习复杂的教程,都能以自己偏好的语言获得简洁易懂的视频总结。

  • 音频概览全面升级:此前仅英文版提供的深度、结构化音频概览体验,现已扩展到所有支持的语言。新版本不再仅提供简短的要点摘要,而是能够对不同来源的信息进行综合,生成更长、更具洞察力的完整讨论。当然,如果用户时间有限,仍然可以选择生成较短的概览版本以获取关键信息。

两项功能即日起面向全部用户上线,并在一周内完成全球推送。

(@Google Blog)

3、腾讯会议集成腾讯元宝,推出 AI 纪要功能

腾讯元宝宣布,其 AI 能力正式与腾讯会议打通,推出「AI 纪要」功能。这项功能旨在帮助用户在会议中高效记录、总结和分析,从而提升沟通效率,让用户能够更专注于会议本身。

主要功能与亮点

  • 实时生成会议纪要:AI 纪要功能能够每 2 分钟主动推送一次最新的会议总结,实时提炼关键信息、结论和待办事项,即使在漫长的会议中走神,也能快速跟上进度。

  • 深层会议洞察:该功能不仅能浓缩会议重点,还能帮助用户洞察「弦外之音」,捕捉语言背后的潜在含义,从而更好地理解会议氛围和参与者的真实意图。

  • 一键导入腾讯元宝拓展分析:会议结束后,用户可以一键将纪要导入到腾讯元宝。在腾讯元宝中,用户可以进一步对会议内容进行追问、提炼核心结论、生成详细的待办事项,实现会议复盘的自动化。

发布计划

用户只需将腾讯会议客户端升级到 3.36.10 或更高版本,即可限时免费体验这项 AI 纪要功能。此举标志着腾讯会议正在通过整合 AI 能力,为企业和个人用户提供更智能、更高效的协作工具。

(@ 腾讯元宝)

4、微信推出「AI 播客」新功能,双人 AI 主播解读新闻

微信在其「快讯」页面中上线了一项 AI 实验功能——「AI 播客」。与传统的单人音频播报不同,这项功能引入了双人 AI 主播对话的形式,旨在将新闻内容转化为更具互动性和交流感的「语音快讯」。

目前,该功能仍处于灰度测试阶段,其入口隐藏在微信的「快讯」合集页中。用户可以通过搜索「快讯」并点击右上角的「听快讯」按钮来体验。

技术亮点与核心应用

该功能的主要亮点在于其对话式的播报形式。两位 AI 主播通过模拟真人对话的方式复述新闻,语气自然、语序流畅,整体听感轻松。

  • 内容来源AI 播客的内容主要来源于各地官方媒体发布的政策通稿等结构化新闻。AI 会对原文进行智能拆解和重组,在保留关键信息的同时降低理解难度。

  • 场景契合:该功能特别适用于用户在通勤或做家务等「耳朵空闲」的场景,满足了用户快速获取新闻的需求。

  • 技术创新:与微信此前推出的基于克隆技术的「听全文」功能不同,AI 播客采用「对话解读」模式,提供了更接近日常交流的听感体验,为信息消费开辟了新的想象空间。

随着这项新功能的推出,未来的微信可能会出现更具个性化的「私人播客」,AI 主播将能为用户串讲好友动态、长文观点和热门话题。这表明,在信息爆炸的时代,下一个争夺用户注意力的入口,或许正隐藏在音频世界中。

(@ 智东西 AI 前瞻)


03 有态度的观点 

1、Google 大脑之父:AI 的未来将会更加个性化

近期,Google Brain(Google 大脑)项目创始人 Jeff Dean 做客播客《Moonshot Podcast Deep Dive》,回顾了 AI 技术的发展历程,并谈及未来研究方向。Dean 提到,Google Brain 项目最早源于与吴恩达的一次茶水间对话,随后团队利用 2000 台计算机搭建了大规模神经网络训练平台。这一项目带来了著名的「猫脸」实验,并在语音识别与图像分类上取得突破,直接推动了 TensorFlow 与 TPU 的诞生。对于未来,Dean 强调 AI 模型的可解释性与自动化闭环潜力。他认为,大模型有望通过自我生成、测试和反馈循环,在特定领域实现接近「自我突破」的能力。另外,他还觉得,未来 AI 将不仅仅是为少数人服务,而是通过个性化的学习和推荐,成为每个人的「认知延伸」。他举例提到,AI 将能够根据个人历史与偏好,提供针对性的建议和服务。这种个性化服务将是 AI 发展的关键方向。Jeff Dean 也对 AI 带来的社会变革做出了展望。他认为,随着 AI 技术的进步,未来将有更多「个性化导师」涌现,能够为全球学生提供定制化的学习体验。这种创新将不仅改变教育行业,也会对医疗、社会服务等领域产生深远影响。

(@APPSO)

2、谷歌高管:AI 正重塑游戏行业,开发者需快速拥抱云与 AIGC

Google Could 全球游戏业务总裁 Jack Buser 在近日接受科技媒体《Decrypt》的采访时表示,随着 AIGC 工具在游戏开发过程中的利用率不断提升,能够快速部署云设施、上线 AI 工具辅助开发的厂商将占有巨大优势,无法适应这一潮流变化的厂商将被淘汰。Buser 表示,目前的游戏新品面临来自上线多年头部老游戏的激烈竞争,玩家有超过一半的游戏时间都花在上线超过 6 年的游戏上,因此新品很难获客,造成回本的可能性大幅降低。为了面对越来越高的潜在风险,开发者必须快速运用 AI 工具来大大加快游戏开发进程,在上线后也需要用 AI 分析玩家活动数据,量身定制能够拉升留存的限时活动。

@Games Industry、@ 白鲸出海)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册