开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01.有话题的技术

1、KeySync 开源高清口型同步方案，能够无缝处理面部遮挡问题

与现有方法不同，KeySync 能够生成与驱动音频高度对齐的高分辨率口型同步视频，同时最大限度地减少输入视频中的表情泄漏，并能够无缝处理面部遮挡问题。

KeySync 包含两个阶段，这两个阶段都通过潜变量扩散模型生成视频，条件输入为视频和音频，二者的区别在于参考帧的选择。在关键帧生成阶段，模型接收一个身份帧，该帧会被重复并与加入噪声的视频输入进行拼接。在插值阶段，模型则以两个连续的关键帧为条件，并引入可学习的中间嵌入向量。两个阶段都融合了来自 HuBERT 的音频嵌入。（@ 带你学 AI）

2、DeepSeek-Prover-V2 发布，专精于数学定理证明

在 4 月 30 日晚，机器学习协作平台 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技术细节。

这次 DeepSeek 团队发布了两个版本的 DeepSeek-Prover-V2 模型，参数规模分别为 7B 和 671B。

其中，DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基础上训练而成，而 DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建，并支持最长 32K tokens 的上下文长度扩展。

DeepSeek-Prover-V2-671B 最大可处理 163,840 tokens 的上下文，比 DeepSeek-V3 的 128k 有约 28% 的提升。

该模型基础架构为 Deepseek-V3，拥有 2048 个 MoE 中间层、且每层都是 MoE 层，每个 MoE 层包含 1 个共享专家和 256 个路由专家，每个 token 会激活 8 个专家。（@ 机器之心、@ 机器之心 SOTA 模型）

3、Suno v4.5 升级：多种音乐流派选择，8 分钟长音乐生成

新增功能：

扩展的流派和更智能的混搭：更多流派选择——中西部情绪摇滚 + 新灵魂乐或 EDM+ 民谣等风格无缝融合；
增强的音色：现在的人声更具冲击力——具有更强的深度、情感和范围。从私密的耳语到完全爆发的强力副歌，v4.5 都能充满感情地呈现；
更复杂、更富质感的声音：v4.5 能够捕捉到使您的音乐更加出色的微妙之处，包括层次分明的乐器、音调变化以及具有深度的声音细节。诸如「树叶纹理」或「旋律口哨声」之类的提示现在能够清晰且立体地呈现；
更好的提示遵循度：情绪、氛围、乐器和细节都能精确捕捉，因此想象的就是听到的；
提示增强助手：放入一些标签或粗略的想法，点击「增强」，即可获得丰富且完全成型的风格提示，您可以直接使用或进行混音；
升级的封面 + 角色：封面保留了更多旋律细节。流派切换感觉无缝衔接；
封面 + 角色可以结合使用：一次性混音声音、结构和风格；
扩展的歌曲长度：之前为 4 分钟，现在无需使用 Extend 即可创作长达 8 分钟的歌曲；
改进的音频：更饱满、更平衡的混音。(@Suno@X)

4、英伟达开源 Parakeet TDT 0.6B——Open ASR 排行榜上最好的语音识别模型

英伟达出了一个 ASR，叫 Parakeet TDT 0.6B V2，目前只支持英文，发布之后，直接冲到了 HF ASR Leaderboard 第一位。

亮点：

自动加标点与大小写；
精准的逐词时间戳；
支持最长 20 分钟音频转写；
强悍处理数字口播与歌词识别。

https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

(@ EC Elliot@X、@Vaibhav (VB) Srivastav@X)

5、阿里通义发布小尺寸多模态模型：显存大大减少，语音输出自然度与稳定性媲美 7B 版本

（来源：Qwen@X）

阿里通义千问发布了新的小尺寸多模态模型「Qwen2.5-Omni-3B」，具体来看：

Qwen2.5-Omni-3B 为响应开发者轻量级 GPU 适配需求的新模型；
与 Qwen2.5-Omni-7B 相比，3B 版本在长上下文序列处理（约 25k tokens）中显存消耗减少超 50%，并可在普通 24GB 的消费级 GPU 上支持长达 30 秒的音视频交互；
3B 版本模型保留 7B 模型 90% 以上的多模态理解能力，语音输出自然度与稳定性与 7B 版本性能一致。

目前，Qwen2.5-Omni-3B 已在魔搭社区和 HuggingFace 上开源。(@APPSO)