开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的观点」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01.有话题的技术

1、KeySync 开源高清口型同步方案,能够无缝处理面部遮挡问题

与现有方法不同,KeySync 能够生成与驱动音频高度对齐的高分辨率口型同步视频,同时最大限度地减少输入视频中的表情泄漏,并能够无缝处理面部遮挡问题。

KeySync 包含两个阶段,这两个阶段都通过潜变量扩散模型生成视频,条件输入为视频和音频,二者的区别在于参考帧的选择。在关键帧生成阶段,模型接收一个身份帧 ,该帧会被重复并与加入噪声的视频输入进行拼接。在插值阶段,模型则以两个连续的关键帧为条件,并引入可学习的中间嵌入向量 。两个阶段都融合了来自 HuBERT 的音频嵌入 。(@ 带你学 AI)

2、DeepSeek-Prover-V2 发布,专精于数学定理证明

在 4 月 30 日晚,机器学习协作平台 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技术细节。

这次 DeepSeek 团队发布了两个版本的 DeepSeek-Prover-V2 模型,参数规模分别为 7B 和 671B。

其中,DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基础上训练而成,而 DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并支持最长 32K tokens 的上下文长度扩展。

DeepSeek-Prover-V2-671B 最大可处理 163,840 tokens 的上下文,比 DeepSeek-V3 的 128k 有约 28% 的提升。

该模型基础架构为 Deepseek-V3,拥有 2048 个 MoE 中间层、且每层都是 MoE 层,每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个 token 会激活 8 个专家。(@ 机器之心、@ 机器之心 SOTA 模型)

3、Suno v4.5 升级:多种音乐流派选择,8 分钟长音乐生成

新增功能:

4、英伟达开源 Parakeet TDT 0.6B——Open ASR 排行榜上最好的语音识别模型

英伟达出了一个 ASR,叫 Parakeet TDT 0.6B V2,目前只支持英文,发布之后,直接冲到了 HF ASR Leaderboard 第一位。

亮点:

https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

(@ EC Elliot@X、@Vaibhav (VB) Srivastav@X)

5、阿里通义发布小尺寸多模态模型:显存大大减少,语音输出自然度与稳定性媲美 7B 版本

(来源:Qwen@X)

阿里通义千问发布了新的小尺寸多模态模型「Qwen2.5-Omni-3B」,具体来看:

目前,Qwen2.5-Omni-3B 已在魔搭社区和 HuggingFace 上开源。(@APPSO)

02.有亮点的产品

1、AI Interviewer by Hyring:多语种 AI 面试产品

可以根据面试需要自行选择单向面试或双向互动面试。

支持多语种互动,目前包括英语、西班牙语、德语、俄罗斯语、韩语、法语等。

可以对面试者评分,包括技术评分、沟通评分、技能评级以及拟合分数,并出具面试者成绩单和面试情报。(@ProductHunt)

2、Lingloop:分析日常在线通话,评估英语水平并提供有针对性的反馈

Lingloop 会日常分析用户的会议、通话或练习,并提供个性化的反馈,帮助用户每天更自然地说英语 。

03.有态度的观点

1、微软 AI CEO:AI 的个性与情商,与智商同等重要

日前,微软 AI CEO Mustafa Suleyman 接受了 AI Applied 的采访,前者在采访中畅谈了自己对 AI 未来发展的动向预测。

访谈一开始就谈及了 AI 未来发展的方向。Mustafa Suleyman 认为,AI 的发展过程中,个性、情商、语气等与智商同样重要。他强调,AI 不仅仅是工具,它们可以展现品牌的独特性,给用户带来更有情感共鸣的互动体验。

当前 AI 正在逐步融入情商特质,但仍需平衡情感和其他功能。同时,AI 也要跟人类现实生活一样,区分工作场景和个人生活两个不同领域的身份。Mustafa Suleyman 表示工作中使用的 AI 与家庭生活中的 AI 应该有所区别:

另外,Mustafa Suleyman 还在访谈中指出了 AI 在沉浸、自然的发展中,应该拥有哪些细节。

他提到,语音交互是 AI 发展的关键,它不再只是一个工具,而是成为一种「数字物种」。AI 通过语音调整语调、语速等,能够展现其个性并与用户建立更深的联系。另外,AI 在语音交互中的微小细节(如停顿、语气)也是构建自然、沉浸的用户体验的必需要素。(@APPSO)

更多 Voice Agent 学习笔记:

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流