AI测试 Meta 拟收购语音 AI 初创 PlayAI;Qwen-TTS API 正式上线,支持京沪川方言丨日报

RTE开发者社区 · 2025年06月30日 · 541 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、快手 Kling AI 推出多模态视频生音效模型 Kling-Foley

快手旗下可灵 AI 宣布全系列视频模型上线「视频音效」功能,可在生成视频时同步生成「高质量立体声音效」。目前,该功能已向用户限时免费开放。

注意到,可灵 AI 平台原有的「音效生成」功能中也新增了「视频生音效」模块,支持用户上传视频或调用历史作品,支持一键匹配精准同步的音效。

上述技术基于可灵 AI 新推出的多模态视频生音效模型 Kling-Foley,该模型能够通过大模型自动生成与视频内容同步的高质量立体声音频。

Kling-Foley 支持基于视频内容与可选文本提示自动生成与视频画面语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容。它支持生成任意时长的音频内容,还具备立体声渲染的能力,支持空间定向的声源建模和渲染。

具体来说,Kling-Foley 是一个多模态控制的流匹配模型。在音频生成的流程中,文本、视频和时间提取的视频帧作为条件输入;随后这些多模态特征会通过多模态联合条件模块进行融合,并输入到 MMDit 模块进行处理;该模块预测 VAE 潜在特征,随后由预训练的梅尔解码器将其重建为单声道梅尔声谱图;然后,渲染为立体声梅尔声谱图;最后,通过声码器生成输出波形。

论文:

https://www.arxiv.org/pdf/2506.19774

项目主页:

https://klingfoley.github.io/Kling-Foley/

GitHub 链接:

https://github.com/klingfoley/Kling-Foley

Benchmark:

https://huggingface.co/datasets/klingfoley/Kling-Audio-Eval

Kling AI 官方推文:

https://x.com/Kling_ai/status/1938607911237751058

(@ 三花 AI、@ 机器之心、@ 极客果核)

2、MacWhisper 应用接入英伟达 Parakeet 模型:8 秒转录 30 分钟播客

macOS 应用 MacWhisper 更新后接入英伟达 Parakeet 模型,转录速度大幅提升,30 分钟播客可在 8 秒内完成转录,解决了原依赖 OpenAI Whisper 模型过时的问题。

  • 开发者 Jordi Bruin 的 MacWhisper 原基于 OpenAI 的 Whisper 模型本地转录音频,后因 Whisper 过时,接入英伟达上月发布的 Parakeet 模型;

  • Parakeet 模型在 A100 等 GPU 硬件上,1 秒可转录 60 分钟音频,MacWhisper 通过与 Argmax 团队协作,让用户无需掌握命令行即可使用该功能;

  • 实测显示,30 分钟播客用新版 MacWhisper 转录整理仅需不到 8 秒,3 小时播客转录耗时 1 分 22 秒。(@AI 洞察局)

3、腾讯开源音乐生成模型 SongGeneration

腾讯 AI Lab 推出并开源 SongGeneration 音乐生成大模型,专注解决音乐 AIGC 中音质、音乐性与生成速度这三大共性难题,基于 LLM-DiT 的融合架构,模型在保持生成速度的同时,显著提升了音质表现,生成歌曲的准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。

此外,SongGeneration 模型还支持文本控制、多轨合成与风格跟随等功能,既满足面向 C 端创作者的可玩性,又兼具 B 端的稳定性与拓展性,构建出面向未来的音乐 AI 生产力工具。

SongGeneration 预期目标分为技术与应用两个层面:在技术层面,致力于实现业内领先的音质表现、音乐性与生成速度,支持多语种歌词输入、一键式歌曲生成、风格迁移等任务,全面适配中英文流行、嘻哈、古风、电子等多样化曲风;在应用层面,推出面向开源社区的友好版本,广泛赋能内容创作平台、虚拟人项目、游戏厂商以及音乐人创作流程,构建开放、灵活、可持续的音乐 AI 生态系统。

相关链接:

https://huggingface.co/tencent/SongGeneration

相关链接:

https://huggingface.co/spaces/tencent/SongGeneration(@ 机器之心)

4、文心 4.5 系列开源 10 款模型

(图片来源:飞桨 PaddlePaddle)

6 月 30 日,百度正式开源文心大模型 4.5 系列模型,涵盖 47B、3B 激活参数的混合专家(MoE)模型,与 0.3B 参数的稠密型模型等 10 款模型,并实现预训练权重和推理代码的完全开源。目前,文心大模型 4.5 开源系列可在飞桨星河社区、HuggingFace 等平台下载部署使用,同时开源模型 API 服务也可在百度智能云千帆大模型平台使用。

相关链接:

https://yiyan.baidu.com

Hugging Face:

https://huggingface.co/baidu

GitHub:

https://github.com/PaddlePaddle/ERNIE

飞桨星河社区:

https://aistudio.baidu.com/overview

技术报告:

https://yiyan.baidu.com/blog/publication(@ 第一财经)

5、Qwen-TTS API 正式上线,支持方言,生成超高自然度、富有表现力的音频

Qwen-TTS 现已通过 Qwen API 上线,这是一款经过数百万小时语音训练的支持中英双语合成及多种中文方言的文本转语音模型,能够流式输出超自然、富有表现力的音频,同时具备韵律、节奏和情感。目前模型支持 3 种中文方言(北京、上海、四川)以及 7 种双语声音(Cherry、Ethan、Chelsie、Serena、Dylan、Jada、Sunny)。

模型亮点:

  • 自然 :音色真实自然,在停顿、语气、韵律等方面达到真人水准,并且可以自适应地根据输入文本调整说话语气;

  • 稳定 :提供稳定可靠的语音生成,包括中英文长难句;

  • 快速 :高速的语音生成,理论首包在 400ms 以内;

  • 流式 :支持音频的流式输出。

blog:

https://qwenlm.github.io/blog/qwen-tts/

百炼 API:

https://help.aliyun.com/zh/model-studio/qwen-tts(@Alibaba_Qwen\@X

02 有亮点的产品

1、Thunai:自学习大脑,持续更新知识库

(图片来源:thunai)

Thunai 定位为一款具备自学习能力的 Agentic AI 平台,面向企业用户,旨在将分散的组织知识转化为智能智能体,自动处理电话、聊天、邮件及任务,助力支持、销售和营销自动化。其核心价值在于通过持续学习组织内多格式数据(文档、视频、会议记录等),打造多模态、具备真实人类交互感的 AI 智能体,解决了传统自动化工具依赖静态脚本、难以持续进化的痛点,满足企业对智能、高效、可扩展自动化的需求。

核心功能亮点包括:

  • 自学习大脑,持续更新知识库;

  • 多智能体生态,支持 30+ 专业智能体插件,覆盖工单、内容生成、日程安排、潜在客户挖掘等多场景;

  • 原生执行动作能力,如自动预订会议、更新 CRM,无需外部自动化工具。

产品差异化优势体现在其多渠道(语音、聊天、邮件)无缝协作、99.9% 人类语音识别准确率及企业级安全合规(GDPR、SOC2、ISO27001)。用户体验强调快速部署、零代码操作及人性化交互,显著提升客服自动化率和销售响应速度。

网站链接:

https://www.thunai.ai/(@Z Potentials)

2、苹果多款智能穿戴新品曝光,AirPods 将支持「实时翻译」功能

据彭博社记者 Mark Gurman 消息,苹果目前正在研发多款智能穿戴新品,以应对公司旗下智能穿戴领域的市场表现下滑。

报道称,苹果目前正在开发新款 Apple Watch SE 和 Apple Watch Ultra 3,后者预计今年发布,并具备多项重大更新:其中包含不依赖 iPhone 的卫星连接功能。此外,AirPods 也将跟随 iOS 26 获得「实时翻译」功能。

除 Apple Watch 产品以外,Gurman 还分析称,苹果或会推出智能戒指产品与其它产品进行联动。Gurman 表示,目前三星、Ultrahuman 等智能穿戴厂商已推出旗下智能戒指产品,并押注该品类在健康领域的产品力。

不属于可穿戴部门,但同样是戴在头上的 Vision Pro 也有新爆料:苹果正在探索一个「有线版」的头显:更便宜,更轻,需要通过线缆连接 Mac 使用,以利用其强大性能。(@APPSO、@ 爱范儿)

3、Meta 据称正密洽 AI 语音黑马 PlayAI 抢人抢技术两手抓

知情人士透露,美国科技巨头 Meta Platforms 正在就收购 AI 语音初创公司 PlayAI 进入深入谈判。

知情人士表示,Meta 预计将收购 PlayAI 的技术资产,并吸纳部分的员工。他们还表示,交易尚未最终敲定,仍有可能发生变化,谈判中的财务细节尚不得而知。

据 PlayAI 官网博客介绍,公司专注于开发能让 AI「像人与人之间对话一样自然响应」的语音交互功能。2024 年末,PlayAI 曾完成一轮规模达 2100 万美元的融资。

媒体分析指出,与 PlayAI 的潜在交易,可能会为 Meta 的 AI 语音助手和免提操作设备(如智能眼镜)注入新的语音技术能力,这是扎克伯格当前重点押注的领域。(@ 财联社 AI daily)

4、Lovart.ai 上线双人播客生成功能,能够自动生成智能脚本和唇形同步

Lovart AI 推出了名为「TALKING」的工具,这是一种世界上第一个能够生成超长、稳定的双人对话 AI 视频的工具。它的特点包括:

  • 场景间视觉的一致性;

  • 自动生成智能脚本;

  • 精准的唇同步技术。

相关链接:

http://Lovart.ai(@lovart_ai\@X

03 有态度的观点

1、Neuralink:2025 年底在言语皮层植入设备,实现大脑信号到语音的解码

6 月 28 日,马斯克带领 Neuralink 团队举行了一场持续 1 小时的发布会,公布了最新进展与未来计划。

目前,Neuralink 已有七名志愿者完成脑机接口植入,他们能够通过脑信号控制玩马里奥赛车、使命召唤等游戏,甚至用意念操控机械臂写字,与外界重新建立交互。

Neuralink 同时公布了打造「全脑接口」的长远愿景。所谓全脑接口,是指在大脑任意区域实现神经元监听与写入,通过无线高速传输实现生物大脑与机器的深度连接。

这一通用输入/输出平台目前包括三个产品:帮助运动障碍患者恢复独立的 Telepathy、为失明人士提供视觉恢复的 Blindsight,以及面向神经疾病治疗的 Deep。

此外,Neuralink 公布了未来三年路线图:

  • 2025 年底在言语皮层植入设备,实现大脑信号到语音的解码;

  • 2026 年将电极通道增至 3000 个,实现低分辨率视觉恢复;

  • 2027 年通道增至 10000 个,首次完成多设备植入;

  • 2028 年每个植入物突破 25000 个通道,全面接入大脑任意区域,助力精神疾病、疼痛等多类疾病治疗,并实现与 AI 集成。(@APPSO)

2、微软 CEO:AI 应该真正改变每个人的生活

日前,微软 CEO Satya Nadella 接受了 YC 总裁陈嘉兴的采访,前者在采访时介绍了自己对 AI 的各种看法。

采访中,陈嘉兴提到「AI 哪些被低估」,Satya 则回应称,AI 帮助基层人民的力量被严重低估了。Satya 进一步表示,自己在 GPT-3/3.5 时代,见到一位印度农民通过 AI 获得农业补助,因此他认为,AI 在扩散速度、实际应用这些方面,应该得到大规模的推广,让更多人用上。

同时,Satya 也指出,现在被过度炒作的是模型能力,导致 AI 改变每个人的生活没办法很好「讲故事」。

因此陈嘉兴也引出了微软的 AI 代码助手 GitHub Copilot,称 GitHub Copilot 能够帮助到更多人接触到技术。

对此,Satya 也十分认同。另外,Satya 也指出,AI 会迎来「新浏览器时刻」——届时,视觉、语音、Copilot 等工具都会整合,能够在现有的设备形态上,出现新的计算机使用方式,从而再去获得新的硬件形态。

未来,AI Agent 将会成为个人电脑,并且为用户提供任务管理和操作。

采访:

https://youtu.be/AUUZuzVHKdo?feature=shared(@APPSO

更多 Voice Agent 学习笔记:

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册