开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、昆仑万维 Mureka TTS V1 更新,支持音色设计
7 月 23 日,昆仑万维正式发布了旗下音乐模型 Mureka V7,以及全新的音频模型 Mureka TTS V1。
官方介绍,Mureka V7 是一座 24 小时不打烊的「私人录音棚」:用户只需要敲下一个主题、几行歌词、想要的风格,两分钟后就能在电脑中听到一首完整且愿意立刻分享给好友的音乐作品。
据主观评价指标显示,Mureka V7 相较于 V6,良品率从 43.4% 提升到 57.7%,人声真实度和表达力提升 44%,整体音质提升近一倍。
据了解,Mureka V7 大幅优化了 MusiCoT(Analyzable Chain-of-Musical-Thought Prompting)技术,而该技术是专为音乐生成而设计的链式思维(CoT)提示方法。该方法显著提升了模型生成结果的整体性与发声表现。
另外,同步推出的 Mureka TTS V1 支持 Voice Design 能力,用户可以通过文本输入想要的语音特征获得对应的音色。同时,TTS V1 的 Voice Design 功能技术指标上也获得了提升:
语音质量达 4.6 分,超过 Elevenlabs(4.36);文字切分和段落准确性上达 4.64 分;整体听感上也有大幅提升。
目前,Mureka V7 已上架 Mureka 官网。
相关链接:https://www.mureka.cn/(@APPSO)
2、Seed 端到端同声传译大模型发布:准确率接近真人,3s 延迟,实时声音复刻
7 月 24 日,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0。
Seed LiveInterpret 2.0 是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低的语音延迟水平。
它基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟「边听边说」,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。
在测试中,可以观察到,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。
Seed LiveInterpret 2.0 还能快速学习音色,无论是西游记里的猪八戒,还是红楼梦中的林妹妹,即便此前未「听」过角色的声音,依然能通过实时交互进行现场演绎。
项目主页:https://seed.bytedance.com/seed_liveinterpret
体验链接:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI(@ 字节跳动 Seed)
3、百度商业自研的 AIGC 视频生成模型「蒸汽机」正式上线,支持多人对话有声视频生成
百度商业自研的 AIGC 视频生成模型「蒸汽机」正式上线手机网页版,用户可通过移动端一键生成电影级视频。该模型上线两周内注册用户量已突破 30 万,单小时任务提交量达 1.8 万次,累计生成内容超过 200 万条。目前其 Turbo 版本正限时免费公测,预计 8 月将推出 Lite/Pro 及全系列有声版本,首次实现行业支持单人人声与双人对话视频生成功能。
不仅能生成单人有声视频,蒸汽机还具备强大的多人对话有声视频生成能力。蒸汽机对人物的唇形、面部表情、动作等细节进行全局生成,一颦一笑、一嗔一怒都能展现。还能保障人物语言行为、语音节奏、画面动态随着环境音效变化,全面提升了视频的沉浸感与真实感。
模型基于海量中文语料深度训练,中文语音细节还原度超 98%。即使方言,也能精准拟合。
模型搭载 LMMP 技术(首创 Latent Multi Modal Planner),这项技术能让模型自主规划多角色身份、台词情感以及互动逻辑,保障更协调、更一致的画面生成。
同时,蒸汽机可以实现全流程一体化生成,告别后期配音。只需一张图 + 一句提示词,即可输出:高清画面、逼真环境音和自然人物语音。输出音画同步、情境完整的沉浸式内容。(@ 百度、@ 元母社)
4、李沐 B 站更新,用 Higgs Audio V2 教你手搓语音大模型
李沐老师终于带着他的手搓语音大模型教程回归了……
李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2 模型,不仅能处理文本,还能同时理解并生成语音。
除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。
整个过程堪称「大力出奇迹」,直接将 1000 万小时的语音数据整合到 LLM 的文本训练,让它能听也能说。
鬼畜视频?人力手搓已经 OUT 了,李沐老师直接用算力帮大伙搞定,效果 be like:
有感兴趣的小伙伴可以去李沐的 B 站查看完整视频。
视频链接:https://www.bilibili.com/video/BV1LGbozkEDY/(@ 量子位)
1、腾讯混元 ASR 大模型接入 ima
(图片来源:腾讯混元)
腾讯混元 ASR 语音识别大模型集成至 ima,支持语音输入,提升输入效率与复杂场景识别能力。
腾讯混元 ASR 大模型融合微信智聆实验室技术与 LLM 优势,在语音识别领域实现突破。它采用双编码器流式架构,语义理解能力远超传统 ASR,能过滤噪音并应对「中英文混杂」「方言对话」等复杂场景,比如在粤语与普通话交替交流中仍能精准识别。速度上,每分钟可识别 300 字,是手动输入的 4 倍,且延迟极低。
接入 ima 平台后,覆盖知识库问答(语音输入长问题)、笔记创作(语音实时记录并续写)等场景,iOS 用户还能通过桌面小组件快速唤醒。
该模型已在微信、王者荣耀等产品中落地,单日调用量超百亿次,未来将优化多语言识别,进一步拓展至录音质检、会议实时转写等行业场景,推动智能交互向「自然语音优先」演进。(@ 腾讯混元)
2、Hedra Live Avatars: 实时虚拟角色动作驱动模型
7 月 23 日,Hedra 平台推出了 Live Avatars 功能,为实时流媒体和互动应用带来了全新的虚拟数字人驱动方式。
Hedra Labs 正式推出 Hedra Live Avatars,号称是全球最先进的流媒体虚拟形象技术。它以超低成本(每分钟仅 0.05 美元,比现有方案便宜 15 倍)、超低延迟(响应时间低于 100 毫秒)和高灵活性(兼容 Gemini、OpenAI 等主流模型)为亮点,适用于内容创作、在线教育、客户服务、游戏等多个领域。
用户只需上传一张静态图片和文字或语音脚本,就能生成高质量的虚拟人物视频。Hedra 的 Character-3 模型在表情同步和全身动作生成方面表现突出,使数字角色更自然生动。目前支持多种风格,包括写实、动画和艺术化效果。
相关报道:https://www.aibase.com/news/19893
项目链接:https://www.hedra.com/app/avatar(@ 新智讯、@EverAI 酱)
1、Google 前 CEO:我们严重低估了 AI 的潜能
日前,Google 前 CEO Eric Schmidt 参加了 Peter Diamandis 的播客节目《Moonshots》,在交流中分享了自己对于 AI 未来的各种看法。
在交流中,Eric 强调了当前人类对 AI 潜能的严重低估。「我们正处在某种科技临界点,AI 并非简单的工具,而是可能在未来成为具有自主行为的系统,甚至具备某种形式的 ‘思考’ 能力。」
他指出,目前的模型虽远未达到 AGI,但进展的速度超出人们想象,尤其是在推理、自动化编程与知识生成方面,表现出的能力已足以对社会结构产生重大影响。
在谈及超级智能的发展路径时,Eric 认为人类可能无法控制这种「后人类智能体」,除非提前建立非常强大的技术与政治监管体系。他认为,真正的挑战不只是「AI 会不会造反」,而是它们的目标函数一旦与人类利益不一致,将可能带来系统性风险。
在社会层面,Eric 对 AI 对就业、教育和治理结构的冲击表示出深切关注。他认为,「AI 将迫使我们重写整个社会的契约」,包括如何重新定义工作、学习的价值,以及如何在一个智能体与人类共生的时代维持民主机制。
最后,Eric 呼吁各国应尽快设立能够理解技术细节的 AI 政策机构,并与私营部门建立更强的合作机制,以避免 AI 的发展失控。(@APPSO)
2、奥尔特曼:AI 浪潮下人工客服冲击影响最大,未来恐完全被替代
OpenAI 首席执行官山姆・奥尔特曼称,AI 浪潮下现有职业体系中或有整个职业类别消失, 客服支持行业受冲击最大,未来可能完全被 AI 替代。他还表示 AI 诊断能力已超人类医生,但人们仍倾向有人类医生参与医疗。(@ 雨询)
更多 Voice Agent 学习笔记:
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻