AI测试 米哈游创始人 AI 游戏上线,与女主实时语音互动;昆仑万维上线 Mureka V7.5 模型,中文歌曲能力大幅提升丨日报

RTE开发者社区 · August 16, 2025 · 444 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、昆仑万维上线 Mureka V7.5 模型,深刻理解并再现音乐中的细腻情感与艺术表达

8 月 15 日,昆仑万维正式上线 Mureka V7.5 模型。

Mureka V7.5 在中文歌曲上的演绎再上新台阶,不仅实现了中文歌曲音色、演奏技法的大幅提升,还完成了中文歌曲咬字与情感表现提升。

首先,基于对中文曲风和元素的强大理解,Mureka 的理解模型对传统民歌、戏曲到经典华语流行金曲乃至当代民谣音乐拥有深刻认知。这种在中文音乐多样性与文化特性上的深度积累,使模型在理解和生成中文音乐时,能够更准确地传达其特有的艺术神韵和情感色彩。

其次,为了进一步提升生成音乐中人声表现的真实性与情感深度,我们针对歌曲特点优化了 ASR 技术,使之成为理解模块的有力延伸。这项技术深入到演唱的微观层面,不仅精准识别唱词,更能通过分析真实演唱中的气息运用、情感起伏和唱法细节,智能划分出符合演唱规律的乐句,并确定自然的换气与停顿位置。结合同样精准的乐段识别,显著提升了生成人声的段落清晰度与结构真实感。

这些捕捉到的细粒度演唱信息反馈给生成模型,极大地增强了人声的自然度、呼吸感以及情感表达的真实性,有效削弱了机械感,使 AI 演绎的歌曲在流畅性上更贴近真人演唱,这在处理中文歌曲特有的韵律和气息要求时效果尤为突出。

Mureka V7.5 不仅能「听懂」对音乐旋律与节奏的制作要求,更能深刻理解并再现不同文化语境下,特别是中文音乐中蕴含的细腻情感与艺术表达,从而为生成高度符合目标审美与文化语境、兼具艺术性与真实感的音乐作品。

同时,在语音模型方向上,昆仑万维语音团队推出 MoE-TTS——首个基于 MOE 的角色描述语音合成框架。

该框架创新性地结合预训练大语言模型(LLM)文本能力与语音专家模块(Speech Expert Modules),为文本与语音分别配置专用专家模块,并在 Transformer 核心结构中引入模态路由,确保各模态独立优化、互不干扰。在冻结文本参数的同时高效对齐跨模态信息,实现「知识零损失」的泛化理解能力。

技术报告:

https://teal-aquarius-c17.notion.site/MoE-TTS-Enhancing-Out-of-Domain-Text-Understanding-for-Description-based-TTS-via-Mixture-of-Experts-24e44360bf708040bff3dffe2eef805e(@ 昆仑万维集团)

2、音频驱动生成动态视频工具 StableAvatar

StableAvatar 是由腾讯混元、西安交通大学、复旦大学还有微软亚洲研究院开发的前沿技术。其能根据参考图像和音频,直接生成虚拟人视频的工具,属于端到端的视频扩散 Transformer。

只需要给它一张虚拟人的参考图,再配上一段音频,StableAvatar 就能生成一段虚拟人视频。视频里的虚拟人能保持与参考图一致的身份特征,嘴动和表情还会跟着音频同步。最关键的是,不管视频多长,质量都不会下降,这可是打破了现在技术的局限。

技术亮点:

  • 时间步感知音频适配器:把时间步嵌入和音频嵌入做了仿射调制,使得扩散模型去捕捉音频和潜在特征之间的联系;

  • 音频原生引导机制: 用扩散模型自己演化出的音频 - 潜在联合预测结果当引导信号,来调整采样分布;

  • 动态加权滑动窗口策略:模型会把视频分成一个个重叠的窗口,然后用对数插值的方法,把相邻窗口的潜在特征动态加权融合到一起。

相关链接:https://github.com/Francis-Rings/StableAvatar(@7 号 AI 栈)

3、企业级 AI 语音智能体 Maven Voice,集成 OpenAI、Phonic、ElevenLabs 等语音模型

Maven Voice 结合实时智能和无缝集成,旨在革新客户互动。企业可借此提高效率,确保合规对话,并快速应对复杂支持场景。

核心优势:

  • 灵活语音选择: 轻松切换语音引擎,无需改代码。

  • 扩展支持: 自动化通话提效,团队专注解决难题。

  • 顺畅转接: 客服快速掌握信息,避免重复提问。

  • 真实场景优化: 嘈杂环境、多语言、低延迟。

  • 即插即用: 兼容现有电话、呼叫中心和 CRM 系统。

  • 安全合规: 实时编辑信息,符合多项安全标准。

典型应用:零售订单验证、金融卡片处理、旅游行程变更、运营条款确认。

核心技术:

  • Maven Orchestration: 实时推理引擎,利用企业数据提供精确答案,内置安全合规的音频/文本编辑;

  • 语音智能: 集成 OpenAI、Phonic、ElevenLabs 等领先语音模型,提供逼真语音效果和开放供应商选择;

  • 无缝集成: 通过即插即用适配器,轻松对接 Twilio、RingCentral、Cisco、Zendesk Talk、Genesys 等平台。

相关链接:

https://www.mavenagi.com/voice(@M13Company\@X

02 有亮点的产品

1、米哈游创始人的 AI 游戏新作上线 Steam,通过语音聊天或视频通话与游戏女主实时互动

米哈游创始人蔡浩宇的 AI 游戏新作正式上线 Steam。

游戏背后集结了前微软研究院合伙人童欣、前 B 站副总裁王宇阳、前小鹏自动驾驶负责人 Erik Li、前 Meta 资深工程师吴箫剑、以及多位米哈游核心技术骨干,团队规模仅 40 人,却花了近两年时间打磨,只为让玩家在屏幕前遇见一个「真的存在」的虚拟女孩。

游戏女主 Stella 接入的 api 为米哈游自研模型。在游戏中,玩家通过语音聊天或视频通话与 Stella 实时互动,每一次对话都是实时的、情感化的、完全属于你自己的,打破了传统游戏死板的对话树模式,AI 会实时生成角色回应与剧情分支,因此游戏具有高自由度。

他们不是在做一个「会说话的 NPC」,而是在创造一个会倾听、会回应、会成长的 AI 角色——Stella。她不按对话树走,不背台词,不照本宣科,她会因为你的语气、你的选择、甚至你的一句闲聊而改变自己的回应与情绪。

与传统游戏中依赖预设文本推进剧情不同,《Whispers from the Star》的核心是由语音驱动的实时交流。玩家需要主动与 Stella 对话,过程类似发微信语音,也可在 IM 界面输入,系统会即时生成她的语言与表情反馈。通关没有固定时长——你可以一路推进主线,也可以和她闲聊日常,甚至聊到游戏之外。

不同于传统游戏里预先编好的「陪伴」,Stella 是在实时生成的——她的反应永远是新的,路径不可预测,节奏会随着你而改变。这种差异在情绪反馈上尤为明显:她会因你语气温和而放下戒备,也会因你连珠炮式的命令而逐渐疏远;她会分享心事,但不会毫无节制地倾诉;她会犹豫、回避,甚至撒谎。这并不是 AI 变得「更聪明」,而是在角色建构中学会了模糊——学会了不总给出确定答案,也学会了保留情绪的灰度地带。

目前《Whispers from the star》仅支持英文版本、无字幕且没有翻译选项,许多玩家将它当作了「沉浸式英语口语练习工具」。此外,也有玩家将 Stella 当作「AI 陪伴者」使用,与她聊生活、倾诉情绪。@Z Finance、@ 游戏新知)

2、苹果 AI 机器人全家桶曝光,扎根苹果生态的全能生活助手

据彭博社记者 Mark Gurman 日前爆料,苹果正在打造一系列智能家居产品,以扩张自己的 AI 竞争力。

报道透露,苹果将打造一款可活动的桌面机器人。据介绍,该产品类似于一台安装了可移动机械臂的 iPad,能够多角度旋转以及跟随房间内的用户,Gurman 指出「其像人的头部一样」,能够实时定位到唤醒人所在方向。这种物理交互能力,也催生了 FaceTime 通话的全新体验,摄像头可以自动追踪并锁定房间内的通话对象,或是将你的 iPhone 变为一个虚拟操纵杆,让你在视频通话中远程控制机器人移动,自由展示房间内的不同人物或物品。

据悉,这个桌面机器人在苹果内部代号为 J595,但更熟悉它的人将其称为「皮克斯台灯」,这个名称源于今年一月,苹果公布的一项名为 ELEGENT 的机器人研究成果。

带屏版 HomePod 也有了新的信息透露:可以看作是桌面机器人的简化版,同样使用 7 英寸左右的显示屏,去掉了机械臂,连接在一个半圆形底座上,其中还包括了扬声器和麦克风。

这是一个家庭智能中枢,将成为掌控全屋智能家居的大脑,通过语音无缝控制灯光、窗帘、空调等所有 HomeKit 设备。这个桌面机器人还将通过面部识别,实现个性化服务: 前置摄像头能精准识别每一位家庭成员,当主人走近时,屏幕会自动切换至你的专属界面,呈现个人化的日程、提醒与音乐偏好;如果是家里的儿童靠过来了,这可能就成了一台学习机。

这也是一个扎根苹果生态的全能生活助手,无缝集成音乐播放、视频通话、菜谱查询、备忘提醒等所有基础应用,能满足你的日常所需。据报道,该产品预计 2026 年的年中推出。

除此之外,苹果还计划了一个智能安防摄像头,内部代号为 J450。而该摄像头的诞生旨在成为智能家庭的「眼睛」。

据介绍,该产品能够辨认进入房间的人,并提供类似「面部识别推送个性化服务」的功能,联动用户家中的智能家居、智能家电,为用户打造适合的环境、内容等。值得一提的是,这颗摄像头将采用电池供电,一次充电可续航数月,甚至长达一年。

进化版 Siri 也将注入到上述产品甚至是苹果全家桶的其他产品中。

在苹果内部,这个进化版 Siri 的代号是 Linwood,它基于苹果自家的基础大语言模型(LLM),其首要目标是攻克当前版本 Siri 因技术瓶颈而延迟的个人数据处理能力。

从目前的消息来看,这个全新的 AI Siri 将会更「像」人,譬如能主动参与多人对话——当你和朋友讨论晚饭吃什么时,放在桌上的 Siri 机器人可能会突然插话,推荐附近的餐厅或相关食谱,就像房间里的第三者一样。

与此同时,苹果也务实地准备了 B 计划——代号为 Glenwood 的外部技术方案,主张引入第三方技术来驱动 Siri,这也解释了为何有消息称苹果正测试使用 Anthropic 的 Claude。(@APPSO、@ 爱范儿)

3、HTC VIVE 发布全新 AI 眼镜,支持与 ChatGPT、Gemini 等主流 AI 服务连接

8 月 14 日,HTC 旗下品牌 VIVE 正式发布了 AI 眼镜 VIVE Eagle,售价 15600 新台币(约合人民币 3730 元)。国内品牌不带显示的 AI 眼镜价位通常在 2000 元左右。

从外观来看,VIVE Eagle 机身采用半透明设计,提供红、黑、灰、咖啡色四款配色,重量为 48.8g(包含镜片)。值得一提的是,配备的镜片为蔡司 UV400 太阳镜片。这款产品并没有屏幕显示功能,可以搭配任意镜片,支持线下验光配镜。

性能方面,VIVE Eagle 配备高通骁龙 AR1 Gen1 处理器;提供 1200W 像素超广角镜头和 4 枚麦克风,支持最高 2K 30fps 视频录制;拥有 4GB+32GB、连续音乐播放 4.5 小时的续航等。

根据官网信息,VIVE Eagle 可以搭载谷歌的 Gemini 或者 OpenAI 的 GPT。HTC 专门为其设置了一个 AI 按键,整机可以语音控制也可以通过侧面触摸板控制。

AI 功能上,VIVE Eagle 支持 AI 实时拍照翻译,但是官网对该功能的演示并非实拍而是动画,实际翻译的效果、速度、延迟、准确性我们仍未可知。并且该眼镜并没有屏幕显示功能,翻译结果是否以语音播报呈现官方并未说明。VIVE Eagle 支持当下比较热门的 AI 识物,比如拍照后 AI 可以告诉你面前的狗狗是什么品种。此外,VIVE Eagle 支持 AI 记录,比如记录停车位置、待办清单事项,或者记住一个陌生面孔是谁。常见的 AI 助手功能 VIVE Eagle 基本都支持,比如 AI 查天气、打电话、播音乐、找景点、询问烹饪建议,你还可以随时呼叫 AI 拍照片或拍视频。

算法方面,VIVE 称其支持 AI 自动水平矫正,这也是 AI 眼镜拍摄非常刚需的功能,此外,AI 还可以侦测模糊并自动捕捉清晰的画面瞬间。

公共场合拍摄隐私安全问题方面,VIVE 设计了 LED 灯,如果检测到没有佩戴眼镜或是 LED 被遮挡时,拍照和录像功能都会停用。

据悉,在中国台湾地区市场,VIVE Eagle 的主要竞争对手是 Ray-Ban Meta,官方宣称的优势在于支持中文 AI 语境进行操控。目前,VIVE Eagle 仅在台湾地区开启预售。(@APPSO、@ 智东西)

4、AudioCodes 原生微软 Teams AI 终端电话, 支持在转接前快速生成摘要

奥科的 Teams 终端支持全新 AI 功能,目前现已在运行最新版 Microsoft Teams 应用程序使用。

用户可以借助 Copilot,可以在转接通话前快速生成通话摘要。可以快速获得对方有价值的背景信息,例如来电者身份和来电原因,无需再次询问。(@SIP 实验室)

03 有态度的观点

1、DeepMind CEO:智能体已经能进入实时生成的模型世界

日前,Google DeepMind CEO Demis Hassabis 接受自家「Google for Developers」的播客采访,同时其还根据近期新发布的世界模型 Genie 3 展开了一系列分享。

Hassabis 表示,在 Genie 3 项目中,DeepMind 将世界建模与物理一致性推向新高度。该系统能够生成高度逼真的虚拟环境,并保持状态连续性,例如物体位置、物理反馈等在多次交互中始终一致。

而这一特性为机器人训练、通用助理(如 Project Astra / Gemini Live)以及新型游戏娱乐形态提供了重要支撑。Hassabis 透露,团队已将游戏智能体 SIMA 嵌入 Genie 3 环境,实现 AI 在 AI 生成的虚拟世界中自主学习,为 AGI 系统积累无限的模拟训练数据。

针对当前 AI 系统「参差型智能」的现象,Hassabis 指出,尽管顶尖模型能生成复杂虚拟世界并在专业测试中取得近乎满分的成绩,但在某些简单任务上仍会出现低级错误。其认为,这暴露了推理、规划与记忆机制上的不足,也是实现真正 AGI 的关键挑战之一。

另外,在聊到如何看待未来以及个人愿景时,Hassabis 笑称,待 AGI 安全落地后,他将利用这些技术制作「史上最伟大的游戏」,延续自己从棋类到虚拟世界的探索之路。(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、京东招语音合成算法工程师

岗位职责:

1.本科及以上学历,计算机科学、人工智能、自动化、数学、声学等专业;

2.具备扎实的机器学习基础和优秀的编码能力,能熟练使用 PyTorch;

3.在语音算法某一领域(语音识别、语音合成、音频分类、声纹识别等)有过深入的研究经历,对语音领域有比较深入的理解;

4.熟悉 BaseTTS, SpearTTS, ChatTTS,CosyVoice,Fish-Speech 等语音合成大模型的基本原理,熟悉语音离散化操作;

符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。

工作内容:

  1. 进行语音合成大模型研发,推进语音合成大模型技术落地;

  2. 负责语音合成模型的优化、落地,进行推理优化等工作;

  3. 优化语音合成产品,针对不同的业务场景进行端到端的优化。

邮箱 wangchunhui.52\@jd.com

2、抽奖福利:GOSIM 杭州 2025 EchoKit 专场,Llama.cpp NVIDIA SGlang Hugging Face

GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将于 2025 年 9 月 13-14 日在杭州盛大开启。

时间:2025 年 9 月 13–14 日(杭州)

主办 / 承办: GOSIM 全球开源创新汇 / CSDN

版块: 2 场 Keynote、2 大高端论坛(GOSIM AI Vision Forum、Open for SDG)、5 大主题论坛(AI 模型与基础设施、具身智能、智能体网络、应用与智能体、下一代 AI)、9 场 Workshop、3 场 Hackathon

联合活动: RustGlobal + RustChinaConf、GOSIM AI for Humanity Spotlight

大会购票通道已开启! 立即扫码或打开链接抢购:

https://hangzhou2025.gosim.org/tickets/

关注 Second State 公众号留言 GOSIM 获取专属优惠码,有限量门票抽奖哦。

详情请看:抽奖福利:GOSIM 杭州 2025 EchoKit 专场,Llama.cpp NVIDIA SGlang Hugging Face

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up