AI测试 米哈游蔡浩宇新游戏:角色语音、情绪、动作实时生成;Argmax 端侧说话人分离框架:10M 大小 1 秒识别 4 分钟音频丨日报

RTE开发者社区 · 2025年03月17日 · 45 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@ 鲍勃

01 有话题的技术

1、腾讯官宣本周开启「混元 3D 开源日」

近日,腾讯混元宣布,分别在 3 月 18 日和 3 月 19 日两天(都为上午 11 时)开启「混元 3D 开源日」。今年 1 月,腾讯混元宣布正式开源 3D 生成大模型 2.0 版本(Hunyuan3D-2.0),同时上线业界首个一站式 3D 内容 AI 创作引擎。据官方介绍,Hunyuan3D-2.0 相较于 1.0 版本,在 3D 模型生成效果上有显著提升,在几何结构上更加精细,纹理色彩更加丰富;根据 CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)和 CLIP-score 指标,Hunyuan3D-2.0 模型的整体表现,在业界处于领先梯队。

而一同上线的腾讯混元 3D AI 创作引擎,可通过提示词或图片,直接生成高质量 3D 模型,并且还有 3D 功能矩阵、3D 编辑、3D 生成工作流、创作素材库等多种功能;混元 3D AI 创作引擎还支持设计 3D 生成工作流,用户只需要输入提示词,或上传图片,调整节点生成参数,即可一键生成具有特定风格和特征的 3D 资产。(@APPSO)

2、百度发布首个原生多模态大模型文心大模型 4.5 和深度思考模型 X1

3 月 16 日,百度正式发布文心大模型 4.5 及文心大模型 X1。据介绍,文心大模型 4.5 是百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于 GPT4.5,API 调用价格仅为 GPT4.5 的 1%;文心大模型 X1 为深度思考模型,性能对标 DeepSeek-R1,并增加多模态、多工具调用能力,API 调用价格约为 R1 的一半。

此前,百度曾宣布文心一言将于 4 月 1 日免费,本次发布不仅带来两款全新大模型,且将免费时间提前,全面提升用户体验。

同时,文心大模型 4.5 已在百度智能云千帆大模型平台上线,输入价格低至 0.004 元 / 千 tokens;文心大模型 X1 价格仅为 DeepSeek R1 一半,输入价格 0.002 元 / 千 tokens。目前,在文心一言官网即可免费体验文心大模型 4.5 和文心大模型 X1。(@APPSO)

3、Argmax 推出端侧说话人分离推理框架,10M 大小 ,1 秒识别 4 分钟音频

https://www.argmaxinc.com/blog/speakerkit

为了响应开发者社区对设备端说话人分离功能的强烈需求,Argmax 公司推出了 SpeakerKit。SpeakerKit 是 Argmax SDK 系列设备推理框架的最新成员,旨在解决开发者在使用 WhisperKit 时最为迫切的功能需求:说话人分离,即识别「谁在何时说话」这一重要任务。

亮点

  • 速度: 在 iPhone 上,SpeakerKit 仅需约 1 秒即可识别 4 分钟音频中的说话人。经测试,该速度远超其他任何系统,无论是在服务器端还是设备端。

  • 质量: 尽管速度提高了一个数量级,SpeakerKit 在 13 个数据集上的错误率与 Pyannote 等最先进的系统相媲美。

  • 大小: SpeakerKit 总大小约为 10 兆,可以轻松地与应用程序捆绑或快速下载。

  • 广泛兼容性: 该框架支持所有运行 iOS 16 或 macOS 13 及更新版本的设备。Android 版本的支持也即将推出。

  • 模块化: SpeakerKit 可以与 WhisperKit 协同工作,生成带有说话人标注的转录文本(「谁在何时说了什么」)。此外,它还可以与其他任何转录引擎结合使用,提供了许多服务器端 API 所不具备的灵活性。(@argmaxinc blog)

02 有亮点的产品

1、蔡浩宇的新游戏,今天终于正式曝光了

近日,由米哈游创始人蔡浩宇创立的 AI 游戏公司「Anuttacon」,公布首个游戏项目《Whispers From The Star》。据介绍,《Whispers From The Star》主角是一个天体物理系女生 Stella,她意外坠落在了一个外星星球上,玩家是她唯一能联系的人,同时玩家的任务是帮助她生存下去,并离开 GAIA 星球。 该游戏最大亮点就是 Stella 的对话是 AI 实时生成,根据玩家输入的对话内容,Stella 会给出不固定的回答、情绪和动作。《Whispers From The Star》主打以 AI 驱动角色的实时对话,为玩家提供开放、个性化,并且身临其境的游玩体验。该游戏或为 Anuttacon 的实验产品,旨在验证多模态模型驱动下,实时交互的表现,因此《Whispers From The Star》的画面为 100% 实时演算。

值得关注的是,《Whispers From The Star》主要平台为手机,目前已向 iOS12 以上的 iPhone 开启内测。《Whispers From The Star》的开发公司 Anuttacon,是由米哈游创始人蔡浩宇宣布从公司卸任「退休」后所打造的首个 AI 创业项目,于去年 8 月被曝光。该公司致力于用 AI 为玩家创造前所未有的体验,突破互动娱乐的界限。团队创立之初已有不少业内大牛加入,其中包括微软图形学大佬童欣、前 B 站游戏和直播负责人王宇阳等。(@APPSO)

2、伴鱼 AI 私教破解个性化教育难题

在国家全面推进「人工智能 + 教育」的战略背景下,伴鱼智学正式发布「AI 私教大模型系统」,凭借「纳米级知识体系」「全场景督学服务」「探究式学习闭环」三大核心能力,重新定义智能教育新范式,打造极致的个性化教育,让每个孩子发出独特的光。该系统基于 3000 万节课程、7000 万用户学习数据训练,在 1 对 1 真人教学场景中多项指标超越 OpenAI GPT 等国际大模型,成为国内首个通过「新课标理解准确率 98.5%」认证的 AI 教育产品。

学、练、测、评、复一体实现全流程闭环

伴鱼构建了覆盖「课前 - 课中 - 课后」的完整学习生态,学习时 AI 私教 1 对 1 交互式答疑,支持语音、视频、圈选提问等多模态互动;练习基于错题基因库智能推送母题,实现「做一题顶十题」;复习采用艾宾浩斯记忆算法,个性化规划每日复习计划;督学方面独创「三师服务」(AI 私教 + 班主任 + 名师),实时同步学情至家长端,解决「辅导依赖家长」的痛点。学生家长反馈,使用伴鱼 AI 私教后,孩子作业完成效率提升 40%,主动提问频率增长 210%。(@ 实况网)

03 有态度的观点

1、GitHub CEO:真正的 AI Agent,还有很长的路要走

近日,GitHub CEO Thomas Dohmke 接受播客 No Priors 的采访,其中 Thomas 在谈话中深入讨论了 AI Agent 对程序员的影响、AI 对软件团队的影响有多大等内容。开篇,Thomas 便定下了 AI Agent 广泛采用的标准:对用户来说,可预测的、可操控的、可验证的和可容忍的。其解释道,AI Agent 真正的目的在于提高用户的效率,而不是浪费用户的宝贵时间,同时 AI Agent 也需要一个好的推理模型,并弄清楚什么是正确的开发流程。Thomas 也表示,目前人类离 AI Agent 真正足够好还有很长的路要走,主要问题在于 AI Agent 没办法向人类一样,将系统思维代入到实际的开发中去。Thomas 指出,人类在做事情的过程中不断提出、解决新的问题,而目前 AI Agent 还是只能将一件大事分成小块而进行逐一解决。与其他人一样,Thomas 也有自己对 AI Agent 的未来想象。他认为,未来的 AI Agent 将会更加个性化,能够跟随用户的思路去给出符合用户想法的解决方案,并让解决结果更像用户自己的风格,同时,AI 模型也将变得更加多元化、更多选择。(@APPSO)

04 社区项目推荐

1、Talk to Computer:让计算机听懂人话

来自 @ 张锑:因为惊叹于 LLM 对语言的理解能力,我想要借助它让计算机听懂人话。现在支持了语音输入,有一句话直达搜索/网页/Steam 游戏这些功能。当前支持功能还比较简单,欢迎讨论和提需求。

特性

  • 支持 Windows/Mac

  • 无需环境 直接下载 exe/dmg 使用

  • 算力使用云服务(硅基流动),对自己电脑性能无要求

https://github.com/zhangti112358/TalktoComputer

05 有看点的活动

1、官宣!【B4B 大数据商业应用挑战赛 2024-25】参赛者招募!


B4B 大数据商业应用挑战赛 2024-25 载誉归来!今年主题「碳科技于房地产 CarbonTech for Real Estate」和「从 AI 驱动的虚拟科技 Virtual Media Tech powered by AI」,我们期待通过这次命题,让科技在推动环境、社会和治理(ESG)倡议中的成为重要角色。参赛者将利用创新解决方案,探索技术如何应对气候变化和企业责任等全球性挑战。这一主题鼓励创造性思维和合作,激励团队开发不仅能推进商业目标,还能为社会和环境作出积极贡献的方案。

立即报名:
https://forms.office.com/r/yikgCvK3Rp

截止报名日期:
2025年3月17日

🎯我们不限范围和应用,只要您的解决方案能解决 ESG 问题,并符合公众对数据获取、存储、使用和分析的道德期望,我们都欢迎您的参与,参赛队伍可以免费参加香港会议展览中心国际创科展(InnoEX)!此外,入围的队伍亦有机会跟同行顶尖及有丰富经验的导师团队学习,并有机会到国内,与内地的团队及企业进行交流,这将是一个难得的学习和交流机会!

🏘️「碳科技于房地产 CarbonTech for Real Estate」:新建材、能源管理、设计与规划、建筑与拆除以及设施管理等方面,都需要大数据的帮助。房地产不仅仅是建筑和砖块,从工作场所到购物场所,交通运输站点,甚至是我们的住所,它与我们的生活息息相关。我们期望能够在大数据及物管科技的帮助下,进一步推动业界减少碳排放,为环保出一分力。

🌐和「从 AI 驱动的虚拟科技 Virtual Media Tech powered by AI」:虚拟技术将在转变传统实践中发挥关键作用,但硬件进步、价格可负担性和使用者舒适度等都是需要克服的障碍。我们期待您的创新解决方案,让虚拟技术更加普及、易用和更具有成本效益。

🔥现在就与身边的朋友前来挑战,展现您的大数据技术和创新思维,一起创造更加美好的未来!🔥(@B4B 大数据挑战赛)

更多 Voice Agent 学习笔记:

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册