开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、谷歌 DeepMind 推出世界模型 Genie 3 ,通过文本提示可以改变生成的世界

谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性。

Genie 3 是第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升。

相关链接:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/(@AI 寒武纪)

2、Krisp 推出音频轮次检测模型,助力 AI 智能体实现更自然对话

核心简介: Krisp 近日推出一款轻量级、低延迟的音频轮次转换模型,旨在显著提升语音 AI 智能体(Voice AI Agents)与用户交互的自然流畅度。该模型专注于预测当前说话者何时结束发言,现已免费集成到 Krisp 的 VIVA SDK 中。

核心技术亮点:

发布计划与未来展望: Krisp 表示,未来将持续升级轮次检测模型能力,计划包括:

相关链接:https://krisp.ai/blog/turn-taking-for-voice-ai/(@Krisp Engineering Team Blog)

3、Anthropic 发布 Claude Opus 4.1

Anthropic 重磅更新——Claude Opus 4.1。Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了 74.5% 的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了 Opus 4,其中多文件代码重构能力的提升尤为显著。 目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在 Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元;写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元。(@APPSO)

4、开源轻量级 TTS 模型 Kitten TTS,支持端侧运行

Kitten TTS 是一个开源的文本转语音模型,专注于提供轻量级部署和高质量的语音合成服务。

功能亮点:

GitHub:https://github.com/KittenML/KittenTTS

Huggingface:https://huggingface.co/KittenML/kitten-tts-nano-0.1(@divamgupta\@X)

5、OpenAI 发布 2 款开源模型

OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b 和 gpt-oss-20b。

据 OpenAI 官方介绍,gpt-oss-120b 需 80 GB 内存,而 gpt-oss-20b 仅需 16GB 内存就能运行。

亮点方面:

相关链接:https://openai.com/index/introducing-gpt-oss/

GitHub: https://github.com/openai/harmony(@APPSO)

02 有亮点的产品

1、极简主义的自由写作应用 Spill:支持 AI 语音反思功能

Spill 是一款极简主义的自由写作应用,作为 Freewriting 应用的扩展版本。该产品支持让用户在无干扰的空间中倾诉想法。在写作完成后,用户可以通过应用内置的语音模式深入分析整理用户的想法。

该产品将用户所有的隐私数据保存在本地,且不强制登陆和不收集任何用户的个人身份信息。只有用户与语音智能体的对话信息会通过网络传输。

相关链接:https://tryspill.com(@ProductHunt

2、原阿里通义千问语音团队负责人被曝转投京东

援引知情人士消息,原阿里通义千问语音团队负责人,原腾讯 AI Lab 副主任鄢志杰已经加入京东探索研究院,担任语音实验室负责人,向京东集团副总裁、探索研究院院长何晓冬汇报。

报道称,今年 2 月,鄢志杰以阿里通义团队语音算法负责人(P10 职级)的身份离职,当时的报道并未透露他的去向,后经多方确认,确定他加入腾讯 AI Lab,担任副主任。但在工作约三个月后,鄢志杰离职。

据公开资料显示,鄢志杰于 2003 年升入中科大语音实验室,攻读博士学位,师从语音领域专家王仁华教授(科大讯飞创始人之一)。2008 年在中国科学技术大学语音实验室获博士学位之后,至 2015 年在微软亚洲研究院语音组任主管研究员。研究领域主要包括语音识别、语音合成、声纹、语音交互、手写及光学字符识别等。

值得一提的是,鄢志杰于 2015 年加入阿里巴巴后,曾担任阿里 IDST(报道称其为达摩院前身)智能语音交互团队总监。后在 2017 年 10 月,达摩院成立后,鄢志杰担任达摩院机器智能语音实验室负责人,成为十三位「扫地僧」之一(最初的核心成员)。(@APPSO)

3、谷歌 Gemini 推出 Storybook 功能:一键生成定制有声绘本

Google 在 Gemini 应用中推出了一项名为 Storybook 的新功能,用户只需输入主题、目标读者年龄和期望的图画风格,就能为大人或小孩生成专属绘本。同时,这些绘本会配有定制艺术插图和专业朗读旁白。

Gemini Storybook 官方页面:https://gemini.google.com/gem/storybook(@ 三花 AI)

4、ElevenLabs 新推出音乐模型 Eleven Music

8 月 5 日,ElevenLabs 推出「Eleven Music」模型,旨在为用户提供通过自然语言提示创建高质量音乐的能力。

该模型是一款 AI 驱动的文本到音乐生成工具,它允许用户通过输入文本提示来创作原创音乐作品。用户可以指定音乐的风格、流派、情绪、乐器、歌曲结构,甚至可以包含多语言的歌词,从而在几分钟内生成一首完整的、带有或不带有歌词的歌曲。此外,Eleven Music 还提供了一系列编辑功能,用户可以对生成的音乐细致的调整,包括添加、删除或修改特定段落、编辑歌词和乐器提示,以及控制音乐的风格,以实现更精确的创作。

功能亮点

ElevenLabs 未来计划推出一个名为「Eleven Music Pro」的后续模型。

相关链接:https://elevenlabs.io/music

ElevenLabs 官网:https://elevenlabs.io/blog/eleven-music-is-here(@elevenlabsio\@X

03 有态度的观点

1、腾讯研究院:人形机器人的进化之路

日前,腾讯研究院发布《仲夏六日谈》最新一期,邀请到了多位 AI 届学者进行探讨,「具身智能发展到哪」「具身智能的未来如何」等问题。

复旦大学计算机科学技术学院教授肖仰华在节目中表示,如今整个具身智能领域,从技术到产业,仍然是「Demo」很酷炫,实际还在落地应用「最后一公里」的泥潭中挣扎。

其指出,在成本、供电、精细度操作等方面,目前的技术仍然还做不到走入「千家万户」。所以肖仰华认为,整个具身智能产业,虽然有不少激动人心的突破和进展,但是「最后一公里」如何走完,是当下可能要去迫切思考的问题。

而上海交通大学人工智能研究院助理教授穆尧则提到,现阶段仿真技术的提升发展迅猛。其表示,这不仅是具身智能领域的突破,也是整个 AI 行业的进步。

穆尧认为,随着生成式模型的发展,在 AI 赋能下,机器人的仿真效果从「非常假」至少提升到「视觉上逼真」的水平。但他也强调,虽然近几年视觉上愈发逼真,但物理交互层面的仿真仍需加强,这也是未来重要的研究方向。

另外,帕西尼感知科技 CTO 张恒第在节目中透露,在硬件上,其团队有了很多的进步:数据采集频率和精度提升,触觉能感知温度、能精确判断物体是否滑落等。

对此,他表示,这些所有的信息都会帮助自身的模型更好地在新环境中做泛化。所以从这个角度来看,他认为今年是「继续磨刀」的一年,但离真正「砍柴」已经不远了。(@APPSO)

阅读更多 Voice Agent 学习笔记:

了解最懂 AI 语音的头脑都在思考什么 https://www.rtecommunity.dev/

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流