开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、通义开源发布「超写实 3D 数字人」大模型

4 月 7 日,通义大模型宣布,开源发布超写实 3D 数字人大模型(LAM),具体来看:

2、GitHub 官方开源 MCP 服务器,AI 无缝集成 GitHub API

GitHub 官方开源了与 GitHub API 无缝集成的 MCP 服务器 ,支持在 VS Code Agent ModeClaude Desktop 中或任何支持 MCP 服务器的环境中使用。

该服务器能够自动化 GitHub 工作流,并支持从 GitHub 仓库中提取问题和获取信息。(@ 三花 AI )

3、新 OuteTTS 模型已上线:Llama-OuteTTS-1.0-1B

https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B
Llama-OuteTTS-1.0-1B 实现了语音合成与声音克隆功能重大升级,现在处理更流畅,支持 20 种语言的本地多语言功能。(@OuteAI@X)

02.有亮点的产品

1、趣丸千音全球邀测,综合能力全面赶超国际先进水平

趣丸千音是全球领先的 AI 语音创作平台 ,旨在提供一站式智能语音解决方案。平台集成文本转语音、视频翻译、声音克隆、多语种多音色合成等能力,是 业界首个从模型到应用全面赶超国际先进水平的 AI 语音产品 ,适用于影视动漫、有声读物、新闻传媒、文旅导览等多个行业,全流程革新内容创作与国际传播,为用户带来前所未有的沉浸式体验。

趣丸千音坚持以用户需求驱动产品创新,致力于给企业和创作者带来更智能、更高效、更卓越的产品体验,首批面向大众开放的功能如下:

在 MaskGCT(Masked Generative Codec Transformer)模型能力支持下,趣丸千音在语音相似度、准确率、质量和稳定性上均领先于同类产品,同时支持支持中文、英语、日语、法语、德语、韩语等多语种生成,能够提供全球化的语音输出。(@ 趣丸科技)

2、ElevenLabs 推出官方 MCP 服务器

ElevenLabs 推出了官方 MCP 服务器,用户能够通过简单的文本提示,让 Claude 和 Cursor 访问整个 ElevenLabs AI 音频平台,甚至可以启动语音代理执行外拨电话,例如订购披萨。

以下是一些示例:

使用场景

3、Supercut :一款快速、简单且专业的屏幕录制工具

(图片来源:Product Hunt)

https://supercut.video/

Supercut 通过提供快速、简单且专业的屏幕录制解决方案,解决了用户在视频创建和分享过程中的效率和质量问题。其核心价值主张在于让用户能够快速录制屏幕,并利用 AI 功能自动添加章节、清理音频、移除背景等,创建出高质量、可定制的视频。目标用户主要是需要频繁进行屏幕录制的个人和团队,例如销售、客户支持和内部沟通团队。

Supercut 解决了传统录制工具中视频编辑复杂、分享不便的问题,提供了快速录制、AI 编辑和实时分享等核心功能亮点。在用户体验方面,Supercut 提供了直观的界面和灵活的布局调整功能,确保用户可以轻松定制视频样式。其产品差异化优势在于能够在不影响视频质量的情况下快速编辑和分享视频,并且支持实时分析和跟踪视频表现。(@Z Potentials)

03.有态度的观点

1、OpenAI CEO:一年内程序员生产力将提升 10 倍

近期,OpenAI CEO Sam Altman 接受 Varun Mayya 的视频采访,而 Altman 在采访中分享了不少自己 AI 之路的历程。在「全自动化编程」和「让程序员生产力提升 10 倍」选择中,Altman 表示对后者更感兴趣,因为其认为今年或者明年便可实现。同时 Altman 也讨论了 AI 对编程的帮助。他认为,AI 是人类编程史上的一个重要工具,让程序员更有效编程,那么创造出的价值会更多。结合上述的内容,Altman 则认为「更多的软件被创造出来,代码的市场价格也会随之下降,同时需求也会增加。」在代码降价的背景下,Altman 也从而展开了对 AI Agent(智能体)的期待:在未来,用户只需告诉 Agent「我想要增加一个新功能」,过后 Agent 便会提示「已完成」。Altman 还在最后回应了「套壳」这一话题。Altman 回忆,在不少新职业或新初企出来时,有很多安于现状的人便会跳出来说「你这只是业余工作(套壳公司)」。但 Altman 认为这都是错的。他表示现在创业或者诞生一门新职业的门槛已经改变,而大家也需要对自己的信念有信心,或许不被理解的创新,最后能够改变世界。Altman 最后还说道:「如果我现在 20 岁,人们嘲笑我是 GPT 套壳,那我可能走在正确的方向上。」(@APPSO)

更多 Voice Agent 学习笔记:

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布


↙↙↙阅读原文可查看相关链接,并与作者交流