开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
1、通义开源发布「超写实 3D 数字人」大模型
4 月 7 日,通义大模型宣布,开源发布超写实 3D 数字人大模型(LAM),具体来看:
单图秒级生成超写实 3D 数字人:得益于通义设计的 2D 图像与 3D 高斯点交互 Transformer,可以在海量视频数据上训练,获得可泛化的 3D 高斯先验模型,从而做到单张图即可 Feedforward 秒级生成可驱动 3D 人头模型;
跨平台超实时驱动渲染:通义基于 WebGL 搭建了整个驱动和渲染框架,生成的 3D 人头模型可以基于 WebGL 在任意设备上超实时运行,在手机端都可以跑满 120FPS;
低延迟实时交互对话数字人 SDK:基于生成的 3D 数字人,我们搭建了完整的实时交互对话工程链路,包括 LLM、ASR、TTS 和数字人模块,即输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话,应用于客服、教育、陪伴等场景。(@APPSO)
2、GitHub 官方开源 MCP 服务器,AI 无缝集成 GitHub API
GitHub 官方开源了与 GitHub API 无缝集成的 MCP 服务器 ,支持在 VS Code Agent Mode 和 Claude Desktop 中或任何支持 MCP 服务器的环境中使用。
该服务器能够自动化 GitHub 工作流,并支持从 GitHub 仓库中提取问题和获取信息。(@ 三花 AI )
3、新 OuteTTS 模型已上线:Llama-OuteTTS-1.0-1B
https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B
Llama-OuteTTS-1.0-1B 实现了语音合成与声音克隆功能重大升级,现在处理更流畅,支持 20 种语言的本地多语言功能。(@OuteAI@X)
1、趣丸千音全球邀测,综合能力全面赶超国际先进水平
趣丸千音是全球领先的 AI 语音创作平台 ,旨在提供一站式智能语音解决方案。平台集成文本转语音、视频翻译、声音克隆、多语种多音色合成等能力,是 业界首个从模型到应用全面赶超国际先进水平的 AI 语音产品 ,适用于影视动漫、有声读物、新闻传媒、文旅导览等多个行业,全流程革新内容创作与国际传播,为用户带来前所未有的沉浸式体验。
趣丸千音坚持以用户需求驱动产品创新,致力于给企业和创作者带来更智能、更高效、更卓越的产品体验,首批面向大众开放的功能如下:
视频翻译: 一站式工作流,上传视频自动完成「字幕擦除 - 翻译 - 配音 - 后期 - 成片交付」。单次批量上传最大支持 40G,是 业界首个实现工业化量产水平的产品 ,颠覆全球化内容生产模式。
声音克隆: 秒级超逼真的克隆能力,1:1 还原音频样本的音色、语调、风格与情感。
文本转语音: 输入文本即配音,自动识别多种语言,可选择不同音色和调节语速,满足复杂场景的精细化需求。
有声书: 一站式工作流,上传长篇文本自动生成有声书或播客。支持多种文件格式、多角色分配和段落编辑,能够制作更具有情感表现力的有声读物,让每个故事和角色都栩栩如生。
在 MaskGCT(Masked Generative Codec Transformer)模型能力支持下,趣丸千音在语音相似度、准确率、质量和稳定性上均领先于同类产品,同时支持支持中文、英语、日语、法语、德语、韩语等多语种生成,能够提供全球化的语音输出。(@ 趣丸科技)
2、ElevenLabs 推出官方 MCP 服务器
ElevenLabs 推出了官方 MCP 服务器,用户能够通过简单的文本提示,让 Claude 和 Cursor 访问整个 ElevenLabs AI 音频平台,甚至可以启动语音代理执行外拨电话,例如订购披萨。
以下是一些示例:
文本转语音:朗读内容或创建有声书。
语音转文本:将音频和视频转录成文本。
语音设计师:创建自定义 AI 语音。
对话式 AI:构建动态语音代理并进行外呼。
使用场景
「创建一个像黑色电影侦探一样说话的 AI 代理人,能回答关于经典电影的问题」;
「为一个睿智的上古巨龙角色生成三种不同的声音风格,然后我会选择一个收藏进我的语音库」;
「把这段我的语音录音转成一个中世纪骑士的口音和语调」;
「生成一个在密林中雷雨交加的环境音,有动物对天气变化的反应」;
「把这段对话转成文本,识别出不同说话人,再用不同的声音风格把他们逐个合成回来」。
(@ElevenLabs@X、EC Elliot@X)
3、Supercut :一款快速、简单且专业的屏幕录制工具
(图片来源:Product Hunt)
Supercut 通过提供快速、简单且专业的屏幕录制解决方案,解决了用户在视频创建和分享过程中的效率和质量问题。其核心价值主张在于让用户能够快速录制屏幕,并利用 AI 功能自动添加章节、清理音频、移除背景等,创建出高质量、可定制的视频。目标用户主要是需要频繁进行屏幕录制的个人和团队,例如销售、客户支持和内部沟通团队。
Supercut 解决了传统录制工具中视频编辑复杂、分享不便的问题,提供了快速录制、AI 编辑和实时分享等核心功能亮点。在用户体验方面,Supercut 提供了直观的界面和灵活的布局调整功能,确保用户可以轻松定制视频样式。其产品差异化优势在于能够在不影响视频质量的情况下快速编辑和分享视频,并且支持实时分析和跟踪视频表现。(@Z Potentials)
1、OpenAI CEO:一年内程序员生产力将提升 10 倍
近期,OpenAI CEO Sam Altman 接受 Varun Mayya 的视频采访,而 Altman 在采访中分享了不少自己 AI 之路的历程。在「全自动化编程」和「让程序员生产力提升 10 倍」选择中,Altman 表示对后者更感兴趣,因为其认为今年或者明年便可实现。同时 Altman 也讨论了 AI 对编程的帮助。他认为,AI 是人类编程史上的一个重要工具,让程序员更有效编程,那么创造出的价值会更多。结合上述的内容,Altman 则认为「更多的软件被创造出来,代码的市场价格也会随之下降,同时需求也会增加。」在代码降价的背景下,Altman 也从而展开了对 AI Agent(智能体)的期待:在未来,用户只需告诉 Agent「我想要增加一个新功能」,过后 Agent 便会提示「已完成」。Altman 还在最后回应了「套壳」这一话题。Altman 回忆,在不少新职业或新初企出来时,有很多安于现状的人便会跳出来说「你这只是业余工作(套壳公司)」。但 Altman 认为这都是错的。他表示现在创业或者诞生一门新职业的门槛已经改变,而大家也需要对自己的信念有信心,或许不被理解的创新,最后能够改变世界。Altman 最后还说道:「如果我现在 20 岁,人们嘲笑我是 GPT 套壳,那我可能走在正确的方向上。」(@APPSO)
更多 Voice Agent 学习笔记:
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布