AI测试语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人声、音乐和音效

RTE开发者社区 · 2024年11月27日 · 4049 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@ 鲍勃

01 有话题的新闻

1、Generative Omnimatte：学习将视频分层

分层合成一直是视频编辑不可或缺的一个方面。Generative Omnimatte 提出了一种方法，可为每个感兴趣的对象提取有语义意义的图层。这使得创意视频合成瞬间重定时、动作镜头和对象移除等应用成为可能。（@jbhuang0604@X）

2、英伟达出品！AI 音频模型 Fugatto：输入文本、音频可生成音乐、音效

在音乐和声音创作领域，现有的 AI 模型往往只擅长特定的任务，缺乏广泛的适应性，这使得 AI 在音乐制作中的辅助作用受限。为此，NVIDIA 推出了 Fugatto，这是一款拥有 25 亿参数的音频生成与处理模型。

Fugatto 不仅支持文本输入，还支持可选的音频输入，打破了传统音频生成模型的局限，使得艺术家和开发者能够实时进行创作与修改，流畅地生成新类型的声音。

在技术方面，Fugatto 采用了一种创新的数据生成方法，超越了传统的监督学习。它的训练不仅依赖于常规数据集，还结合了专门生成的数据集，从而创建了丰富多样的音频与转换任务。此外，Fugatto 借助大语言模型（LLM）来增强指令生成能力，更好地理解音频与文本提示之间的关系。

一个重要的创新是「可组合音频表示变换」（ComposableART），这是一种在推理时使用的技术，能够灵活地结合、插值或否定不同的音频生成指令。ComposableART 使得用户在音频合成过程中拥有更高的控制力，可以精确地导航 Fugatto 的声音调色板，创造出独特的声音现象。

Fugatto 的架构基于增强型的 Transformer 模型，采用了自适应层归一化等特定修改，能够在多种输入条件下保持一致性，支持复杂的组合指令。初步测试表明，Fugatto 在常见基准测试中表现不俗，特别是在声音合成和变换方面，与其他专业模型相比，显示出更强的能力。（@AIbase 基地）

3、10 秒 1080P：部分艺术家指控 OpenAI 压榨，怒而泄露 Sora 视频生成 AI 模型

科技媒体 TechCrunch 昨日（11 月 26 日）发布博文，报道称名为「Sora PR Puppets」的组织为抗议 OpenAI 的「欺骗行为」和「艺术洗白」，于本周二在 Hugging Face 平台泄露了对 OpenAI 视频生成模型 Sora 的访问权限。

该组织于本周二在 Hugging Face 平台上发布了一个项目，连接到 OpenAI 尚未公开发布的 Sora API。

该组织利用其获得的认证 tokens，创建了一个前端界面，邀请任意用户通过输入简短的文本描述，生成最高 1080P 分辨率、时长 10 秒的视频。

部分用户已经在 X 平台分享并上传了生成的视频，都带有 OpenAI 的标志性水印。

据报道，在美国东部时间 11 月 26 日 12 点 01 分（北京时间 11 月 27 日凌晨 1 点 01 分），该前端网站停止工作，预估是 OpenAI 或 Hugging Face 撤销了访问权限。

「Sora PR Puppets」组织声称，OpenAI 向 Sora 的早期测试者（包括漏洞测试和创意合作伙伴）施压，要求他们宣传 Sora 的正面形象，但并未给与相关的报酬。

该组织指出，数百名艺术家为 OpenAI 提供无偿的 BUG 测试、反馈和实验工作，而这家估值 1500 亿美元的公司却不愿意支付报酬，因此他们认为，Sora 的早期访问计划更像是一场公关宣传活动，而非真正的创意表达，且不接受任何负面评价。

OpenAI 发言人回应称，Sora 仍处于「研究预览」阶段，公司正在努力平衡创造力和更广泛使用的安全措施。发言人表示，数百名艺术家参与了 Sora 的 alpha 测试，帮助确定新功能和安全措施的优先级。

OpenAI 将继续通过赠款、活动和其他项目支持这些艺术家。（@IT 之家）

02 有亮点的产品

1、PlayAI 完成 2100 万美元种子轮融资，致力打造新一代拟人化 AI Agent

AI 语音技术公司 PlayHT（简称 PlayAI）今日宣布完成 2100 万美元种子轮融资。本轮融资由 Kindred Ventures 领投，Race Capital、500 Global 和 Y Combinator 等机构参投。

PlayAI 主打的语音 Agent 平台具有以下特色：

基于大规模语言模型训练，数据集包含数千小时的人类语音支持多语言、多重地区口音的男女声音生成新发布的 PlayDialog 模型支持情感提示，可实现自然的语音表达和语调变化推出 PlayNote 工具，可快速将 PDF、视频和文本转化为故事、简报和播客等内容
产品应用场景广泛：

可通过 API、网页编辑器等多种方式接入支持 30 多种主流语言的轻量级模型 Play 3.0 mini 适用于旅游、酒店、医疗、零售等行业的客服、预约和销售等场景

据 Market.Us 预测，AI 语音生成行业将在未来十年增长四倍。Race Capital 普通合伙人 Chris McCann 更是预计，语音 AI 最终将发展成为一个 2 万亿美元的全球市场。

PlayAI 的融资体现了市场对高质量 AI 语音技术的迫切需求。随着语音交互在企业和消费级应用中的普及，能够提供自然、富有情感的 AI 语音解决方案的企业将在这个快速增长的市场中占据优势地位。这也预示着 AI Agent 交互将成为未来人机交互的重要发展方向。(@Saasverse)

2、AI 编码工具 Cursor 发布新版本，实现自主编码智能体功能

在这次更新中，AI 智能体能够响应错误信息，并自主做出决策来解决问题。用户 Wes Winder 在社交平台 X 上展示了这一功能，他通过输入一个简单的文本提示，Cursor 便能在几分钟内创建出一个完整的基于网页的秒表应用，使用了 HTML、CSS 和 JavaScript，并且能够自动启动网页服务器。

此外，这次更新还对 Cursor 的 Composer 工具进行了全面改进。Composer 工具现在在侧边栏中显著显示，通过聊天交互来管理项目，并能够在线展示代码的变化。用户还可以利用新增加的「@Recommended」命令进行语义上下文搜索，获取文件推荐。

值得一提的是，Cursor 的开发公司 Anysphere 最近获得了 6000 万美元的融资，投资者包括著名的 Andreessen Horowitz 和 Thrive Capital。虽然 OpenAI 曾给予初步支持，但公司现在已经扩大了投资者基础。Cursor 软件目前仍可免费下载，并兼容多种语言模型，如 GPT-4、Claude3.5Sonnet 或 Code Llama，用户可以选择本地或通过 API 使用。每月 20 美元的 Pro 订阅将解锁更多功能，包括新的 AI 智能体。（@AIbase 基地）

3、Kimi 数学版来了，用科学思维解读生活

Kimi 官方宣布 Kimi 数学版上线，用户可以通过访问 Kimi 网页（kimi.ai），找到侧边栏的「眼镜」图标，开始与由 k0-math 模型驱动的 Kimi 数学版进行互动。这一新功能旨在通过数学公式帮助用户更好地理解和应用数学知识。

Kimi 数学版不仅局限于简单的数学运算，其设计理念源于热门电视剧《生活大爆炸》中角色 Sheldon 的理科思维。Kimi 数学版能够用科学的方法和思维模式来解释生活中的各种现象，帮助用户从更深层次去理解身边的世界。此外，用户还可以邀请 Kimi 数学版一起玩经典的 24 点游戏，享受轻松愉快的学习体验。

在使用过程中，Kimi 数学版推荐用户使用 LaTeX 格式来输入数学公式。如果用户对 LaTeX 输入不熟悉，可以通过 Kimi 常规版拍照或截图数学公式，Kimi 将自动将图片转换为 LaTeX 格式，方便用户复制并粘贴到数学版中进行进一步的操作。这一功能的设计大大降低了用户的使用门槛，增强了交互的趣味性。（@AIbase 基地）

4、AIoT、AR 智能副驾、数字人、AI 婴儿监控——TEN 展示多个多模态 AI Agent 合作案例

活动上，OpenAI 工程师 Ilan Bigio 演示了利用 OpenAI Realtime API 电话订购的场景。并且透露接下去开发方向包括降低 API 费用、长串数字理解以及加入视频模态。Oracle 和 Agora 也分别展示了如何集成 TEN Framework 打造企业级的 AI Infra 服务。

回看活动完整视频：
https://www.youtube.com/live/QLrHA817Jko03有态度的观点

1、英伟达生态负责人：AI 的一切都从教育开始

在最新一期 AI Podcast 播客中，英伟达全球开发者生态系统战略负责人 Louis Stewart 接受采访，他认为，AI 的一切发展都从教育开始。

播客中，Louis Stewart 表示，教育能够让普通人知道 AI 能做什么，以及要怎么去使用 AI 。因此 AI 教育也需要贯穿个个层级，无论是身为学生的青少年群体，还是正在为生活拼搏的成年人群，都需要在每个阶段学会运用 AI 进入生活、学习、工作中。

Louis Stewart 认为每个人都需要了解 AI 这项技术对自身产生的影响。他举例道，家长需要从接送孩子上下学的便利程度去了解甚至理解自动驾驶的作用，从而可以不用因为自己开车接送孩子而影响上班。

最后，Louis Stewart 认为需要提升社会对每个人的 AI 知识教育，从而提升每个人对 AI 的认知以及运用。

播客文章中还提到，英伟达在 8 月宣布与加利福尼亚州合作，在未来三年内培训 10 万人掌握 AI 技能。(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人声、音乐和音效

AI测试 语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人声、音乐和音效

01 有话题的新闻

02 有亮点的产品

AI测试语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人声、音乐和音效

AI测试语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人声、音乐和音效