AI测试 MiniMax 新语音模型登顶 TTS 全球榜单;AI 会议笔记 Granola 融资 6700 万美元,估值 2.5 亿丨日报

RTE开发者社区 · 2025年05月15日 · 24 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、阶跃星辰开源 3D 大模型 Step1X-3D

5 月 14 日,阶跃星辰正式发布并开源 3D 大模型——Step1X-3D。据了解,Step1X-3D 模型总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。

性能评估方面,阶跃星辰通过自建的综合测试(包含 110 个多样化测试用例),将 Step1X-3D 与多款主流模型进行对比。结果显示:

在自动评估中,Step1X-3D 在多项关键维度上均表现出色。在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,并超越 Hunyua3D 2.0 等 3D 模型。

目前,阶跃星辰已公布了完整的数据清洗策略,数据预处理策略,以及 800K 高质量的 3D 资产,3D VAE、3D geometry Diffusion 以及 texture Diffusion 的全链路训练代码开源。

GitHub: https://github.com/stepfun-ai/Step1X-3D

HuggingFace: https://huggingface.co/stepfun-ai/Step1X-3D

ModelScope: https://www.modelscope.cn/models/stepfun-ai/Step1X-3DTech

Report: https://arxiv.org/pdf/2505.07747 (@APPSO)

2、阿里开源全能视频大模型 Wan2.1-VACE

(图片来源:通义万相 Wan)

5 月 14 日,阿里巴巴正式开源通义万相 Wan2.1-VACE。

团队方面强调,Wan2.1-VACE 是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。

值得关注的是,本次共开源 1.3B 和 14B 两个版本,其中 1.3B 版本可在消费级显卡运行。

据介绍,Wan2.1-VACE 基于通义万相文生视频模型研发,同时创新性提出了全新的视频条件单元 VCU,它在输入形态上统一了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频 4 大类视频生成和编辑任务。

Wan2.1-VACE 支持全部主流输入形式,涵盖文本、图像、视频、Mask 和控制信号,可以实现角色一致性、布局、运动姿态和幅度等要素的控制。同时该模型还支持任意基础能力的自由组合,用户无需针对特定功能训练一个新的专家模型,即可完成更复杂的任务。

目前,开发者可在 GitHub、Huggingface 及魔搭社区下载体验

Wan2.1-VACE。该模型还将逐步在通义万相官网和阿里云百炼上线。

Github: https://github.com/Wan-Video/Wan2.1

HuggingFace: https://huggingface.co/Wan-AI

ModelScope: https://modelscope.cn/organization/Wan-Al

API: https://bailian.console.alibabacloud.com (@APPSO)

3、OpenAI 升级 ChatGPT AI 聊天机器人,GPT-4.1 编程专家模型登场

(图片来源:新智元)

5 月 15 日消息,OpenAI 官方账号在 X 平台发布推文,宣布将于 5 月 14 日开始,在 ChatGPT AI 聊天机器人中,引入 GPT-4.1 模型。

Pro、Plus 和 Team 用户可以通过「More models」下拉菜单立即选择该模型,而 Enterprise 和 Edu 用户预计在未来几周内获得访问权限。同时,GPT-4.1 mini 取代了 GPT-4o-mini,并向所有 ChatGPT 用户开放。

此前报道,GPT-4.1 在具体表现上表现出色。OpenAI 声称,该模型特别擅长处理编程任务,能精确遵循指令,避免不必要的冗长输出。

在实际测试中,GPT-4.1 比 GPT-4o 更注重效率,不再过度聊天,这让它在专业场景中更可靠。同时,其整体性能与最新版 GPT-4o 相当,甚至在某些方面更胜一筹。

与旧版 GPT-4o 相比,GPT-4.1 带来了更全面的提升。这不仅体现在任务执行的精确性上,还包括更稳定的输出质量。(@IT 之家、@AI 小讯)

4、国产 AI 配音工具 MiniMax Audio 的 Speech-02-HD 模型登顶 TTS 全球榜单

国产 AI 配音工具 MiniMax Audio 的 Speech-02-HD 模型,在两项全球权威语音基准测评榜单:Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中, MiniMax Speech(在榜中对应为 Speech-02-HD)超越了 OpenAI、ElevenLabs 等全球性能优异的模型,双双位列第一。

在专业指标测评外,Arena 榜单的 ELO 评分,是根据用户在随机听取并比较不同模型的语音样本时,选出更优的结果来得出的;榜单结果证明,从用户体验上, MiniMax Speech 02 的听感更加优异。

  • Zero-Shot 带来超拟人的音色: 只需要一段参考音频,不需与之对应的文本;这种 Zero-Shot 的方式中,编码器仅从参考音频中提取音色特征,因此更能捕捉声音的本质——音色、音调和风格等特征,从而带来对韵律更灵活广泛的解码空间,最终的输出效果媲美真人,且比真人更加稳定;

  • 32 种语言高质量合成: 在处理参考音频过程中,Speaker encoder 处理音色特征时与语义内容解耦;由于 Speaker encoder 是 learnable 的,它可以在训练数据集所涵盖的所有语言上进行训练。这也是 MiniMax Speech 从本质上支持 32 种多语种,且跨语言效果更优异的原因;

  • 可扩展功能与个性化表达: 由于 speaker encoder 所实现的条件向量本身也可解耦,赋予 MiniMax Speech 下游应用扩展的灵活性,我们实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。这些功能使得 MiniMax Speech 进一步丰富个性化语音空间。

Hugging Face: https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report(@MiniMax 稀宇科技)

02 有亮点的产品

1、One Click Deploy:即时部署 LiveKit 语音智能体

One Click Deploy,现代化的 PaaS 平台,简化 LiveKit 语音 AI 代理的部署流程。通过一键部署,开发者可以摆脱繁琐的 DevOps 工作,专注于语音交互应用的创新。

One Click Deploy 是一款专为 AI、Python 和全栈应用设计的「零配置」部署工具,支持从 GitHub 一键部署、内置 Python、Node.js、LangChain 等、能够自动配置 Postgres、Redis、文件存储和 SSL 等功能。

OneClickDeploy 的核心优势和独特性在于,它是业界首款专为 AI、Python 及全栈应用设计的真正意义上的「零配置」部署工具。用户无需深入了解 Docker、YAML 等容器化技术,也无需具备专业的 DevOps 背景知识即可上手使用。尤为重要的是,所有应用均在用户自有的基础设施上(通过 Fly.io 实现)运行。

体验链接:https://oneclickdeploy.co/(@Product Hunt)

2、AI 笔记 Granola 以 2.5 亿美元估值完成 6700 万美元融资,支持 AI 对话提问

AI 驱动的笔记工具 Granola 发展势头迅猛。这家初创公司自一年前推出以来,用户量激增,主要得益于风投和创始人之间的口碑传播,但一个重要推动因素似乎是人们将其用途扩展到了核心功能——会议自动记录之外。

佩德雷加尔表示,Granola 在科技人群中的自然流行以及多样化的使用场景,使其用户基数自推出以来每周增长 10%。

Granola 于 5 月 14 日宣布已完成由 Nat Friedman 和 Daniel Gross 的 NFDG 领投的 B 轮融资,筹集到 4300 万美元,本轮融资使公司总融资额达到 6700 万美元 ,公司估值达到 2.5 亿美元。

伴随本轮融资,Granola 正将其服务范围从单一用户场景拓展至企业应用:推出全新协作功能,允许用户与团队成员共享会议转录和笔记,并利用更广泛的笔记数据池让 AI 提炼深层洞察。

企业用户可为销售电话、客户反馈、招聘等协作场景创建自定义文件夹。该应用还支持将会议笔记分享给非 Granola 用户,使其能与 AI 对话提问。(@Z Potentials)

3、Kular:运用克隆声音技术,向全球潜在客户发送多语言消息

Kular 是一款专注于提升销售线索获取效率、发掘潜在客户的产品,用户能够运用 Kular 的克隆声音技术,在 LinkedIn 平台上向全球的潜在客户以任何语言发送语音消息,并且 Kular 承诺按实际效果计费。截至目前,Kular 已通过电子邮件及 LinkedIn 平台,成功为超过 1000 家企业发掘潜在客户。

Kular 由一支毕业于 MIT、IIT、Cambridge 和 Oxford 等顶尖学府的团队负责开发。同时,该产品亦获得了全球一流投资者的资金支持,其中包括 Y-Combinator、Entrepreneur First、Acequia Capital,以及曾投资 Ironclad、OpenSea、Stripe 等成功企业的天使投资人。

该产品的使用简易,设置过程仅需 15 秒,且无需任何前期费用。( @ycombinator\@X)

03 有态度的观点

1、AI 研究所 Epoch AI:推理大模型或在一年内减缓增长

日前,AI 研究所 Epoch AI 发布《推理模型能扩展多远(How far can reasoning models scale?)》的报告,其中对推理模型的现状和未来作出了分析总结。

报告中,Epoch AI 通过各家开源的技术报告,来分析了目前推理模型的训练成本,同时也进一步总结,目前前沿的推理模型其推理训练规模仍未见顶,还能持续扩展(scalable)。并且推理模型还有潜力在短期内快速实现能力拓展。

Epoch AI 提到,如果推理阶段的算力需求见顶,那么其带来的增长率将收敛,大概是每年增长 4 倍,不会像 o1 到 o3 那样拥有「跳跃式增长」——几个月增长 10 倍的态势。

基于上述情况,Epoch AI 表示,如果推理模型的训练阶段只比前沿推理模型低几个(比如说不到三个)数量级,这种增长率可能在一年内减缓。

原分析报告:https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale(@APPSO

更多 Voice Agent 学习笔记:

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册