AI测试 MiniMax 语音模型升级，跨语种复刻保留口音，多语种增至 40 个；FlowSpeech：书面语转口语 TTS 服务丨日报

RTE开发者社区 · 2025年08月08日 · 3739 次阅读

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 或于明日凌晨发布 GPT-5

****

8 月 7 日凌晨，OpenAI 官方发布预告信息，将于太平洋时间周四上午 10 点举行网络直播，届时将有望发布传闻已久的 GPT-5 模型。

在几乎同一时间，网络上突然爆出了 GPT-5 的三个版本型号以及图表信息：共拥有 GPT-5、GPT-5 mini、GPT-5 nano。

据目前消息来看，GPT-5 的最大亮点并非空泛的跑分提升，而是在多模态、软件工程和 AI 智能体（Agent）这三个极具实用价值的领域，展现了相当大的性能提升。

综合多家媒体的报道，与以往单纯追求更大参数规模的路径不同，GPT-5 旨在将传统的 GPT 语言模型与专注于推理的「o」系列模型（如 o1、o3）整合在一起。

对于 GPT-5 的表现，OpenAI CEO Sam Altman 也曾多次公开表示「十分强大」，甚至形容自己在面对新模型时，有一种「自己相对 AI 毫无用处」的感觉。(@ APPSO)

2、MiniMax 发布新一代语音生成模型 Speech 2.5

#####

8 月 7 日，MiniMax 发布新一代语音生成模型 Speech 2.5，再次刷新全球最强语音模型的上限。

相比 5 月发布的 Speech 02，Speech 2.5 有三大新突破：多语种表现力更强、音色复刻更像、40 个语种覆盖更广。

多语种表现力飞跃：字错率、相似度、自然韵律度超越前代 Speech 02，英文相似度显著提升；
音色复刻更「像」：跨语种复刻口音保留、同语种不同地区的口音保留、特殊年龄的声音复刻等；
多语种增至 40 个：新增保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语等。

Speech 2.5 已全球上线，欢迎登录 MiniMax 开放平台或 MiniMax Audio 官网体验。

MiniMax 开放平台：

minimaxi.com/platform_overview

MiniMax Audio：

minimaxi.com/audio （@ MiniMax 稀宇科技）

###

02 有亮点的产品

1、腾讯 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入等功能

#####

腾讯的 AI 工作台 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入和知识库内容置顶在内的新功能。

AI 播客功能能够将文档转化为双人对话式播客，提供个性化的开场语和配乐。

ima 的 AI 播客功能借助「混元大模型」实现，能够围绕原文多角度讨论，确保重点内容不遗漏。用户只需上传文档，即可生成自然、互动的播客内容，配以个性化开场语和配乐，带来更佳的听觉体验。

文件夹导入功能简化了文档管理，而知识库内容置顶则方便了重要信息的快速查找。允许用户直接上传整个文件夹，无需逐个传输文件，极大地简化了文档管理流程，同时保证了文件层级的完整性。

此外，ima 还支持 Xmind 文件的导入和解读，用户可以将脑图直接上传到知识库中，并在共享知识库时将重要文档置顶，方便快速查找。(@ OneThingAI Lab)

2、FlowSpeech：全球首个支持书面语转口语的 TTS

****

8 月 7 日，AI 应用团队 marswave 正式发布其最新产品 FlowSpeech。FlowSpeech 旨在将严谨、机械的书面文本转化为自然、流畅且富有表现力的口语化音频。

**** 功能亮点：

上下文感知：模型通过深度理解文本的上下文，不仅能正确发音，还能以符合语境的语气、语调朗读，让内容更易于理解；
多模态支持：基于多模态模型，FlowSpeech 不仅能处理纯文本，还能识别并朗读图片、PDF 文稿中的内容；
智能剪裁：系统能智能识别并自动去除不适合朗读的内容，如广告、代码块和无意义的乱码，确保音频内容的纯净和流畅；
定制声音： ListenHub 的 Pro 会员支持声音定制功能；
高效流式响应：FlowSpeech 支持流式响应，最快 3 秒即可开始朗读，合成 1000 字内容仅需 10 秒，大大提升了用户体验。

marswave 团队联合硅基流动，推出了限时免费体验活动，用户可在 8 月 7 日至 8 月 13 日期间免费使用。iOS 版本将在下周更新到 App Store，Android 版本正在开发中。

FlowSpeech 也将推出 TTS API 服务，方便开发者将其集成到自己的产品中，为 AI 助手、内容平台等提供更具表现力的语音能力。

官网链接：

https://listenhub.ai/ （@ 橘子汽水铺）

#####

3、纳米 AI 推出多智能体蜂群，一句话生成 10 分钟高质量 AI 视频

****

纳米 AI 推出的全新升级版多智能体系统，被称为多智能体蜂群，标志着智能体技术迈入了 L4 时代。该系统由 360 公司开发，旨在通过群体智能协作，实现高质量、长达 10 分钟的 AI 视频一键生成等复杂任务。

#####

该系统通过多智能体蜂群架构，将复杂的任务分解并分配给一个庞大的智能体团队。用户只需用一句自然语言描述任务，系统就会自动调用多个智能体（如超级配音演员、智能绘图专家、高级剪辑师等）协同工作，完成包括创意策划、分镜设计、画面生成、配音配乐和剪辑合成在内的整个制作流程。整个过程透明、可编辑，用户可以随时干预和修改。

L4 级别多智能体协作：首次将智能体协作提升到 L4 级别，通过「群体智能」解决复杂任务，实现了从单兵作战到多智能体团队协作的飞跃；
高可靠性与容错能力：针对多智能体协作中常见的「协同困境」，该系统通过自研的 360 智脑 72B 模型和容错设计，将单步成功率提升至 99.97%，确保复杂任务的整体成功率高达 95.4%；
超长任务处理：能够生成最长达 10 分钟的视频，并且不限制 token 数量和时长。它能处理超过 1000 步的复杂任务，并消耗超过 1400 万 token；
降低成本和门槛：相较于市场方案，该系统能将一分钟视频的制作成本降低 95% 以上。通过自然语言即可组建和管理智能体团队，实现了零基础、低成本完成专业级任务；
开放性和可定制性：系统包含一个智能体工厂，允许用户自定义和创建自己的智能体团队，并支持无限工具调用、无限上下文长度以及集成上百种主流模型。

03 有态度的观点

1、前 Google X 高管：AI 将会引发社会进入「地狱」洗牌阶段

近期，前 Google X 商务总监 Mo Gawdat 在播客节目《The Diary of a CEO》中发出严厉警告：AI 将引发一段长达 15 年的「地狱」历程，从 2027 年起，全球经济与社会将陷入深度动荡。

目前教育与企业界普遍将 AI 视作辅助工具，但 Gawdat 的警示强烈指出，若社会未对 AI 带来的变革做好准备，其影响远超过去任何一次工业革命。与以往主要冲击体力劳动不同，这一次冲击对象是受过广泛教育的白领阶层，尤其是中产阶级将首当其冲。

Gawdat 还预测，由此引发的社会问题包括心理健康恶化、孤独感扩大及社会分裂。他呼吁立即采取政策干预，包括全民基本收入（UBI）与强力监管，以防止 AI 权力集中与财富垄断，同时维护社会稳定。

尽管如此，他对 2040 年后的人类未来仍保有希望，认为 AI 可以释放人们脱离重复劳动，让人类更多地专注于爱、社区与精神探索，迎来一种更具意义的「乌托邦」社会。

他强调，这一转折点关键在于当下社会选择如何应对 AI 的崛起，比如如何引入「道德编程」，确保 AI 可被人性化治理。

视频链接：

https://youtu.be/S9a1nLw70p0?feature=shared （@ APPSO）

###

04 社区黑板报

招聘、项目分享、活动招募、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

****

1、Rust Embedded 训练营第二期启动，用语音控制万物

#####

第二期 Rust Embedded + AI 智能硬件训练营现已正式开放报名。

本期训练营由 Second State 联合 Rust 基金会、Rust 语言中文社区及清华大学开源操作系统训练营共同打造，由 RTE 开发者社区支持。聚焦「让 Rust 在芯片上跑起来」，我们将带你深入嵌入式开发核心，用纯 Rust 语言，从零打造一个属于你自己的 AI 智能语音硬件！

本期训练营的核心目标是：在 ESP32-S3 芯片上构建一个功能完整的 Voice AI Agent！通过实战，你将掌握：

嵌入式 Rust 核心技能：使用标准 std Rust 驱动主流芯片（ESP32-S3）；
外设控制：驾驭蓝牙、麦克风、喇叭、显示屏等硬件交互；
网络通信：实现 WebSocket 通讯，连接设备端与云端；
AI agent 服务：在个人电脑上用 Rust 开发基于 WebSocket 的 AI agent，支持 MCP 服务，驱动智能硬件；
语音控制万物：最终实现通过语音指令，让你的 ESP32 设备控制外部世界！

本次训练营的所有软件都在 EchoKit 上运行。EchoKit 是一个基于 ESP32 的智能语音设备，能让用户以语音与任何大语言模型对话，同时支持 MCP 等 AI 工具使用以及 agent 开发框架。它的设备端与服务端软件都由 Rust 编写。

详见：https://echokit.dev

扫描下方海报二维码，即刻报名 Rust Embedded 训练营第二期！(@ Second State)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

https://www.rtecommunity.dev/

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。