AI测试 MiniMax 语音模型升级,跨语种复刻保留口音,多语种增至 40 个;FlowSpeech:书面语转口语 TTS 服务丨日报

RTE开发者社区 · 2025年08月08日 · 421 次阅读

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 或于明日凌晨发布 GPT-5
****

8 月 7 日凌晨,OpenAI 官方发布预告信息,将于太平洋时间周四上午 10 点举行网络直播,届时将有望发布传闻已久的 GPT-5 模型。

在几乎同一时间,网络上突然爆出了 GPT-5 的三个版本型号以及图表信息:共拥有 GPT-5、GPT-5 mini、GPT-5 nano。

据目前消息来看,GPT-5 的最大亮点并非空泛的跑分提升,而是在多模态、软件工程和 AI 智能体(Agent)这三个极具实用价值的领域,展现了相当大的性能提升。

综合多家媒体的报道,与以往单纯追求更大参数规模的路径不同,GPT-5 旨在将传统的 GPT 语言模型与专注于推理的「o」系列模型(如 o1、o3)整合在一起。

对于 GPT-5 的表现,OpenAI CEO Sam Altman 也曾多次公开表示「十分强大」,甚至形容自己在面对新模型时,有一种「自己相对 AI 毫无用处」的感觉。(@ APPSO)

2、MiniMax 发布新一代语音生成模型 Speech 2.5

#####

8 月 7 日,MiniMax 发布新一代语音生成模型 Speech 2.5,再次刷新全球最强语音模型的上限。

相比 5 月发布的 Speech 02,Speech 2.5 有三大新突破:多语种表现力更强、音色复刻更像、40 个语种覆盖更广。

  • 多语种表现力飞跃:字错率、相似度、自然韵律度超越前代 Speech 02,英文相似度显著提升;

  • 音色复刻更「像」:跨语种复刻口音保留、同语种不同地区的口音保留、特殊年龄的声音复刻等;

  • 多语种增至 40 个:新增保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语等。

Speech 2.5 已全球上线,欢迎登录 MiniMax 开放平台或 MiniMax Audio 官网体验。

MiniMax 开放平台:

minimaxi.com/platform_overview

MiniMax Audio:

minimaxi.com/audio  (@ MiniMax 稀宇科技)


###

02 有亮点的产品

1、腾讯 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入等功能

#####

腾讯的 AI 工作台 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入和知识库内容置顶在内的新功能。

AI 播客功能能够将文档转化为双人对话式播客,提供个性化的开场语和配乐。

ima 的 AI 播客功能借助「混元大模型」实现,能够围绕原文多角度讨论,确保重点内容不遗漏。用户只需上传文档,即可生成自然、互动的播客内容,配以个性化开场语和配乐,带来更佳的听觉体验。

文件夹导入功能简化了文档管理,而知识库内容置顶则方便了重要信息的快速查找。允许用户直接上传整个文件夹,无需逐个传输文件,极大地简化了文档管理流程,同时保证了文件层级的完整性。

此外,ima 还支持 Xmind 文件的导入和解读,用户可以将脑图直接上传到知识库中,并在共享知识库时将重要文档置顶,方便快速查找。(@ OneThingAI Lab)

2、FlowSpeech:全球首个支持书面语转口语的 TTS
****
8 月 7 日,AI 应用团队 marswave 正式发布其最新产品 FlowSpeech。FlowSpeech 旨在将严谨、机械的书面文本转化为自然、流畅且富有表现力的口语化音频。
**** 功能亮点:
  • 上下文感知:模型通过深度理解文本的上下文,不仅能正确发音,还能以符合语境的语气、语调朗读,让内容更易于理解;

  • 多模态支持:基于多模态模型,FlowSpeech 不仅能处理纯文本,还能识别并朗读图片、PDF 文稿中的内容;

  • 智能剪裁:系统能智能识别并自动去除不适合朗读的内容,如广告、代码块和无意义的乱码,确保音频内容的纯净和流畅;

  • 定制声音: ListenHub 的 Pro 会员支持声音定制功能;

  • 高效流式响应:FlowSpeech 支持流式响应,最快 3 秒即可开始朗读,合成 1000 字内容仅需 10 秒,大大提升了用户体验。

marswave 团队联合硅基流动,推出了限时免费体验活动,用户可在 8 月 7 日至 8 月 13 日 期间免费使用。iOS 版本将在下周更新到 App Store,Android 版本正在开发中。

FlowSpeech 也将推出 TTS API 服务,方便开发者将其集成到自己的产品中,为 AI 助手、内容平台等提供更具表现力的语音能力。

官网链接:

https://listenhub.ai/ (@ 橘子汽水铺)

#####

3、纳米 AI 推出多智能体蜂群,一句话生成 10 分钟高质量 AI 视频
****
纳米 AI 推出的全新升级版多智能体系统,被称为多智能体蜂群,标志着智能体技术迈入了 L4 时代。该系统由 360 公司开发,旨在通过群体智能协作,实现高质量、长达 10 分钟的 AI 视频一键生成等复杂任务。

#####

该系统通过多智能体蜂群架构,将复杂的任务分解并分配给一个庞大的智能体团队。用户只需用一句自然语言描述任务,系统就会自动调用多个智能体(如超级配音演员、智能绘图专家、高级剪辑师等)协同工作,完成包括创意策划、分镜设计、画面生成、配音配乐和剪辑合成在内的整个制作流程。整个过程透明、可编辑,用户可以随时干预和修改。

  • L4 级别多智能体协作:首次将智能体协作提升到 L4 级别,通过「群体智能」解决复杂任务,实现了从单兵作战到多智能体团队协作的飞跃;

  • 高可靠性与容错能力:针对多智能体协作中常见的「协同困境」,该系统通过自研的 360 智脑 72B 模型和容错设计,将单步成功率提升至 99.97%,确保复杂任务的整体成功率高达 95.4%;

  • 超长任务处理:能够生成最长达 10 分钟的视频,并且不限制 token 数量和时长。它能处理超过 1000 步的复杂任务,并消耗超过 1400 万 token;

  • 降低成本和门槛:相较于市场方案,该系统能将一分钟视频的制作成本降低 95% 以上。通过自然语言即可组建和管理智能体团队,实现了零基础、低成本完成专业级任务;

  • 开放性和可定制性:系统包含一个智能体工厂,允许用户自定义和创建自己的智能体团队,并支持无限工具调用、无限上下文长度以及集成上百种主流模型。

相关链接:

https://bot.n.cn/  (@ 量子位)


###

03 有态度的观点 

1、前 Google X 高管:AI 将会引发社会进入「地狱」洗牌阶段

近期,前 Google X 商务总监 Mo Gawdat 在播客节目《The Diary of a CEO》中发出严厉警告:AI 将引发一段长达 15 年的「地狱」历程,从 2027 年起,全球经济与社会将陷入深度动荡。

目前教育与企业界普遍将 AI 视作辅助工具,但 Gawdat 的警示强烈指出,若社会未对 AI 带来的变革做好准备,其影响远超过去任何一次工业革命。与以往主要冲击体力劳动不同,这一次冲击对象是受过广泛教育的白领阶层,尤其是中产阶级将首当其冲。

Gawdat 还预测,由此引发的社会问题包括心理健康恶化、孤独感扩大及社会分裂。他呼吁立即采取政策干预,包括全民基本收入(UBI)与强力监管,以防止 AI 权力集中与财富垄断,同时维护社会稳定。

尽管如此,他对 2040 年后的人类未来仍保有希望,认为 AI 可以释放人们脱离重复劳动,让人类更多地专注于爱、社区与精神探索,迎来一种更具意义的「乌托邦」社会。

他强调,这一转折点关键在于当下社会选择如何应对 AI 的崛起,比如如何引入「道德编程」,确保 AI 可被人性化治理。

视频链接:

https://youtu.be/S9a1nLw70p0?feature=shared  (@ APPSO)


###

###

04 社区黑板报 

招聘、项目分享、活动招募、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

****
1、Rust Embedded 训练营第二期启动,用语音控制万物

#####

第二期 Rust Embedded + AI 智能硬件训练营现已正式开放报名。

本期训练营由 Second State 联合 Rust 基金会、Rust 语言中文社区及清华大学开源操作系统训练营共同打造,由 RTE 开发者社区支持。聚焦「让 Rust 在芯片上跑起来」,我们将带你深入嵌入式开发核心,用纯 Rust 语言,从零打造一个属于你自己的 AI 智能语音硬件!

本期训练营的核心目标是:在 ESP32-S3 芯片上构建一个功能完整的 Voice AI Agent! 通过实战,你将掌握:

  • 嵌入式 Rust 核心技能: 使用标准  std Rust 驱动主流芯片(ESP32-S3);

  • 外设控制: 驾驭蓝牙、麦克风、喇叭、显示屏等硬件交互;

  • 网络通信: 实现 WebSocket 通讯,连接设备端与云端;

  • AI agent 服务: 在个人电脑上用 Rust 开发基于 WebSocket 的 AI agent,支持 MCP 服务,驱动智能硬件;

  • 语音控制万物: 最终实现通过语音指令,让你的 ESP32 设备控制外部世界!

本次训练营的所有软件都在 EchoKit 上运行。EchoKit 是一个基于 ESP32 的智能语音设备,能让用户以语音与任何大语言模型对话,同时支持 MCP 等 AI 工具使用以及 agent 开发框架。它的设备端与服务端软件都由 Rust 编写。

详见:https://echokit.dev

扫描下方海报二维码,即刻报名 Rust Embedded 训练营第二期!(@ Second State)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

https://www.rtecommunity.dev/

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册