开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 或于明日凌晨发布 GPT-5
****

8 月 7 日凌晨,OpenAI 官方发布预告信息,将于太平洋时间周四上午 10 点举行网络直播,届时将有望发布传闻已久的 GPT-5 模型。

在几乎同一时间,网络上突然爆出了 GPT-5 的三个版本型号以及图表信息:共拥有 GPT-5、GPT-5 mini、GPT-5 nano。

据目前消息来看,GPT-5 的最大亮点并非空泛的跑分提升,而是在多模态、软件工程和 AI 智能体(Agent)这三个极具实用价值的领域,展现了相当大的性能提升。

综合多家媒体的报道,与以往单纯追求更大参数规模的路径不同,GPT-5 旨在将传统的 GPT 语言模型与专注于推理的「o」系列模型(如 o1、o3)整合在一起。

对于 GPT-5 的表现,OpenAI CEO Sam Altman 也曾多次公开表示「十分强大」,甚至形容自己在面对新模型时,有一种「自己相对 AI 毫无用处」的感觉。(@ APPSO)

2、MiniMax 发布新一代语音生成模型 Speech 2.5

#####

8 月 7 日,MiniMax 发布新一代语音生成模型 Speech 2.5,再次刷新全球最强语音模型的上限。

相比 5 月发布的 Speech 02,Speech 2.5 有三大新突破:多语种表现力更强、音色复刻更像、40 个语种覆盖更广。

Speech 2.5 已全球上线,欢迎登录 MiniMax 开放平台或 MiniMax Audio 官网体验。

MiniMax 开放平台:

minimaxi.com/platform_overview

MiniMax Audio:

minimaxi.com/audio  (@ MiniMax 稀宇科技)


###

02 有亮点的产品

1、腾讯 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入等功能

#####

腾讯的 AI 工作台 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入和知识库内容置顶在内的新功能。

AI 播客功能能够将文档转化为双人对话式播客,提供个性化的开场语和配乐。

ima 的 AI 播客功能借助「混元大模型」实现,能够围绕原文多角度讨论,确保重点内容不遗漏。用户只需上传文档,即可生成自然、互动的播客内容,配以个性化开场语和配乐,带来更佳的听觉体验。

文件夹导入功能简化了文档管理,而知识库内容置顶则方便了重要信息的快速查找。允许用户直接上传整个文件夹,无需逐个传输文件,极大地简化了文档管理流程,同时保证了文件层级的完整性。

此外,ima 还支持 Xmind 文件的导入和解读,用户可以将脑图直接上传到知识库中,并在共享知识库时将重要文档置顶,方便快速查找。(@ OneThingAI Lab)

2、FlowSpeech:全球首个支持书面语转口语的 TTS
****
8 月 7 日,AI 应用团队 marswave 正式发布其最新产品 FlowSpeech。FlowSpeech 旨在将严谨、机械的书面文本转化为自然、流畅且富有表现力的口语化音频。
**** 功能亮点:

marswave 团队联合硅基流动,推出了限时免费体验活动,用户可在 8 月 7 日至 8 月 13 日 期间免费使用。iOS 版本将在下周更新到 App Store,Android 版本正在开发中。

FlowSpeech 也将推出 TTS API 服务,方便开发者将其集成到自己的产品中,为 AI 助手、内容平台等提供更具表现力的语音能力。

官网链接:

https://listenhub.ai/ (@ 橘子汽水铺)

#####

3、纳米 AI 推出多智能体蜂群,一句话生成 10 分钟高质量 AI 视频
****
纳米 AI 推出的全新升级版多智能体系统,被称为多智能体蜂群,标志着智能体技术迈入了 L4 时代。该系统由 360 公司开发,旨在通过群体智能协作,实现高质量、长达 10 分钟的 AI 视频一键生成等复杂任务。

#####

该系统通过多智能体蜂群架构,将复杂的任务分解并分配给一个庞大的智能体团队。用户只需用一句自然语言描述任务,系统就会自动调用多个智能体(如超级配音演员、智能绘图专家、高级剪辑师等)协同工作,完成包括创意策划、分镜设计、画面生成、配音配乐和剪辑合成在内的整个制作流程。整个过程透明、可编辑,用户可以随时干预和修改。

相关链接:

https://bot.n.cn/  (@ 量子位)


###

03 有态度的观点 

1、前 Google X 高管:AI 将会引发社会进入「地狱」洗牌阶段

近期,前 Google X 商务总监 Mo Gawdat 在播客节目《The Diary of a CEO》中发出严厉警告:AI 将引发一段长达 15 年的「地狱」历程,从 2027 年起,全球经济与社会将陷入深度动荡。

目前教育与企业界普遍将 AI 视作辅助工具,但 Gawdat 的警示强烈指出,若社会未对 AI 带来的变革做好准备,其影响远超过去任何一次工业革命。与以往主要冲击体力劳动不同,这一次冲击对象是受过广泛教育的白领阶层,尤其是中产阶级将首当其冲。

Gawdat 还预测,由此引发的社会问题包括心理健康恶化、孤独感扩大及社会分裂。他呼吁立即采取政策干预,包括全民基本收入(UBI)与强力监管,以防止 AI 权力集中与财富垄断,同时维护社会稳定。

尽管如此,他对 2040 年后的人类未来仍保有希望,认为 AI 可以释放人们脱离重复劳动,让人类更多地专注于爱、社区与精神探索,迎来一种更具意义的「乌托邦」社会。

他强调,这一转折点关键在于当下社会选择如何应对 AI 的崛起,比如如何引入「道德编程」,确保 AI 可被人性化治理。

视频链接:

https://youtu.be/S9a1nLw70p0?feature=shared  (@ APPSO)


###

###

04 社区黑板报 

招聘、项目分享、活动招募、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

****
1、Rust Embedded 训练营第二期启动,用语音控制万物

#####

第二期 Rust Embedded + AI 智能硬件训练营现已正式开放报名。

本期训练营由 Second State 联合 Rust 基金会、Rust 语言中文社区及清华大学开源操作系统训练营共同打造,由 RTE 开发者社区支持。聚焦「让 Rust 在芯片上跑起来」,我们将带你深入嵌入式开发核心,用纯 Rust 语言,从零打造一个属于你自己的 AI 智能语音硬件!

本期训练营的核心目标是:在 ESP32-S3 芯片上构建一个功能完整的 Voice AI Agent! 通过实战,你将掌握:

本次训练营的所有软件都在 EchoKit 上运行。EchoKit 是一个基于 ESP32 的智能语音设备,能让用户以语音与任何大语言模型对话,同时支持 MCP 等 AI 工具使用以及 agent 开发框架。它的设备端与服务端软件都由 Rust 编写。

详见:https://echokit.dev

扫描下方海报二维码,即刻报名 Rust Embedded 训练营第二期!(@ Second State)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

https://www.rtecommunity.dev/

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流