开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
8 月 7 日凌晨,OpenAI 官方发布预告信息,将于太平洋时间周四上午 10 点举行网络直播,届时将有望发布传闻已久的 GPT-5 模型。
在几乎同一时间,网络上突然爆出了 GPT-5 的三个版本型号以及图表信息:共拥有 GPT-5、GPT-5 mini、GPT-5 nano。
据目前消息来看,GPT-5 的最大亮点并非空泛的跑分提升,而是在多模态、软件工程和 AI 智能体(Agent)这三个极具实用价值的领域,展现了相当大的性能提升。
综合多家媒体的报道,与以往单纯追求更大参数规模的路径不同,GPT-5 旨在将传统的 GPT 语言模型与专注于推理的「o」系列模型(如 o1、o3)整合在一起。
对于 GPT-5 的表现,OpenAI CEO Sam Altman 也曾多次公开表示「十分强大」,甚至形容自己在面对新模型时,有一种「自己相对 AI 毫无用处」的感觉。(@ APPSO)
#####
8 月 7 日,MiniMax 发布新一代语音生成模型 Speech 2.5,再次刷新全球最强语音模型的上限。
相比 5 月发布的 Speech 02,Speech 2.5 有三大新突破:多语种表现力更强、音色复刻更像、40 个语种覆盖更广。
多语种表现力飞跃:字错率、相似度、自然韵律度超越前代 Speech 02,英文相似度显著提升;
音色复刻更「像」:跨语种复刻口音保留、同语种不同地区的口音保留、特殊年龄的声音复刻等;
多语种增至 40 个:新增保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语等。
Speech 2.5 已全球上线,欢迎登录 MiniMax 开放平台或 MiniMax Audio 官网体验。
MiniMax 开放平台:
minimaxi.com/platform_overview
MiniMax Audio:
minimaxi.com/audio (@ MiniMax 稀宇科技)
###
#####
腾讯的 AI 工作台 ima 推出了包括 AI 播客、文件夹导入、Xmind 脑图导入和知识库内容置顶在内的新功能。
AI 播客功能能够将文档转化为双人对话式播客,提供个性化的开场语和配乐。
ima 的 AI 播客功能借助「混元大模型」实现,能够围绕原文多角度讨论,确保重点内容不遗漏。用户只需上传文档,即可生成自然、互动的播客内容,配以个性化开场语和配乐,带来更佳的听觉体验。
文件夹导入功能简化了文档管理,而知识库内容置顶则方便了重要信息的快速查找。允许用户直接上传整个文件夹,无需逐个传输文件,极大地简化了文档管理流程,同时保证了文件层级的完整性。
此外,ima 还支持 Xmind 文件的导入和解读,用户可以将脑图直接上传到知识库中,并在共享知识库时将重要文档置顶,方便快速查找。(@ OneThingAI Lab)
上下文感知:模型通过深度理解文本的上下文,不仅能正确发音,还能以符合语境的语气、语调朗读,让内容更易于理解;
多模态支持:基于多模态模型,FlowSpeech 不仅能处理纯文本,还能识别并朗读图片、PDF 文稿中的内容;
智能剪裁:系统能智能识别并自动去除不适合朗读的内容,如广告、代码块和无意义的乱码,确保音频内容的纯净和流畅;
定制声音: ListenHub 的 Pro 会员支持声音定制功能;
高效流式响应:FlowSpeech 支持流式响应,最快 3 秒即可开始朗读,合成 1000 字内容仅需 10 秒,大大提升了用户体验。
marswave 团队联合硅基流动,推出了限时免费体验活动,用户可在 8 月 7 日至 8 月 13 日 期间免费使用。iOS 版本将在下周更新到 App Store,Android 版本正在开发中。
FlowSpeech 也将推出 TTS API 服务,方便开发者将其集成到自己的产品中,为 AI 助手、内容平台等提供更具表现力的语音能力。
官网链接:
https://listenhub.ai/ (@ 橘子汽水铺)
#####
#####
该系统通过多智能体蜂群架构,将复杂的任务分解并分配给一个庞大的智能体团队。用户只需用一句自然语言描述任务,系统就会自动调用多个智能体(如超级配音演员、智能绘图专家、高级剪辑师等)协同工作,完成包括创意策划、分镜设计、画面生成、配音配乐和剪辑合成在内的整个制作流程。整个过程透明、可编辑,用户可以随时干预和修改。
L4 级别多智能体协作:首次将智能体协作提升到 L4 级别,通过「群体智能」解决复杂任务,实现了从单兵作战到多智能体团队协作的飞跃;
高可靠性与容错能力:针对多智能体协作中常见的「协同困境」,该系统通过自研的 360 智脑 72B 模型和容错设计,将单步成功率提升至 99.97%,确保复杂任务的整体成功率高达 95.4%;
超长任务处理:能够生成最长达 10 分钟的视频,并且不限制 token 数量和时长。它能处理超过 1000 步的复杂任务,并消耗超过 1400 万 token;
降低成本和门槛:相较于市场方案,该系统能将一分钟视频的制作成本降低 95% 以上。通过自然语言即可组建和管理智能体团队,实现了零基础、低成本完成专业级任务;
开放性和可定制性:系统包含一个智能体工厂,允许用户自定义和创建自己的智能体团队,并支持无限工具调用、无限上下文长度以及集成上百种主流模型。
相关链接:
https://bot.n.cn/ (@ 量子位)
###
近期,前 Google X 商务总监 Mo Gawdat 在播客节目《The Diary of a CEO》中发出严厉警告:AI 将引发一段长达 15 年的「地狱」历程,从 2027 年起,全球经济与社会将陷入深度动荡。
目前教育与企业界普遍将 AI 视作辅助工具,但 Gawdat 的警示强烈指出,若社会未对 AI 带来的变革做好准备,其影响远超过去任何一次工业革命。与以往主要冲击体力劳动不同,这一次冲击对象是受过广泛教育的白领阶层,尤其是中产阶级将首当其冲。
Gawdat 还预测,由此引发的社会问题包括心理健康恶化、孤独感扩大及社会分裂。他呼吁立即采取政策干预,包括全民基本收入(UBI)与强力监管,以防止 AI 权力集中与财富垄断,同时维护社会稳定。
尽管如此,他对 2040 年后的人类未来仍保有希望,认为 AI 可以释放人们脱离重复劳动,让人类更多地专注于爱、社区与精神探索,迎来一种更具意义的「乌托邦」社会。
他强调,这一转折点关键在于当下社会选择如何应对 AI 的崛起,比如如何引入「道德编程」,确保 AI 可被人性化治理。
视频链接:
https://youtu.be/S9a1nLw70p0?feature=shared (@ APPSO)
###
###
招聘、项目分享、活动招募、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
#####
第二期 Rust Embedded + AI 智能硬件训练营现已正式开放报名。
本期训练营由 Second State 联合 Rust 基金会、Rust 语言中文社区及清华大学开源操作系统训练营共同打造,由 RTE 开发者社区支持。聚焦「让 Rust 在芯片上跑起来」,我们将带你深入嵌入式开发核心,用纯 Rust 语言,从零打造一个属于你自己的 AI 智能语音硬件!
本期训练营的核心目标是:在 ESP32-S3 芯片上构建一个功能完整的 Voice AI Agent! 通过实战,你将掌握:
嵌入式 Rust 核心技能: 使用标准 std Rust 驱动主流芯片(ESP32-S3);
外设控制: 驾驭蓝牙、麦克风、喇叭、显示屏等硬件交互;
网络通信: 实现 WebSocket 通讯,连接设备端与云端;
AI agent 服务: 在个人电脑上用 Rust 开发基于 WebSocket 的 AI agent,支持 MCP 服务,驱动智能硬件;
语音控制万物: 最终实现通过语音指令,让你的 ESP32 设备控制外部世界!
本次训练营的所有软件都在 EchoKit 上运行。EchoKit 是一个基于 ESP32 的智能语音设备,能让用户以语音与任何大语言模型对话,同时支持 MCP 等 AI 工具使用以及 agent 开发框架。它的设备端与服务端软件都由 Rust 编写。
详见:https://echokit.dev
扫描下方海报二维码,即刻报名 Rust Embedded 训练营第二期!(@ Second State)
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻