图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、智谱正式发布 GLM-5.1,7540 亿参数 MIT 开源

图片

图片

图片

智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1,该模型专为 Agentic 工程设计,拥有 7540 亿 参数并以 MIT License 开源。

GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出,在综合能力和编程上对齐 Claude Opus,并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。

该模型的核心突破在于其显著提升的长程任务能力,能够在单次任务中自主工作长达 8 小时,通过数百轮迭代和数千次工具调用持续优化结果。

例如,在 VectorDBBench 中完成超 655 轮迭代,实现约 6 倍 的 QPS 提升;在 KernelBench Level 3 达到 3.6 倍 加速比;以及耗时 8 小时 从零构建完整的 Linux 桌面系统。

HuggingFace 链接:

https://huggingface.co/zai-org/GLM-5.1

(@ 橘鸦 Juya)

2、ACE-Step v1.5 发布:LM+DiT 架构支持 10 分钟音频生成,VRAM 门槛降至 4GB

图片

开源音乐基础模型 ACE-Step v1.5 通过 LM+DiT 混合架构实现了商业级音频生成质量,并显著降低了硬件运行门槛。该模型支持在消费级显卡上快速生成长达 10 分钟的音频,并集成了多种音频编辑与 LoRA 个性化能力。

GitHub 链接:

https://github.com/ace-step/ACE-Step-1.5

HuggingFace 链接:

https://huggingface.co/collections/ACE-Step/ace-step-15

@GitHub

3、小米发布 Xiaomi Any2Speech 与 Midasheng:支持 10 分钟长音频合成与全场景语音 - 音效统一建模

小米大模型应用团队推出两项音频生成框架:Xiaomi Any2Speech 侧重长文本及多角色叙事,支持单次推理生成 10 分钟连贯音频;

Midasheng-audio-generate 侧重声效重建,通过自然语言驱动语音、音乐与环境音的统一合成。该方案标志着语音合成从单纯的文字转语音(TTS)转向全场景语义建模。

(@ 量子位)

02 有亮点的产品

1、AI 语音调研 Miravoice 获 630 万美元种子轮融资:推出支持 120+ 问题、单次通话超 40 分钟的 AI 语音调查智能体

图片

Leybzon、Nishant Jain 和 Shreyas Tirumala 是 Miravoice 的联合创始人。

Miravoice 宣布完成 630 万美元种子轮融资,由 Unusual Ventures 领投。该公司开发了专为长篇、高精度电话调查设计的 AI 智能体,旨在取代传统呼叫中心,通过结构化对话实现大规模定量研究数据的自动化采集

( @crunchbase)

2、Sand.ai 完成逾 5000 万美元融资

据知情人士透露,Video Agent 赛道明星公司 Sand.ai 近期完成新一轮约 5000 万美元融资

Sand.ai 旗下产品 VidMuse 上线仅 2 个月,年度经常性收入(ARR)即突破千万美元,成为 Video Agent 赛道达成这一商业化里程碑速度最快的产品。

VidMuse 首创「Music in Video Out」(音乐生视频)范式,以音频驱动视频创作为核心,底层技术来自 Sand.ai 自研的音视频原生架构。

( @APPSO)

3、扣子推出 Agent World,为 AI 智能体配备云设备与专属邮箱

图片

扣子(Coze)昨天正式发布 2.5 版本,推出「Agent World」全新生态体系,围绕云设备、技能扩展与 AI 智能体人格三大方向进行全面升级。

( @APPSO)

03 有态度的观点

1、AI 界再来新词:被淘汰恐惧 FOBO

据《财富》杂志结合麻省理工学院(MIT)的最新研究发布报告,指出人工智能对就业市场的自动化冲击呈渐进式发展,且正引发职场群体日益加剧的「被淘汰恐惧(FOBO)」

据悉,FOBO 全称为 Fear of Becoming Obsolete(对被淘汰的恐惧)。与传统「失业焦虑」不同,这种情绪更多指向「自己会变得无关紧要」

MIT 研究团队在最新报告《Crashing Waves vs。 Rising Tides》中,对包括 GPT-5、Gemini 2.5 Pro 及 DeepSeek R1 在内的 40 余款前沿大模型进行了 1.7 万次人工评估。测试结果表明,AI 目前已能以最低合格标准完成 50% 至 75% 的文本类工作任务

研究指出,AI 任务失败率正以每 2 至 3 年减半的速度下降;按此趋势测算,至 2029 年,AI 预计能以 80% 至 95% 的成功率完成大部分常规文本工作。职场群体的危机感已反映在统计数据中。毕马威(KPMG)数据显示,目前有 40% 的员工将 AI 引发的失业视为核心担忧,该比例同比激增近一倍。

安永(EY)全球首席创新官 Joe Depa 证实了这一职场分化现象,他表示企业内部初级员工对 AI 工具的采用率极高,而部分资深软件工程师因抗拒使用 AI,其实际生产力已被借助 AI 的同行拉开 10 倍至 20 倍的差距

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流