AI测试字节开源轻量级 TTS 模型 MegaTTS3，中英切换自如；面壁首个纯端侧智能助手「上车」，支持多模态交互丨日报

RTE开发者社区 · 2025年03月31日 · 2112 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、字节新出一款轻量级 TTS 模型：MegaTTS3

MegaTTS3 是字节跳动最新研发并开源的新一代文本转语音模型。它的核心目标是生成高度自然、富有情感并且与目标说话人音色高度相似的语音。

与许多大型模型不同，MegaTTS3 在追求高质量的同时，也注重模型的效率和轻量化。其主要特点包括：

高质量语音合成： 旨在生成清晰、自然、韵律丰富的语音。
中英双语支持： 无缝支持中文和英文的文本输入，甚至能在同一段语音中实现自然的代码切换（Code-Switching）。
高质量语音克隆： 能够学习并模仿目标说话人的独特音色，实现个性化语音合成。
轻量级架构： 其核心 TTS Diffusion Transformer 主干网络参数量仅为 0.45B，相对高效。
可控性： 支持对部分语音属性进行控制，如口音强度等。（@ 努力犯错玩 AI）

2、生数科技国产视频生成模型 Vidu Q1

生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。Vidu Q1 作为业内首个高可控 AI 视频大模型，其在多主体细节可控（特别是动作、布局可控）、音效同步可控、画质增强等方面均取得显著成效，这使得它在众多视频大模型中脱颖而出。以多主体细节可控为例，在语义指令的基础上，通过融入参考图的视觉指令，Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控，对所有动作行为（出场、退场、坐立姿态、行动路线）进行精准调整。

用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。音效同步可控功能则确保了随着视频环境与画面转场，Vidu Q1 能够输出生成相应音效，并可精准控制每段音效的长短区间，精准设置每段音频出现的时间点，如 0-2s 风声、3-5s 雨声等，节省时间的同时，也大大增强了视频的沉浸感与感染力。Vidu Q1 模型通过进一步增强画质，则能够为用户带去更加清晰、细腻、逼真的视觉体验。（@ 生数 ShengShu）

02.有亮点的产品

1、面壁首个纯端侧智能助手「上车」

3 月 30 日，面壁智能 CEO 李大海出席 2025 中国电动汽车百人会，并宣布公司首个纯端侧智能助手「小钢炮超级助手 cpmGO」正式搭载至汽车智能坐舱。据悉，小钢炮超级助手 cpmGO 由面壁小钢炮 MiniCPM 模型驱动，是智能座舱目前首个纯端侧方案，其具有多项特点：

具有跨越舱外至舱内的全链条感知、决策与执行能力，实现了端到端的智能化应用。其中 cpmGO 方案拥有行业首个纯端侧 GUI Agent 屏幕助手，用户无需触控点击，实现「可见即可说」；

具有视觉、语音、多模态、图形 UI 交互、融合感知、意图判断与执行等丰富能力库，为智能座舱带来了感知与智能的全面升级；

此外，小钢炮超级助手 cpmGO 提供了全场景货架级原子产品「AI-Native 智能座舱」，将以「用户为中心、数据为驱动、智能为内核」为核心理念，旨在重新定义人车交互的边界，为用户提供更自然、更高效、更具个性化的座舱体验。面壁方面表示，将进军智能座舱领域，推进智能汽车「端侧大脑」开发；以 cpmGO 为起点，面壁智能正致力于构建车端最强「端侧大脑」，推动智能汽车产品跨越式提升，为用户带来更高阶、更智能的体验。目前，「面壁小钢炮」凭借其卓越的性能表现，在 3 月看到的智能汽车销量 TOP5 榜单中，其合作伙伴已占据三席；同时面壁已经与一汽大众、长安、长城、上汽、德赛西威、中科创达等业内领先企业建立了良好的沟通与合作，共同挖掘智能座舱的端侧潜力。(@APPSO)

2、实测会沉思的国产 Agent ：深度研究又能自己干活的 AI ，免费不限量

在中关村论坛智谱 Open Day 上，智谱发布了 AutoGLM 沉思——首个带有沉思能力的桌面端 agent。 这是第一个存在于电脑桌面的，能先思考在做事，且做的过程中不断思考的 agent 。抛给它一个问题，它会逐步分解问题，然后在你面前（或者你不看着它也行）打开一个又一个浏览器标签页，自己上去搜索、查找、记录、汇总、分析信息，最终为你生成一份经过充分查证和深度思考的结果报告。

AutoGLM 是智谱推出的 Agent 产品，能够实现对手机屏幕和电脑浏览器的操作。重点在于实现方式是前台的图形界面（GUI），而不是后台的应用接口（API）。可以理解为 AutoGLM 学习人类通过「手眼并用」的方式，直接在用户界面上进行操作。这和市面上绝大多数基于 API 的 agent 产品有着明显的交互方式区别。而沉思能力，正如字面意思，让 AI 可以一边想、一边搜，自主解决开放式的、训练语料不包含的问题，模仿深度思考和展现深度研究的能力。智谱在今年 3 月初拿到新一轮融资的时候就对外预告正在研发沉思，而这个功能的开关也已经在该公司开发的「智谱清言」（ChatGLM）大模型产品里上线了。

而在 AutoGLM 沉思的身上，智谱独特的 GUI agent 功能，和人们最追捧和爱用的沉思能力，终于实现了融合。

AutoGLM 沉思背后的模型基座，也在本次 Open Day 上正式发布：GLM-4-Air-0414 基座模型，具有 320 亿参数量，但性能足以对标 DeepSeek-V3、R1（670B）、Qwen 2.5-Max 等更大参数量的模型。但因为参数量更少，GLM-4-Air0414 可以快速执行 agent 类工作，为 agent 的能力提升以及大规模落地应用提供基础，也一定程度上确保了终端用户的试用体验。

智谱还发布了 GLM-Z1-Air 推理模型，相比 DeepSeek-R1（激活 37B）推理速度提升了 8 倍，而成本降低到只有后者的三十分之一。这也是一个可以在消费级显卡上运行的推理模型，能够显著提高开发者的使用体验。(@APPSO)

03.有态度的观点

1、微软 CEO 内部发言：DeepSeek 是微软的新标杆

据外媒 The Verge 报道，微软 CEO 萨蒂亚·纳德拉近期在一次内部全员会议上表示，DeepSeek 的 R1 模型已成为微软 AI 发展的新标杆。纳德拉特别强调了 DeepSeek 团队的高效运作：「DeepSeek 最令人印象深刻的是，它展示了 200 人团队齐心协力能够创造的成就。更重要的是，他们不仅仅停留在研究项目或开源项目阶段，而是将其打造成应用商店中排名第一的产品。这就是我心目中的新标准。」报道指出，相比之下，微软的 Copilot 应用尚未取得同样的成功。尽管微软能够使用 OpenAI 的最新模型，并投入大量资金进行宣传，以及对 Copilot 进行包括语音和视觉功能在内的设计更新，但通常排名甚至不在前 100 名应用之列。为此，纳德拉正寻求通过微软自身的 AI 研发而非仅依赖 OpenAI 来提升其市场地位。除了改进 AI 模型，微软今年还计划投资 800 亿美元用于建设数据中心，以支持 AI 相关的工作负载。

纳德拉表示：「我们希望在一定程度上将自身定位为未来每个工作负载都能像 ChatGPT 一样。同时，在 AI 加速器、存储和计算之间存在着一定的平衡比例，这是我们正在努力协调的。这就是我们资金的主要投向，而且即使不考虑 AI 的因素，我们的云计算业务也在持续增长。」(@APPSO)

04.活动推荐

1、报名 | AMD AI PC 应用创新大赛正式开启，学习与奖励双重收获！

3 月 18 日，由始智 AI wisemodel 开源平台与 AMD AI PC 应用创新联盟 联合主办的 「AMD AI PC 应用创新大赛」 正式拉开帷幕。大赛面向全球广泛招募参赛选手，无论是企业团队、科研精英、高校学生，还是独立开发者，均可自由组队参赛（每队 1 - 5 人）

参赛者可以结合 AMD NPU 算力与 DeepSeek 等大模型技术开发应用，具体场景、模型和技术实现不限。