开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
1、字节新出一款轻量级 TTS 模型:MegaTTS3
MegaTTS3 是字节跳动最新研发并开源的新一代文本转语音模型。它的核心目标是生成高度自然、富有情感并且与目标说话人音色高度相似的语音。
与许多大型模型不同,MegaTTS3 在追求高质量的同时,也注重模型的效率和轻量化。其主要特点包括:
高质量语音合成: 旨在生成清晰、自然、韵律丰富的语音。
中英双语支持: 无缝支持中文和英文的文本输入,甚至能在同一段语音中实现自然的代码切换(Code-Switching)。
高质量语音克隆: 能够学习并模仿目标说话人的独特音色,实现个性化语音合成。
轻量级架构: 其核心 TTS Diffusion Transformer 主干网络参数量仅为 0.45B,相对高效。
可控性: 支持对部分语音属性进行控制,如口音强度等。(@ 努力犯错玩 AI)
2、生数科技国产视频生成模型 Vidu Q1
生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。Vidu Q1 作为业内首个高可控 AI 视频大模型,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效,这使得它在众多视频大模型中脱颖而出。以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1 支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。
用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。音效同步可控功能则确保了随着视频环境与画面转场,Vidu Q1 能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如 0-2s 风声、3-5s 雨声等,节省时间的同时,也大大增强了视频的沉浸感与感染力。Vidu Q1 模型通过进一步增强画质,则能够为用户带去更加清晰、细腻、逼真的视觉体验。(@ 生数 ShengShu)
1、面壁首个纯端侧智能助手「上车」
3 月 30 日,面壁智能 CEO 李大海出席 2025 中国电动汽车百人会,并宣布公司首个纯端侧智能助手「小钢炮超级助手 cpmGO」正式搭载至汽车智能坐舱。据悉,小钢炮超级助手 cpmGO 由面壁小钢炮 MiniCPM 模型驱动,是智能座舱目前首个纯端侧方案,其具有多项特点:
具有跨越舱外至舱内的全链条感知、决策与执行能力,实现了端到端的智能化应用。其中 cpmGO 方案拥有行业首个纯端侧 GUI Agent 屏幕助手,用户无需触控点击,实现「可见即可说」;
具有视觉、语音、多模态、图形 UI 交互、融合感知、意图判断与执行等丰富能力库,为智能座舱带来了感知与智能的全面升级;
此外,小钢炮超级助手 cpmGO 提供了全场景货架级原子产品「AI-Native 智能座舱」,将以「用户为中心、数据为驱动、智能为内核」为核心理念,旨在重新定义人车交互的边界,为用户提供更自然、更高效、更具个性化的座舱体验。面壁方面表示,将进军智能座舱领域,推进智能汽车「端侧大脑」开发;以 cpmGO 为起点,面壁智能正致力于构建车端最强「端侧大脑」,推动智能汽车产品跨越式提升,为用户带来更高阶、更智能的体验。目前,「面壁小钢炮」凭借其卓越的性能表现,在 3 月看到的智能汽车销量 TOP5 榜单中,其合作伙伴已占据三席;同时面壁已经与一汽大众、长安、长城、上汽、德赛西威、中科创达等业内领先企业建立了良好的沟通与合作,共同挖掘智能座舱的端侧潜力。(@APPSO)
2、实测会沉思的国产 Agent :深度研究又能自己干活的 AI ,免费不限量
在中关村论坛智谱 Open Day 上,智谱发布了 AutoGLM 沉思——首个带有沉思能力的桌面端 agent。 这是第一个存在于电脑桌面的,能先思考在做事,且做的过程中不断思考的 agent 。抛给它一个问题,它会逐步分解问题,然后在你面前(或者你不看着它也行)打开一个又一个浏览器标签页,自己上去搜索、查找、记录、汇总、分析信息,最终为你生成一份经过充分查证和深度思考的结果报告。
AutoGLM 是智谱推出的 Agent 产品,能够实现对手机屏幕和电脑浏览器的操作。重点在于实现方式是前台的图形界面(GUI),而不是后台的应用接口(API)。可以理解为 AutoGLM 学习人类通过「手眼并用」的方式,直接在用户界面上进行操作。这和市面上绝大多数基于 API 的 agent 产品有着明显的交互方式区别。而沉思能力,正如字面意思,让 AI 可以一边想、一边搜,自主解决开放式的、训练语料不包含的问题,模仿深度思考和展现深度研究的能力。智谱在今年 3 月初拿到新一轮融资的时候就对外预告正在研发沉思,而这个功能的开关也已经在该公司开发的「智谱清言」(ChatGLM)大模型产品里上线了。
而在 AutoGLM 沉思的身上,智谱独特的 GUI agent 功能,和人们最追捧和爱用的沉思能力,终于实现了融合。
AutoGLM 沉思背后的模型基座,也在本次 Open Day 上正式发布:GLM-4-Air-0414 基座模型,具有 320 亿参数量,但性能足以对标 DeepSeek-V3、R1(670B)、Qwen 2.5-Max 等更大参数量的模型。但因为参数量更少,GLM-4-Air0414 可以快速执行 agent 类工作,为 agent 的能力提升以及大规模落地应用提供基础,也一定程度上确保了终端用户的试用体验。
智谱还发布了 GLM-Z1-Air 推理模型,相比 DeepSeek-R1(激活 37B)推理速度提升了 8 倍,而成本降低到只有后者的三十分之一。这也是一个可以在消费级显卡上运行的推理模型,能够显著提高开发者的使用体验。(@APPSO)
1、微软 CEO 内部发言:DeepSeek 是微软的新标杆
据外媒 The Verge 报道,微软 CEO 萨蒂亚·纳德拉近期在一次内部全员会议上表示,DeepSeek 的 R1 模型已成为微软 AI 发展的新标杆。纳德拉特别强调了 DeepSeek 团队的高效运作:「DeepSeek 最令人印象深刻的是,它展示了 200 人团队齐心协力能够创造的成就。更重要的是,他们不仅仅停留在研究项目或开源项目阶段,而是将其打造成应用商店中排名第一的产品。这就是我心目中的新标准。」报道指出,相比之下,微软的 Copilot 应用尚未取得同样的成功。尽管微软能够使用 OpenAI 的最新模型,并投入大量资金进行宣传,以及对 Copilot 进行包括语音和视觉功能在内的设计更新,但通常排名甚至不在前 100 名应用之列。为此,纳德拉正寻求通过微软自身的 AI 研发而非仅依赖 OpenAI 来提升其市场地位。除了改进 AI 模型,微软今年还计划投资 800 亿美元用于建设数据中心,以支持 AI 相关的工作负载。
纳德拉表示:「我们希望在一定程度上将自身定位为未来每个工作负载都能像 ChatGPT 一样。同时,在 AI 加速器、存储和计算之间存在着一定的平衡比例,这是我们正在努力协调的。这就是我们资金的主要投向,而且即使不考虑 AI 的因素,我们的云计算业务也在持续增长。」(@APPSO)
1、报名 | AMD AI PC 应用创新大赛正式开启,学习与奖励双重收获!
3 月 18 日,由始智 AI wisemodel 开源平台与 AMD AI PC 应用创新联盟 联合主办的 「AMD AI PC 应用创新大赛」 正式拉开帷幕。大赛面向全球广泛招募参赛选手,无论是企业团队、科研精英、高校学生,还是独立开发者,均可自由组队参赛(每队 1 - 5 人)
参赛者可以结合 AMD NPU 算力与 DeepSeek 等大模型技术开发应用,具体场景、模型和技术实现不限。
消费级创新: 比如聚焦衣食住行、个人知识库、音视频创作、游戏、智能办公、内容创作、开发工具等。
行业级变革: 比如赋能医疗、教育、金融、零售、制造等领域,打造 AI 行业解决方案,如智能诊疗系统、工业质检 Agent 等。
报名方式详见➡️公众号「始智 AI wisemodel」招募文章。
更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻