AI测试智谱发布端到端多模态模型 GLM-Realtime，2 分钟记忆能力；讯飞星火同传语音大模型发布，5 秒时延

RTE开发者社区 · 2025年01月16日 · 4333 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@ 鲍勃

01 有话题的技术

1、Luma AI 推出 Ray2 视频生成模型，实现更快更自然的运动效果

Luma AI 近日在其 Dream Machine 生成 AI 视频创作平台上推出了最新的视频生成模型 Ray2，这一创新在业内引起了广泛关注。

Ray2 的推出标志着 Luma AI 在视频生成技术上的又一突破。Luma AI 联合创始人兼首席执行官阿米特・简（Amit Jain）表示，Ray2 经过十倍于前代模型 Ray1 的计算训练，具备「快速、自然、一致的运动和物理特性」。这一进步显著提高了生成可用于生产的视频的成功率，使更多人能够轻松进行视频创作。

目前，Ray2 主要支持文本生成视频功能，用户可以输入描述，生成 5 到 10 秒的短视频。尽管由于需求激增，生成视频的时间有时会达到几分钟，但模型本身的生成速度相当快。

Luma AI 分享的示例视频展现了 Ray2 的多样性，包括一个人在南极暴风雪中奔跑的场景以及一位芭蕾舞者在北极冰面上表演的画面。这些视频中的动作看起来生动流畅，且动作速度远超其他竞争对手的 AI 生成视频，后者往往显得有些缓慢。

用户们对 Ray2 的反馈也非常积极，许多创作者在社交媒体上称赞其出色的摄影效果、照明和真实感。不过，一些用户在测试中发现，对于复杂的提示，生成结果可能会出现不自然和失真的情况。

官方表示，Ray2 最初在 Dream Machine 中提供给付费订阅者，以控制生成排队时间， Image/Video-to-Video（图生视频，视频生成视频功能）以及更长时间的产品即将推出。（@AIbase 基地）

2、上海人工智能实验室：书生·浦语大模型升级

上海人工智能实验室宣布其书生大模型迎来了重要版本升级，推出了书生・浦语 3.0（InternLM3）。据实验室介绍，新的版本通过精炼的数据框架，显著提升了数据使用效率，从而实现了思维密度的提升。

此次升级的 InternLM3-8B-Instruct 模型仅使用 4T 的数据进行训练，官方表示其综合性能超过了同等规模的开源模型，且训练成本节约了超过 75%。值得注意的是，这一版本首次在通用模型中实现了常规对话与深度思考能力的融合，能够更好地应对多样化的真实使用场景。

在模型的评测方面，研究团队基于司南 OpenCompass 开源评测框架，采用了一种统一可复现的方法进行评测。评测内容涉及 CMMLU、GPQA 等十多个权威评测集，涵盖推理、数学、编程、指令跟随、长文本生成、对话及综合表现等多个维度。评测结果显示，书生・浦语 3.0 在大多数评测集中的得分领先，综合性能与 GPT-4o-mini 非常接近。

上海 AI 实验室还表示，这一新版本的模型成为了开源社区中首个支持浏览器使用的通用对话模型，能够支持 20 步以上的网页跳转，从而实现深度信息的挖掘。（@AIbase 基地）

3、Vidu2.0 正式上线 10 秒生成短片，主体一致性效果更佳

国产视频大模型 Vidu 迎来重大升级，正式发布 2.0 版本。新版本最显著的提升在于生成速度的大幅跃迁，从原先的 30 秒缩短至惊人的 10 秒，效率提升高达三倍。理论上，用户仅需花费 5 分钟，即可生成长达 1 分钟的视频素材。这一突破性的进展，无疑将极大加速视频内容的创作效率。

Vidu2.0 在提升速度的同时，也对视频质量进行了全面优化。新版本生成的视频在风格和主体的一致性上表现更佳，首尾帧过渡也更加自然流畅。此外，Vidu2.0 还推出了极具竞争力的超值套餐，创作成本低至每秒 4 分钱，大大降低了用户的创作门槛。更值得一提的是，Vidu2.0 还提供了错峰使用模式，在低峰时段不限量、不扣积分，让用户可以尽情释放创作灵感。新版本还支持批量生成功能，一次性可生成四条视频素材，效率再度翻倍。

为了更好地服务国内用户，Vidu2.0 中国站点也同步上线，并进行了多项本地化优化。用户注册流程更加快捷，界面设计也更符合中文用户的使用习惯，操作更加直观流畅。同时，新版本还支持本地支付方式，让国内用户操作更加便捷。

自 2024 年 7 月底全球上线以来，Vidu 凭借其强大的性能和易用性，迅速赢得了全球用户的青睐。仅用 20 天，用户数就突破百万；上线 100 天，用户数更是突破千万。

目前，Vidu 已服务全球超过 200 个国家和地区，用户规模稳居行业前列。平台累计生成的视频数量已突破亿条，其中，全球首发的「参考生视频」功能上线仅三个月，产生的视频数量就已达千万级别。每天，来自世界各地的用户都在 Vidu 的助力下，释放着无限的创意和想象力。Vidu2.0 的发布，预示着视频创作领域将迎来又一次革命性的变革。（@AIbase 基地）

4、科大讯飞星火同传语音大模型发布：达到人类专家译员水平

科大讯飞正式发布了其最新研发的星火同传语音大模型，标志着国内首个具备端到端语音同传能力的大模型正式面世。这一创新技术相较于讯飞此前的翻译技术，实现了全场景翻译效果的显著提升，并大幅缩短了端到端的响应时间。

星火同传语音大模型的发布，为用户带来了更加流畅、精准的同传体验。在讯飞演示中，搭载了星火同传语音大模型的讯飞翻译机在英译中语音同传方面几乎实现了无延迟，非常适合出国旅游、国际展会等场景使用。这一优化不仅显著提升了翻译字幕的呈现速度，还保证了中英互译的准确性。

据了解，星火同传语音大模型支持译文长度反向调控，语音到文本的端到端翻译过程中，能够流式地进行意群切分、语境理解和信息重组。同时，流式语音合成技术还能够支持意群韵律衔接和自适应语速调节，进一步提升了翻译的自然度和流畅度。

在国际交流场景中，无论是日常对话、商务交流还是行业翻译等高难度同传翻译需求，星火同传语音大模型都展现出了卓越的性能。其内容完整度、信息准确度以及语言质量均处于行业领先水平，并超越了谷歌 Gemini2.0 和 OpenAI GPT-4o 等同传技术。最快可实现 5 秒以内的同传时延，达到了人类专家译员的水平。

科大讯飞的星火同传语音大模型的发布，不仅代表了国内 AI 翻译技术的重大突破，也预示着未来国际交流将更加便捷和高效。（@AIbase 基地）

5、智谱 Realtime 新模型发布，同步上新 API

基于对多模态模型的持续研究，智谱推出了全新的端到端多模态模型 GLM-Realtime。该模型在视频通话上具备长达 2 分钟的会话内容记忆能力。　
　
此外，GLM-Realtime 模型在语音交互方面，支持端到端语音交互，尤其创新性地提供了清唱功能，让大模型具备歌唱能力。　

值得一提的是，GLM-Realtime 在实现完全实时交互的基础上，进一步支持 Function Call 功能。这一功能使得 GLM-Realtime 不仅能够依靠自身的知识和能力，还能灵活调用外部知识和工具，从而能够拓展到更广泛的应用场景当中。
　
为展示 GLM-Realtime 的实时交互能力，他们将 GLM-Realtime 集成到智能眼镜和陪伴娃娃中，用户可以体验到近乎实时的智能助手交互。智谱相信具备视频&语音能力并能够实时交互能力的 GLM-Realtime 模型，将为 AI 硬件奠定坚实的智能基础。

GLM-Realtime API 已经上线智谱开放平台 bigmodel.cn，现阶段可以免费调用。

02 有亮点的产品

1、Copilot Chat：可直接调用企业自有数据，执行端到端的超复杂自动化业务流程。

从陶氏化工到迪士尼，全球众多「世界 500 强」正通过 Copilot 和 AI Agent 简化其工作流程，创造一种全新的「人机协作」模式。所以，本次发布的 Copilot Chat 主要面向的是企业客户，帮他们扩大 AI 应用范围实现降本增效。

Copilot Chat 主要功能介绍

AI Agent 功能： 现在用户可以直接在 Copilot Chat 的聊天中，通过自然语言创建 Agent，用于执行自动化重复、枯燥、复杂的业务流程。

例如，客户服务代表可在会议前通过 CRM Agent 查询账户详细信息，现场服务人员可访问 SharePoint 中存储的分步说明和实时产品知识等。

如果企业想打造量身定制的 Agent 也没问题，通过微软发布 Copilot Studio 中的 Agent SDK，可以自由连接 Azure AI Foundry，Semantic Kernel 等多种服务，可以将其部署在 Microsoft 365、Microsoft Teams、Web 或第三方应用中执行更复杂的跨端到端的自动化业务流程。

此外，Copilot Studio 也支持将 Agent 嵌入到 IVR 系统中执行多模态任务，只需提供特定数据集，Agent 就可以自动处理一系列复杂语音业务流程，包括语音识别、处理中断、检测静默等。

例如，酒店可以把 AI Agent 集成在迎宾应用中，为客户提供自动化语音引导服务改善使用体验。

聊天功能： Copilot Chat 提供聊天功能，使用方法与 ChatGPT 一样，可用于市场调研、撰写发展战略报告或准备会议资料等。

支持文件上传，能对 Word 文档总结要点、分析 Excel 表格数据、改进 PowerPoint 演示文稿，还可通过 Copilot Pages 实现人员和 AI 实时协作内容创作，并且能快速创建用于活动、产品发布和社交媒体帖子的 AI 生成图像。

为了确保数据的安全性和合规性，Microsoft 365 Copilot Chat 内置了企业级数据保护（EDP）系统。用户可以同一管理访问控制、监控使用模式、确保数据隐私和安全。

目前，Copilot Chat 中的 Agent 功能已经可以使用，采用按需付费模式每条消息的费用为 0.01 美元，也可以使用按月模式，每月 200 美元可使用 25,000 条消息。（@AIGC 开放社区）

2、「Eko」：通过简单的代码和自然语言帮助开发者快速构建可用于生产的「虚拟员工」。

近日，清华大学、复旦大学与斯坦福大学的研究团队联合发布了一款名为「Eko」的 Agent 开发框架，旨在通过简单的代码和自然语言帮助开发者快速构建可用于生产的「虚拟员工」。

Eko 框架能够接管用户的电脑和浏览器，代替人类完成各种繁琐的任务。通过 Eko，用户可以实现自动化的数据收集、测试和文件管理等功能。例如，用户可以设定 Eko 自动收集雅虎财经上的最新股票数据，并生成可视化报告。又如，Eko 能够进行登录页面的自动化测试，以确保系统的安全性和稳定性。这一切都意味着，Eko 可以大大提升工作效率，减轻人类的负担。

其核心技术创新主要体现在三个方面。首先是「混合智能体表示」，它将自然语言与程序语言无缝结合，便于开发者表达高层次设计意图。其次是「跨平台 Agent 框架」，通过环境感知架构支持不同操作环境，确保 Eko 能够在浏览器和电脑之间灵活应用。最后是「生产级干预机制」，Eko 允许人类对智能体的工作流程进行实时监控与干预，保证任务的准确性和安全性。

Eko 的环境感知架构分为通用核心、环境特定工具和环境桥接三个层次。通用核心提供基础功能，环境特定工具则根据不同环境优化操作。而环境桥接则负责不同平台之间的资源管理和安全控制，确保高效互动。

此外，Eko 还引入了「视觉 - 交互要素联合感知」的新颖解决方案，大幅提升了在复杂网页中的任务精度和效率。这一框架将视觉识别与元素上下文信息结合，优化了自动化操作的表现。

03 有态度的观点

1、高通中国区董事长：AI 的最大价值在于全面赋能一切

近日，高通中国区董事长孟樸与钛媒体进行对话，并表示 AI 的最大价值在于全面赋能产业、技术与产品。孟樸提到，AI 的最大价值在于全面赋能产业、技术与产品。他表示，在 AI 时代不会有单一的「杀手级」应用，但多样化的创新将层出不穷。并且他可以预见，未来几年，AI 将持续重塑 PC、手机、汽车，甚至工业领域的多种类型终端。同时孟樸还表示，AI 本身发展并非近几年才兴起，而是因大模型出现而加速，因此他觉得这只是刚刚开始，AI 是一个赋能的技术。并且通过 AI 所赋能的终端产品，会在今后几年里一代代叠加，变得花样百出。此外，对于芯片公司在 AI 时代的挑战，孟樸认为，一方面需满足生成式 AI 对算力的新要求，进行芯片设计和架构创新，另一方面，要平衡性能、能效和成本，以确保移动终端的续航能力和用户体验。(@APPSO)