AI测试马斯克：Grok 正在开发语音交互功能；阶跃星辰开源产品级语音交互大模型 Step-Audio 丨日报

RTE开发者社区 · 2025年02月18日 · 4424 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@ 鲍勃

01 有话题的技术

1、OpenAI 官宣开源！奥特曼在线征集方案，OpenAI 真的要 Open 了

OpenAI CEO Sam Altman 在 X 平台发文称：

「对于我们的下一个开源项目，我们应当选择开发一个虽然体积小但仍然需要借助 GPU 运行的 o3 mini 层级模型，还是应当致力于开发一个尺寸适合手机且表现最佳的模型呢？」

此外，Altman 还发起了投票。

截至发稿前，端侧模型的投票率大幅领先（编者注：北京时间 18 日下午 o3-mini 反超了），相比于 o3 mini 的开源，显然高赞评论的网友更希望开源 GPT-4。

Altman 曾在本月初公开承认 OpenAI 的闭源策略「站在了历史错误的一边」。( @APPSO)

2、阶跃星辰联合吉利首次开源 Step 系列多模态大模型

IT 之家 2 月 18 日消息，今日阶跃星辰和吉利汽车集团联合宣布，将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中，包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃 Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃 Step-Audio。

据 IT 之家了解，阶跃 Step-Video-T2V 模型的参数量达到 300 亿，可以直接生成 204 帧、540P 分辨率的高质量视频。阶跃星辰称， 从其获得的测评结果来看，它是目前全球范围内参数量最大、性能最好的开源视频生成大模型。

阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征，同时也能实现高质量的音色复刻。用户即日起可在跃问 App 内体验新功能。（@IT 之家）

3、马斯克发布 Grok-3，反击 DeepSeek、OpenAI

今天中午 12 点 20，马斯克旗下的大模型平台 xAI 进行技术直播，并发布了最新大模型——Gork3。

与第二代相比，Gork3 使用的算力提升了 310 倍，性能提升了 15 倍，硬件基础相当的猛。

根据测试数据显示，Gork3 在美国 AIME 数学竞赛、GPQA、代码编程方面，性能高于 OpenAI 的 o1、o3mini 以及 DeepSeek 的 R1。

Gork3 架构简单介绍

Grok3 采用了深度学习和强化学习相结合的方法。通过深度学习，模型能够从大量数据中提取特征和模式。强化学习使 Grok3 能够在训练过程中不断调整自身的策略，以获得更高的奖励信号。在推理任务中，Grok3 通过多次尝试和验证，不断优化自身的推理路径，从而找到最优解。

Grok3 的深度搜索功能是其架构中的另一个重要模块，够快速检索和验证信息，为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最先进的搜索引擎技术，但 Grok3 在此基础上进行了显著的改进和优化。

深度搜索模块能够模拟人类的搜索过程，不仅能够快速检索大量的信息，还能通过推理和验证确保信息的可靠性。在搜索过程中，Grok3 会生成一个高级进度条，展示其思考和搜索的过程。搜索完成后，在界面右侧会显示查询模型的启动摘要，包括浏览了哪些网站、验证了哪些来源，并且通常会交叉验证不同的来源，以确保答案的准确性。

Gork3 测试数据

测试结果显示，Grok3 在各个领域的表现都很出色。在高中竞赛数学测试中，Grok3 展现出了强大的解题能力；在博士级科学问题的解答上，也能够给出高质量的答案；在编程测试中，无论是竞争性编码还是面试问题，都非常出色。

除了基准测试，xAI 还对 Grok3 进行了盲测。该平台剥离了产品服务，仅对语言模型的引擎进行原始比较。用户在该平台上提交单一查询，会得到两个不同模型的响应，但无法知道这些响应来自哪个模型。

在这次盲测中，Grok3 的早期版本取得了令人瞩目的成绩，综合得分达到了 1400 分，在所有类别中均排名第一，且分数还在不断上升。

马斯克补充称：「如果你想要一个更完善的版本，可能要等待一周，但每天都会有所改进。我们还在开发语音交互功能，我认为这将是 Grok 3 最好的体验之一。」（@AIGC 开放社区）

4、国内首个短剧创作大模型开源了，一个人就能拍短剧，单卡 80 秒出大片

2 月 18 日，昆仑万维开源中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1、中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。

针对当前全球 AI 视频生成模型和产品不开源、用不到、费用高、不好用等痛点，昆仑万维 SkyReels 一次性开源 SkyReels-V1 和 SkyReels-A1 两个 SOTA 级别的模型和算法，将面向 AI 短剧创作的技术成果回馈开源社区和 AIGC 用户。而这只是我们在 AI 视频方向开源道路上的起点，未来将陆续开源更多面向 AI 短剧的优秀研究成果。

SkyReels-V1：Human-Centric Video Foundation Model 中国首个面向 AI 短剧创作的开源视频生成模型

得益于扎实的数据工作和先进的人物智能解析系统，SkyReels-V1 可以实现：

影视化表情识别体系：11 种针对影视戏剧中的人物表情理解，如不屑、不耐烦、无助、厌恶等表情的理解；
人物空间位置感知：基于人体三维重建技术，实现对视频中多人的空间相对关系理解，助力模型生成影视级人物站位；
行为意图理解：构建超过 400 种行为语义单元，实现对人物行为的精准理解；
表演场景理解：实现人物 - 服装 - 场景剧情的关联分析。

SkyReels-A1：首个 SOTA 级别的基于视频基座模型的表情动作可控算法

SkyReels-A1 能够基于任意人体比例（包括肖像、半身及全身构图）生成高度逼真的人物动态视频，其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

SkyReels-A1 不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。

SkyReels-A1 能够实现更大幅度的人物表情驱动。在下面视频中可以看到，相比 Runway 的 Act-One（无法生成），SkyReels-A1 可以迁移更复杂的表情动作，生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。

开源地址：
SkyReels-V1: https://github.com/SkyworkAI/SkyReels-V1 SkyReels-A1: https://github.com/SkyworkAI/SkyReels-A1

技术报告：
https://skyworkai.github.io/skyreels-a1.github.io/report.pdfSkyReels

官方地址：
skyreels.ai（@ 机器之心）

02 有亮点的产品

1、YOTO 把儿童听书 APP 做成了音箱，一年卖出 1 亿美金

（图片来源：YOTO）

创立于 2015 年的 YOTO 累计融资总额已超过 5750 万美元。在电子设备普及的今天，许多孩子沉迷于屏幕。为了帮助孩子与家长摆脱「屏幕依赖」，YOTO 推出了专注于「有声读物」的儿童无屏智能音箱。

YOTO 的智能音箱设计灵感来源于儿时的卡带播放器，用户只需插入内容卡片即可播放音频。其内容生态系统类似现代的音频听书 APP，提供超过 1000 种有声读物，包括故事、音乐、广播和绘本等多样化内容。目前，YOTO 主要推出两款核心产品：一是带有夜灯功能的家用智能音箱 YOTO Player，二是便于携带的小型音箱 YOTO Mini。

主要功能：

无屏设计：YOTO 音箱采用无屏设计，避免了屏幕对儿童视力的潜在伤害，同时培养孩子的专注力和想象力。
卡片系统：通过插入不同的内容卡片，孩子们可以轻松切换故事、音乐、教育内容等，操作简单直观。
丰富内容：YOTO 与多家知名 IP 合作，提供超过 1000 种有声读物，涵盖故事、音乐、广播、绘本等多种类型。
家长控制：配套的手机应用允许家长远程控制设备，设置播放时间和内容限制，确保儿童使用安全。
夜灯功能：YOTO Player 内置柔和的夜灯，可以帮助孩子安心入睡。
便携设计：YOTO Mini 采用小巧轻便的设计，方便外出携带，随时随地享受音频内容。（@ 白鲸出海）

2、DeepSeek 冲击之下月之暗面 Kimi 暂缓「烧钱」

月之暗面近期决定大幅收缩产品投放预算，包括暂停多个安卓渠道的投放，以及第三方广告平台的合作。记者据此向月之暗面方面求证，截至发稿对方暂未置评。

在 DeepSeek 席卷全球 AI 产业链后，这是大模型「六小虎」之中第一家在投放策略上有明显反应的公司。据记者了解，月之暗面内部对此次调整解释称，公司近期受到「外部因素和内部战略调整影响」。Kimi 是 DeepSeek 崛起之前，国内话题度最高的来自创业公司的 AI 产品。但除了用户体验本身，当时外界围绕它更多的讨论在于擅长营销和投流获客。彼时，小红书、B 站、知乎等都是 Kimi 重点投放的平台。（@ 界面新闻）

3、深圳福田、广州上线「AI 公务员」：部署 DeepSeek 大模型覆盖 240 个场景

近日，深圳市福田区和广州市相继宣布上线基于 DeepSeek 大模型的「AI 公务员」（数智员工），标志着两地在智慧政务建设方面迈出了重要一步。

据「幸福福田」公众号消息，福田区推出了基于 DeepSeek 开发的 AI 数智员工，并升级了福田区政务大模型至 2.0 版。这些「数智员工」不仅具备 DeepSeek 的通用能力，还结合各部门实际业务流程进行了个性化定制，首批已能满足 240 个业务场景的使用需求。

目前，福田区已上线 11 大类 70 名「数智员工」，覆盖政务服务全链条，包括公文处理、民生服务、应急管理、招商引资等多个领域。通过构建「需求 - 训练 - 场景应用 - 迭代」的闭环生态体系，实现了「技术穿透业务」的智能化服务升级。

据报道，个性化定制生成时间已从 5 天压缩至分钟级，公文格式修正准确率超过 95%，审核时间缩短 90%，错误率控制在 5% 以内，显著提升了政务服务效率。

广州市政务服务和数据管理局也于近日在外网正式部署上线 DeepSeek-R1、V3671B 大模型。通过融合海量政务数据要素，大模型将丰富政务服务场景应用。

值得一提的是，此次大模型上线工作依托数字广州创新实验室实施，并已完成 DeepSeek-R1 等模型与国产硬件的深度适配。（@AIbase 基地）

4、秘塔科技推出「先想后搜」研究模式，引领 AI 搜索新趋势!

近日，秘塔科技宣布其 AI 搜索平台上线了全新的研究模式 ——「先想后搜」。这一创新模式的核心在于让 AI 模型首先提出思考框架与路径，从而为后续的信息整合与分析奠定基础。通过这种方式，用户能够更高效地获取所需信息，极大地提升了研究效率。

据了解，「先想后搜」模式采用了「小模型 + 大模型」的协同架构。具体来说，涉及深度推理的思考框架和步骤拆解任务交由 DeepSeek R1 来完成，而信息搜索与资料整合则是由秘塔自研的模型负责。这种分工合作的方式，使得秘塔在仅仅 2 到 3 分钟内就能完成对数百个网页的搜索与分析，展现出了超高的工作效率。

与传统的研究方式相比，专业研究者往往需要数天的时间来收集和整理资料。然而，秘塔的这一新模式能够在短时间内完成浅度研究（Shallow Research），这对于那些需要快速收集信息以进行初步分析的用户来说，无疑是一个福音。（@AIbase 基地）

5、腾讯元宝发布重大更新：混元与 DeepSeek 两大模型均支持深度思考

（图片来源：三花 AI）

2 月 17 日下午消息，腾讯 AI 助手「腾讯元宝」再次迎来重大更新，混元 +DeepSeek 两大模型均支持深度思考功能，用户下载并打开腾讯元宝即可免费使用。

此次更新后，除 DeepSeek-R1 满血版外，腾讯自研的混元 T1 深度思考模型也在腾讯元宝开启小范围灰测，用户可以自行选用不同模型解决复杂问题。腾讯方面表示，元宝目前同时支持腾讯混元大模型和 Deepseek 大模型，为用户提供更多选择。未来将优化产品能力，提升模型性能，打造出更好用的 AI 助手。（@ 新浪科技）

03 有态度的观点

1、Sam Altman：我们的使命是确保 AGI 惠及全人类

（图片来源：Unsplash）

2025年2月17日，OpenAI 首席执行官 Sam Altman 在演讲中强调，通用人工智能（AGI）的发展将为人类带来深远影响，其使命是确保 AGI 的益处能够广泛惠及全人类。Altman 指出，AGI 是一种能够在人类水平上解决多领域复杂问题的系统，其发展是人类进步的延续，类似于电力、晶体管和互联网等重大发明。他预测，未来十年内，AGI 将推动经济增长，改善人类生活质量，并可能实现治愈疾病、增加休闲时间和释放创造力等目标。

Altman 分享了关于人工智能经济的三个关键观察：一是 AI 模型的智能与训练和运行资源的对数成正比；二是 AI 使用成本每 12 个月下降约 10 倍，推动其广泛应用；三是智力增长的社会经济价值呈超指数级上升，促使投资持续增加。他提到，未来 AI 代理将像虚拟同事一样融入工作场景，尤其在软件工程领域，能够完成初级工程师的任务，且随着数量的增加，其影响力将不断扩大。

尽管短期内生活模式不会发生剧变，但 AGI 的长期影响将是巨大的。Altman 认为，AGI 将像晶体管一样渗透到经济的各个角落，推动社会和经济的变革。然而，AGI 的影响将是不均匀的，某些行业将经历快速变革，而奢侈品和有限资源的价格可能会上涨。

Altman 强调，公共政策和公众对 AGI 的接受程度至关重要。他呼吁通过早期和频繁的产品推出，让社会和技术共同发展，并在个人赋权与安全之间寻求平衡。他还提到，为确保 AGI 的益处广泛分配，需要探索新的政策，如「计算预算」，以降低智能成本，使更多人能够受益于人工智能。到 2035 年，目标是让每个人都能获得相当于 2025 年人类智力水平的 AI 资源，从而释放全球创意潜力，推动社会进步。(@Z Potentials)