开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ 鲍勃
1、阿里 Qwen 首个推理模型亮相!擅长数学和编程,支持联网搜索
阿里 Qwen 团队在 Qwen Chat 发布了推理模型——深度思考(QwQ)。
深度思考(QwQ)由 QwQ-Max-Preview 支持,这是一个基于 Qwen2.5-Max 的推理模型,不过仍然是预览版,擅长数学理解、编程、AI 智能体等,与 Qwen2.5-Max 相比,更加智能,也更具创造力。
从预览版看,深度思考(QwQ)同时支持深度思考和联网搜索。
深度思考(QwQ)具有类似 Claude Artifacts 的界面,在主聊天窗口之外,以独立的模块形式展示创建的内容。
并且,深度思考(QwQ)可以调用图片生成、二维码生成、天气服务等工具,同时可以选择多个工具。
Qwen 团队表示,即将发布 QwQ-Max 的正式版,同步发布 Android 和 iOS 端的 APP,并将基于开源软件许可证 Apache 2.0,开放 QwQ-Max 和 Qwen2.5-Max 的权重。
另外,Qwen 还将发布更小的模型,比如可以部署在本地设备的 QwQ-32B。
预览版链接: https://chat.qwen.ai (@APPSO)
2、Anthropic 发布全球首个混合推理模型
今天凌晨,Anthropic 正式发布 Claude 3.7 Sonnet,成为全球首款双模式混合推理模型;同时 Anthropic 还发布了一款智能编程工具「Claude Code」。Claude 3.7 Sonnet 在标准模式能够快速响应,而切换到扩展思考(Extended Thinking)模式,能进行深度自我反思,在数学、物理和编程等复杂任务上表现卓越,注重实用导向,不必要拒绝减少 45%,强化代码协作能力。从基准测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务。具体来看,在评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了行业领先水平。同时,该模型在 TAU-bench 测试中也表现不错,超越其旧版本与 OpenAI o1。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。与 DeepSeek R1 展示的思考过程相比,Claude 3.7 Sonnet 公开的思考过程相对客观、缺乏个性化表达。
Anthropic 表示,未对模型的思维过程进行标准角色训练,希望给予 Claude 最大自由度进行自主思考;并且其认为所谓「思考」过程不一定真实反映了 AI 的内部决策逻辑,因此,Anthropic 未来将基于用户反馈和研究决定是否继续公开 Claude 的思维链。而 Claude Code 支持直接在终端理解并操作代码库,能一次完成需 45 分钟以上的人工编程任务,专长于测试驱动开发、复杂调试和大规模代码重构,全面支持代码编辑、测试执行等核心开发流程。
目前,Claude 3.7 Sonnet 已适用于所有 Claude 订阅计划,包括免费版、专业版、团队版和企业版,同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问。
除免费版外,所有平台均支持扩展思考模式。价格方面,定价与前代模型保持一致,输入 100 万 token/3 美元,输出 100 万 token/15 美元(包括思考过程中使用的 token)。此外,Claude Code 的预览研究版本也已上架官方网站。(@APPSO)
3、DeepSeek 发布开源项目 FlashMLA
2 月 24 日,DeepSeek 开源周第一个项目 FlashMLA 正式发布。据官方介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。具体来说,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。FlashMLA 专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量,而这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。
简而言之,FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案,尤其适用于高性能 AI 任务。目前,FlashMLA 已发布版本支持「BF16」与「分页 KV 缓存,块大小为 64」两个特征,其在 H800 上能实现 3,000 GB/s 的内存带宽与 580 TFLOPS 的计算性能。FlashMLA 现已上架 GitHub。并且其在上线 6 小时,便收获超 5,000 的 Star 收藏,拥有 188 个 Fork(副本创建)。(@APPSO)
4、DeepSeek 发布开源第二弹!推理效率起飞了
DeepSeek 开源项目 DeepEP 正式发布。
DeepSeek 官方在 X 平台发文称:
「很高兴向大家介绍 DeepEP——首个专为 MoE(专家混合)模型训练和推理打造的开源 EP 通信库。
高效优化的全对全(all-to-all)通信
支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA
训练与推理预填充(prefilling)阶段的高吞吐率计算核
推理解码(decoding)阶段的低延迟计算核
原生支持 FP8 数据调度
灵活的 GPU 资源控制,实现计算与通信的重叠处理」
据介绍,DeepEP 是专为专家混合(MoE)和专家并行(EP)设计的通信库,提供高吞吐、低延迟的全对全(all-to-all)GPU 计算核,也被称为 MoE dispatch 和 MoE combine。
此外,该库还支持包括 FP8 在内的低精度计算操作。
说人话就是,DeepEP 是 MoE 模型的「通信管家」,通过软硬件协同优化,让专家之间的数据传递又快又省资源,大幅提升训练和推理效率。
另外,DeepEP 为支持 DeepSeek-V3 论文中的组限门控(group-limited gating)算法,开发了专门的计算模块,这些模块能够高效处理不同网络连接之间的数据传输,比如从 GPU 之间的 NVLink 连接传输到服务器之间的 RDMA 连接。
附上 GitHub 项目地址:
https://github.com/deepseek-ai/DeepEP (@APPSO)
1、AI 视频创作平台 PixVerse V4 正式上线
2 月 24 日,爱诗科技宣布旗下 AI 视频创作平台 PixVerse V4 版本正式上线。官方介绍,在 PixVerse V4 中,能够实现智能生成视频音效、一键匹配人声台词、多种视频风格实时重绘等多种功能。
据悉,PixVerse V4 的 AI 视频生成速度最快可达 5s。官方表示,在本次 PixVerse V4 的更新中,底模再次进行大幅度升级,通过对视频内容中的物理规律和人物情绪的表达进行更细节化的处理,来进一步提升 AI 视频的「真实感」,为创作者们更好的内容表达提供支持。
目前,PixVerse 技术服务产品已经正式开通运营,不论是企业端用户、视频创作者亦或是想尝试视频创作的任何人,均可通过爱诗科技官网进行体验。(@APPSO)
2、1x 发布家庭机器人 NEO Gamma:能冲咖啡、洗衣和吸尘等
1X 公司最新推出的家居机器人 Neo Gamma 具备多项家务功能,如冲咖啡、洗衣和吸尘,同时也能为用户提供陪伴。与传统家用机器人不同,Neo Gamma 的设计更为温和亲切,易于引发情感依赖。
亮点提要:
Neo Gamma 是一款新型家居机器人,能够完成家务并为用户提供陪伴。
其设计更为亲切温和,与传统家用机器人截然不同,易于让人产生情感依赖。
Neo Gamma 具备自然运动能力和语言交互功能,未来将与家庭生活紧密结合。
详情入口: https://www.1x.tech/neo (@AIbase 基地)
3、Perplexity 的 iOS APP 推出新的语音模式,包含 6 种音色
(@TestingCatalog News@X)
4、Grok 3 语音功能上线,「脏话冒犯」(unhinged 18+)模式引热议
埃隆·马斯克旗下 xAI 公司宣布,其人工智能聊天机器人 Grok3 的语音功能已正式上线。这一备受期待的功能现已通过 Grok 应用程序向用户开放,目前支持英语交互。根据 X 平台上的最新消息,用户只需更新 Grok 应用,即可在界面右上角「新对话」按钮旁发现新增的语音标志,点击即可体验这一全新功能。
据 xAI 透露,Grok3 语音功能提供多达 10 种不同的模式,其中包括两种标记为「18 禁」的选项,引发了用户的广泛讨论。尽管具体模式细节尚未完全公开,但这一设计显示出 Grok3 在交互多样性上的突破,延续了马斯克对「最大化真实性」AI 的承诺。X 用户@canlee886 在帖子中称赞道:「动动嘴就能和 Grok 对话,复杂问题一句话解决,效率直接拉满!」另一位用户@baravannrway 则确认,该功能现为早期测试版,可能仍存在一些小问题,但 xAI 团队承诺将迅速修复。
目前,Grok3 的语音功能似乎仅支持英文,尚不清楚是否会很快扩展至其他语言。使用方法简单:更新后的应用中,点击语音标志即可进入语音模式,用户可根据需求选择不同模式进行交互。X 上的反馈显示,这一功能的推出让 Grok3 更具人性化交互感,与 OpenAI 的 ChatGPT 语音模式及谷歌 Gemini Live 形成直接竞争。
此次更新还伴随着 Grok3 其他性能的提升,包括更强的理解力和智能应答能力。xAI 此前宣称,Grok3 在数学、科学和编码基准测试中已超越多个主流模型,而语音功能的加入无疑为其增添了更多实用性和吸引力。感兴趣的用户可立即更新 Grok 应用,亲自体验这一「聪明到可怕」的 AI 新特性。(@AIbase 基地)
1、风投巨头 a16z 创始人:AI 大战的赢家将会是用户
近日,著名风投机构 a16z 创始人 Marc Andreessen 接受播客 Invest Like the Best 访谈,并表示在近期的 AI 开源大战中,用户将会是赢家。主持人询问 Marc Andreessen 如何看待近日大火的 DeepSeek-R1 时,Marc 表示 DeepSeek 做了一件了不起的事情,那就是以开源的形式将大模型提供给全世界。
Marc 强调,这实际上相当令人惊叹,因为 DeepSeek 逆转了多数大模型都是封闭的这一局面。Marc 在采访中提到,在这一场 AI 开源大战中,赢家将是所有的 AI 消费者,输者则是那些拥有专有模型的公司。Marc 提到,OpenAI 等众多此前封闭的 AI 公司,都在近期内解释上述的现象,而 Marc 认为这种解释意味着企业已经在大战中,宣布「认输」。(@APPSO)
1、实时 AI 解说员(来自 X 上的 @cerebriumai)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻