开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ 鲍勃
1、阿里深夜发布重磅开源!暴击 Sora 登顶榜首,消费级显卡就能跑
阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源。
据悉,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。
14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在评测集 VBench 中,万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。
1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。
值得注意的是,万相 2.1 还是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。
技术创新
基于 DiT 架构和 Flow Matching 范式
研发高效因果 3D VAE 和可扩展预训练策略
实现特征缓存机制,支持无限长 1080P 视频编解码
通过空间降采样压缩,减少 29% 内存占用
实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。
尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。
开源地址:
GitHub: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社区:https://modelscope.cn/organization/Wan-AI
(@APPSO)
2、DeepSeek-R2 曝 5 月前上线!第三弹 DeepGEMM 300 行代码暴击专家优化内核
第三天,DeepSeek 发布了 DeepGEMM。
这是一个支持稠密和 MoE 模型的 FP8 GEMM(通用矩阵乘法)计算库,可为 V3/R1 的训练和推理提供强大支持。
仅用 300 行代码,DeepGEMM 开源库就能超越专家精心调优的矩阵计算内核,为 AI 训练和推理带来史诗级的性能提升!
DeepGEMM 库具有以下特征:
在 Hopper GPU 上实现高达 1350+ FP8 TFLOPS 的算力
极轻量级依赖,代码清晰易懂
完全即时编译,即用即跑
核心逻辑仅约 300 行代码,却在大多数矩阵规模下超越专家级优化内核
同时支持密集布局和两种 MoE 布局
总之,这个 DeepGEMM 听起来简直是数学界的超级英雄,比飞快的计算器还要快。
它改变了我们使用 FP8 GEMM 库的方式,简单、快速、开源。这就是 AI 计算的未来!
同时,外媒还曝出了另一个重磅消息:原计划在 5 月初发布的 DeepSeek-R2,现在发布时间将再次提前!
在 DeepSeek-R2 中,将实现更好的编码,还能用英语以外的语言进行推理。
业内人士预测,DeepSeek-R2 的发布,将是 AI 行业的一个关键时刻。目前 DeepSeek 在创建高成本效益模型上的成功,已经打破了该领域少数主导玩家的垄断。
DeepSeek 开源两天,前两个项目爆火程度难以想象。FlashMLA 已在 GitHub 斩获近 10k 星标,DeepEP 的星标已有 5k。(@ 新智元)
3、新突破!微软开源多模态 AI Agent
微软在官网开源了多模态 AI Agent 基础模型——Magma。
与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,例如,你可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者下真实象棋时获得帮助。
此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。
开源地址:
https://huggingface.co/microsoft/Magma-8B
github:
https://github.com/microsoft/Magma
(@AIGC 开放社区)
1、Perplexity 宣布进军 AI 浏览器
近日,AI 搜索引擎 Perplexity 宣布将要推出 AI 浏览器,命名为「comet」。据 Perplexity 官方介绍,comet 将基于 Agentic(智能体)打造,暂无其他更多细节透露。目前,comet 已开放报名预约。
此外,Perplexity 还发文表示,公司正在积极招聘加入建设 comet 的职位,具体显示,Perplexity 现已开放了高级搜索工程师、AI 推理工程师等职位。近期,Perplexity 推出了「Deep Research(深度研究)」功能,主打深度检索、专业输出。在 Humanity's Last Exam 上获得了 21.1% 的准确率,远高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和许多其他领先模型。而该功能已全量推送,能为免费用户每天提供五次试用。(@APPSO)
2、医疗 AI 助手 OpenEvidence 获 7500 万美元,估值 10 亿美元
CNBC 消息,医疗 AI 初创公司 OpenEvidence,从红杉资本获得了新一轮 7500 万美元的融资,估值达到 10 亿美元。
OpenEvidence 的创始人是 Daniel Nadler,此前曾创立专注于华尔街业务的 AI 公司 Kensho Technologies,在 2018 年以 7 亿美元的价格出售给了标准普尔。
2021 年,Nadler 自掏腰包为 OpenEvidence 提供启动资金,2023 年又获得了来自朋友和家人的投资,目前总融资额已超过 1 亿美元。
产品方面,OpenEvidence 开发的是一款为医生服务的 AI 聊天机器人,旨在帮助医生在诊疗过程中做出更优决策。据公司称,目前美国约四分之一的医生都在使用这款产品。Nadler 将其形容为 AI 助手,虽说使用体验与 ChatGPT 有些相似,实则大不相同。
OpenEvidence 仅以《新英格兰医学杂志》等经过同行评审的医学期刊数据训练模型,训练时也未连接公共互联网,并且与众多医学期刊签有许可协议。 这样的训练方式让其避免了 AI「幻觉」问题,在准确性上远超同类产品。
OpenEvidence 的商业模式是免费提供聊天机器人服务,通过广告盈利。这款产品能在医生群体中快速传播,靠的是医生之间的口口相传。(@AIGC 开放社区)
3、微软 Copilot 已免费开放
智东西 2 月 26 日报道,今日,微软宣布面向所有 Copilot 用户推出 免费、无限制访问的 Voice(语音)和 Think Deeper(深度思考) 功能,由 OpenAI 的 o1 模型提供支持。
在 DeepSeek 带飞 AI 推理模型热潮后,近期 OpenAI、谷歌、xAI、Anthropic、阿里等多家 AI 巨头上新深度推理/深度思考模型。
微软在两年前推出了 Copilot,专注于帮助人们获取知识、获得答案、思考、集思广益和创造。从今天起,所有 Copilot 用户都可以用 Voice 功能与 Copilot 进行长时间对话,并随时用 Think Deeper 的高级推理模型来解决更复杂的问题或任务。(@ 智东西)
4、商汤小浣熊家族全面升级:多模态融合
商汤科技在 2025 全球开发者先锋大会上宣布了其 AI 生产力工具——商汤小浣熊家族的全面升级,强化了多模态能力,推动 AI 应用加速落地,向 AI Agent 演进。这次升级不仅提升了工具的性能,还使 AI 更好地服务于生产力。
亮点提要
升级后的商汤小浣熊家族实现了多模态能力的全面提升,能够高效整合信息和分析数据。
办公小浣熊通过自动化工具支持,轻松应对复杂任务,并提升团队协作效率。
代码小浣熊 2.0 实现了多维度数据融合,增强了编程效率,支持实时检索技术文档。(@AIbase 基地)
5、Hugging Face 发布 Python WebRTC 开源库 FastRTC,方便构建实时音频视频应用
https://huggingface.co/blog/fastrtc
背景与问题
近期语音模型领域发展迅速:OpenAI 和 Google 发布了实时多模态 API;Kyutai、Alibaba 和 Fixie ai 推出了开源音频 LLM;ElevenLabs 获得了 1.8 亿美元 C 轮融资
尽管模型和资金丰富,但在 Python 中构建实时音频/视频应用仍然困难:
FastRTC 核心功能
自动语音检测和轮流发言功能
内置 WebRTC 支持的 Gradio UI
免费电话号码服务(fastphone)
支持 WebRTC 和 Websocket
可自定义并与任何 FastAPI 应用集成
提供 STT、TTS 等语音实用工具(@meng shao@X)
1、OpenAI 早期员工:DeepSeek 并未改变 AI 技术的叙事
近日,播客「Unsupervised Learning」采访了 OpenAI 早期员工(目前已离职)David Luan,采访中双方探讨了 DeepSeek 给大模型领域带来的研究和实践所呈现的启示,并对未来 AI 模型的突破做出了预测分享。
David 表示,DeepSeek 表现出色,并且它体现了一个重要转折点:在降低成本的同时获得更高智能,并非意味着停止追求智能,这反而会激发大家使用更多智能。David 还提到,开发者应该首先学会如何打造更智能的大模型,再探索如何让它们运行得更高效,而 DeepSeek 在这一整体发展方向上,只是作为了一个转折点。
此外,David 认为 AI 的未来不仅在于模型本身的规模提升,更在于构建一个「能可靠产出模型的工厂」。他还指出,未来的人机交互将从传统的命令行和聊天转向多模态、环境感知的体验,而优秀的组织文化与年轻人才的激励,则是推动长期技术突破的重要保障。(@APPSO)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻