开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、语音活动检测模型 TEN VAD 开源其 ONNX 模型及相关预处理代码
TEN VAD 开源了 ONNX 模型及相关预处理代码,开发者可以在任何平台和硬件架构上部署 TEN VAD。让 Voice AI Agent 更加拟人化。
TEN VAD 是一个低延迟、低功耗、高准确率的语音活动检测模型(Voice Activity Detector)。它非常轻量,相比 Silero VAD,TEN VAD 的 RTF 减少了 32%,library size 减少了大约 86%。
作为对话式 AI 的原子能力,TEN VAD 通过准确识别音频帧中是否有人声,提升人机对话的交互体验。同时,TEN VAD 还支持无缝集成主流对话式 AI Agent 开源框架 TEN Framework。
相关链接:
https://github.com/TEN-framework/ten-vad
1、华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型和基于昇腾的模型推理技术
6 月 30 日,华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型和基于昇腾的模型推理技术。
据悉,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造:
盘古 Pro MoE 72B 模型权重、基础推理代码,已正式上线开源平台;
基于昇腾的超大规模 MoE 模型推理代码,已正式上线开源平台;
盘古 7B 相关模型权重与推理代码将于近期上线开源平台。
盘古 Embedded 7B 模型:
参数规模为 70 亿,采用双系统框架,具备「快思考」和「慢思考」能力;
模型具备元认知能力,可根据任务复杂度自动切换推理模式;专为在昇腾 NPU 上优化部署,兼顾推理速度与推理深度;
在 AIME、GPQA 等复杂推理基准测试中,超越 Qwen3-8B、GLM4-9B 等同量级模型。
盘古 Pro MoE 72B 模型:
基于分组混合专家(MoGE)架构;总参数量 720 亿,激活参数量 160 亿;
通过专家分组和组内均衡激活,解决专家负载不均,提高部署效率;
针对昇腾硬件深度优化,推理速度高效(最高单卡 1528 tokens/s);
性能优于同规模稠密模型,在多项公开基准测试中处于领先地位;支持大规模并行训练,具备高性价比推理方案。华为官方表示将诚邀全球开发者、企业伙伴及研究人员下载使用,反馈使用意见,共同完善。
相关链接:
https://arxiv.org/abs/2505.21411
相关链接:
https://gitcode.com/ascend-tribe/pangu-pro-moe-model
相关链接:
https://gitcode.com/ascend-tribe/ascend-inference-system
相关链接:
https://arxiv.org/abs/2505.22375(@APPSO、@ 果比 AI)
2、字节跳动 XVerse 开源:多主体身份一致图像生成模型
字节跳动最新开源 XVerse 模型,实现了多主体图像生成中身份一致性。
该模型不仅能保持多个角色身份特征稳定,还支持高度自定义的姿势、风格和灯光调节。
XVerse 通过将参考图像转换为特定于令牌的文本流调制偏移,实现了对特定对象的精确和独立控制,而不会干扰图像潜在变量或特征。
XVerse 具有如下的一些核心优势,它可以显著提高了个性化和复杂场景生成的能力。
高保真、可编辑的多主体图像合成;
对单个主题特征的强大控制;
语义属性的细粒度操作。
项目主页:
https://bytedance.github.io/XVerse/
代码链接:
https://github.com/bytedance/XVerse
论文链接:
https://arxiv.org/pdf/2506.21416(@ 三花 AI、@AI 产品汇)
3、HuggingFace 发布多语言数据集 FineWeb2,涵盖多达 1000 种语言
FineWeb2 是由 HuggingFace 发布的一个多语言数据集,容量达到 20TB(以硬盘空间计算,而非 token 数量),涵盖了多达 1000 种语言。这一数据集为研究和开发自然语言处理(NLP)应用提供了丰富的多语言资源,助力于多语言模型的训练与优化。
相关链接:
https://huggingface.co/datasets/HuggingFaceFW/fineweb-2(@ 果比 AI)
1、苹果公司正在考虑用 OpenAI 或 Anthropic 的模型来驱动新版 Siri
7 月 1 日消息,据彭博社知名记者马克·古尔曼(Mark Gurman)爆料,苹果公司正在考虑用 OpenAI 或 Anthropic 的模型来驱动新版 Siri,替代苹果自研大模型。
据报道,苹果已经和 OpenAI、Anthropic 两家公司就利用其大模型优化 Siri 进行了深入探讨,并请求两家公司训练能够在苹果云基础设施上运行的模型版本,以便苹果进行测试。
此前苹果已经与 OpenAI 合作,Siri 可以调用 ChatGPT 进行搜索,但此次苹果是要将 Siri 背后的基础模型直接替换为三方,有本质上的区别。
古尔曼认为,如果苹果决定在自家核心产品 Siri 中使用第三方模型,这将会是一个重大的转折点,也将标志着苹果承认自己在 AI 竞争中面临困难,同时这可能会让苹果 Siri 的 AI 功能追上安卓手机的 AI 助手。
报道中还提到,苹果和 Anthropic 因「钱」的问题没有谈拢。与此同时,苹果 AI 团队内部动荡持续升温,苹果资深大模型研究员上周刚刚离职,内部核心苹果机器学习框架(MLX)团队本月也威胁要集体离职。
知情人士透露,目前苹果和两家公司的谈判仍然处于初期阶段,最终是否会用还不确定。与此同时,苹果内部代号为「LLM Siri」、采用苹果自研模型的项目仍然在积极推进中。
报道链接:
https://www.bloomberg.com/news/articles/2025-06-30/apple-weighs-replacing-siri-s-ai-llms-with-anthropic-claude-or-openai-chatgpt(@ 智东西)
2、专为 Google Gemini API 设计的网页聊天应用 All Model Chat:支持与 Gemini 家族模型的全面交互,包括文本、图像、视频生成和文本转语音
All Model Chat 是一款专为 Google Gemini API 设计的网页聊天应用,支持与 Gemini 家族模型的全面交互,包括文本、图像、视频生成和文本转语音。它的主要功能包括动态模型切换、流式和非流式响应选择,以及高级 AI 配置,如随机性参数调整和系统提示设置。用户能够通过多种方式上传文件,并享受智能文件管理与实时预览。同时,应用支持聊天历史的持久化管理,用户可以轻松浏览和管理对话记录,定制会话环境。此外,消息渲染功能强大,支持 GitHub Flavored Markdown 和 LaTeX 公式,并提供代码块交互功能。
相关链接:
https://github.com/yeahhe365/All-Model-Chat(@ 果比 AI)
3、Meta 宣布正式成立「超级智能实验室」
据彭博社等最新消息,在周一给 Meta 员工的一份内部备忘录中,扎克伯格宣布重组公司人工智能团队(包括研究、基础设施和产品),合并到新成立的「Meta 超级智能实验室」(Meta Superintelligence Labs)。
该部门将由数据标注初创公司 Scale AI 前 CEO Alexandr Wang 领导,并担任公司首席人工智能官。同时,扎克伯克还首次曝光了 11 位从 OpenAI、Anthropic、谷歌 DeepMind 那里挖来的顶尖人才。
扎克伯格表示,MSL 将吸纳公司的各个团队,致力于开发 Llama 开源系列大模型、相关产品和基础人工智能研究项目等。
Meta 还新招聘了 11 名专注于人工智能的人才,其中包括前 Anthropic、Google DeepMind 和 OpenAI 的员工。
Johan Schalkwyk— 前 Google Fellow,Sesame 系统早期贡献者,Maya 项目技术主管。
Jiahui Yu(余家辉)— o3/o4-mini/GPT-4.1/GPT-4o 共同创建者,曾任 OpenAI 感知团队负责人,Gemini 多模态系统联合主管。
Shuchao Bi— GPT-4o 语音模式与 o4-mini 共同创建者,曾任 OpenAI 多模态后训练负责人。
Trapit Bansal — 思维链(CoT)强化学习技术开创者,OpenAI o 系列模型共同创建者。
Huiwen Chang— GPT-4o 图像生成系统共同创建者,Google Research 期间发明 MaskGIT 及 Muse 文生图架构。
Ji Lin — 参与开发 o3/o4-mini、GPT-4o、GPT-4.1、GPT-4.5、4o-imagegen 及 Operator 推理框架。
Joel Pobar— Anthropic 推理系统专家,此前在 Meta 任职 11 年主导 HHVM/Hack/Flow/Redex 开发及性能工具与机器学习。
Jack Rae— Gemini 预训练技术负责人及 Gemini 2.5 推理架构师,DeepMind 时期主导 Gopher/Chinchilla 早期大模型研发。
Hongyu Ren(任泓宇)— GPT-4o/4o-mini/o1-mini/o3-mini/o3/o4-mini 共同创建者,曾任 OpenAI 后训练团队主管。
Pei Sun— 谷歌 Deepmind Gemini 后训练 / 编程 / 推理架构师,曾主导 Waymo 近两代感知模型开发。
Shengjia Zhao— ChatGPT/GPT-4/4.1/o3 共同创建者,曾任 OpenAI 合成数据团队主管。
Meta 在向世界交付超级智能的进程中占据独特优势地位:我们拥有雄厚的业务实力支撑,能构建远超小型实验室规模的计算资源;具备服务数十亿用户的产品研发与增长经验;正开拓并引领高速增长的 AI 智能眼镜与可穿戴设备领域;更凭借企业架构优势,能以远胜同行的信念与魄力推进战略。
相关链接:
https://www.bloomberg.com/news/articles/2025-06-30/zuckerberg-announces-meta-superintelligence-effort-more-hires?srnd=phx-technology
相关链接:
https://www.cnbc.com/2025/06/30/mark-zuckerberg-creating-meta-superintelligence-labs-read-the-memo.html
相关链接:
https://www.theverge.com/news/695355/mark-zuckerberg-meta-ai-superintelligence-labs(@ 机器之心、@ 新智元)
1、风投机构 a16z:速度正在取代 AI 的传统护城河
日前,知名风投机构 a16z 发布一篇名为《In Consumer AI,Momentum Is the Moat》的博客,讲述了如今 AI 产品、AI 公司需要如何营销,才能在市场中站稳脚跟。
文章中指出,现如今 AI 发展速度太快,以至于连一家公司的「护城河」都没办法构建。AI 基础模型和基础建设每周都会出现新的更新,因此 AI 公司没办法像移动时代那样按部就班的发展。
a16z 表示,在上述的环境中,最重要的就是「速度」——你需要尽快地推出新的 AI 产品、获得关注度并抢占市场份额。
而对于获得关注度,a16z 则认为早期宣传十分重要。每家公司都希望能够获得病毒史传播,但目前 AI 产品发布的数量庞大,迭代速度快,社交算法的易变性等难题,都令传播变得越来越困难。a16z 坦言,「教科书上的策略已不再适用,而现如今,需要打破常规。」
博客中举出了十分多新的营销案例:举行黑客马拉松、构建 AI 类的社交媒体实验(如邀请用户破解自家 AI 产品)、直播式 AI 产品发布等等。而这些新的营销方案,共同点则是:不需要依赖庞大的市场预算、不需要依赖渠道资源,通过社交网络的快速,一步步放大了产品的传播效益。(@APPSO)
更多 Voice Agent 学习笔记:
语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻