AI测试 专注服务实时多模态 AI,Cerebrium 宣布 850 万美元种子融资;英特尔发布 AI 语音游戏助手 SDK 丨日报

RTE开发者社区 · 2025年07月11日 · 71 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 即将推出 o3 mini 级别的「开放权重模型」

7 月 10 日,据 The Verge 爆料,OpenAI 正准备发布一款 o3 mini 级别的「开放权重模型」,最快下周就上线。这是 OpenAI 自 2019 年发布 GPT-2 以来,也是自 2023 年与微软签订独家云服务提供商协议以来,OpenAI 首次推出开源语言模型。

这款新模型预计命名为「开放模型」,但这一说法容易与传统「开源」混淆,开放程度仍取决于其是否公布完整代码、训练细节及许可证。

根据该协议,微软获得了大部分 OpenAI 模型的访问权,并通过 Azure OpenAI 服务,直接向企业销售这些模型的独家权利。然而,开源模型的推出,将无法阻止竞争对手托管其版本,因此可能会加剧 OpenAI 和微软之间的分歧。

报道链接:

https://www.theverge.com/notepad-microsoft-newsletter/702848/openai-open-language-model-o3-mini-notepad

@APPSO、@ 时代 Java)

2、Cerebrium 获得由 Gradient 领投的 850 万美元融资,推动领先的高性能 Serverless AI 平台扩展

Cerebrium 近日宣布成功完成 850 万美元种子轮融资。本轮融资由 Gradient Ventures 领投,Y Combinator、Authentic Ventures 以及多位战略天使投资人和运营者也参与了投资。

Cerebrium 致力于提供一个 Serverless AI 基础设施平台,使开发者能够构建和扩展多模态 AI 应用程序。相较于传统平台,Cerebrium 显著降低了复杂性和高昂成本。

值得一提的是,尽管 Cerebrium 目前仅有四名工程师,却已实现了数百万美元的 ARR 收入。其客户包括 AI 生成视频供应商 Tavus,以及语音 AI 公司 Deepgram 和 Vapi。

该平台专为高性能、实时多模态 AI 应用而设计,完美支持多种前沿用例,例如:

  • 语音代理

  • 大型语言模型(LLM)微调

  • 视频模型

  • 大规模数据分析

此外,Cerebrium 还提供批处理、多区域部署、大规模数据处理等高级功能。这些特性使得团队能够以最少的设置运行计算密集型工作负载,实现弹性扩展,并且仅为实际使用的资源付费。开发者无需管理复杂的基础设施,同时也能确保遵守严格的安全和数据驻留要求。

Cerebrium 官方博客:

https://www.cerebrium.ai/blog/cerebrium-raises-8-5m-led-by-gradient-to-scale-the-leading-high-performance-serverless-ai-platform

@Cerebrium 官方博客)

3、VLA 统一架构 UniVLA,将视觉、语言与动作信号统一转化为离散 token,实现原生统一建模

北京智源研究院联合中国科学院自动化研究所提出 UniVLA —— 一种全新的 VLA 模型架构,基于全离散、自回归机制,原生建模视觉、语言与动作信号,并在后训练阶段引入世界模型建模,从大规模视频中学习时序信息与因果逻辑,有效增强了模型在下游决策任务的性能和学习效率。

该框架将视觉、语言与动作信号统一转化为离散 token,并构建视觉 - 动作交错的多模态时序序列,实现原生统一建模。在训练范式上,采用自回归方式进行学习。

对比语言生成图像的训练范式,时序动态信息被证明至关重要;而与纯视频建模相比,多模态语义对齐同样不可或缺。这为机器人从大规模视频中学习真实世界知识打开了新路径,展现出世界模型在多模态感知与决策融合中的巨大潜力。

网站链接:

https://robertwyq.github.io/univla.github.io/

论文链接:

https://arxiv.org/abs/2506.19850

代码链接:

https://github.com/baaivision/UniVLA

(@ 机器之心)

4、Vogent Voicelab:提供高性能开源语音模型 API ,包括 Sesame CSM-1B、Dia

Vogent Voicelab 是一个强大的高性能 API,旨在解决开源语音模型在高吞吐量、低延迟推理方面的挑战,以及克服研究预览模型可能出现的幻觉和输出不一致问题。

Vogent Voicelab 通过优化每个模型的推理过程,让用户能够快速、可扩展地运行顶级开源语音模型,例如 Sesame CSM-1B 和 Dia 等。

Vogent Voicelab 的核心优势:

  • 优化的推理堆栈:Vogent Voicelab 维护专有的推理堆栈,该堆栈经过优化,可以高效且可扩展地提供文本到语音转换服务;

  • 支持模型后续训练:为了提升模型的性能和可靠性,Vogent Voicelab 允许用户对部分模型进行后续训练。这有助于提高输出的一致性,并能实现高质量的专业语音克隆;

  • 简化资源管理和按字符付费:Vogent Voicelab 负责管理所有计算资源,用户无需管理复杂的 GPU 基础设施。支持按字符付费,用户可以根据实际使用量来支付费用。

Y Combinator 链接:

https://www.ycombinator.com/launches/NuX-vogent-voicelab-api-to-run-top-open-source-voice-models-like-csm-1b

官方网页:

https://www.vogent.ai/voicelab

(@ ycombinator\@X

02 有亮点的产品

1、三星新折叠手机接入豆包 AI 和升级版的 Bixby 语音助手,支持旅行规划、智能问答、音乐生成等

7 月 9 日,三星在其全球新品发布会上正式推出了全新的 Galaxy Z 系列产品(Galaxy Z Fold7、Z Flip7、Z Flip7 FE),并与字节跳动的 AI 技术深度集成,标志着字节在智能终端领域的一次重要布局。

据悉,三星本次新款 Z 系列手机搭载了「豆包大模型」和升级版的 Bixby 语音助手,支持旅行规划、智能问答、音乐生成等多种应用。

值得一提的是,用户在手机中可通过「即圈即搜」功能,快速获取图文并茂的搜索结果。据悉,这一技术依赖于字节跳动的 AI 算法进行图像识别与语义推理。

另外,三星还在这款折叠手机中加入了与字节合作的创新技术,如图像编辑、AI 头像生成以及音乐创作等新功能,这些都大幅提升了设备的功能性和用户体验。( @ APPSO)

2、英特尔发布 AI 语音游戏助手 SDK,通过实时分析玩家行为状态动态匹配游戏攻略和辅助决策

7 月 10 日,英特尔在 Bilibili World 2025 游戏娱乐盛会上正式发布了「AI 高静游戏本」概念。此次发布会英特尔与宏碁、华硕、联想等 9 家 OEM 合作的 AI 高静游戏本,涵盖了高性能、静音、智能助手等多重创新设计。

预装 AI 助手既可以是英特尔智能 PC 助手,也可以是专门针对游戏场景的 AI 游戏助手,或者是 OEM 自带的 AI 语音助手功能。

AI 游戏助手 SDK 的开发套件涵盖了四大核心功能:游戏视觉感知、语音交互、大模型 +RAG 个人游戏攻略知识库和 XPU 资源管理,它能够实时的分析每一帧画面了解玩家在游戏中的行为状态,比如战斗状态、当前使角色、所在地图等,从而动态匹配游戏攻略、操作建议,甚至实时辅助决策,并实现了游戏攻略的智能问答,甚至能提供情绪价值。

英特尔游戏助手 SDK 正式发布,并且和两家 ISV 合作的软件也正式上架。首批集成 SDK 的合作伙伴包括心影随形和新智慧游戏,目前覆盖百余款游戏。

英特尔与心影随形合作带来主打游戏伴玩的逗逗 AI 游戏伙伴,英特尔还联合主打电竞训练的新智慧游戏推出游戏技巧 AI 教练软件。

为此,英特尔还发布了国内首款智能 PC 助手,呼叫一声「樱桃樱桃」,便可以听懂你的两三百个指令。英特尔智能 PC 助手采用英特尔最新的量化微调技术,可以支持更精准地用户意图理解、更快的响应速度、更多的场景和响应调度,以及更深入的 Windows 系统控制。

该智能助手完全本地部署,无需依赖网络,时刻待命。在语音交互方面,通过高效精准的识别技术,能够准确识别用户语音,让用户彻底解放双手,摆脱繁琐的手动操作。这得益于近期英特尔推出的量化微调技术带来了 100% 准确度,大模型变小,便于在本地部署。(@ GEEK、@ APPSO)

3、Humoniq 正在构建语音 AI 智能体,聚焦处理旅行公司如航空公司的客户支持

Humoniq 正在开发语音 AI 智能体,专门用于自动化航空公司等旅行公司的客户支持。

凭借其团队在 Flightfox(YC S12)超过二十年的深厚运营经验,其产品通过提供语音和文本 AI,聚焦于解决行业痛点,助力航空公司、旅行社和旅行管理者实现旅行支持操作的自动化。

相关链接:

https://humoniq.ai

Y Combinator 链接:

https://www.ycombinator.com/launches/NwW-humoniq-voice-ai-agents-for-the-travel-industry(@ ycombinator\@X

03 有态度的观点

1、微软大规模裁员后,高管称 AI 节省 5 亿美元成本

近期,微软频繁进行裁员计划,目前最新的一次行动为本月初的 4% 裁员计划,涉及人数超 9000 人。据路透社报道,该裁员计划因微软需要控制成本,并且其还在 AI 基础设施领域不断巨额投入。

而据彭博社昨日报道,微软首席商业官 Judson Althoff 在本周一次报告中透露,仅在微软呼叫中心中,AI 就为公司节约超过 5 亿美元的成本,并且提高了员工和客户的满意度。

Judson 表示,AI 工具正从销售、客户服务到软件工程等各方面提高生产力。同时他还表示,微软已开始使用 AI 来处理与小规模客户的合作交流,尽管该行动仍处于起步阶段,但已经产生了数千万美元的收入。

另外,Judson 还称在微软内部,AI 为新产品生成了 35% 的代码,并且加快了产品的发布时间。Judson 强调,AI 能够使销售员提升效率,并产生 9% 的额外收入。(@ APPSO)

2、Figure AI 创始人:人形机器人或许几年就能走进普通家庭

日前,Figure AI 创始人 Brett Adcock 接受 Logan Kilpatrick 采访,并预测了人形机器人在未来社会的发展趋势。

Brett 表示,目前大家正在进入一个全新的技术拐点——人形机器人阶段,而这也可能会成为 AGI(通用人工智能)真正落地的最终载体。至于实现时间,Brett 认为并不遥远:「在不久的将来,或许只需几年时间,我们就能把机器人带进普通家庭」。

采访中,Brett 感慨,人类终于造出了真正能干活的人形机器人,而这一切都基于「机电一体化」的突破,以及神经网络与机器人的深度融合。Brett 指出,机器人的神经网络现在已经「类人」了:能够直接驱动四肢、躯干甚至头部,实现高度协调的运动控制。

Brett 还表示,唯有通用型机器人平台才能承载强大 AI,并能够灵活应对现实世界的复杂需求。其认为,现在正是机器人技术与 AI 融合爆发的「黄金十年」,资金潮水般涌入,更关键的是——机器人已开始创造真实价值。

对话完整版:

https://youtu.be/_Xct1BCLylc?feature=shared(@ APPSO)

3、Meta:具身智能的下一步是「心智世界模型」,关注人类的目标意图、情绪状态、社会关系和交流方式,使 AI 能理解人类心理状态并进行社会互动

Meta 发布 40 页报告,首次将「心智世界模型」与物理世界模型并列为具身智能的关键组成部分。

这篇报告第一次把对人心智状态的推断,放到和物理世界模型(physical world model)同等重要的位置上,并将其概念化为心智世界模型(mental world model)。

相比于传统世界模型(如 LeCun 的 JEPA)仅关注物理规律(物体运动、机械因果),心智世界模型则首次将心理规律(意图、情感、社会关系)纳入世界模型框架,实现「双轨建模」。

这里,报告将世界模型所需要的信息分为了两类。一类是物理世界模型所需要的信息,另一类是心智世界模型所需要的信息,包括:

目标和意图(包括其动机、偏好和价值观)

用户的情绪和情感状态,以及理解这些情绪如何影响行为

捕捉社会动态,包括个体、群体和机构之间的关系,以及文化规范、习俗和期望

理解言语和非言语交流,包括语言、语调、肢体语言和面部表情

对于人类来说,心智世界模型就是对世界的心理表征的过程,包括对物体、事件和关系的表征。

它使人类能够模拟情境、预测结果、进行反事实和因果推理,从而做出更明智的决策。

因此,为了更好地协助和与人类合作,智能体就必须学习人类的心理状态,理解人类的行为模式和文化惯例。

为了实现这一点,就需要心智世界模型来表征人类用户或其他 AI 智能体的心理状态。

让每个智能体不仅看到外部世界,还能推测他人的信念和意图,形成比单一感知更高阶的理解。

当不同的具身智能体共同执行任务时,心智模型能帮助它们在不确定的环境中对齐目标,协调行动,甚至在冲突中寻找平衡。

报告链接:

https://arxiv.org/abs/2506.22355(@ 量子位)

更多 Voice Agent 学习笔记:

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册