AI测试 VisionClaw 将 OpenClaw 装进智能眼镜,实时对话执行任务;Agora 支撑野兽先生高清直播, 58.3 万峰值并发丨日报

RTE开发者社区 · 2026年02月10日 · 115 次阅读

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、Agora 支撑 Whatnot 承载 MrBeast 直播:实现 1080p 画质下 58.3 万峰值并发

图片

实时互动服务商 Agora(声网兄弟公司)为 Whatnot 电商直播平台举办的 MrBeast 百万美金赠品活动提供技术支持。在 1080p 高清画质下,系统成功应对了 58.3 万的流量冲击,保障了大规模、高频互动的直播稳定性。

  • 超大规模瞬时并发承载:本次直播峰值同时在线人数达到 58.3 万。Agora 的底层架构在极短时间内完成了大规模接入链路的弹性调度,支撑了远超常规量级的实时流量。

  • 1080p 互动直播画质标准:在维持 1080p 高清视频输出的前提下,解决了大规模并发带来的延迟问题。确保了百万美金奖品(如兰博基尼、特斯拉)在实时抽奖过程中,全网用户能同步接收到音视频流与互动指令。

  • 全链路低延迟保障:针对直播购物场景中对「抢购」和「实时互动」的极高要求,该方案在 50 万 + 并发环境下仍保持了极低端到端延迟,避免了因负载过高导致的音画不同步或抽奖结果延迟。

  • 高压环境下的业务转化支撑:由于直播过程无卡顿,成功支撑了流量向 App 下载的转化,助力 Whatnot 在活动期间攀升至美区 App Store 下载榜第三位。

@People@Tubefilter@MrBeast\@X

2、字节跳动发布 Seedance 2.0:支持 12 路多模态参考,生成可用率提升至 90% 以上

字节跳动旗下视频生成模型「Seedance 2.0」正式上线即梦平台。该模型通过大幅提升生成稳定性与多模态控制精度,将视频生成从「随机抽卡」转变为「导演级控制」,直接导致视频制作的有效成本下降约 80%。

  • 12 路多模态参考矩阵:支持同时输入最多 9 张图片、3 段视频和 3 段音频作为参考素材,可精确指定角色外貌、动作特效、运镜风格及环境音场,实现跨模态信息的深度融合。

  • 自动化分镜与运镜系统:模型具备自动规划分镜能力,用户只需描述故事情节,无需输入复杂的摄像机术语(如平移、推拉),模型可自主完成具备导演思维的镜头调度。

  • 推理可用率突破 90%:针对 15 秒短片生成,可用率从行业平均的 20% 提升至 90% 以上,显著降低了通过 API 或手动「抽卡」产生的冗余算力成本。

  • 跨镜头角色一致性:增强了长序列叙事的稳定性,支持在多个 15 秒镜头片段间维持角色特征、服装褶皱及场景光影的一致性,满足动漫、短剧等连贯内容生产需求。

  • 音画同步与情绪解耦:实现原生口型同步,并能根据语音语气自动调整角色的微表情(如眼神凌厉、眉毛上挑),确保视听逻辑与情感表达匹配。

已在「即梦」平台上线,付费会员(最低 69 元/月)可直接使用。

(@ 极客公园)

3、Xmax AI 推出虚实融合实时交互视频模型 X1:破次元实际互动,毫秒级即时反馈

2026 年,随着生成式 AI 与端侧算力的同步成熟,虚拟内容正从「预制叠加」向「实时生成」跨越。初创公司 Xmax AI 近日推出全球首个虚实融合的实时交互视频模型 X1,由华为「天才少年」计划成员史佳欣领衔开发。该模型打破了传统文生视频的键盘输入限制,让用户通过手机摄像头与手势,即可在现实场景中「召唤」并操控虚拟角色。

不同于追求画质和时长的专业创作工具,X1 侧重于降低交互门槛,实现毫秒级的即时反馈。其技术演示应用 X-cam 已展示四大核心功能:

  • 次元互动:通过摄像头捕捉现实场景并上传图片,虚拟角色可「脱屏而出」。用户能通过捏、拍、托等手势与之互动,模型会实时生成物理反馈,如绒毛遮盖、转头避让等。

  • 世界滤镜:支持将实时拍摄画面转化为梵高、乐高或动漫等指定风格。

  • 触控动图:用户在屏幕上拖拽静态照片中的部位(如耳朵、嘴角),即可让角色产生实时位移与表情变化。

  • 表情捕手:AI 实时捕捉镜头中人或物体的特征,根据选定的 Emoji 生成动态表情包。

在技术实现上,Xmax AI 团队针对极致实时、意图理解与数据稀缺三大痛点交出了答卷。模型采用端到端的流式重渲染架构及帧级别自回归 DiT,配合循环回归架构,实现了无限时长的连续生成。同时,团队构建了虚实融合数据合成管线,低成本批量生产高质量交互训练数据,解决了行业内交互数据匮乏的难题。

Xmax AI 的团队成员涵盖了来自清华大学、港科大以及字节、华为等头部厂商的顶尖力量。其愿景不仅是开发一款应用,而是搭建下一代内容交互引擎,让虚拟角色成为能走进家庭的「数字生命体」,实现「用 AI 玩转世界」的目标。

testflight 邀请链接:

https://testflight.apple.com/join/8sWgKZeQ

Xmax AI 官网链接:

https://xmax.ai/

(@ 机器之心)

02 有亮点的产品

1、OpenAI 首款硬件「Dime」曝光

图片

OpenAI 首款面向消费者的 AI 硬件设备正加速推进,但今年 9 月亮相的首发版本将是功能受限的「简版」

原因在于 HBM 供应紧张推高 2nm 芯片成本,迫使 OpenAI 推迟原计划中具备计算单元的「全能形态」,先行推出仅支持音频功能的版本。

博主「智慧皮卡丘」最新爆料称,这款设备命名为「Dime」,寓意其体积小巧。

其专利已于昨天在美国国家知识产权局公示,外观采用金属材质,主体类似卵石,内部藏有两颗可取出的胶囊状耳机,佩戴方式为置于耳后。

供应链消息指出,设备用料更接近手机级别,主处理器目标直指 2nm 智能手机芯片,且正在开发定制芯片,以实现通过语音直接执行 iPhone 上的 Siri 指令。

在 OpenAI 内部,这款代号「Sweetpea」(甜豌豆)的设备被 Jony Ive 团队列为最高优先级,首年出货目标高达 4000 万至 5000 万台。富士康也已接到通知,需在 2028 年前为 OpenAI 五款设备做好产能准备。

OpenAI CEO 山姆 · 奥特曼曾公开表示,真正的竞争对手不是 Google,而是苹果。

他认为未来 AI 的主战场在终端,而非云端;智能手机屏幕与交互方式限制了 AI 伴侣的潜力,因此 OpenAI 必须打造「AI 原生设备」

奥特曼将其愿景比喻为「湖畔小屋」——在信息轰炸的时代广场之外,为用户提供专注空间。

除了耳机,一支神秘的 AI 笔也在开发之列。结合 Altman 与 Jony Ive 多次提及的线索,外界推测这款设备体积小巧、具备环境感知能力,可能采用陶瓷等高质感材料,并以极简交互为核心。

技术层面,OpenAI 正加速迭代音频模型,为硬件奠定基础。知情人士透露,新一代模型不仅语音更自然,也能支持同步对话与打断处理,预计今年第一季度发布

OpenAI 已组建跨供应链、工业设计与模型研发的团队,目标是打造能主动协作的「智能伙伴」,而非简单的语音接口。

外界还推测,AI 笔可能集成微型投影仪,将图像投射到桌面,以解决无屏幕交互问题;笔夹可能集成麦克风或摄像头,实现文本解析与环境感知。


用户在纸上书写时,AI 可实时解读内容、生成待办事项,甚至作为智能中枢控制周边设备。

( @APPSO)

2、当「老二次元」下场 AI 创业:我要做个会说话的智能「痛包」

图片

图源 AI 生成

创业者郭轶捷推出了一款名为「Neurobo」的智能娃包。这款产品不仅是装载二次元虚拟角色(即「娃」)的背包,更集成了摄像头、麦克风、GPS 及 Agent 工作流,使其具备感知环境、记录情境和保存记忆的能力。当用户背着娃包外出或社交时,AI 能以包内角色的视角捕捉生活片段,并在合适时机通过 APP 发起互动,实现「让娃活过来」的体验。

郭轶捷团队之所以选择「娃包」而非直接做「娃」,基于对二次元人群的深度洞察:

  • 出行刚需:二次元用户本身就有带娃出街的习惯,娃包是现成的载体。

  • 去 IP 化:情感投射具有高度个性化,用户更倾向于自我创造角色(OC)或融合多种人设,而非受限于单一固定 IP。

  • 数据闭环:相较于居家场景,带娃出门社交能产生大量物理空间数据,弥补了当前人机交互中情感与社会性数据的缺失。

尽管二次元常被视为小众生意,但该项目已获奇绩创坛及港科大教授高秉强等投资方的支持。投资人认为,这门生意的本质是人与虚拟角色之间的交互幻想,这种需求具有普适性。郭轶捷表示,娃包只是切入二次元细分人群的形态,其核心是一套智能可穿戴设备的交互机制。未来,这套机制可拓展至 Labubu、宠物甚至亲子等更广泛的角色化陪伴场景。

目前,Neurobo 娃包计划于 2026 年中量产,预计定价在 500-1500 元之间。团队希望通过打造轻奢的交互体验,让用户感到把娃放进包里是一种更高级的选择,最终服务于更广泛的需要「陪伴叙事」的大众消费人群。

(@ 未来人类实验室)

03 有态度的观点 

1、研究称「996」工作模式正在硅谷 AI 行业蔓延

图片

据《商业内幕》报道,今年硅谷的 AI 行业正出现更趋严苛的「996」式工作文化,引发业内对员工身心负担的担忧。

报道援引多位研究人员指出,在激烈的 AI 竞赛推动下,部分科技公司正在形成高压、长工时的工作环境,甚至开始接近在国内互联网行业长期存在的「996」模式。

报道提到,Allen Institute for AI 高级研究科学家 Nathan Lambert 与 AI 研究实验室创始人 Sebastian Raschka 在近期播客节目中谈到,硅谷的工作节奏虽未完全复制中国的「996」,但趋势正在向更高强度靠拢。

Raschka 表示,AI 模型迭代速度极快,初创公司为了在竞争中保持领先,往往需要团队持续交付成果,这使得长时间工作成为常态。他强调,这种节奏更多源于竞争压力与从业者的热情,而非强制要求。

Lambert 指出,这种文化在旧金山最知名的 AI 公司中尤为明显,他提到「这就是 OpenAI 和 Anthropic 的现状」,许多程序员主动投入高压环境,因为他们希望参与最前沿的研究。

不过,他也强调,这种投入往往伴随明显的「人力消耗」,包括与家人相处时间减少、视野变窄以及健康问题等。

这种节奏不可能长期维持,人真的会被拖垮(burn out)。

Raschka 也分享了自身经历,称长期不休息导致颈部与背部疼痛。他认为,年轻程序员若希望在 AI 领域产生影响,亲自来到旧金山仍是最现实的路径,但必须接受相应的生活与健康取舍。

( @APPSO)

04Real-Time AI Demo 

1、VisionClaw:将 OpenClaw 装进智能眼镜 ,实现语音、视觉和智能体操作

图片

近日,开发者 sseanliu 开源了 「VisionClaw」项目这是一款适用于 Meta Ray-Ban 智能眼镜的实时 AI 助手——通过 Gemini Live 和 OpenClaw 实现语音、视觉和智能体操作。 它结合视觉与语音技术,让智能穿戴设备具备了感知现实并执行复杂任务的能力。

VisionClaw 允许用户在戴上眼镜后,通过简单的点击和语音交互来实现「所见即所得」的智能化体验。其主要功能包括:

  • 实时环境感知:利用眼镜摄像头以每秒约 1 帧的速度向 Gemini 传输画面,AI 能够实时描述用户看到的景象。

  • 双向语音交互:基于 Gemini Live API,系统支持原生的实时音频流传输,而非传统的「语音转文字」后再处理,响应更加自然。

  • 智能体代理操作:通过接入可选的 OpenClaw 本地网关,AI 能够跨应用执行任务,如将物品添加到购物清单、通过 WhatsApp 发送消息或搜索附近商铺。

在技术实现上,该项目基于 Meta Wearables DAT SDK 与 Gemini Live API 构建。它不仅支持 Meta 智能眼镜模式,还特别提供了「iPhone 模式」,方便开发者在没有硬件眼镜的情况下,利用手机后置摄像头测试完整的 AI 链路。

GitHub: 

https://github.com/sseanliu/VisionClaw

( @GitHub)

2、告别模糊定位:VPS 技术赋予智能眼镜「空间感知」新高度

来自开发者 Nikhil Sawlani:

智能眼镜现在具备了空间智能。multiset.ai 的视觉定位服务(VPS) 现已支持可穿戴设备,并首发适配 Meta Ray-Ban 智能眼镜。凭借小于 5 厘米的定位精度,眼镜能够精确感知设备的实时位置。

( @sawlaninik\@X)

05社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘后端工程师(全职 Remote)

【项目背景】

团队实力: 顶级内容 IP 制作运营团队 。

战略合作: 与日本游戏大厂深度战略合作,资源与技术底蕴深厚。

核心产品: 打造下一代「桌面全息仓」,赋予数字生命毫秒级交互体验 。

【职位详情】

性质: 全职(base 日本),支持远程办公(Remote)。

【核心挑战】

多模态中枢: 构建支持语音、文本、视觉输入的实时交互流水线 。

极致低延迟: 优化 TTFT(首 Token 延迟),确保全链路延迟在 1 秒以内 。

底层通信: 基于 WebRTC、WebSocket 或 Protobuf 设计高频指令传输协议 。

【任职要求】

精通异步后端开发,构建支持多模态(语音/文本/视觉)的实时交互流水线 。

熟悉音视频编解码(Opus/PCM)及抖动缓冲区设计 。

熟悉 TEN Framework/ LiveKit / Pipecat / Vapi 等至少一种实时框架 。

联系人:Andy

微信:xianhuabusi002

<邮箱:kai.shi0818@gmail.com>

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册