图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造

阶跃星辰正式上线新一代实时语音大模型 StepAudio 2.5 Realtime,重点增强了音频流中的非文本特征解析能力与角色扮演稳定性。开发者现可通过开放平台 API 接口直接接入,构建具备情绪感知并支持深度人设定制的实时语音智能体。

(@ 阶跃星辰)

2、CircuitLaunch 扩展联合制造版图:园区总计 5 万平方英尺,采用零股权纯服务模式

图片

CircuitLaunch 披露其机器人联合制造(co-facturing)中心的最新运营数据及发展规划。该社区明确拒绝传统孵化器的股权置换模式,以提供纯硬件制造服务为核心,目前已累计支持超 120 家初创公司,促成融资总额超 4 亿美元,并正式筹备向旧金山扩张新园区

( @gritdaily)

3、曝 DeepSeek 融资 500 亿,梁文锋或自投 200 亿

图片

据悉,DeepSeek 创始人兼 CEO 梁文锋可能会在公司成立以来的首轮融资中,个人投入高达 200 亿元人民币,占募资总额的 40%,成为本轮融资中的最大投资者。DeepSeek 希望在本轮融资中筹集到 500 亿元人民币,这将成为中国 AI 公司史上规模最大的一轮融资

另据一位知情人士透露,中国国家人工智能产业投资基金(大基金)预计将成为 DeepSeek 本轮融资中的第二大投资者。与此同时,这轮融资也促使 DeepSeek 加快创收和商业化进程。

DeepSeek 最近向一些投资者表态,将计划加快模型发布的节奏,使其更接近行业常规速度。其中一位知情人士称,公司计划在 6 月发布其 V4 模型的更新版本 V4.1。DeepSeek 的新模型 V4.1 将为企业用户提供更多工具,并更好地支持 MCP 协议。一位知情人士称,DeepSeek 还计划让 V4.1 能直接处理图像和音频信息,尽管其生成的内容仍仅限于文本。DeepSeek 的本轮融资于 4 月启动,其预期估值已从早期的超 100 亿美元(约合人民币 680 亿元)急剧攀升。4 月 22 日,The Information 曾援引四位知情人士消息报道,腾讯和阿里巴巴正洽谈投资 DeepSeek。此轮融资完成后,DeepSeek 的估值或将超过 3500 亿元人民币

尽管估值迅速飙升,但一些曾与 DeepSeek 进行洽谈的投资者,对 DeepSeek 创造持续性收入以及加快模型发布速度的能力表示担忧。DeepSeek 一直以研究型实验室的声誉著称,将模型开发置于商业化之上

DeepSeek 正致力于将技术转化为可供收费的产品和服务,其员工一直在向各行各业的企业推广其模型,希望能激发合作兴趣。据两位知情人士透露,DeepSeek 还从字节跳动的产品开发团队及其他国内科技公司招兵买马。

(@ 智东西)

4、VoiceBlender 发布:基于 Go 的 SIP-WebRTC 桥接服务,支持 WhatsApp 通话与 AI 智能体集成

VoiceBlender 是一款由 Go 语言编写的通讯中间件,实现了 SIP 与 WebRTC 协议的高性能桥接。该服务通过 REST API 和 WebSocket 提供多方音频混合、实时录制及 AI 智能体集成能力,旨在解决跨平台语音互通与自动化语音交互的工程化难题。

https://github.com/voiceblender/voiceblender

( @GitHub)

02 有亮点的产品

1、阿里千问 AI 眼镜 S1 系统升级:引入双目 3D 空间显示,接入核心应用开放主动调度能力

图片

图片

图片

阿里正式推送千问 AI 眼镜的系统级更新,底层逻辑由单次问答响应转向基于上下文感知的主动式智能体调度。硬件层面通过双光机模组首次在轻量级眼镜端实现立体 3D 视觉输出。此次更新深度调用了阿里生态内的支付与 LBS 应用接口,旨在验证端侧多模态模型在复杂真实场景下的任务闭环能力。

(@ 智东西)

2、Familiar Machines 推出四足机器宠物 Familiar:集成端侧多模态感知,支持数十个动作自由度

图片

前 iRobot 创始人 Colin Angle 成立初创公司 Familiar Machines,推出一款四足伴侣机器人 Familiar。该设备完全舍弃家务等物理实用功能,依托端侧多模态感知技术捕捉用户的表情与肢体语言,并直接输出非人类语言的物理行为与情绪反馈

(@ 极客公园)

03 有态度的观点

1、伦敦自动驾驶公司 CEO:端到端 AI 是自动驾驶的未来,授权模式将超越特斯拉和 Waymo

图片

伦敦自动驾驶公司 Wayve CEO Alex Kendall 昨日接受彭博电视专访时表示,Wayve* 坚持端到端 AI 路线,拒绝依赖高精地图和规则系统,其世界模型 GAIA-3 已可模拟复杂城市驾驶场景*。

Kendall 将公司的商业模式定义为有别于特斯拉垂直整合和 Waymo 自建车队模式的「第三条路径」,向整车厂和车队授权 AI 技术

我们选择授权这项技术给任何车辆、任何地方。我认为这一模式的可扩展性最强,能以最具性能、安全性和成本效益的方式服务整个行业。

针对「端到端 AI 不可解释」的质疑,Kendall 表示这是所有复杂自动驾驶系统的共性挑战,Wayve 已构建模拟器、反事实分析和数据回放等工具链应对监管要求。

与其为了所谓的可解释性限制可扩展性,我宁愿先做可扩展的系统,再想办法让它变得可解释。这正是 Wayve 正在做的。

目前,Wayve 的合作方涵盖日产、奔驰、Stellantis,以及微软、英伟达、Uber、高通等。日产已宣布计划将 Wayve 技术推广至其全球 90% 的车型。

Wayve 计划今年在伦敦和东京启动监督式 Robotaxi 试运营,并与 Uber 合作扩展至 10 座城市;消费者版辅助驾驶产品预计明年随整车厂量产车型上市。

( @APPSO)

04 Real-Time AI Demo

1、所说即所见:OpenAI 实时语音驱动 AI 动态白板

基于 OpenAI 最新实时语音模型的一个绝佳用例——「实时语音驱动现场演示」:只需你开口说话,白板就会瞬间将你的语音内容转化为可视化展示

想象一下在头脑风暴会议的场景中,随着创意的提出,白板能在现场瞬间生成结构图、流程图,将抽象的想法立刻可视化。

或者当老师授课时,板书跟随着讲解的声音实时、自动地生成;讲到每一个新的知识点,白板立马绘制出相应的原理图,学生可以直观地看到整个知识结构被动态构建出来的过程。

它具备独特的双工作流模式

此外,它还内置了预热机制(Warm-up mechanism):在进入「实况」模式前,AI 会先基于「暂存」阶段的内容进行预热处理,完美避免了当你说完第一句话时,模型却还没准备好响应的尴尬情况。

它还支持纯本地化部署,以满足更高的数据隐私和定制化需求。

项目作者 @kunchenguid

相关链接:

https://x.com/aigclink/status/2052924817184288805

demo 链接:

https://github.com/kunchenguid/autopreso

( @aigclink\@X)

05 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、516 上海活动报名 | 让算法大脑进入硬件躯壳:当 AI Agent 有了眼睛

过去一年,我们看到 AI Agent 变得越来越会思考、会规划、会调用工具。但如果它只能停留在屏幕里,它仍然缺少一件很关键的东西:感知真实世界的能力。

当多模态大模型开始成熟,AI Agent 的下一步,可能不只是更强的大脑,而是拥有「眼睛」

摄像头形态硬件、智能眼镜、空间感知终端、可穿戴交互设备,正在成为 AI Agent 进入现实世界的重要入口。模型能力、视觉输入、硬件工程、供应链和产品定义,也开始在同一个问题上汇合。

我们想围绕这个问题,发起一场小型闭门活动。

这不是一场泛泛而谈的 AI 沙龙,也不是只聊趋势的分享会。我们希望聚集 30 位真正对 AI 硬件感兴趣、正在思考或已经动手的 Builder,一起讨论

当算法大脑开始进入硬件躯壳,下一代产品机会会在哪里?

我们希望这场活动不只是一次聊天,而是一次让想法更接近产品的开始。

如果你也在思考 AI 硬件、摄像头形态产品、多模态 Agent,或者正在寻找一起把 Demo 做成产品的人,欢迎扫码填写问卷。

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流