图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Speechify 落地 Windows 端侧语音栈:集成 Whisper 与 VITS 模型,支持 NPU 离线听写与 TTS 朗读

图片

语音 AI 服务商 Speechify 推出 Windows 原生应用,通过利用 Copilot+ PC 的 NPU 及主流 GPU 算力实现端侧语音处理。该应用整合了听写、文档朗读及跨应用转录功能,旨在通过本地化部署解决数据隐私问题并降低响应延迟

( @Techcrunch)

2、通义实验室发布 CoPaw 1.0:主打隐私安全的个人智能助理,实现 2B-9B 定制模型本地化运行

图片

通义实验室正式发布个人智能助理 CoPaw 1.0 稳定版。该版本核心定位为「隐私优先」的本地 Agent 方案,通过 Trinity-RFT 框架定制了 2B/4B/9B 多尺寸小模型,支持在普通个人电脑(Mac/Win/Linux)实现 100% 数据不出设备。

图片

通过建立三道安全防线与异步多智能体架构,CoPaw 1.0 实现了高并发、可控且低成本的个人任务自动化处理。

GitHub 链接:

https://github.com/agentscope-ai/CoPaw

(@ 通义实验室)

3、Salesforce 发布 VoiceAgentRAG:双智能体异步架构将语音 RAG 检索延迟降低 316 倍

图片

Salesforce AI 研究团队发布开源项目 VoiceAgentRAG,旨在解决语音 AI 场景下 200ms 的严苛延迟挑战。通过将文档获取与响应生成解耦,该架构将标准向量数据库查询产生的 50–300ms 延迟压缩至 0.35ms 的本地缓存命中延迟,实现了 316 倍的性能提升。

@marktechpost

02 有亮点的产品

1、「AI 音频芯片第一股」傅里叶正式登陆港交所,开盘大涨 112%!年销 4.7 亿颗芯片

图片

3 月 31 日,傅里叶成功在港交所主板上市,正式成为「AI 音频芯片第一股」,国泰君安国际及东方证券国际为联席保荐人。傅里叶半导体是国内领先的感知智能芯片设计企业,采用 Fabless 轻资产运营模式,专注智能音频与触觉反馈芯片的研发、设计与销售,核心亮点突出,是国产替代赛道的标杆企业。按 2024 年出货量计算,公司在全球功放音频芯片领域稳居前三,中国市场排名第二,智慧屏专用音频芯片国内市占率第一,行业头部地位稳固。

傅里叶本次香港 IPO 全球发售 1200 万股 H 股股份,公开发售占 20%,国际发售占 80%。最终发售价为每股 40 港元,全球发售净筹约 4.23 亿港元。其中,公开发售获 3118.43 倍认购,国际发售获 2.93 倍认购。31 日开盘,傅里叶涨 112.62%,报 85.05 港元/股,市值 95.26 亿港元。

@IPO 早知道)

2、Runway 设立 1000 万美元基金与 Builders 计划:加速「多模态视频智能」生态与通用世界模型落地

Runway 宣布成立 1000 万美元风险基金并启动 Builders 计划,旨在扶持构建于其模型之上的早期初创企业。该计划的核心目标是将技术触角从单一的视频生成延伸至「多模态视频智能」,通过开放 API 信用额度支持开发者在 AI、媒体及世界模拟领域开发垂直应用。

依托去年 12 月发布的「通用世界模型(General World Models)」,Runway 试图通过生态投资,将视频生成能力转化为具备物理常识、可模拟现实世界的底层智能引擎。

目前已披露的投资组合聚焦于多模态上下游协同,包括为多模态数据提供基础设施的向量数据库 LanceDB、实时音频生成平台 Cartesia,以及利用 AI 进行蛋白质设计的 Tamarind Bio

下一代模型核心逻辑在于视频、音频、图像与文本的深度对齐(Alignment)。Runway 的战略重点在于通过投资基础设施层,确保其模型能高效处理及检索非结构化的多模态数据。

(@Techcrunch)

3、Meta 发布 Ray-Ban Meta Gen 2 近视定制款:影像分辨率提升 150%,支持 EMG 腕带手写输入

图片

Meta 正式推出专为近视用户设计的 Ray-Ban Meta Scriber 与 Blayzer(Gen 2)智能眼镜,通过定制化镜框结构适配全度数镜片。该版本在影像分辨率与续航表现上实现翻倍增长,并同步更新了基于端侧处理的 AI 摘要及肌电(EMG)腕带交互功能。

( @AI Vision)

4、XSwitch 发布 A 系列硬件及 v6.5.3 预览版:端侧 6TOPS NPU 算力,支持全私有化 LLM 部署

XSwitch 正式发布 A 系列与 X 系列硬件终端,并同步更新 v6.4.4 稳定版与 v6.5.3 预览版。本次更新核心在于通过端侧 NPU 加速实现 ASR、TTS 及 LLM 的深度集成,提供从 CPU 纯软推理到 GPU/NPU 异构加速的全场景私有化通讯解决方案。

完整产品介绍:

https://mp.weixin.qq.com/s/VxXMn2O1fqFUI_rlEryufg

(@ 小樱桃科技)

03 有态度的观点

1、DeepMind 之父坦言:我造的 AI 可能灭绝人类,但已无人能停下

近日,DeepMind 创始人德米斯・哈萨比斯坦言,其研发的超级人工智能存在灭绝人类的风险,而当前 AI 发展竞赛已进入无法停止的状态,人类难以通过外部治理手段有效管控。他彻底放弃此前依赖制度、伦理委员会约束 AI 的构想,承认治理结构在关键决策中难以发挥作用,只能依靠自身争取话语权来把控 AI 安全走向。

哈萨比斯一直是 AI 安全的坚定倡导者,早年曾设想通过独立监督、秘密研发等方式打造绝对安全的超级智能。2014 年将 DeepMind 出售给谷歌时,还明确要求保留 AI 安全独立决策权、设立外部监督委员会并禁止军事应用。但这些安全构想接连落空,马斯克参与相关集会后转而创立 OpenAI,打破了单一主体管控 AI 的设想,后续与谷歌的治理权谈判也以失败告终。

2022 年 ChatGPT 的出现,彻底打乱了 AI 研发节奏,谷歌陷入竞争焦虑,DeepMind 与谷歌大脑合并,安全规范让位于研发速度,此前的安全防线逐步失效。哈萨比斯由此认清现实,在商业竞争与技术竞赛压力下,依附于商业巨头的非营利治理机制难以存续

如今哈萨比斯转变思路,核心主张是让自己占据核心决策位置,凭借对 AI 风险的敬畏之心,在关键节点把控技术方向。他一边推进 Gemini 等模型研发,一边坚守安全底线,试图以个人影响力降低 AI 失控风险。业内分析认为,这一转变折射出全球 AI 竞赛的残酷现状,统一治理难以实现,AI 安全窗口持续收窄,人类正面临关乎文明存续的巨大挑战

(@ 雷锋网)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流