AI测试 多模态感知 AI 穿戴设备 Looki L1 发布,融资超千万美元;豆包负责人否认推出手机计划丨日报

RTE开发者社区 · August 21, 2025 · 73 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、Rime 发布新一代 TTS 模型 Arcana v2

语音 AI 公司 Rime 宣布推出新一代文本转语音(TTS)模型 Arcana v2。

Rime 的联合创始人 Lily Clifford 在社交媒体上透露,使用 Arcana v2 的企业已经获得了显著的商业成果,例如:一家连锁餐厅的销售额提升 15%,一家初创公司通话成功率增加 10%,以及一家全国性电信公司的客户呼叫拒绝率降低了 75%。

技术亮点:

  • 高度自然和富有表现力的音色:Arcana v2 提供了更接近人类的语音,使其在各种应用场景下听起来更具亲和力;

  • 多语言与混合语言支持:该模型支持英语、西班牙语、法语和德语等 35 种旗舰音色,总计音色超过 300 种。此外,它还支持双语混合切换(code-switching),例如在一段话中自然地混合使用英语和西班牙语;

  • 灵活的部署选项:Arcana v2 支持多种部署模式,包括云端、VPC(虚拟私有云)和本地部署(on-prem),并利用超低延迟的 WebSocket 技术,确保了部署的灵活性和实时性。

Rime 表示,未来将继续扩展其语言支持,计划即将推出印地语、阿拉伯语和日语等更多语言。

官网链接:https://rime.ai/try/

Blog:https://www.rime.ai/blog/arcana-v2/(@lilyjclifford\@X)

2、Cartesia 推出专为现代语音智能体打造的开发平台 Line

Cartesia 宣布推出全新产品 Line,一个专为现代语音智能体打造的开发平台。旨在解决当前语音智能体开发中存在的复杂性、高延迟和难以扩展等难题。

技术亮点:

  • 代码优先:Line 提供了一套功能强大的 SDK。与传统的对话构建器不同,这种方式为开发者提供了极高的灵活性,可以利用代码实现更复杂的背景推理和业务逻辑,轻松处理各种边缘情况,并与其他常用软件包无缝集成。

  • 高效调试:Line 平台支持从文本提示或模板快速生成初始智能体。通过 CLI 和 GitHub 集成,开发者可以在本地进行开发,一键部署和实时测试。平台还提供全面的通话记录、音频、转录和系统指标(如延迟),并支持使用「LLM-as-a-judge」的方式,自定义评估指标来衡量智能体的性能。

  • 深度集成:Line 深度集成了 Cartesia 自主研发的前沿语音模型 Sonic 和 Ink(流式语音转文本模型)。这种集成保证了语音智能体的端到端超低延迟表现,并能第一时间获得最新的模型技术更新。

  • 企业级部署:除了云端部署,Line 还支持完全的本地化部署(on-prem),包括代理和底层模型,并允许对模型进行微调,以满足企业的定制化和合规性需求。其所有服务都运行在全球分布式的 Cartesia 基础设施上,确保稳定性和可扩展性。

目前,Line 已面向所有开发者开放使用。作为发布福利,所有订阅套餐的用户都将获得等值的预付金,可用于抵扣智能体的使用费用。(@cartesia_ai\@X)

3、DeepSeek 新模型 V3.1 上线

8 月 19 日晚,DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k,可通过官方网页、APP、小程序测试,API 接口调用方式保持不变。

简单来讲,新版 DeepSeek 能一次性「记住」和处理的文本长度更长,上下文容量大提升,对长文档分析、代码库理解、长对话保持一致性都更有帮助。

不过,这只是常规更新,和大家期待已久的 R2 没关联。按照过去的经验,R2 发布前应该会先更新 V4 模型。

上周市场曾传出下一代大模型 DeepSeek-R2 将在 8 月下旬发布的消息,但消息来源并不可靠。据接近 DeepSeek 人士透露, DeepSeek-R2 在 8 月内并无发布计划。

今天凌晨,DeepSeek 开源了 V3.1-Base 版本。该模型拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,便于高效推理,还具备扩展的上下文窗口。

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base (@APPSO)

4、字节跳动被曝将推出「世界模型」

据 The Information 报道,字节跳动正紧跟 Google 和 Meta 的步伐,也正在筹备自己的世界模型。

近期,Google 和 Meta 都分别推出了自家新款世界模型——Genie 3 和 V-JEPA 2。世界模型能模拟出真实的环境,旨在获得与真实世界相似的物体运动以及人类与周围环境互动的物理方式,从而用于训练机器人和自动驾驶模型。

据悉,目前字节跳动的世界模型项目由其专注于人工智能研发的种子部门推进。

另据知情人士透露,项目负责人为周畅——其去年从阿里通义跳槽至字节跳动,曾是 Qwen 模型的关键高管之一。

值得一提的是,字节跳动目前拥有抖音和 TikTok 两大「病毒式」视频平台,同时其拥有领先的 AI 视频生成模型。对此,报道指出,字节跳动能通过这一优势,助力自身开发世界模型。(@APPSO

02 有亮点的产品

1、豆包负责人否认「推出手机计划」

8 月 19 日,据《晚点 LatePost》消息,字节跳动正在研发 AI 手机,目前名称是「豆包手机」,由中兴作为 ODM 厂商来代工,这款手机即将在今年年底或者明年年初推出,早期主要用于字节内部团队的测试,暂时没有对外售卖的计划。

随后,豆包相关负责人通过界面新闻表示「信息不实」。其表示,「豆包目前没有推出自己手机产品的计划。」

该名负责人称,「豆包在持续探索把自己的 AI 能力开放给包括手机在内的各种硬件厂商,在这个过程中,我们会和一些合作伙伴做完整解决方案尝试,但所有合作都不涉及自有手机产品的研发与推出。」

字节已多次尝试硬件产品,如在 2020 年,当时由阳陆育负责的教育硬件团队推出了大力智能灯和写字板等教育硬件。大力智能灯在 2021 年的销售目标是 200 万台,但销量远不及预期。

2021 年,字节又以 90 亿元收购 VR 头显品牌 PICO,PICO 团队在高峰期的员工总数超过 2000 人。字节也投入了不少资源发展 VR 内容生态,曾斥资 10 亿元购买卡塔尔世界杯版权做 VR 转播,自制郑钧、汪峰等明星的 VR 演唱会。

@APPSO、@ 晚点 LatePost)

2、AI 随身盒子 iKKO:支持离线翻译、语音笔记、无卡通话

AI 随身盒子 iKKO,一款专为用户效率和灵感而生的智能工具。

功能亮点:

  • 随时在线:

iKKO AI 随身盒子支持无需 WiFi 和实体 SIM 卡即可联网,目前已覆盖全球 60 多个国家;

  • 支持高准确率离线翻译:

离线翻译和语音笔记功能,iKKO 的识别准确率远超传统离线工具;

  • 功能扩展:

通过配置 Snap A 扩展盒,iKKO 的功能将得到进一步的提升。扩展盒提供了物理键盘、耳机接口以及内置卡座。(@ 潜在空间 AloT)

3、超千万美元融资的多模态 AI 可穿戴设备 Looki L1,支持自动剪辑 vlog

多模态 AI 穿戴设备 Looki 在半年内完成了天使轮、天使 + 轮以及 Pre-A 轮融资,总金额超过千万美元。本轮融资由 EBVC 领投,老股东 BAI、阿尔法公社和同歌创投超额追投。融资资金将主要用于产品开发和团队建设。

Looki 初代产品 L1 仅重 30 克,声称能成为生活的「第一感官」,无感记录日常。初代产品 L1 售价 199 美元,全球发货将于 2025 年 9 月开始。

功能亮点:

  • AI 原生多模态感知:Looki 具备感知 - 理解/决策 - 生成的全链路 AI 能力。它能智能分析视频、图片、语音等多模态信息,自动理解场景、人物动作和对话内容,并以此为基础,洞察用户的生活,自动生成事件总结、推送高光时刻和每日精彩视频剪辑(AutoCut);

  • 智能生活记录:Looki 介绍称,L1 主推故事模式(Story Mode),也叫做智能化间隔拍摄。该功能支持 12 小时续航。所有记录内容都会在手机应用中被整理成「生活日历」,并根据时间和内容进行智能分类;例如,当用户回顾某次购物经历时,Looki 能根据拍摄到的画面,准确识别出具体的地点和商品细节,甚至能推断出用户的关注点,为用户提供智能化的记忆检索服务。

  • 注重用户隐私:Looki 严格遵循隐私保护原则。它只有在用户主动启动时才会开始「间隔拍摄」,并通过「信任灯」来明确提示设备是否正在拍摄;

  • 简洁设计与便捷交互:L1 的设计简洁直观,仅通过两个实体按键和一块触摸板就能控制所有功能,包括间隔拍摄、拍照、录像和录音。

除了视频功能之外,Looki 也支持录音、拍照等等功能,这些也都同样能构成 Looki 的「记忆库」。(@ 十字路口 Crossing、@ 硬氪)

4、Win11 将聚焦情境感知 AI,支持语音视觉等多模态交互

8 月 19 日消息,微软 Windows 部门负责人 Pavan Davuluri 近日在 YouTube 上发布的一段 30 分钟的播客视频中表示,Windows 的未来将聚焦于具备情境感知能力的人工智能(AI),而 Windows 11 将成为这一变革的先锋。

微软不再认为鼠标和键盘是与 Windows 交互的唯一方式。未来,Windows 11 将具备多模态交互能力,包括语音、视觉、手写笔和触摸等多种方式。

Davuluri 表示:「操作系统正变得越来越多模态化,语音、视觉、手写笔和触摸将与鼠标和键盘一样重要。」

未来还将整合更多本地模型,如 Phi 模型。Windows 11 具备语音、视觉等多模态交互能力。但先进 AI 功能限于 Copilot+ PC,微软暂无推广至普通 PC 的计划。

此外,微软未提及 Windows 12 开发计划,重点是让 Windows 10 用户升级到 Windows 11,未来 Windows 11 更新将聚焦 AI 功能。(@ 竹智 AI、@ 雨询)

03 有态度的观点

1、The Information:自主机器人的背后,可能是人类在操控

8 月 19 日,The Information 发文指出,目前很多看似能够自主活动的机器人背后,实际上都由人类操作员进行操控。

文中提到了英伟达今年 3 月亮相的小机器人——那台星战风格的机器人在台上「自主」走到 CEO 黄仁勋身边,因自然且可爱的动作引发全场掌声。但据迪士尼公开表示,上述的「自主」活动只维持了几分钟,后续其实是由后台的「人类木偶师」(人类工程师)远程操控完成的。

The Information 表示,这种「幕后操控」已成为机器人行业的公开秘密。无论是仓库分拣、街头送餐,还是与 CEO 同台亮相,许多机器人并非真正自主运行,而是依赖远程人类操作者。有时,这些操作者身处数百甚至上千公里之外,借助手柄或 VR 设备进行控制。

即便是特斯拉引以为豪的 Optimus 机器人,其在「表演」时也需要人类操作员在后台「穿戴动作捕捉服」来完成动作。

而这一趋势催生了对「远程操控员」(teleoperators)的需求,部分岗位甚至被外包到美国以外的低成本地区,用廉价劳动力支撑「美国本土企业」。The Information 指出,短期内,这类岗位在一定程度上能够让被机器人替代的司机与仓储工人得到就业岗位补偿。

但 The Information 也援引 Coco Robotics CEO Zach Rash 所说:远程操控并不是「造假」,它不仅是兜底,更在训练机器人变得更聪明。(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up