AI测试 实时数字人 Lemon Slice 融资 1050 万美元,单 GPU 实现 20FPS 生成;钉钉发布 AI 防录音魔盒丨日报

RTE开发者社区 · 2025年12月24日 · 76 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、Qwen3-TTS 上新,支持跨物种克隆音色

VoiceDesign (VD-Flash):

全文本控制: 通过文字指令调整语气、节奏和情感,拒绝千篇一律的预设音色。

性能卓越: Role-play 表现超越 GPT-4o-mini & Gemini-2.5-pro。

VoiceClone (VC-Flash):

极速复刻:

仅需 3 秒音频即可克隆任意声音。

多语种支持:

支持中英日等 10 种语言,多语言准确率优于 ElevenLabs

(@ 通义大模型)

2、MiniMax M2.1:多语言编程 SOTA,为真实世界复杂任务而生

MiniMax 通过模型、Agent 脚手架和组织,以一种更具 AI 原生性的方式进行自我革新。今天,MiniMax 开放了其模型部分的更新——M2.1,并希望借此帮助更多企业和个人尽早实现更具 AI 原生性的工作与生活方式。

在十月底发布的 M2 版本中,MiniMax 主要解决了模型成本和开放性问题。而在 M2.1 版本中,MiniMax 将重点放在提升模型在真实世界复杂任务中的表现,特别是增强其在多种编程语言和办公场景下的可用性,力求在该领域达到领先水平。

MiniMax M2.1 API :
https://platform.minimaxi.com/docs/guides/text-generation

@MiniMax 稀宇科技)

3、面壁智能完成数亿元融资,加码投入领跑端侧 AI

面壁智能昨天宣布,已于近期顺利完成数亿元融资。本次融资由京国瑞、国科投资、中金保时捷基金、米聚资本与和基投资共同参与,募集资金将主要用于加大端侧高效大模型的研发投入,加速端侧 AI 的商业化进程。

面壁智能顺利完成本轮融资,得益于端侧智能市场空间进一步打开,更有赖于投资方对面壁的技术实力、市场地位及行业前景的充分认可。作为国内在端侧智能领域布局最早的大模型厂商,面壁构建起完善的理论体系与模型产品谱系,MiniCPM 面壁小钢炮端侧模型已在汽车、手机、PC 及智能家居等多个领域实现规模化落地,与吉利、长安、大众、华为等多家知名企业达成深度合作,端侧大模型的商业化进程走在行业前列。

(@ 面壁智能)

02 有亮点的产品

1、1050 万美元种子轮融资, Lemon Slice-2:20B 模型支持单 GPU 实现 20FPS 实时数字人生成

数字人生成初创公司「Lemon Slice」发布其 20B 参数的视频扩散模型「Lemon Slice-2」。该模型支持通过单张图片生成交互式数字人视频层,旨在为基于文本的 AI agent 提供高保真视觉交互能力,并已获得 1050 万美元种子轮融资,由 Matrix Partners 及 Y Combinator 领投。

  • 视频扩散 Transformer 架构:采用与 Sora、Veo 类似的端到端通用模型路径,而非传统的基于特定面部关键点驱动的方案,支持从人类到非人类角色的通用化生成,旨在通过数据规模化解决「恐怖谷效应」。

  • 单 GPU 实现 20 FPS 实时推理:模型优化后支持在单张 GPU 上进行 20 帧/秒的实时视频流渲染,满足教育、语言学习及企业培训等低延迟交互场景需求。

  • 轻量化集成接口:提供标准 API 及单行代码嵌入式 Widget,支持在生成后随时动态修改数字人的背景、服饰样式及外观属性。

  • 语音与安全合规模块:集成「ElevenLabs」技术提供语音生成能力;内置基于 LLM 的内容审核机制,并设有防止未经授权的脸部/声音克隆的物理防护栅栏。

@TechCrunch

2、奇点摄动完成千万级融资,发布桌面级 3D 智能体《星夜颂歌》:自研「星空记忆」架构与广播式分发系统

「奇点摄动」(SingularDance)近期完成由九合创投领投的千万级人民币天使 + 轮融资。该公司推出基于自研人物模型驱动的 3D 桌面智能体《星夜颂歌》,旨在通过深度定制的「智能体」架构,将 AI 从单纯的对话工具转向具有独立生活流、主观记忆与 OS 级交互能力的「赛博生命」。

  • 模型架构与后训练优化:产品核心基于改造后的开源 LLM 架构,通过超 1000 万条定向语料进行后训练(Post-training),将特定性格底色、价值观与行为模式内化至模型权重,而非依赖简单的 Prompt 工程。

  • 「星空记忆」复合拓扑系统:自研非线性记忆检索机制,放弃传统的「记事本式」向量检索,采用具备情感倾向的主观记忆权重。系统根据 AI 设定的性格与情绪状态决定记忆的留存与调取,实现逻辑一致的长期交互。

  • 「广播式」算力分发架构:针对推理成本高昂问题,开发了异步分发机制。AI 的非交互式行为(生活流)由云端统一生成指令包并广播至客户端随机组合,仅在用户主动交互(如对话、打断)时切入实时「个性化计算」,大幅降低边际算力成本。

  • 多模态生活流与环境感知:产品采用类 Wallpaper Engine 的底层驻留模式,智能体可感知用户的 OS 操作(如搜索行为、应用切换),并结合移动端地理位置信息进行环境反馈,实现 2/3 时间为非对话互动的「生活流」呈现。

  • PGC 与 AIGC 混合驱动模式:不同于纯 UGC 的陪伴产品,该项目采用 PGC 定向剧情章节引导「智能体」成长,通过固定剧本锚点与 LLM 自由发挥相结合,解决生成式 AI 在长线叙事中的失控问题。

目前产品处于测试预约阶段,首发平台为 PC 桌面端,未来计划延伸至移动端及 IoT 设备;采用「免费下载 + 交互深度付费」的商业模式。

(@ 硅星人)

3、首款带摄像头的 Lightwear AI 耳机正式亮相

昨日,前小米员工创业的光帆科技,推出了第一款 AI 硬件产品:Lightwear AI 全感穿戴设备。这是一套由耳机和手表组成的「套装」,而且每支耳机都带一个摄像头,成为 AI 的眼睛。

但更有趣的是,摄像头不是拍照片用的,而是为 AI 提供视觉场景理解能力。

APPSO 体验了一下工程样机,效果虽然离光帆期待的成品还有一定差距,但效果已经非常令人意外了。

功能方面,支持消息提醒(AI 自动判断重要性,低价值信息不打扰,而且支持回复);日程提醒(支持平台同步,能解决日程冲突,还能主动提醒重要纪念日);出行管家(机票酒店预定,临行出发提醒)等等。不仅如此,光帆还跟滴滴、京东有合作,里面的 AI 助理「晓帆」能帮用户打车;还能基于视觉进行产品比价,自动加入购物车。

值得一提的是,此前曾有报道称,苹果目前也在研发带摄像头的 AirPods,并且将服务于 Apple Intelligence 以及未来的 Siri。

@APPSO

4、钉钉发 20+ AI 新品,AI 防录音魔盒来袭

昨天,AI 钉钉 1.1 新品发布暨生态大会在杭州召开,钉钉发布代号「木兰」的 AI 钉钉 1.1 版本,并提出「Agent OS」愿景,试图把钉钉从聊天工具升级为企业级「工作智能操作系统」,为多 Agent 的统一运行、调度与协作提供底层能力。

钉钉表示,Agent OS 的底层由钉钉开放平台的多模型与 MCP(Model Context Protocol)能力支撑,经由企业 AI 平台 DEAP 与模型训练平台贯通软硬件生态,开发者与企业可在其上开发 Agent、训练模型并进行资源管理与运维。

同时,钉钉还在本次大会上,针对隐私场景做了一款 AI 防录音魔盒。

据介绍,魔盒通过超声波防护实现 360° 全方位覆盖;更关键的是,它还能适配多种场景,甚至可以「伪装」成纸巾盒、垃圾桶、保温杯,做到安全又无感。

发布会上,钉钉创始人陈航也提到:确实存在一些隐私场景、私密对话不希望被录音、被他人听到。所以,A1(此前发布的 AI 录音卡)像一把锋利的矛,而钉钉今天拿出的,是一面强大的盾——AI 防录音魔盒。

(@APPSO)

03 有态度的观点

1、AI 工具所宣称的生产力提升可能只是一种假象

MIT Technology Review 采访逾 30 名开发者、科技公司高管、分析师和研究人员后发现,基于大模型的 AI 工具是否加快程序员编程速度不是一个一锤定音的问题。

随着一线程序员认识到大模型的局限性,他们对 AI 工具的狂热开始消退。众多研究表明,AI 工具所宣称的生产力提升可能只是一种假象。

GitClear 的数据显示 2022 年以来工程师所写代码的持久性——数周内代码不会被删除或重写——提高约 10%,这一改进可能需要归功于 AI。但与此同时,代码的多项质量指标在快速下降。

编程问答平台 Stack Overflow 的调查首次显示对 AI 工具的信任度和好感度显著下降。程序员普遍认同 AI 工具的优势在于生成「样板代码」,编写测试、修 bug 以及向新手解释不熟悉的代码。

但对于经验丰富的程序员而言,此类任务只占工作量的一小部分,AI 工具对于解决复杂难题帮助不大。

基于大模型的 AI 工具也不可避免存在幻觉,它们生成的代码看起来完美,因此很难发现错误。所以使用 AI 工具就像是玩老虎机,有的时候大有帮助,但其它情况可能完全不可靠。

@Solidot

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册