开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、KalpaLabs 推出「通用语音模型」:不到 1000 美元训练 800M 参数模型

由前 Google Assistant 核心 ML 负责人 Prashant 和高频交易基础设施专家 Gautam 共同创立的 KalpaLabs,正在构建一款「通用语音模型」。该模型旨在打破当前语音 AI 智能体领域碎片化的现状,整合语音转文本(STT)、文本转语音(TTS)、语音输入/语音输出推理及跨模态任务,并引入 LLM 级别的可控性和上下文工程能力。此举旨在将文本 LLM 的成功范式复制到语音领域,解决上下文感知不足、指令遵循能力弱和专业化限制等核心痛点,彻底改变人机语音交互方式。

相关链接:

https://kalpalabs.ai/

(@ycombinator)

2、ElevenLabs Scribe v2 Realtime 问世:150 毫秒内跨 90+ 语言

Elevenlabs 推出 Scribe v2 Realtime——最精准的实时语音转文字模型。

专为语音智能体、会议记录者和实时应用程序设计,它可在 150 毫秒内跨 90 多种语言进行转录,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、印地语和日语。

Scribe v2 Realtime 为实时准确性设立了新标准,超越了所有低延迟 ASR 模型。

Scribe v2 Realtime 专为智能体使用场景而设计。在包含背景噪音和复杂信息的硬样本中,它的表现显著优于所有其他模型。

主要特点:

(@Elevenlabs)

3、百度开源多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking

百度开源了多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking。该模型是一款激活参数仅为 3B 的轻量级模型,基于 ERNIE-4.5-VL-28B-A3B 架构构建,通过在中期训练阶段引入海量高质量视觉语言推理数据,显著提升了视觉与文本模态间的语义对齐能力,并在多项基准测试中表现接近或超越业界旗舰模型。

该模型通过大规模多模态强化学习,实现卓越的视觉推理、多步分析与因果推断;可解析照片中的 STEM 问题(如电路分析与电阻计算);增强视觉定位,支持语义到坐标精准映射;创新 Thinking with Images 机制,借助图像缩放与搜索捕捉细粒度视觉信息;具备动态工具调用(如图像搜索)与视频时序理解能力,全面赋能复杂视觉任务。

根据官方基准测试图表,ERNIE-4.5-VL-28B-A3B-Thinking 在文档和图表理解等多项任务上,其性能表现可与 Gemini 2.5 Pro 和 GPT-5 High 等顶尖模型相媲美,甚至在部分指标上实现超越。

模型采用 Apache License 2.0,允许商业使用。

相关链接:

https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

(@ 橘鸭 Juya)


02 有亮点的产品

1、2 万付费客户、400 万美元 ARR:聚焦小企业与个人 AI 客服,Beside 获 3200 万美元融资

AI 语音初创公司 Beside 近日宣布完成 3200 万美元融资,并正式从隐身模式中亮相,推出了专为小企业设计的「AI 智能体前台」。这款 AI 智能体旨在弥补中小企业无法负担全职助理的空白,通过接听电话、记忆客户细节、预约和跟进等自动化服务,已每月处理数百万通电话,彻底重塑小企业的客户沟通方式,帮助其捕捉更多业务机会。

(@FORTUNE)

2、OpenAI 正测试 ChatGPT 群聊功能,支持文件上传与图像生成

昨天,博主 Tibor Blaho 在 X 发帖称,OpenAI 在 ChatGPT 网页端首次预览「群聊」功能。

该功能在顶部导航栏新增「发起群聊」按钮,用户可生成链接并邀请他人加入群聊。加入者不仅能查看群聊历史消息,还可在侧边栏的「群聊」区域进行互动。

该博主指出,群聊的自定义指令与个人 ChatGPT 的指令相独立,且不会调用个人记忆。

用户可选择让 ChatGPT 自动回应,或仅在被提及时参与。

此外,该博主曝光的图片还显示,该功能支持消息回复、表情反应、举报、输入状态提示,以及文件上传、图像生成和网页搜索等扩展能力。

(@APPSO)

3、Karumi 推出 AI 智能体实时演示平台:个性化「无限」客户体验

由前 StackAI 核心团队成员 Toni 和 Pablo 共同创立的 Karumi,近日发布了其创新的 AI 智能体驱动的演示平台。该平台旨在颠覆 SaaS 行业过时且低效的产品演示模式,通过提供 24/7 全天候、多语言、高度个性化的实时视频演示,有效解决传统演示中高意向潜在客户等待时间长、小账户被忽视等痛点。Karumi 让 AI 智能体拥有浏览器访问能力,能够实时导航产品,结合客户背景数据,提供媲美人类销售代表的清晰和互动体验,从而提高转化率并缩短销售周期。

Demo 体验:

https://www.karumi.ai/meet/start/d461afa6-f0d8-4bbe-83ac-ee88a7dbc303

网站:

https://www.karumi.ai/

(@ycombinator)


03 有态度的观点

1、黄仁勋:AI 并非泡沫,算力需求真实存在

据 Wccftech 报道,英伟达 CEO 黄仁勋近日在接受采访时回应了外界关于「AI 热潮是否类似互联网泡沫」的质疑。他强调,当前 AI 的算力需求是真实存在的,与上世纪末互联网泡沫时期的「暗光纤」现象截然不同。

黄仁勋指出,在互联网泡沫时期,大量光纤被铺设但长期闲置,造成了虚假的需求。而如今,几乎所有 GPU 都在被实际使用,企业的计算需求和 AI 查询数量正在指数级增长。

他表示:「今天的情况与当年的互联网泡沫不同,AI 的发展建立在真实的算力需求之上。」

报道提到,尽管大众对 AI 的认知仍停留在 ChatGPT 或图像生成等应用层面,但技术已发展到能够进行研究和「自我思考」的阶段,尚未全面普及。黄仁勋认为,这意味着产业仍有巨大成长空间。

(@APPSO)

2、DeepSeek 高级研究员警告:人工智能十年内恐取代大部分人类工作

#####

在中国世界互联网大会(WIC)乌镇峰会上,中国人工智能初创公司 DeepSeek 的高级研究员陈德利罕见地公开露面,发表了针对人工智能社会影响的严峻警告,敦促科技公司承担起「人类守护者」的角色。陈德利的言论凸显了中国科技界对人工智能可能带来的社会颠覆日益增长的担忧。

陈德利在小组讨论中表示,人工智能目前正处于提高生产力但仍需要人类监督的「蜜月期」。但他预测,在未来 五到十年内,人工智能可能会发展到足以取代许多人类工作,从而导致大范围失业和社会紧张。他进一步悲观地预测,在 10 到 20 年内,人工智能可能会取代大部分剩余的人类工作,给社会带来「巨大挑战」,届时科技公司必须扮演「吹哨人」的角色,帮助重塑社会结构。

这一时间表和论调与西方人工智能领军人物普遍展现的乐观态度形成鲜明对比,反映了中国创新者更为谨慎的态度。陈德利强调,AI 开发者必须将安全和社会福祉置于无节制发展之上,呼吁科技公司在人工智能快速发展之际重新评估发展重点。

DeepSeek 自 2025 年初成立以来,一直保持低调,但在全球 AI 领域迅速崛起,以开发出可与美国同行媲美、且对芯片性能要求远逊于美国同类产品的高性价比 AI 模型而闻名。正如《商业时报》和彭博社等媒体所强调的,DeepSeek 的成就不仅使其处于中国人工智能自主研发的前沿,在推动国内芯片技术发展方面发挥了关键作用,其免费或低成本的应用也已导致美国科技公司遭受巨大的市场损失,甚至引发了硅谷对低预算高性能 AI 普世化将加剧失业的恐慌。

陈德利的警告不仅限于中国。随着 DeepSeek 模型的普及和强大,全球各行各业都面临变革。该公司技术已利用海量数据集进行训练,并在海关、制造业和化学品监管等领域实现了部分工作的自动化。此次陈德利出席官方支持的大会并发表这一悲观论调,标志着官方对平衡创新与社会挑战的谨慎态度表示支持。

(@AIBase)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流