AI测试 ARR 2.8 亿美元，AI 财务助手 Cleo 新增主动 AI 和语音交互；面向实时响应场景，混元开源四款小模型丨日报

RTE开发者社区 · 2025年08月06日 · 1693 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 预计将在本月推出 GPT-5

据 The Verge 报道，OpenAI 预计将在本月推出 GPT-5。报道指出，GPT-5 依然会推出 mini 和 nano 两个版本，并且均通过 API 提供。

近期，OpenAI CEO Sam Altman 也不断放出预告信息：曾公开分享自己对 GPT-5 使用体验时表示，感受到前所未有的「无能为力」；在近日公开了 GPT-5 的对话界面，并表示「很快进入 SaaS 的快时尚时代」。

值得一提的是，Altman 在前日发文表示，「接下来几个月我们将推出大量新内容——新模型、新产品、新功能等等。」

ChatGPT 还在凌晨的时候宣布更新：新增休息提醒，令用户拥有更健康、更有目标的使用方式；更好地改善情绪和精神困扰；为个人决策提供指导；提供来自医生、研究人员和心理健康顾问的专家意见。

另外，ChatGPT 负责人还在昨晚宣布，ChatGPT 有望在本周迎来 7 亿周活跃用户这一目标。而该目标相较于 3 月底的 5 亿增长了 40%。(@APPSO)

2、腾讯混元开源多款小尺寸模型

8 月 4 日，腾讯混元宣布开源四款小尺寸模型，参数分别为 0.5B、1.8B、4B、7B，消费级显卡即可运行，适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景，且支持垂直领域低成本微调。

据介绍，新开源的 4 个模型属于融合推理模型，具备推理速度快、性价比高的特点，用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出；而慢思考涉及解决复杂问题，具备更全面的推理步骤。

性能表现上，4 个模型均实现了跟业界同尺寸模型的对标，特别是在语言理解、数学、推理等领域有出色表现，在多个公开测试集上得分达到了领先水平。

值得一提的是，4 个模型亮点在于 Agent 和长文能力：

提升了模型在任务规划、工具调用和复杂决策以及反思等 agent 能力上的表现；
模型原生长上下文窗口达到了 256k。

目前，四个模型均在 Github 和 HuggingFace 等开源社区上线，Arm、高通、Intel、联发科技等多个消费级终端芯片平台也都宣布支持部署。(@APPSO)

02 有亮点的产品

1、千鸟物联升级全能 AI 报警服务，支持精准辨识婴儿啼哭、异常求救声等关键声响

千鸟物联升级全能 AI 报警服务，支持关注识别用户关注的瞬间，如宝宝蹒跚学步、老人意外跌倒、果园出现异常人影、店铺深夜有动静等重要事件。

全能 AI 报警服务还支持 APP 即刻推送警报。当遇到危险或紧急情况时，千鸟物联会精准识别婴儿啼哭、激烈争吵、玻璃破碎、异常求救声等关键声响，让用户第一时间收到异常报警消息。

AI 还支持将报警视频内容转化为清晰简洁的文字摘要，如上午 10：15，奶奶在客厅活动正常；下午 3：20，快递员在店门口放下包裹；傍晚 6：05，后园围栏处有不明声响。

此外还能一键文字搜索关键事件，相关录像快速呈现。以及直接向用户的千寻小助手提问，AI 自动调取分析结果，事件总结即刻呈现。

现在应用商店搜索【千鸟物联】APP→ 升级至最新版（6.5.0）即可体验。（@ 千鸟祥云物联）

2、AI 驱动的语音助手 Papla Voicebot

Papla Voicebot 是一款 AI 驱动的语音助手，能够理解意图，实时响应，逼真的语音交互，且支持全天候 24 小时可处理数千个同时对话。

核心优势：

智能理解，即时响应： Papla Voicebot 能够精准理解用户意图，实现实时的、逼真自然的语音交互；
全天候不间断服务： 24/7 全天候待命，可同时处理数以千计的对话；
高可扩展性：无论是处理海量入站支持请求，发起大规模外呼推广，还是自动化繁琐的内部流程，Papla Voicebot 都能轻松应对，契合业务增长需求。

相关链接：
https://papla.media/enterprise/voicebot（@papla_media@X）

3、Felo Subtitles Mac 版上线，支持翻译任意线上会议（腾讯会议、Zoom、Teams）

Felo Subtitles Mac 版上线，支持翻译任意线上会议（腾讯会议、Zoom、Teams）和线下演讲。

产品功能亮点：

多语言会议实时字幕：提供实时翻译字幕，1 秒内瞬时翻译，支持同一会议多种语言；
YouTube 实时翻译字幕：为 YouTube 直播提供实时双语字幕，用母语字幕观看 YouTube 视频更畅快；
智能说话人识别，清晰还原对话脉络：借助强大的上下文分析与说话人识别技术，Felo Subtitles 能够精准区分会议发言人，自动为每一段发言标注清晰身份；
智能总结模板：AI 一键生成会议洞察，自动提取关键信息，生成结构化总结
高精度翻译，专业词汇准确还原：Felo Subtitles 提供可自定义的语音识别词典与翻译专有名词库，帮助提升行业术语、品牌名、人物名等内容的识别与翻译准确性；
字幕实时分享：通过一条分享链接，Felo Subtitles 可让任何人实时查看字幕内容，提升跨地域协作效率。

相关链接：
https://subtitles.felo.me/（@JefferyTatsuya@X）

4、 Cleo 3.0：年收入翻倍实现盈利，AI 财务助手迈入主动智能时代

近日，AI 财务私人助理应用 Cleo 宣布其年度经常性收入（ARR）在短短一年内从 1.4 亿美元跃升至 2.8 亿美元，并实现了盈利，这在快速增长的科技公司中实属罕见。在此背景下，Cleo 正式发布了其旗舰产品 Cleo 3.0 的重大升级，旨在将 AI 财务助手的模式从被动响应彻底转变为主动洞察与建议。

核心技术亮点与功能革新：

Cleo 3.0 经过全面的产品重构，引入了主动推理、记忆系统和语音交互功能，旨在提供更个性化、更主动的财务管理体验。

卓越的 AI 智能洞察：

Cleo 3.0 凭借其强大的 AI 引擎，每日分析超过 820 万笔交易数据，在发现潜在财务问题方面的准确率高达 81%，甚至超越了主流大语言模型，展现出卓越的智能洞察能力。
其内置的近 40 种工具被巧妙地划分为两大类：检索工具 和 行动工具。检索工具负责从数据库提取信息或搜索内部知识库，以精准回答用户问题（如实时查询可用预算）。而行动工具则赋予 Cleo 为用户执行实际任务的能力。Cleo 3.0 中的 AI 代理能够根据对话语境动态配置这些行动，确保交互过程流畅且高度自适应，而非受限于预设流程。

沉浸式语音交互体验：

与 Cleo 3.0 交谈就像与一位深入了解用户财务状况的朋友。用户无需打字，只需通过自然语言与 Cleo 对话，即可获得实时、流畅的反馈。
在技术层面，这得益于一套集成了先进语音转文本（STT）和文本转语音（TTS）技术的双向通信管道。当用户发声，语音迅速转录为文本，经由大型语言模型处理后，即刻生成回复文本并通过 TTS 技术合成为语音，直接传回给用户，确保了极低的延迟和自然的对话体验。
此外，Cleo 的动态视觉形象也会随其倾听与回应而实时变化，进一步增强了交互的沉浸感与临场感。

创新游戏化财务教育：

语音模式还为 Cleo 的游戏化功能注入了新活力，如独具特色的财务问答游戏。Cleo 引导用户参与数据驱动的有趣挑战，以加深对自身财务的理解，将枯燥的数字分析转化为引人入胜的财务教育体验，显著提升用户参与度。

市场表现与用户基础：

目前，Cleo 已拥有超过 85 万付费用户，平均每位用户年付费约 329 美元，这一水平远超传统理财工具。Cleo 的快速崛起得益于其精准把握了 Z 世代和年轻千禧一代的财务管理痛点。通过 AI 技术提供个性化、主动式的财务建议，Cleo 有效填补了传统金融机构未能建立的信任空白，成为了新一代用户信赖的财务伙伴。

相关报道：
https://aitntnews.com/newDetail.html?newId=16860（@AITNT、@ 新智讯）

5、语言学习应用 Pingo AI，支持模拟口语真实场景练习

Pingo AI 是一款由 YC 支持的语言学习应用，通过与 AI 导师对话帮助用户提高流利度。已有超过 30 万人使用 Pingo 来学习新语言。

自一月发布以来，产品用户已增长至 30 万 +，月收入达到 20 万美元。

核心功能与优势：

真实场景对话： Pingo 让用户与 AI 互动，它会引导用户体验各种真实的日常场景，例如点餐、预订酒店或日常闲聊；
个性化适应与实时反馈： AI 会根据用户的语言水平调整，并提供实时的纠正和指导，鼓励用户使用最自然的语言表达方式；
低压高效的练习环境： Pingo 旨在模拟与一位流利母语者对话的真实体验。用户可以摆脱在屏幕上机械地认字，大胆开口练习，在持续、无压力的环境中不断进步。

03 有态度的观点

1、Anthropic CEO：AI 问题现阶段已经无法回避

日前，Anthropic CEO Dario Amodei 接受了《Big Technology》播客的访谈，在谈话中，他详细阐述了过去几个月里几个关键决策背后的思考。

Dario 指出，AI 模型的能力已经不再停留在「聪明的初中生」阶段，而是已经迈向了「能够解答博士级难题」的水平。这一进步并非偶然，而是规模法则推动的必然结果。

Dario 确信，随着技术的加速发展，AI 正经历着一次前所未有的结构性变革，这个变革不仅临近，而且是不可避免的。

针对行业内的「收益递减」论调，Dario 表示，这一观点并不成立。他以自家 Claude 模型的表现为例，指出该模型在代码生成上的能力持续提升，且市场对其需求也在指数级增长。

他强调，在大多数情况下，随着技术规模化，AI 能力的提升不会停止，反而会呈现出更加迅猛的趋势。「目前的进展完全符合我们对规模化的预期，技术增长没有减缓的迹象。」

谈到 AI 风险时，Dario 强烈认为，这不是未来才需要担忧的问题，而是现阶段已变得无法回避的现实。他明确指出，AI 的发展带来的挑战，不仅仅是技术的强大本身，更重要的是如何在其发展过程中确保安全性和可控性，避免其带来潜在的社会风险。

他认为，未来的关键在于如何管理和控制这些技术，防止它们在没有适当监督的情况下影响社会稳定。(@APPSO)

2、a16z 合伙人：AI 投资的关注点已从模型性能转向能否持续交付业务结果

a16z 合伙人 Martin Casado 近日表示，AI 投资的关注点已从模型性能转向能否持续交付业务结果，强调产品的价值已转向「结果型服务」。

他指出，虽然不同公司可以提供基础模型和算力，但真正的竞争优势在于组织模式、资源配置和产品策略，这些因素决定了平台的治理能力和生态维护能力。他提到，AI 估值逻辑正在回归具体应用场景，许多机构开始根据不同的市场前景设定多种估值场景，并根据模型能力和商业化进程模拟分析。
最终，影响估值的关键在于是否存在明确的催化因素，而非模型性能本身。（@ 果比 AI）