AI测试 ARR 2.8 亿美元,AI 财务助手 Cleo 新增主动 AI 和语音交互;面向实时响应场景,混元开源四款小模型丨日报

RTE开发者社区 · August 06, 2025 · 280 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、OpenAI 预计将在本月推出 GPT-5

据 The Verge 报道,OpenAI 预计将在本月推出 GPT-5。报道指出,GPT-5 依然会推出 mini 和 nano 两个版本,并且均通过 API 提供。

近期,OpenAI CEO Sam Altman 也不断放出预告信息:曾公开分享自己对 GPT-5 使用体验时表示,感受到前所未有的「无能为力」;在近日公开了 GPT-5 的对话界面,并表示「很快进入 SaaS 的快时尚时代」。

值得一提的是,Altman 在前日发文表示,「接下来几个月我们将推出大量新内容——新模型、新产品、新功能等等。」

ChatGPT 还在凌晨的时候宣布更新:新增休息提醒,令用户拥有更健康、更有目标的使用方式;更好地改善情绪和精神困扰;为个人决策提供指导;提供来自医生、研究人员和心理健康顾问的专家意见。

另外,ChatGPT 负责人还在昨晚宣布,ChatGPT 有望在本周迎来 7 亿周活跃用户这一目标。而该目标相较于 3 月底的 5 亿增长了 40%。(@APPSO)

2、腾讯混元开源多款小尺寸模型

8 月 4 日,腾讯混元宣布开源四款小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。

据介绍,新开源的 4 个模型属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出;而慢思考涉及解决复杂问题,具备更全面的推理步骤。

性能表现上,4 个模型均实现了跟业界同尺寸模型的对标,特别是在语言理解、数学、推理等领域有出色表现,在多个公开测试集上得分达到了领先水平。

值得一提的是,4 个模型亮点在于 Agent 和长文能力:

  • 提升了模型在任务规划、工具调用和复杂决策以及反思等 agent 能力上的表现;

  • 模型原生长上下文窗口达到了 256k。

目前,四个模型均在 Github 和 HuggingFace 等开源社区上线,Arm、高通、Intel、联发科技等多个消费级终端芯片平台也都宣布支持部署。(@APPSO)

02 有亮点的产品

1、千鸟物联升级全能 AI 报警服务,支持精准辨识婴儿啼哭、异常求救声等关键声响

千鸟物联升级全能 AI 报警服务,支持关注识别用户关注的瞬间,如宝宝蹒跚学步、老人意外跌倒、果园出现异常人影、店铺深夜有动静等重要事件。

全能 AI 报警服务还支持 APP 即刻推送警报。当遇到危险或紧急情况时,千鸟物联会精准识别婴儿啼哭、激烈争吵、玻璃破碎、异常求救声等关键声响,让用户第一时间收到异常报警消息。

AI 还支持将报警视频内容转化为清晰简洁的文字摘要,如上午 10:15,奶奶在客厅活动正常;下午 3:20,快递员在店门口放下包裹;傍晚 6:05,后园围栏处有不明声响。

此外还能一键文字搜索关键事件,相关录像快速呈现。以及直接向用户的千寻小助手提问,AI 自动调取分析结果,事件总结即刻呈现。

现在应用商店搜索【千鸟物联】APP→ 升级至最新版(6.5.0)即可体验。(@ 千鸟祥云物联)

2、AI 驱动的语音助手 Papla Voicebot

Papla Voicebot 是一款 AI 驱动的语音助手,能够理解意图,实时响应,逼真的语音交互,且支持全天候 24 小时可处理数千个同时对话。

核心优势:

  • 智能理解,即时响应: Papla Voicebot 能够精准理解用户意图,实现实时的、逼真自然的语音交互;

  • 全天候不间断服务: 24/7 全天候待命,可同时处理数以千计的对话;

  • 高可扩展性: 无论是处理海量入站支持请求,发起大规模外呼推广,还是自动化繁琐的内部流程,Papla Voicebot 都能轻松应对,契合业务增长需求。

相关链接:
https://papla.media/enterprise/voicebot@papla_media@X)

3、Felo Subtitles Mac 版上线,支持翻译任意线上会议(腾讯会议、Zoom、Teams)

Felo Subtitles Mac 版上线,支持翻译任意线上会议(腾讯会议、Zoom、Teams)和线下演讲。

产品功能亮点:

  • 多语言会议实时字幕:提供实时翻译字幕,1 秒内瞬时翻译,支持同一会议多种语言;

  • YouTube 实时翻译字幕:为 YouTube 直播提供实时双语字幕,用母语字幕观看 YouTube 视频更畅快;

  • 智能说话人识别,清晰还原对话脉络:借助强大的上下文分析与说话人识别技术,Felo Subtitles 能够精准区分会议发言人,自动为每一段发言标注清晰身份;

  • 智能总结模板:AI 一键生成会议洞察,自动提取关键信息,生成结构化总结

  • 高精度翻译,专业词汇准确还原:Felo Subtitles 提供可自定义的语音识别词典与翻译专有名词库,帮助提升行业术语、品牌名、人物名等内容的识别与翻译准确性;

  • 字幕实时分享:通过一条分享链接,Felo Subtitles 可让任何人实时查看字幕内容,提升跨地域协作效率。

相关链接:
https://subtitles.felo.me/@JefferyTatsuya@X)

4、 Cleo 3.0:年收入翻倍实现盈利,AI 财务助手迈入主动智能时代

近日,AI 财务私人助理应用 Cleo 宣布其年度经常性收入(ARR)在短短一年内从 1.4 亿美元跃升至 2.8 亿美元,并实现了盈利,这在快速增长的科技公司中实属罕见。在此背景下,Cleo 正式发布了其旗舰产品 Cleo 3.0 的重大升级,旨在将 AI 财务助手的模式从被动响应彻底转变为主动洞察与建议。

核心技术亮点与功能革新:

Cleo 3.0 经过全面的产品重构,引入了主动推理、记忆系统和语音交互功能,旨在提供更个性化、更主动的财务管理体验。

卓越的 AI 智能洞察:

  • Cleo 3.0 凭借其强大的 AI 引擎,每日分析超过 820 万笔交易数据,在发现潜在财务问题方面的准确率高达 81%,甚至超越了主流大语言模型,展现出卓越的智能洞察能力。

  • 其内置的近 40 种工具被巧妙地划分为两大类:检索工具行动工具。检索工具负责从数据库提取信息或搜索内部知识库,以精准回答用户问题(如实时查询可用预算)。而行动工具则赋予 Cleo 为用户执行实际任务的能力。Cleo 3.0 中的 AI 代理能够根据对话语境动态配置这些行动,确保交互过程流畅且高度自适应,而非受限于预设流程。

沉浸式语音交互体验:

  • 与 Cleo 3.0 交谈就像与一位深入了解用户财务状况的朋友。用户无需打字,只需通过自然语言与 Cleo 对话,即可获得实时、流畅的反馈。

  • 在技术层面,这得益于一套集成了先进语音转文本(STT)和文本转语音(TTS)技术的双向通信管道。当用户发声,语音迅速转录为文本,经由大型语言模型处理后,即刻生成回复文本并通过 TTS 技术合成为语音,直接传回给用户,确保了极低的延迟和自然的对话体验。

  • 此外,Cleo 的动态视觉形象也会随其倾听与回应而实时变化,进一步增强了交互的沉浸感与临场感。

创新游戏化财务教育:

  • 语音模式还为 Cleo 的游戏化功能注入了新活力,如独具特色的财务问答游戏。Cleo 引导用户参与数据驱动的有趣挑战,以加深对自身财务的理解,将枯燥的数字分析转化为引人入胜的财务教育体验,显著提升用户参与度。

市场表现与用户基础:

目前,Cleo 已拥有超过 85 万付费用户,平均每位用户年付费约 329 美元,这一水平远超传统理财工具。Cleo 的快速崛起得益于其精准把握了 Z 世代和年轻千禧一代的财务管理痛点。通过 AI 技术提供个性化、主动式的财务建议,Cleo 有效填补了传统金融机构未能建立的信任空白,成为了新一代用户信赖的财务伙伴。

相关链接:
https://web.meetcleo.com/blog/introducing-cleo-3-0

相关报道:
https://aitntnews.com/newDetail.html?newId=16860@AITNT、@ 新智讯)

5、语言学习应用 Pingo AI,支持模拟口语真实场景练习

Pingo AI 是一款由 YC 支持的语言学习应用,通过与 AI 导师对话帮助用户提高流利度。已有超过 30 万人使用 Pingo 来学习新语言。

自一月发布以来,产品用户已增长至 30 万 +,月收入达到 20 万美元。

核心功能与优势:

  • 真实场景对话: Pingo 让用户与 AI 互动,它会引导用户体验各种真实的日常场景,例如点餐、预订酒店或日常闲聊;

  • 个性化适应与实时反馈: AI 会根据用户的语言水平调整,并提供实时的纠正和指导,鼓励用户使用最自然的语言表达方式;

  • 低压高效的练习环境: Pingo 旨在模拟与一位流利母语者对话的真实体验。用户可以摆脱在屏幕上机械地认字,大胆开口练习,在持续、无压力的环境中不断进步。

相关链接:
https://www.ycombinator.com/launches/O6R-pingo-ai-ai-companion-that-helps-you-learn-languages@ycombinator@X)

03 有态度的观点

1、Anthropic CEO:AI 问题现阶段已经无法回避

日前,Anthropic CEO Dario Amodei 接受了《Big Technology》播客的访谈,在谈话中,他详细阐述了过去几个月里几个关键决策背后的思考。

Dario 指出,AI 模型的能力已经不再停留在「聪明的初中生」阶段,而是已经迈向了「能够解答博士级难题」的水平。这一进步并非偶然,而是规模法则推动的必然结果。

Dario 确信,随着技术的加速发展,AI 正经历着一次前所未有的结构性变革,这个变革不仅临近,而且是不可避免的。

针对行业内的「收益递减」论调,Dario 表示,这一观点并不成立。他以自家 Claude 模型的表现为例,指出该模型在代码生成上的能力持续提升,且市场对其需求也在指数级增长。

他强调,在大多数情况下,随着技术规模化,AI 能力的提升不会停止,反而会呈现出更加迅猛的趋势。「目前的进展完全符合我们对规模化的预期,技术增长没有减缓的迹象。」

谈到 AI 风险时,Dario 强烈认为,这不是未来才需要担忧的问题,而是现阶段已变得无法回避的现实。他明确指出,AI 的发展带来的挑战,不仅仅是技术的强大本身,更重要的是如何在其发展过程中确保安全性和可控性,避免其带来潜在的社会风险。

他认为,未来的关键在于如何管理和控制这些技术,防止它们在没有适当监督的情况下影响社会稳定。(@APPSO)

2、a16z 合伙人:AI 投资的关注点已从模型性能转向能否持续交付业务结果

a16z 合伙人 Martin Casado 近日表示,AI 投资的关注点已从模型性能转向能否持续交付业务结果,强调产品的价值已转向「结果型服务」。

他指出,虽然不同公司可以提供基础模型和算力,但真正的竞争优势在于组织模式、资源配置和产品策略,这些因素决定了平台的治理能力和生态维护能力。他提到,AI 估值逻辑正在回归具体应用场景,许多机构开始根据不同的市场前景设定多种估值场景,并根据模型能力和商业化进程模拟分析。
最终,影响估值的关键在于是否存在明确的催化因素,而非模型性能本身。(@ 果比 AI)

更多 Voice Agent 学习笔记:

引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨 Voice Agent 学习笔记

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up