开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、OpenAI 预计将在本月推出 GPT-5
据 The Verge 报道,OpenAI 预计将在本月推出 GPT-5。报道指出,GPT-5 依然会推出 mini 和 nano 两个版本,并且均通过 API 提供。
近期,OpenAI CEO Sam Altman 也不断放出预告信息:曾公开分享自己对 GPT-5 使用体验时表示,感受到前所未有的「无能为力」;在近日公开了 GPT-5 的对话界面,并表示「很快进入 SaaS 的快时尚时代」。
值得一提的是,Altman 在前日发文表示,「接下来几个月我们将推出大量新内容——新模型、新产品、新功能等等。」
ChatGPT 还在凌晨的时候宣布更新:新增休息提醒,令用户拥有更健康、更有目标的使用方式;更好地改善情绪和精神困扰;为个人决策提供指导;提供来自医生、研究人员和心理健康顾问的专家意见。
另外,ChatGPT 负责人还在昨晚宣布,ChatGPT 有望在本周迎来 7 亿周活跃用户这一目标。而该目标相较于 3 月底的 5 亿增长了 40%。(@APPSO)
2、腾讯混元开源多款小尺寸模型
8 月 4 日,腾讯混元宣布开源四款小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。
据介绍,新开源的 4 个模型属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出;而慢思考涉及解决复杂问题,具备更全面的推理步骤。
性能表现上,4 个模型均实现了跟业界同尺寸模型的对标,特别是在语言理解、数学、推理等领域有出色表现,在多个公开测试集上得分达到了领先水平。
值得一提的是,4 个模型亮点在于 Agent 和长文能力:
提升了模型在任务规划、工具调用和复杂决策以及反思等 agent 能力上的表现;
模型原生长上下文窗口达到了 256k。
目前,四个模型均在 Github 和 HuggingFace 等开源社区上线,Arm、高通、Intel、联发科技等多个消费级终端芯片平台也都宣布支持部署。(@APPSO)
1、千鸟物联升级全能 AI 报警服务,支持精准辨识婴儿啼哭、异常求救声等关键声响
千鸟物联升级全能 AI 报警服务,支持关注识别用户关注的瞬间,如宝宝蹒跚学步、老人意外跌倒、果园出现异常人影、店铺深夜有动静等重要事件。
全能 AI 报警服务还支持 APP 即刻推送警报。当遇到危险或紧急情况时,千鸟物联会精准识别婴儿啼哭、激烈争吵、玻璃破碎、异常求救声等关键声响,让用户第一时间收到异常报警消息。
AI 还支持将报警视频内容转化为清晰简洁的文字摘要,如上午 10:15,奶奶在客厅活动正常;下午 3:20,快递员在店门口放下包裹;傍晚 6:05,后园围栏处有不明声响。
此外还能一键文字搜索关键事件,相关录像快速呈现。以及直接向用户的千寻小助手提问,AI 自动调取分析结果,事件总结即刻呈现。
现在应用商店搜索【千鸟物联】APP→ 升级至最新版(6.5.0)即可体验。(@ 千鸟祥云物联)
2、AI 驱动的语音助手 Papla Voicebot
Papla Voicebot 是一款 AI 驱动的语音助手,能够理解意图,实时响应,逼真的语音交互,且支持全天候 24 小时可处理数千个同时对话。
核心优势:
智能理解,即时响应: Papla Voicebot 能够精准理解用户意图,实现实时的、逼真自然的语音交互;
全天候不间断服务: 24/7 全天候待命,可同时处理数以千计的对话;
高可扩展性: 无论是处理海量入站支持请求,发起大规模外呼推广,还是自动化繁琐的内部流程,Papla Voicebot 都能轻松应对,契合业务增长需求。
相关链接:
https://papla.media/enterprise/voicebot(@papla_media@X)
3、Felo Subtitles Mac 版上线,支持翻译任意线上会议(腾讯会议、Zoom、Teams)
Felo Subtitles Mac 版上线,支持翻译任意线上会议(腾讯会议、Zoom、Teams)和线下演讲。
产品功能亮点:
多语言会议实时字幕:提供实时翻译字幕,1 秒内瞬时翻译,支持同一会议多种语言;
YouTube 实时翻译字幕:为 YouTube 直播提供实时双语字幕,用母语字幕观看 YouTube 视频更畅快;
智能说话人识别,清晰还原对话脉络:借助强大的上下文分析与说话人识别技术,Felo Subtitles 能够精准区分会议发言人,自动为每一段发言标注清晰身份;
智能总结模板:AI 一键生成会议洞察,自动提取关键信息,生成结构化总结
高精度翻译,专业词汇准确还原:Felo Subtitles 提供可自定义的语音识别词典与翻译专有名词库,帮助提升行业术语、品牌名、人物名等内容的识别与翻译准确性;
字幕实时分享:通过一条分享链接,Felo Subtitles 可让任何人实时查看字幕内容,提升跨地域协作效率。
相关链接:
https://subtitles.felo.me/(@JefferyTatsuya@X)
4、 Cleo 3.0:年收入翻倍实现盈利,AI 财务助手迈入主动智能时代
近日,AI 财务私人助理应用 Cleo 宣布其年度经常性收入(ARR)在短短一年内从 1.4 亿美元跃升至 2.8 亿美元,并实现了盈利,这在快速增长的科技公司中实属罕见。在此背景下,Cleo 正式发布了其旗舰产品 Cleo 3.0 的重大升级,旨在将 AI 财务助手的模式从被动响应彻底转变为主动洞察与建议。
核心技术亮点与功能革新:
Cleo 3.0 经过全面的产品重构,引入了主动推理、记忆系统和语音交互功能,旨在提供更个性化、更主动的财务管理体验。
卓越的 AI 智能洞察:
Cleo 3.0 凭借其强大的 AI 引擎,每日分析超过 820 万笔交易数据,在发现潜在财务问题方面的准确率高达 81%,甚至超越了主流大语言模型,展现出卓越的智能洞察能力。
其内置的近 40 种工具被巧妙地划分为两大类:检索工具 和 行动工具。检索工具负责从数据库提取信息或搜索内部知识库,以精准回答用户问题(如实时查询可用预算)。而行动工具则赋予 Cleo 为用户执行实际任务的能力。Cleo 3.0 中的 AI 代理能够根据对话语境动态配置这些行动,确保交互过程流畅且高度自适应,而非受限于预设流程。
沉浸式语音交互体验:
与 Cleo 3.0 交谈就像与一位深入了解用户财务状况的朋友。用户无需打字,只需通过自然语言与 Cleo 对话,即可获得实时、流畅的反馈。
在技术层面,这得益于一套集成了先进语音转文本(STT)和文本转语音(TTS)技术的双向通信管道。当用户发声,语音迅速转录为文本,经由大型语言模型处理后,即刻生成回复文本并通过 TTS 技术合成为语音,直接传回给用户,确保了极低的延迟和自然的对话体验。
此外,Cleo 的动态视觉形象也会随其倾听与回应而实时变化,进一步增强了交互的沉浸感与临场感。
创新游戏化财务教育:
市场表现与用户基础:
目前,Cleo 已拥有超过 85 万付费用户,平均每位用户年付费约 329 美元,这一水平远超传统理财工具。Cleo 的快速崛起得益于其精准把握了 Z 世代和年轻千禧一代的财务管理痛点。通过 AI 技术提供个性化、主动式的财务建议,Cleo 有效填补了传统金融机构未能建立的信任空白,成为了新一代用户信赖的财务伙伴。
相关链接:
https://web.meetcleo.com/blog/introducing-cleo-3-0
相关报道:
https://aitntnews.com/newDetail.html?newId=16860(@AITNT、@ 新智讯)
5、语言学习应用 Pingo AI,支持模拟口语真实场景练习
Pingo AI 是一款由 YC 支持的语言学习应用,通过与 AI 导师对话帮助用户提高流利度。已有超过 30 万人使用 Pingo 来学习新语言。
自一月发布以来,产品用户已增长至 30 万 +,月收入达到 20 万美元。
核心功能与优势:
真实场景对话: Pingo 让用户与 AI 互动,它会引导用户体验各种真实的日常场景,例如点餐、预订酒店或日常闲聊;
个性化适应与实时反馈: AI 会根据用户的语言水平调整,并提供实时的纠正和指导,鼓励用户使用最自然的语言表达方式;
低压高效的练习环境: Pingo 旨在模拟与一位流利母语者对话的真实体验。用户可以摆脱在屏幕上机械地认字,大胆开口练习,在持续、无压力的环境中不断进步。
相关链接:
https://www.ycombinator.com/launches/O6R-pingo-ai-ai-companion-that-helps-you-learn-languages(@ycombinator@X)
1、Anthropic CEO:AI 问题现阶段已经无法回避
日前,Anthropic CEO Dario Amodei 接受了《Big Technology》播客的访谈,在谈话中,他详细阐述了过去几个月里几个关键决策背后的思考。
Dario 指出,AI 模型的能力已经不再停留在「聪明的初中生」阶段,而是已经迈向了「能够解答博士级难题」的水平。这一进步并非偶然,而是规模法则推动的必然结果。
Dario 确信,随着技术的加速发展,AI 正经历着一次前所未有的结构性变革,这个变革不仅临近,而且是不可避免的。
针对行业内的「收益递减」论调,Dario 表示,这一观点并不成立。他以自家 Claude 模型的表现为例,指出该模型在代码生成上的能力持续提升,且市场对其需求也在指数级增长。
他强调,在大多数情况下,随着技术规模化,AI 能力的提升不会停止,反而会呈现出更加迅猛的趋势。「目前的进展完全符合我们对规模化的预期,技术增长没有减缓的迹象。」
谈到 AI 风险时,Dario 强烈认为,这不是未来才需要担忧的问题,而是现阶段已变得无法回避的现实。他明确指出,AI 的发展带来的挑战,不仅仅是技术的强大本身,更重要的是如何在其发展过程中确保安全性和可控性,避免其带来潜在的社会风险。
他认为,未来的关键在于如何管理和控制这些技术,防止它们在没有适当监督的情况下影响社会稳定。(@APPSO)
2、a16z 合伙人:AI 投资的关注点已从模型性能转向能否持续交付业务结果
a16z 合伙人 Martin Casado 近日表示,AI 投资的关注点已从模型性能转向能否持续交付业务结果,强调产品的价值已转向「结果型服务」。
他指出,虽然不同公司可以提供基础模型和算力,但真正的竞争优势在于组织模式、资源配置和产品策略,这些因素决定了平台的治理能力和生态维护能力。他提到,AI 估值逻辑正在回归具体应用场景,许多机构开始根据不同的市场前景设定多种估值场景,并根据模型能力和商业化进程模拟分析。
最终,影响估值的关键在于是否存在明确的催化因素,而非模型性能本身。(@ 果比 AI)
更多 Voice Agent 学习笔记:
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨 Voice Agent 学习笔记
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻