开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、OpenAI 多款模型曝光
日前,据博主「AiBattle」爆料,OpenAI 正在内部测试名为「o3-alpha-responses-2025-07-17」的新模型。
据悉,该模型以「Anonymous-Chatbot」的身份在 WebDev Arena(一个前端开发测试竞技场)首次现身。
不少网友通过关键词提示发现,o3-alpha 在生成网页、交互逻辑和动画效果方面远胜于现有顶尖模型,包括 OpenAI 自家的 o3、Anthropic 的 Claude Sonnet、Gemini 2.5 Pro 以及 xAI 的 Grok 4。
其中一位开发者 Peter Gostev 使用提示词「用 Three.js 创建一个程序生成的星球」测试该模型,o3-alpha 给出的渲染质量与交互能力远超其他模型。目前该模型疑似已下线,官方未回应其具体用途或发布时间。
值得一提的是,据博主「Tibor Blaho」援引 @swishfever 消息,GPT-5 日前也开始「踪迹渐现」。
据 Tibor Blaho 表示,在一项生物学基准测试中,出现了一行名为「Models: openai/gpt-5-reasoning-alpha-2025-07-13: reasoning_effort: high」的代码。从这一代码可知,OpenAI 可能已于 7 月 13 日就对 GPT-5 进行定稿,并且该模型或专注于复杂推理任务。(@APPSO)
2、Runway 发布动作捕捉模型 Act-Two,支持唇同步、复杂动作捕捉等
Runway 发布了新一代动作捕捉模型 Act-Two。相比前代 Act-One,Act-Two 在动作保真度、一致性和流畅度上有显著提升。该模型只需一个随意的自拍视频和一个参考角色图像或视频,即可生成动画,而无需专业设备如动作捕捉服或工作室。
支持全身跟踪:头部、面部表情、上半身、手部和背景;
只需一个「自拍视频」与一个「参考角色」即可进行动画生成;
可将视频转换为多种不同风格、艺术方向和环境下的角色动画,而不会影响视频质量。
相比 Act-One,Act-Two 在角色动画的细节上大幅提升,包括微妙的面部表情、肢体动作和手指跟踪,避免了以往的模糊或不一致问题。该模型可以应用于各种角色类型(如人类、卡通、动物或虚构生物),并适应不同环境、艺术风格(如写实、动画或抽象)和艺术方向,而不牺牲视频的原汁原味。
输入一个最长 30 秒的视频(包含语音、表情和手势),输出高质量动画视频。支持唇同步、复杂动作捕捉,并可用于 AI 视频生成中的精确控制。(@ 月叔聊 AI)
1、百度推出全新 AI 搜索应用 TizzyAI
百度近日推出全新 AI 搜索应用「TizzyAI」,主打「无广告」体验,标志着搜索引擎从传统「关键词匹配」向「智能理解」时代迈进。与抖音的「AI 抖音」、夸克等产品竞争,TizzyAI 以简洁界面和深度搜索能力为特色,10 秒内即可给出如「夏季度假地推荐」等结构化答案,满足用户决策需求。
在搜索框内,支持用户通过打字或与语音输入问题,搜索框可以选择自动模式或深度模式,自动模式下,可以智能识别并快速回答;深度模式下,则强化推理,深入思考。
除智能搜索外,TizzyAI 的影视与短剧资源查询功能也是一大亮点。
点击底部导航栏下方的「资源库」,即可进入到影视和短剧资源区。在影视专区中,可以看到今日推荐、精选片单等频道。今日推荐内展示的是由平台自动推荐口碑较为不错的影片,精选片单内则可以看到奈飞、豆瓣电影、爱奇艺、AppleTV、哔哩哔哩等平台的热门电视剧。在影视专区中,目前设有电视剧、电影、综艺、动漫和纪录片等种类。
影视资源采用「聚合跳转」模式,整合全网播放链接,虽不直接播放,但提示用户优先选择官方渠道。
短剧专区则更为「落地」,内容多为当下热门的竖屏微短剧,更新速度与主流平台同步,且支持倍速播放,整体播放体验流畅。
报道链接:
https://www.ofweek.com/ai/2025-07/ART-201712-8420-30667047.html(@ 新智讯、@ 新智核)
2、Clueso:将原始屏幕录制转化为专业级视频和分步文章,支持 AI 自动脚本优化、AI 语音配音等
Clueso 是一款聚焦于提升产品视频与文档制作效率的 AI 工具。其核心价值主张在于「让任何人无需编辑或设计技能,几分钟内将原始屏幕录制转化为专业级视频和分步文章」,极大降低了内容制作门槛。目标用户主要包括产品经理、市场营销、客户培训、学习发展、销售赋能等需要频繁制作产品演示和操作指南的团队或个人。
Clueso 解决了传统视频制作耗时、专业门槛高、内容更新难等痛点,抓住了 SaaS 产品推广、客户自助学习和内部知识沉淀的市场机会。
功能方面,Clueso 提供 AI 自动脚本优化、将录音转化为高质量 AI 语音配音、智能自动聚焦关键操作、自动生成品牌化模板和分步文档等亮点功能。
其差异化优势在于极高的自动化程度和内容可定制性,显著缩短了制作周期,并保证输出内容的专业度和一致性。用户体验上,Clueso 强调「一键生成」和「所见即所得」。
网站链接:https://www.clueso.io/(@Z Potentials)
3、开源的对话式 AI 平台 Intervo:支持多渠道交互,包括电话、语音、聊天等
Intervo 是一款开源的对话式 AI 平台,专为企业打造可定制的电话、语音和聊天 AI 智能体。其核心价值主张在于帮助企业突破传统封闭平台的限制,实现高效、智能的客户互动和自动化运营。
目标用户主要为中小型企业及开发团队,尤其适合需要自主掌控客服、销售流程、线索筛选和业务自动化的组织。产品解决的关键痛点包括:现有聊天机器人功能单一、难以定制、价格高昂,以及对企业数据和流程的深度集成需求。随着企业对自动化和智能客户服务的需求增长,Intervo 在市场上具备显著机会。
功能方面,Intervo 支持多渠道(电话、语音、聊天)交互,用户可通过简单的 prompt 创建智能体,并可导入自有数据(如 PDF、网站、文本),让 AI 回答更贴合实际业务。平台支持与 Twilio、Slack、Google Sheets、Calendly 等多种工具集成,未来还将扩展至 WhatsApp 等渠道。
其差异化优势在于完全开源、可自托管,支持复杂工作流和子智能体,企业可灵活定制并深度集成至自身系统。用户体验上,操作简便,支持无代码集成,且具备社区驱动的持续改进能力,但对技术团队有一定门槛。
网站链接:https://intervo.ai/(@Z Potentials)
1、孙正义: 1000 名 AI Agent 取代 1 个工作岗位
近期,软银创始人兼 CEO 孙正义在软银主办的客户闭门会中高调宣布:「在我们集团,人类编程的时代即将终结。」他表示,软银正全面推进由 AI Agent 取代程序员与部分岗位的计划,并预言今年将部署多达 10 亿个 AI Agent,未来数量甚至将达到数万亿级别。
孙正义估算,要想完全替代一名人类员工,平均需要部署 1000 个 AI Agent。这一换算标准背后的原因,是「人类员工拥有复杂的思维过程」,而 AI Agent 则需协同执行、分布式协作,才能实现等效产出。
孙正义对未来的愿景,是让 AI Agent「全年无休、全天在线」,自主运作,取代现有的大量人力流程。他强调,这不仅是代码工作者的末日,也是整个组织结构自动化的起点。
如果按其估算,每个 AI Agent 的运营成本约为每月 40 日元(折合约 0.23 欧元),那么 1000 个 Agent 的总成本也仅为每人每月 230 欧元,远低于传统雇佣一名人类员工所需的薪资开支。孙正义称:
这将极大提升企业效率与规模弹性。
对于 AI Agent 当前存在的「幻觉」问题,他并不担忧,认为这是「暂时的小问题」。他更关心的是:如何构建支持这一 AI 群体运行的基础设施,包括创建和管理海量 Agent 的软件、操作系统,以及维持其运行的数据中心与发电设施。( @APPSO)
更多 Voice Agent 学习笔记:
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨 Google 最新 AI 眼镜原型曝光:轻量 XR+ 情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻