开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ 鲍勃
1、Google 上线 Gemini 2.5 Pro 模型
今日凌晨,Google 正式上线了「最强推理大模型」Gemini 2.5 Pro Experimental,其在多项测试中表现相当出色:
在大模型榜单 LMSYS Arena 上排名第一,分数比 Grok-3、GPT-4.5 高出 40 分;
在所有评测类别(综合能力、编码、数学等)中均排名第 1,尤其在带风格控制的复杂提示(Hard Prompts w/ Style Control)和多轮对话(Multi-Turn)表现突出;
在个基准测试上,Gemini 2.5 Pro 综合表现拿下最佳。其中科学(Science)、代码生成、视觉推理(MMMU)和长文本理解(MRCR)上均领先;
在号称最难的测试「人类最后一次考试」中,Gemini 2.5 Pro 超越 OpenAI o3-mini、GPT-4.5、DeepSeek-R1 等一众大模型。此外,Gemini 2.5 Pro Experimental 还在其他领域表现出色:
Gemini 2.5 Pro 还具备多模态能力,在 Vision Arena 视觉排行榜上依然第 1;
网页开发榜单 WebDev Arena 上排名第 2,仅次于 Claude-3.7。目前,Gemini 2.5 Pro Experimental 已经可以在 Google AI Studio 和 Gemini APP 中使用了。(@ APPSO)
2、OpenAI GPT-4o 上架「最先进」图像生成器
今天凌晨,不止 Google Gemini 2.5 Pro 的重磅发布,还有 OpenAI 宣布在 GPT-4o 模型中集成了迄今为止最先进的图像生成器。新功能亮点速览如下:
能够精确渲染文本内容;
支持多模态输入输出(文本、图像、音频);
能理解复杂指令并结合上下文;
能创建具有真实感的第一人称视角图像;
遵循指令,可以处理上传的图片并进行编辑或风格转换。
值得关注的是,GPT-4o 图像生成是一个自回归模型,原生嵌入在 ChatGPT 中。具体来说,比起其他图像生成模型,GPT-4o 能处理多达 10-20 个不同物体的复杂指令。目前,新功能已向 Plus、Pro、Team 和免费用户开放,Enterprise 和 Edu 用户即将获得访问权限。而开发者们几周后也能通过 API 用上这功能。(@ APPSO)
1、Talo:视频通话实时 AI 语音翻译器
Talo 是领先的实时 AI 翻译,提升用户的视频通话体验。轻松打破语言障碍,全球即时准确翻译,商务沟通的理想选择。
功能亮点
与 Google Meet、Microsoft Teams 和 Zoom 无缝集成: 轻松将 Talo 的人工智能口译与 GoogleMeet、Microsoft Teams 和 Zoom 等流行的视频会议工具集成。在虚拟会议期间体验准确、实时的翻译,确保清晰的沟通和最大程度的参与。
60 种语言的即时实时翻译:用 60 种语言与全球各地的人们轻松联系。Talo
先进的人工智能翻译技术可确保无延迟地进行准确、实时对话,瞬间打破语言障碍。
一个机器人,多语种会议轻松搞定: Talo 的单个人工智能机器人可无缝监听和翻译每位与会者的发言,无需多个账户,没有任何麻烦。体验清晰的音频和任何语言流畅自然的对话,确保多语言会议轻松自如、兼容并包。
隐私至上 安全可信: Talo 优先考虑数据隐私和保密性。从不存储或保留用户的会议数据,确保对话完全安全。其安全框架符合 SOC 2 和 ISO 27001 等行业领先标准,具有强大的加密功能、安全的云基础设施和持续的合规性监控,为用户的敏感信息提供最高级别的保护。(@Product Hunt)
2、愚人节玩笑变成现实:英伟达 G-Assist AI 助手上线,可为用户优化游戏与系统性能
3 月 25 日消息,曾经在 2017 年作为愚人节玩笑首次亮相的英伟达 G-Assist,如今已经从一个技术演示转变成了一款真正为 RTX GPU 用户服务的 AI 助手。现在,G-Assist 已经集成在英伟达应用(NVIDIA App)中,并且为用户带来了一系列便捷的功能。
据了解,G-Assist 作为一款 AI 助手,用户可以通过语音或文字提示与其进行交互。例如用户可以向它提问「DLSS 帧生成是如何工作的?」它会以类似 ChatGPT 的方式输出答案。更有趣的是,G-Assist 能够根据用户的需求优化游戏性能或图像质量,甚至可以控制来自罗技、海盗船、微星和 Nanoleaf 等品牌的兼容设备的灯光效果。(@ IT 之家)
3、Vibe Coder :通过语音对话实现「氛围编程」,支持 VS Code、Cursor 和 Windsurf 等编辑器
「Vibe coding」(氛围编程)是 Karpathy 提出的一个概念,指的是一种无需深入代码细节的创作方式:你只需与电脑对话,描述你想要构建的内容,并在过程中通过语音进行调试和讨论。Vibe Coder 让你能够在 VS Code、Cursor 和 Windsurf 等编辑器中,通过扩展程序实现这种编程方式。(@ Product Hunt)
4、AI 开发进入「全民时代」?百度秒哒全量上线,首日吸引 2 万用户
3 月 24 日,百度旗下首个对话式应用开发平台「秒哒」全量上线,简单来说,这是一个让小白用户都能进行 H5 或网站开发的平台。
据百度秒哒负责人董恒介绍,和传统开发模式相比,秒哒能将人力开发成本降低 99.9%,原先需要投入约 4 人数周 10 万元左右的开发项目,用秒哒可能仅需 3 分钟、不到 5 块钱就能实现,秒哒覆盖了整个项目开发流程,从需求提出到开发部署一站式完成,带来 AI 驱动开发和自然语言编程的新体验。
秒哒相关的「多智能体协同」技术得到广泛关注,其「无代码编程 + 多智能体协作 + 多工具调用」的技术组合,大大颠覆了传统开发流程,本次正式发布上线后,据悉一天内吸引了超 2 万用户使用体验,创建应用数量突破 3 万个。在秒哒平台上,用户仅需通过自然语言描述需求,即可自动生成完整功能代码,实现「3 分钟生成 +1 小时迭代」的高效开发体验,例如生成 H5 邀请函、网站、智能表单、小游戏等。
此外,其「智能体协作矩阵」内置十余个垂直领域智能体,用户可根据任务需求动态调整策略和行为,灵活组建不同技能的虚拟开发团队。该平台还集成了多种第三方工具和服务,能够实现与各种数据源和工具的无缝对接,构建从需求到部署的全链路支持,AI 开发完成后就能一键发布。
(@ 头部科技)
1、牛津教授:AI 的十年,人类的百年
近日,牛津教授 Will MacAskill 等人发布了《Preparing for the Intelligence Explosion》博文,其中 Will MacAskill 在文中发表了其对未来提出了许多惊人的预测。Will MacAskill 提到,目前 AI 模型越来越智能,训练计算、算法效率和后期增强等因素使 AI 认知劳动总量每年大幅增加。如果趋势持续到 AI 研究努力与人类研究劳动相当,AI 研究努力可能以每年至少 25 倍的速度增长。最值得关注的是,Will MacAskill 在文中认为,AI 研究努力很可能在未来 20 年内与人类研究劳动达到对等,甚至在未来 10 年内就可能接近对等。
同时 Will MacAskill 也表示,即使算力的扩展陷入停滞,算法效率提升的速度放缓,但 AI 的发展增速仍然足够快,能够在不到 10 年的时间内推动相当于 100 年的技术进步。Will MacAskill 表示,快速的 AI 发展既可能带来生活质量的巨大提升,也会带来一系列挑战,如新型破坏性技术风险、建立数字生命权利等关键伦理问题。对此,Will MacAskill 提议现在就可以采取一些行动,从而提前进行新领域的制度设计,增强各方面的约束,以防止 AI「浪潮」过度吞噬人类日常。(@ APPSO)
更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻