开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、字节开源 Midscene.js:AI 驱动的 E2E 测试框架迎来突破

随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动 web-infra 团队最新开源的 Midscene.js 和独立开发者推出的 Shortest 等工具,正在改变传统的测试方式。

Midscene.js 采用多模态大语言模型,能够直观「理解」用户界面并执行相应操作。该框架最大的特点是提供了一个便捷的浏览器插件,让用户无需编写代码就能通过自然语言与网页进行交互。该插件支持三种核心功能:交互、提取和断言,显著简化了测试流程。

与此同时,创业团队开发的 Shortest 同样展示了 AI 在测试领域的潜力。通过结合自然语言处理和界面截图分析,Shortest 能够直接生成 E2E 测试用例,大幅减少团队在重复性测试工作上的时间投入。

业内专家指出,随着 AI 的编码和多模态能力日益成熟,基础 E2E 测试场景的自动化水平已达到相当完善的程度。这些创新工具的出现,不仅提高了测试效率,更推动了整个软件开发流程的优化。(@AIbase 基地)

2、阿里发布多模态推理模型 QVQ-72B!视觉、语言能力双提升

阿里巴巴最近推出的 QVQ-72B 多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态 AI 领域的重大突破,提供了新的工具和思路来解决复杂问题,推动各行业的智能化升级。(@AIbase 基地)

3、OpenAI 正在研发实体机器人

近日,据 The Information 报道,OpenAI 正在研发实体智能机器人,并且重新启动了解散 4 年的内部机器人开发团队。

据悉,目前 OpenAI 已经投资了 Figure AI、1X、Physical Intelligence 三家实体机器人公司,在软件方面也为其提供 GPT 系列模型支持,足以看出其对领域的兴趣。

FigureAI 成立于 2020 年,旨在开发自主通用型人形机器人,目标是解决劳动力短缺,代替人类做不受欢迎或危险的工作。最新发布的 Figure 02 实体机器人,已经在仓库领域进行应用。

1X 为一家挪威实体机器人公司,主要应用领域在家庭服务。而今年其发布的机器人由于过于逼真引起了巨大轰动。

PhysicalIntelligence 是一家专注通用人工智能的实体机器人公司,总部位于旧金山。主要用于执行各种繁琐的业务流程。

前不久,OpenAI 刚刚发布了最新旗舰模型 o3,在推理、理解方面都是目前最强模型,甚至在 AGI 测试方面也首次超过了人类。(@APPSO)

02 有亮点的产品

1、MixedVoices :为语音助手打造的分析平台

https://www.mixedvoices.xyz/

MixedVoices 是一个为语音助手打造的分析平台,帮助你追踪、可视化并优化语音助手的性能,通过分析对话流程、识别瓶颈并衡量不同版本间的成功率。(@NLP 工程化)

2、DinoPal:集成 Gemini 多模态能力的 Mac 状态栏 App

DinoPal 是一个 Mac 状态栏 App,集成了 Gemini 的多模态能力,意味着你不需要打开任何页面,就可以实现跟 AI 的实时语音、实时视频、实时视频共享。

3、NewOaks AI Phone Agent:人性化的 AI 电话助手,自动处理来电和去电

NewOaks AI Phone Agent 是一款创新的 AI 驱动工具,旨在通过人性化的语音交互来自动化电话沟通。其核心价值主张在于利用先进的 AI 技术,使用户能够通过虚拟助手进行高效的电话交流。目标用户包括需要高效管理电话沟通的企业和个人,特别是那些希望减少人工干预、提高客户服务效率的用户。该产品解决了传统电话沟通中人力成本高、响应时间慢等关键痛点,为用户提供了一个智能化的解决方案。

Ray Luan 是 NewOaks AI 的首席执行官。在加入 NewOaks AI 之前,Ray Luan 曾担任 TikTok 的二手车电子商务部门总经理,在短短两年内将该业务发展到年收入 2 亿美元。他的职业生涯还包括在中国的 Autohome Inc 和 Che101 等公司担任高管,积累了丰富的管理和市场营销经验。Ray Luan 拥有上海交通大学的学士学位,以及德克萨斯大学阿灵顿分校和达特茅斯学院的硕士学位。他的团队专注于利用先进的 AI 技术为客户提供智能解决方案,帮助企业自动化和简化业务流程,以适应竞争激烈的数字环境。(@Z potentials)

03 有态度的观点

1、Sam Altman 谈中美 AI 军备赛:希望中美合作避免军备赛,美国需要在芯片以及供应链方面保持领先

本月初,马斯克曾向法院申请禁令阻止 OpenAI 转型营利性组织;于此同时,一贯与马斯克不对付的扎克伯格也选择站队马斯克,通过 Meta 向加州总检察长发信阻止 OpenAI「营利」。

面对前纽约时报作者 Bari Weiss 关于 Altman 与马斯克之间恩怨纠纷的疑问 ,Sam Altman 表示:「他是一个传奇的企业家。但他显然是个霸道的人,而且喜欢争斗。现在是针对我,以前是 Bezos、Gates、Zuckerberg,还有很多其他人」。

Altman 指出,AI 技术正在以超出预期的速度发展,未来 18 个月的变化可能会比过去一年半更加显著。

他预测,超级智能可能会在未来几年内出现,并将其定义为一种显著提升全球科学进步速度的技术能力,比如过去需要十年完成的技术进步将在一年内实现。

关于中美 AI 军备赛,Altman 的立场展现出清晰的战略平衡:一方面,确保美国技术领先是首要目标;另一方面,他对中美合作的可能性持谨慎乐观态度,希望 AI 能推动世界和平,而非加剧对抗。(@ 有新 Newin)

更多 Voice Agent 学习笔记:

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流