AI测试 大家有在实际运用 playwright-mcp 与大模型结合的 AI 自动化测试吗?

不一定安全 · 2025年11月05日 · 最后由 Tttt 回复于 2025年11月18日 · 6099 次阅读

最近试试了都在说这个 AI 自动化,怎么感觉好脑残,连一个登录都过不去,是我姿势不对?

共收到 15 条回复 时间 点赞

我用过 chrome-mcp-server 插件,可以用已登录的浏览器,免登录。但是搞测试还是不太行。

我使用 claude 4.5 来跑,可以生成一些简单的用例,比如登录后进行点击操作后 assert 提示框是否正确这种用例,更加复杂的没试过


Prompt 如下

我在 cursor 上跑了这个 跑是可以跑 但是速度特别慢,比手工慢,比传统元素定位方式也慢,能集成自己跑吗

目前这个阶段,慢先不说,最主要是的对于元素的智能识别似乎很不稳定,我尝试过 cursor、自己编写代码、git 上开源的代码,都是同样的问题,看起来底层的实现逻辑应该是一样,目前想要实际落地运用到生产上还有很长的路要走

最近在搞这个,AI 生成 UI 自动化测试框架(5 分钟),人工跳转下元素选择器(20 分钟),1 个小时内完成框架搭建,就可以进行自动化跑测

研究过一段时间,和要你命三千差不多,你不给定位器,它就会出幺蛾子,10 次执行 3-4 次出现不同结果,给定位器,都要定位器了,为啥不自己写,手工写的还快准稳。agent 这个玩意目前还需要发展。

Test_狗 回复

😅 😅 差不多,类似的结论,给它详细的定位准确率就高很多

wtlwang_2024 回复

目前还是在噱头阶段

柠檬Yuki 回复

还是回去传统 +AI 辅助的路径去尝试吧

在 Trae 或者 cursor 上跑过,感觉就是慢,还有就是不稳定,消耗 token 那些都还没统计过,目前看来还不太行。不稳定是不能落地最主要的因素

Dennis 回复

你有跑过复杂一些的吗?稳定性咋样

已经做了一个平台了,使用 langgraph + qwen3-max + playwright mcp,langgraph 提供大模型接入的能力同时又能做编排,同时也可以自主配置上下文长度和对话的长度,如果用 trae 或者 cursor 执行太长的 case 会触发限制进行不下去,qwen3-max 是目前用的比较精准的模型了,deepseekv3.1 也可以,kimi2 也可以,反正要用好的模型;系统提示词要限制大模型的动作,要严格按照步骤执行,不能随意联想,然后用户提示词的描述要足够精准,如果文字描述不够精准的话就用 id 或者 class 来描述,目前还没有考虑成本问题,但肯定比人力要便宜,只要 case 写的够精准,稳定性还是有保障的,代码里也可以配置失败重试

aabaa 回复

你这个有开源吗,有没有 github 地址

一次让他执行很多步可能有幻觉,每次让他只执行一步幻觉不就少了,每次执行都把页面快照给他看下不是就幻觉更少了

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册