最近在研究 ai 驱动 web 测试自动化,能够将自然语言转化成测试脚本并且执行,但是研究了目前 playwright mcp, chrome devtools mcp,browser-use,agentscope,发现这些工具都存在耗时非常长,一旦脚本复杂,任务成功率下降很快。 期望大佬们能给出一些建议,谢谢~
playwright mcp 试用过,生成的脚本非常乱。打个比如,让他生成登录脚本,它查找账号密码元素位置就是通过猜测可能的定位来实现的,类似: //[@id='account'],但问题是被测页面压根不存在这个 ID,然后它就不断去重试,直到猜测成功为止。假如你生成脚本的场景非常复杂,这个过程会非常耗时,并且不一定能成功。
所以,简单场景可以,但是稍微复杂,步骤多一点的场景 AI 无法替代人工。
至于你说的耗时非常长的问题,这个目前似乎无解,AI 由自然语言转成脚本的大致过程:
主要的耗时还是在第三步上,视觉模型需要分析当前页面的内容,返回需要元素定位和操作,目前试用过好几个视觉模型,基本都是秒级,无法做到毫秒级,一个步骤需要几秒,如果一个脚本有 100 个步骤,这个耗时必定会很长。
题外话:你可以试试 midscene,可以根据自然语言来驱动测试执行,但是面临的耗时长问题依然没解决,不过不需要 MCP 生成脚本这一步。
和视觉模型有关,好用的模型都是收费的。楼主用的哪个?