是需要写脚本, 只不过我都是让 AI 写:

我没用 workbuddy, 我是用的 midsence, 基于多模态大模型的 UI 自动化识别方案。 底层用的 playwright,而 playwright 用 CDP 跟浏览器交互,目前用下来,稳定性还挺不错的。 多模态大模型通过截图来找到控件的坐标, 然后通过控件坐标,与 playwright 交互找到真正的控件对象。 然后通过 palywright 调用 cdp 操作浏览器。
整套东西用下来, AI 定位控件的正确率还是很高的,我用的是千问的多模态模型。 而 midsence 仍然是用 playwright 的,所以即便 AI 定位失败了, 我们还可以回退到传统的 css 定位。
你说的系统测试是?
我之前是占了入行早的便宜, 我 16 年初入的 AI 领域。 那时候行业不要求必须懂 AI, 毕竟整个行业里都没多少知道 AI 是什么东西的。 但其实现在也不是每个地方都要求懂 AI 才能进来。 因为现在懂 AI 的人仍然是少的。 如果每个公司都要求岗位必须有 AI 经验, 那就很难找到人了。 我们这里照片也不是把有 AI 相关经验当做硬性要求的。
元素如果极其 ID 稳定,甚至可以不用任何编写代码的框架了。 就老式的录制回放就行。
我写了一个探测的 Agent, 动态启动浏览器探测, 然后生成 CSS 和 AI 的定位方式。 优先 CSS,如果 CSS 定位失败,就降级到 AI 定位。 然后还有一个测试 Agent,测试不通过就打回去重新定位。 现在正确率还可以。
但我没有试过,我没有做过移动端的测试。
字节的 midsence 我看文档上是支持全平台的。
都是 AI 来写,我专门写了一个 skill,是一个有三个 agent 的 skill,专门去帮我探索 UI 界面并编写脚本。
续期有 8 折优惠, 你要是接受不了 200 块钱, 加我微信:ycwdaaaa,我给你搞个优惠券
第一次进 200,能持续一年,一年后续期 8 折哈。
最近没那么忙了~
周日录播:
主要演示:
录制:山治预定的会议
日期:2026-04-05 19:26:29
录制文件:https://meeting.tencent.com/crm/2qMO193y6a
录制:山治预定的会议
日期:2026-04-05 19:51:59
录制文件:https://meeting.tencent.com/crm/2ykOkpBVac
录制: 山治预定的会议
日期: 2026-04-05 20:29:39
录制文件:https://meeting.tencent.com/crm/KnvZmAVM7e
AI 识别的,安装了 MCP 后, AI 会启动浏览器,帮你识别控件并生成代码。
因为暂时还做不到, 就算能做到, 目前全 AI 驱动的 token 消耗也是接受不了的。可能未来可以。
文档里说它是支持全平台的,你可以试试
每次定位,差不多是 1000 到 1500 的 token 消耗。 大多数控件还是建议用传统定位, 实在定位困难或者变化比较大的控件再用 AI 定位
它是基于 playwright 的, 有 python sdk 版本,但我没用过。
随时都可以看, 下周日晚上还会有新直播,欢迎来听听哈。 这次直播加不加星球的都能来听听。
如果没有比这个行业收入更高的选择了~ 那为什么不找呢~
暂时还做不到,还需要解决一些问题。比如,Token 消耗的太多,成本太高。又比如,大模型执行长期任务其实是不稳定的。可能在未来能够做得到,但现在困难还比较大
是的,有效期一年, 一年后续期我设置了 8 折优惠。
你可以把 skills 当成更定制化和高阶的 rule,其实 rule 本质上也是 skills 的一种
openclaw 里有内置的 skills,也可以通过对话创建新的 skills。