Midscene 用的是多模态视觉模型(VLM),直接"看"截图理解界面元素,不是 OCR 提文字再算坐标。所以 tab 名称放一起、纯文字定位这类问题它影响没那么大。组件库可能随时变,也不太动态,可以做个前置后兜底
一起学习进步~交流交流
平台的价值主要在"端到端打通"和"非技术同学也能用",不在生成这一步本身~我是这样想的~做一个小工具玩一玩
您说的很受用~我会吸收学习的,感谢分享~
回归基本是零成本。 一个用例第一次跑用 AI 理解执行,跑通后会自动存成 YAML 基线。之后回归直接回放 YAML,完全不调 AI,不花 token。所以用例越多、回归越频繁反而越划算——token 只花在"第一次跑通"。
日常执行也省。 混合模式里像"点击登录""输入邮箱"这种标准步骤,先用正则直接转成基础操作,零 AI 开销,只有正则搞不定的才交给 AI。
关于"不沉淀代码" 我文章没说清楚,应该是"不用手写 Selenium"。AI 跑通后沉淀的是 YAML 基线,一样能复用、能版本管理,不是用完就丢。但是对于需要维护 Selenium 代码确实是缺失这块的