• 我没理解错的话,使用截图进行 ocr 然后根据文字定位坐标去操作?我觉的最大的问题还是截图把,ocr 识别本省就耗 token,也会出现错误、tab 界面名称放在一起。应该想办法让 AI 去主动解析 dom 结构生成一个组件库。使用插件去录制用户的操作生成流程脚本去执行。