为什么使用 Chrome 插件的 Midscene.js 的话识别元素就非常准确,但是编写成 yaml 脚本去执行,准确率就会大大下降,例如点击某某表格的列头排序都经常点错,这是提示词的问题吗,我的提示词是这样写的:点击表格第一行的 "账户名"中间区域,不要点击到下方的搜索框 恳请大佬指正
可能 yaml 脚本执行不符合大模型的胃口,风格不合适。可能和大模型上下文有点关系。
换个大模型
为什么在插件上的使用就如此丝滑 ,感觉这个做出来的效果太不稳定了
你终于发现了华点,对于现有自动化的改造,AI 的参与还是偏向探索以及代码生成更适合。传统的定位模式他是高效稳定的原由的 POM 模式已经大幅度降低维护成本。如果再降低,你可以考虑让 AI 去维护 page 而不是完全代替。再不稳定的界限处可以尝试引入 AI 进行动态定位。完全的 AI 运行,除了不稳定外关键还有 token 的使用。这些都是要考虑的。所以我更偏向与传统 +AI 集成而不是由某某技术完全代替的方案,除非它已经足够成熟稳定。
确实 依赖 AI 去进行一步步的关联性操作,某一步出了问题定位起来也是一个费劲的事情