热爱学习的 QA
我是这样的通过实时截取页面截图,将用户的自然语言指令(如"点击登录按钮")与页面视觉信息(蓝色按钮这种)同时输入到多模态模型中,大模型通过图片识别的方式,结合视觉理解(看到页面上的具体元素)、语言理解(解析用户指令的含义)和上下文推理(分析元素在页面中的位置和功能关系),最终理解用户要点击的是页面底部的蓝色登录按钮,并返回相应的 CSS 选择器和坐标信息,无需依赖任何预定义的知识库。如果是做用例生成之类的是需要知识库的 不然一些公司内部用的词汇 ai 不是很了解
四层定位中的 redis、MySQL 是这样的 我的核心是先将页面元素预热 然后将有需要的用例中的数据相关的页面元素存放到 mysql,存的时候我目前是将页面的 url 和元素关联 不过你说的这个问题我没考虑到 我之后数据库再补个版本号 元素定位策略关联 URL + 版本号这样应该可以解决这个问题 , mysql 存是预热的元素 并且每个元素都有分数 分数高的 优先级是第一 然后再存入 redis 每次执行就先走 redis 中分数高的元素,redis 是短期存储 mysql 长期
你说的是大模型幻觉吧 我是会严格设置置信度阈值,只接受高置信度的结果;其次使用多方法交叉验证,包括 AI 视觉分析、CSS 选择器验证、坐标检查等,至少需要 2 种方法都通过才执行操作;对提示词进行优化减少不必要的信息返回;同时建立降级策略,当 AI 定位失败时自动切换到传统定位方法;最后建立完整的监控体系,记录 AI 的成功率、失败率和幻觉率,让 ai 自适应的去学习,形成持续优化的闭环。
我是想找个自动化的或者测开的 我也才一年多经验初级吧 目前只是用多模态的模型 只对比过通义千问和 openai 的 首先通义千问对于中文的处理 以及收费情况 调用返回的速度是比 opeai 的 40 模型要好很多 主要便宜通义千问单次请求大概 0.0004 元,openai 大概 0.014 元
是我写的 目前在真实业务在跑的 case 有 20 条 还在陆续编写不断完善
没 我才做测试一年经验 大家一起学习
这块没有做 rag 产品文档不是很规范 写用例的话是可以用 yaml 那种声明式的 直接中文描述 哪里需要点击 需要打开那个页面 我用的大模型其实是一种兜底策略 用的是多模态的通义千问的 让大模型 +ocr 去识别页面元素 通过对置信度的判断 来确定页面元素坐标是否可用,是通过四层定位 redis mysql ai ocr 这样来提高元素定位效率 跨域 iframe 且未暴露测试钩子 这种就只能靠视觉模型处理了
好的哥 我补一下 这个刚搞完 目前 case 不是很多 对于预热后的页面 像输入框按钮什么的 元素定位时间 1s 以内就会输入完成 像一些 img 图标什么的 就可能需要 ai 来处理了,我试验一下补一些数据
这个主要是为了提高在快速迭代中的元素定位效率 尤其是前端经常迭代 页面元素经常失效 都需要重新去写 xpath css 等定位,通过 redis 缓存→数据库→AI→OCR 四层降级来命中元素,基本上缓存命中毫秒级完成 ,而且自适应学习(成功晋级、失败降级),把高质量候选沉淀到缓存与 DB,减少改版后的批量修复。目前刚搞完 只跑了几条 case 目前效果还可以 正在编写大量 case 来验证,目前对预热后的页面元素定位时间 1s 不到 输入框就可以成功输入信息
是这样的 核心思路就是把最近成功的定位结果记到 Redis,下次优先用;成功就升,失败就降,同一候选连续成功 2 次就缓存一天 失败的就缓存一小时 如果定位不到就会降级到从 mysql 里面找 找不到就会用 ai+ocr 进行兜底 ai 识别成功元素会把元素坐标位置选择器等信息存数据库 将元素的优先级提高 下次优先使用 如果都定位失败 那就需要人工来协助了
热爱学习的 QA