热爱学习的 QA

  • 我是这样的通过实时截取页面截图,将用户的自然语言指令(如"点击登录按钮")与页面视觉信息(蓝色按钮这种)同时输入到多模态模型中,大模型通过图片识别的方式,结合视觉理解(看到页面上的具体元素)、语言理解(解析用户指令的含义)和上下文推理(分析元素在页面中的位置和功能关系),最终理解用户要点击的是页面底部的蓝色登录按钮,并返回相应的 CSS 选择器和坐标信息,无需依赖任何预定义的知识库。如果是做用例生成之类的是需要知识库的 不然一些公司内部用的词汇 ai 不是很了解

  • 四层定位中的 redis、MySQL 是这样的 我的核心是先将页面元素预热 然后将有需要的用例中的数据相关的页面元素存放到 mysql,存的时候我目前是将页面的 url 和元素关联 不过你说的这个问题我没考虑到 我之后数据库再补个版本号 元素定位策略关联 URL + 版本号这样应该可以解决这个问题 , mysql 存是预热的元素 并且每个元素都有分数 分数高的 优先级是第一 然后再存入 redis 每次执行就先走 redis 中分数高的元素,redis 是短期存储 mysql 长期

  • 你说的是大模型幻觉吧 我是会严格设置置信度阈值,只接受高置信度的结果;其次使用多方法交叉验证,包括 AI 视觉分析、CSS 选择器验证、坐标检查等,至少需要 2 种方法都通过才执行操作;对提示词进行优化减少不必要的信息返回;同时建立降级策略,当 AI 定位失败时自动切换到传统定位方法;最后建立完整的监控体系,记录 AI 的成功率、失败率和幻觉率,让 ai 自适应的去学习,形成持续优化的闭环。

  • 我是想找个自动化的或者测开的 我也才一年多经验初级吧 目前只是用多模态的模型 只对比过通义千问和 openai 的 首先通义千问对于中文的处理 以及收费情况 调用返回的速度是比 opeai 的 40 模型要好很多 主要便宜通义千问单次请求大概 0.0004 元,openai 大概 0.014 元

  • 是我写的 目前在真实业务在跑的 case 有 20 条 还在陆续编写不断完善

  • 没 我才做测试一年经验 大家一起学习

  • 这块没有做 rag 产品文档不是很规范 写用例的话是可以用 yaml 那种声明式的 直接中文描述 哪里需要点击 需要打开那个页面 我用的大模型其实是一种兜底策略 用的是多模态的通义千问的 让大模型 +ocr 去识别页面元素 通过对置信度的判断 来确定页面元素坐标是否可用,是通过四层定位 redis mysql ai ocr 这样来提高元素定位效率 跨域 iframe 且未暴露测试钩子 这种就只能靠视觉模型处理了

  • 好的哥 我补一下 这个刚搞完 目前 case 不是很多 对于预热后的页面 像输入框按钮什么的 元素定位时间 1s 以内就会输入完成 像一些 img 图标什么的 就可能需要 ai 来处理了,我试验一下补一些数据

  • 这个主要是为了提高在快速迭代中的元素定位效率 尤其是前端经常迭代 页面元素经常失效 都需要重新去写 xpath css 等定位,通过 redis 缓存→数据库→AI→OCR 四层降级来命中元素,基本上缓存命中毫秒级完成 ,而且自适应学习(成功晋级、失败降级),把高质量候选沉淀到缓存与 DB,减少改版后的批量修复。目前刚搞完 只跑了几条 case 目前效果还可以 正在编写大量 case 来验证,目前对预热后的页面元素定位时间 1s 不到 输入框就可以成功输入信息

  • 是这样的 核心思路就是把最近成功的定位结果记到 Redis,下次优先用;成功就升,失败就降,同一候选连续成功 2 次就缓存一天 失败的就缓存一小时 如果定位不到就会降级到从 mysql 里面找 找不到就会用 ai+ocr 进行兜底 ai 识别成功元素会把元素坐标位置选择器等信息存数据库 将元素的优先级提高 下次优先使用 如果都定位失败 那就需要人工来协助了

热爱学习的 QA