好强,是个 AI 测试大佬
这个框架是你自己写的,有在公司推广吗,公司其他人怎么反馈的
为什么要做这个?解决了业务中什么问题?相对于传统的 xpath 定位,采用 AI 准确率提升了多少?落地效果怎样?
哎,说了一堆没说做的效果怎么样,落地后数据怎么样,效果比传统的快了多少,稳定了多少,用例量级在多少。总之都在说工具没说业务和效果,让人看了都是在吹很虚
1.稳定性问题:如何解决用大模型做 UI 测试的误报问题,成功率 80%,那每次都有 20% 左右的误报需要多少人力成本去排查
2.知识库问题:如何让模型知道你的业务逻辑或者说业务术语,比如什么是发起回帖
这让我想起了之前试过的一个东西 midscene
想知道根据元素定位成功率调整缓存策略实现自适应学习机制是怎么实现,这个要缓存啥
不是它 但是效果是一样 那个是字节的开源框架 node 写的 如果要用的话还得去学 node 感觉生态不是很好
是这样的 核心思路就是把最近成功的定位结果记到 Redis,下次优先用;成功就升,失败就降,同一候选连续成功 2 次就缓存一天 失败的就缓存一小时 如果定位不到就会降级到从 mysql 里面找 找不到就会用 ai+ocr 进行兜底 ai 识别成功元素会把元素坐标位置选择器等信息存数据库 将元素的优先级提高 下次优先使用 如果都定位失败 那就需要人工来协助了
你这个是面向什么业务设计的?80% 的识别成功率影响不大吗?
如果是我,我会问这几个问题:
另外你的描述,给我一种你没有 在实际业务测试中用过这个测试框架的感觉,否则 80% 的成功率你都写出来?
你想想识别成功率是 80%,不考虑其他因素,算你一条用例的成功率是 80%,若一次回归测试有 50 个用例,全部成功的概率仅为 0.8⁵⁰ ≈ 0.0001%(几乎为 0),这意味着几乎每次执行都会出现失败,这就是我上面想问的,如果每次执行都会出现识别率问题,那你们的精力是不是都分散到区分是实际 bug 还是识别问题?
这个主要是为了提高在快速迭代中的元素定位效率 尤其是前端经常迭代 页面元素经常失效 都需要重新去写 xpath css 等定位,通过 redis 缓存→数据库→AI→OCR 四层降级来命中元素,基本上缓存命中毫秒级完成 ,而且自适应学习(成功晋级、失败降级),把高质量候选沉淀到缓存与 DB,减少改版后的批量修复。目前刚搞完 只跑了几条 case 目前效果还可以 正在编写大量 case 来验证,目前对预热后的页面元素定位时间 1s 不到 输入框就可以成功输入信息
好的哥 我补一下 这个刚搞完 目前 case 不是很多 对于预热后的页面 像输入框按钮什么的 元素定位时间 1s 以内就会输入完成 像一些 img 图标什么的 就可能需要 ai 来处理了,我试验一下补一些数据
这块没有做 rag 产品文档不是很规范 写用例的话是可以用 yaml 那种声明式的 直接中文描述 哪里需要点击 需要打开那个页面 我用的大模型其实是一种兜底策略 用的是多模态的通义千问的 让大模型 +ocr 去识别页面元素 通过对置信度的判断 来确定页面元素坐标是否可用,是通过四层定位 redis mysql ai ocr 这样来提高元素定位效率 跨域 iframe 且未暴露测试钩子 这种就只能靠视觉模型处理了
是个大佬
一年测试经验就不要写具体的量化的指标,一年能有多少经验?量化指标结合你的 1 年工作经验,可能我会觉得一眼假,1 年经验就说你做这个的起因,怎么实现的,用了什么技术就行,搞这些量化指标随便追问下你就懵了
是个大佬
已经很强了
最近也是做这个相关的,我的问题是,你怎么让大模型知道你要点哪里,因为对于用户来说他的语言是自然语言,没有知识库的话那么大模型他怎么知道描述的是什么
怎么解决 ai 张冠李戴的问题?无法解决怎么能确定他跑出来的结果是可信任的? ai 幻想出不显示的法律,律师去打官司要付法律责任,ai 幻想出不切实际的处方药,医生拿去治病,要付医疗事故责任;ai 幻想出不符合业务逻辑的用例,测试未进过筛选,过程全自动,上线直接被嘎
其实我更好奇一件事,四层定位中的 redis、MySQL 起到了什么作用,几小时,几天的缓存有价值吗,假如我每个版本都想跑一下,那之前的缓存不就没价值了?录入数据库的步骤能保证一定正确吗,如果大模型幻觉的用例录入到数据库中了,那后面不都凉了吗
对比过哪些模型的效果,有什么思考?要投高级岗可能问下,要投初级岗的话简历过不了(招个初级来做 AI?)。
感觉会针对项目问的多一点
如果是我,我会先问项目落地情况、实际收益、遇到的困难和解决方法,后面再进一步去深挖实现原理等细节。测开不像开发,落地会有产品 + 运营等负责,测开基本要自己负责落地,完成整体闭环的。
另外,这里的量化指标,说实话,太工整了,很明显不是统计出来,而是自己拍脑袋估算出来的。
我是想找个自动化的或者测开的 我也才一年多经验初级吧 目前只是用多模态的模型 只对比过通义千问和 openai 的 首先通义千问对于中文的处理 以及收费情况 调用返回的速度是比 opeai 的 40 模型要好很多 主要便宜通义千问单次请求大概 0.0004 元,openai 大概 0.014 元
你说的是大模型幻觉吧 我是会严格设置置信度阈值,只接受高置信度的结果;其次使用多方法交叉验证,包括 AI 视觉分析、CSS 选择器验证、坐标检查等,至少需要 2 种方法都通过才执行操作;对提示词进行优化减少不必要的信息返回;同时建立降级策略,当 AI 定位失败时自动切换到传统定位方法;最后建立完整的监控体系,记录 AI 的成功率、失败率和幻觉率,让 ai 自适应的去学习,形成持续优化的闭环。
四层定位中的 redis、MySQL 是这样的 我的核心是先将页面元素预热 然后将有需要的用例中的数据相关的页面元素存放到 mysql,存的时候我目前是将页面的 url 和元素关联 不过你说的这个问题我没考虑到 我之后数据库再补个版本号 元素定位策略关联 URL + 版本号这样应该可以解决这个问题 , mysql 存是预热的元素 并且每个元素都有分数 分数高的 优先级是第一 然后再存入 redis 每次执行就先走 redis 中分数高的元素,redis 是短期存储 mysql 长期
我是这样的通过实时截取页面截图,将用户的自然语言指令(如"点击登录按钮")与页面视觉信息(蓝色按钮这种)同时输入到多模态模型中,大模型通过图片识别的方式,结合视觉理解(看到页面上的具体元素)、语言理解(解析用户指令的含义)和上下文推理(分析元素在页面中的位置和功能关系),最终理解用户要点击的是页面底部的蓝色登录按钮,并返回相应的 CSS 选择器和坐标信息,无需依赖任何预定义的知识库。如果是做用例生成之类的是需要知识库的 不然一些公司内部用的词汇 ai 不是很了解