• 对 AI 测试的一个想法 at October 30, 2025

    上个月基于代码/监控做的 AI 分析可以精确到行,以及提交人等 SCM 信息。后续对话解决方案/创建任务/创建 MR/ 也仅仅是几个 Tool

  • 这样子的话 内网内的应用无法使用哇😹 这种就属于 Agent 这种更高级别的接口逆向了, 如果只逆向 LLM 的 API 本地跑 Agent 内部调用远端的 LLM 也可以哇

  • 如果你的底层实现是自主规划的 Agent, 那么你只需要给这个 Agent 写获取页面结构的 Tool,页面截图的 Tool 以及图片理解获取坐标的 Tool, 在 prompt 给个设定,优先使用获取结构进行下一步,如果出错可以采用图片理解坐标点击。 他会在每一步思考过程中 选择 Tool 进行下一步尝试

  • 👏 💪 好样的 多多交流~

  • 可以把重复多的公共步骤封装一个子流程作为引用,这样子只需要改子流程就好啦。

  • 几年前做的样式,现在普通小白用起来还蛮简单,主要做法就是元素独立维护,用例里面选择元素,动作,入参等。

  • 我是从 0-1 开发过,一般常用 RAG 比如 FastGPT/MaxKB/RAGFlow/Dify/Langflow 的我只借鉴过看过一丢丢, 可以加 AYO-YO-O 交流交流

  • 恰巧做过类似的东西,我从开发的角度给你分析一下,其实传统 RAG 的链路是挺长的,一般会包括数据清洗/切片/向量化/检索/重排/组装 prompt,影响最后效果的不仅仅是清洗/切片,不过清洗/切片的最终效果你也可以在相关的向量数据库里检索到,这也是最方便根据结果调整的。

    另外我建议你根据结果来反推过程,比如输入原文一摸一样的内容是否可以检索到?检索不到则考虑是否需要使用 BM25 这种算法进行初筛 增加调整混合检索的权重比例。 比如查到了片段 1,但关联的上下文没有检索到则考虑是否有 overlap 兄弟节点是否召回 rank 数量是否太小等等。。。

    如果不考虑成本可以做 LLM Native, 类似 DeepResearch 全部让 LLM 去处理,评分/排序/总结 可以参考前段时间 OpenAI 发的相关 RAG AI Native 的文章。

  • 有意思 但是链接挂了哎😹