有直播回放?
那评测工程化的方法论还有相关项目有不,有具体的案例不?
牛啊,谢谢佬,我先试一试。
谢谢佬
有没有通用的解决方案,针对各种自研的 agent 平台。
对了那个轨迹判断,每一次发送 prompt 给 llm,llm 决定调用哪些 tool,而且每次他的轨迹都不一样,那么怎么做质量评估,甚至有时候直接用大模型里面的内容进行返回, 没有使用 tool,这样的话怎么做评估。
抱紧大佬的大腿
蹲,DeepEval 框架做 agent 工具链质量评估,有试过嘛,能出一期嘛。
蹲,期待一下。
蹲能否出一个测试 mcp 还有 skill 的测试方法论或者测试方法。
蹲
蹲剩下的两篇
忙着年终总结呢
然后有什么 ai 测试的方法论不
所以有什么方法或者理论嘛,看了整篇了。
mark,期待你的开源。
同问。
而且这玩意要需求文档够明确,如果需求文档有点模糊的话容易抽风把。而且还有需求文档内容超过大模型上下文等问题。
这个 ai 测试平台用的人多嘛。不多的话可以用 ai 的 ide 做这个,就不用搭建平台了。
是这样的,那也要开发给部署一版接入 sandbox 环境
正常来说接入第三方支付是有一个沙箱环境的吧,这个沙箱环境是第三方 api 会提供的吧,可以叫开发部署一个接入第三方支付沙箱的 api。然后查看这个支付的链路正不正常。
可能 yaml 脚本执行不符合大模型的胃口,风格不合适。可能和大模型上下文有点关系。
喔,好一个含精量。不过看起来好像有点割韭菜了,确实。
招不招初级的?