有直播回放?
那评测工程化的方法论还有相关项目有不,有具体的案例不?
牛啊,谢谢佬,我先试一试。
谢谢佬
有没有通用的解决方案,针对各种自研的 agent 平台。
对了那个轨迹判断,每一次发送 prompt 给 llm,llm 决定调用哪些 tool,而且每次他的轨迹都不一样,那么怎么做质量评估,甚至有时候直接用大模型里面的内容进行返回, 没有使用 tool,这样的话怎么做评估。
抱紧大佬的大腿
蹲,DeepEval 框架做 agent 工具链质量评估,有试过嘛,能出一期嘛。
蹲,期待一下。
蹲能否出一个测试 mcp 还有 skill 的测试方法论或者测试方法。