AI测试 今年公司转向,之前的 WEB 系统,全部迁移到 AI agent.。这对开发和测试都是一个挑战

RR · 2026年02月27日 · 最后由 华全 回复于 2026年03月04日 · 3546 次阅读

由于大家都没搞过 ai。目前 4 个开发(后端,没有前端),每天研究各种框架,大多是 langchain 框架。根据业务需求,目标是做成 manus 那种。测试 2 个人,让我们研究 langfuse.最近研究了下,感觉它更适合开发,边开发边调试监控。各位大佬有没有针对 agent,有更好的测试工具和方法。

共收到 3 条回复 时间 点赞

如果是 langchain 生态,langfuse 必须要用啊!不用 langfuse 无法知道智能体的过程数据。而且 langfuse 本身也提供了评估模块可以提供回放能力。
测的话可以通过接口触发智能体,然后通过 langfuse api 接口查询对应的链路信息。 让大模型评估这次对话是否符合预期,

RR #2 · 2026年03月04日 Author
华全 回复

嗯嗯,目前是这样的。但总感觉光靠这个还不够,又说不清差哪些

RR 回复

凭感觉哪成,制定好准入准出标准测几轮就知道差哪里了😂

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册