由于大家都没搞过 ai。目前 4 个开发(后端,没有前端),每天研究各种框架,大多是 langchain 框架。根据业务需求,目标是做成 manus 那种。测试 2 个人,让我们研究 langfuse.最近研究了下,感觉它更适合开发,边开发边调试监控。各位大佬有没有针对 agent,有更好的测试工具和方法。
如果是 langchain 生态,langfuse 必须要用啊!不用 langfuse 无法知道智能体的过程数据。而且 langfuse 本身也提供了评估模块可以提供回放能力。 测的话可以通过接口触发智能体,然后通过 langfuse api 接口查询对应的链路信息。 让大模型评估这次对话是否符合预期,
嗯嗯,目前是这样的。但总感觉光靠这个还不够,又说不清差哪些
凭感觉哪成,制定好准入准出标准测几轮就知道差哪里了