• 你们的题库是从网上找的开源题库吗?还是基于你们的业务自己设置的题目呢

  • 大佬们我该离职吗? at November 17, 2025

    你都已经意识到业务的重要性了,如果还是想做测试那就继续研究其他行业的业务,不要深究技术了吧,毕竟测试技术能力强的人也只是少数,大部分还是点工,还是有点业务沉淀靠谱。

  • 使用如 Gemini、GPT-5 进行评分的可信度咋样?去年做小模型代码生成/SQL 生成测评的时候也是用 GPT 协助评分,发现有些 SQL 语法即使有问题,但 GPT 依然判断答案正确,最后只能人工打分。

  • LZ,你们是使用 LangChain+LLM 方案么?如果是这种方案的话,我觉得可以从任务规划、插件选择等角度验证模型能力。