问题 1: 直接给你个大模型怎么测试(没有产品需求)
高飞之前分享过相关的内容,可进行查看 https://testerhome.com/articles/42005
你这个问题其实挺典型的 👍——有了一个大模型,但没有明确的产品需求,那怎么测?我帮你拆开思路:
既然没有具体业务需求,就要先想清楚测出来是为了什么:
你可以把大模型放在一个 “沙箱” 里,按以下几个方向测:
构建通用测试集: 准备几百条涵盖常识、推理、写作、安全等问题的 Prompt,自动化跑一遍,记录结果。
自动化评估:
对比基线: 和已有的开源模型(如 LLaMA2、Mistral)或者 ChatGPT/GPT-4 对比,看差距。
👉 如果没有产品需求,就做基线能力验证:
要不要我帮你设计一份 **“大模型通用测试清单”**(可以直接拿去做实验,每个维度附示例题)?
你这个就是 AI 回答吧