老哥积累多久到现在这个地步的
你这个问题其实挺典型的 👍——有了一个大模型,但没有明确的产品需求,那怎么测?我帮你拆开思路:
既然没有具体业务需求,就要先想清楚测出来是为了什么:
你可以把大模型放在一个 “沙箱” 里,按以下几个方向测:
构建通用测试集:
准备几百条涵盖常识、推理、写作、安全等问题的 Prompt,自动化跑一遍,记录结果。
自动化评估:
对比基线:
和已有的开源模型(如 LLaMA2、Mistral)或者 ChatGPT/GPT-4 对比,看差距。
👉 如果没有产品需求,就做基线能力验证:
要不要我帮你设计一份 **“大模型通用测试清单”**(可以直接拿去做实验,每个维度附示例题)?
看到评论同感,还是要深耕开发这一条路
小心一语成谶
积攒一下
顶一下
普本撤退
看名字就知道
男生选 2,女生选 1