你这个问题其实挺典型的 👍——有了一个大模型,但没有明确的产品需求,那怎么测?我帮你拆开思路:
既然没有具体业务需求,就要先想清楚测出来是为了什么:
你可以把大模型放在一个 “沙箱” 里,按以下几个方向测:
构建通用测试集:
准备几百条涵盖常识、推理、写作、安全等问题的 Prompt,自动化跑一遍,记录结果。
自动化评估:
对比基线:
和已有的开源模型(如 LLaMA2、Mistral)或者 ChatGPT/GPT-4 对比,看差距。
👉 如果没有产品需求,就做基线能力验证:
要不要我帮你设计一份 **“大模型通用测试清单”**(可以直接拿去做实验,每个维度附示例题)?
看到评论同感,还是要深耕开发这一条路
小心一语成谶
积攒一下
顶一下
普本撤退
看名字就知道
男生选 2,女生选 1
先找到对象再说
同有?
有链接吗?让我来试一试水
不会是数马吧
坐下倾听
前辈,建议软测转游测吗?
刷到了东哥的招聘,有些部门刚刚成立,要求也是很高的
Z
在长沙,也是遇到裁员,再考虑下一步了
东哥还需要人不
猎聘或者智联
留痕留痕留痕
boss 这个软件是这样的,所以我一直没用这个软件,用得其他的
没有测试岗位吗?
红利时期都遇到,也算不错了
长沙的环境很一般啊