xiaoHei · 测试之家

会员

xiaoHei

第 93725 位会员 / 2024-07-31

10 篇帖子 • 70 条回帖

0 关注者

0 正在关注

0 收藏

未设置 GitHub 信息.

热门话题
最近回帖

兼职/私活 Mercor 有人了解吗？

0 个赞 / 1 条回复
新手区接口自动化：pytest 执行测试用例时可以使用主从模式吗？多个电脑一同执行测试用例

0 个赞 / 3 条回复
Python python3.13 有人使用了吗？多并发使用起来怎么样呢？

0 个赞 / 3 条回复

【大连】世纪鲲鹏 [腾讯子公司] - 自动化测试工程师 at 2025年12月09日

仅楼主可见
Kong 上海招聘资深测试开发工程师 at 2025年12月09日

本地测试团队现在多少人呀
不会写代码的测试，用 100% 的 AI 编程，写了个自动化测试平台（自动编写测试用例 + 自然语言执行 UI 自动化） at 2025年11月18日

这是真的牛呀
怎么拒绝领导安排的临时项目出差 at 2025年11月10日

多少薪资就干多少活、不自己决定项目的优先级，让领导来决定哪个项目优先
零基础测开学习 03——用例设计_边界值 at 2025年10月31日

哪个 AI 啊，稍微复杂一点得需求，AI 就冒烟了
很好奇有老哥从测试转行的吗 at 2025年09月17日

老哥积累多久到现在这个地步的
大模型怎么测试？ at 2025年08月29日
你这个问题其实挺典型的 👍——有了一个大模型，但没有明确的产品需求，那怎么测？我帮你拆开思路：

🔹 1. 明确测试目的

既然没有具体业务需求，就要先想清楚测出来是为了什么：
- 验证可用性：模型能不能跑通、输入输出正常？
- 验证能力边界：模型在通用任务上表现怎么样？
- 验证稳定性：多次运行是否稳定，结果是否一致？
- 验证安全性：会不会输出违规、错误、幻觉内容？
🔹 2. 通用测试维度（无需求时的 “基线测试”）

你可以把大模型放在一个 “沙箱” 里，按以下几个方向测：
1. 功能性（基础问答）
- 简单问答：能否回答常识问题（如首都、数学运算）
- 逻辑推理：能否正确推理（如数列规律、三段论）
- 创造性任务：写故事、改写句子
- 多轮对话：能否保持上下文
1. 鲁棒性（容错性）
- 拼写错误：能否理解错别字、口语化
- 模糊表达：能否在模糊输入下给合理回答
- 长文本：能否处理长输入并总结
1. 性能指标
- 响应速度：延迟、吞吐量
- 资源消耗：显存、CPU、内存占用
- 稳定性：长时间调用是否崩溃、OOM
1. 安全性/合规性
- 敏感话题：是否会输出违规内容
- 幻觉检测：对事实问题是否容易编造
- Prompt Injection：是否容易被提示劫持
1. 客观评估（基准数据集）
- SQuAD / BoolQ → 阅读理解
- GSM8K → 数学推理
- MMLU → 综合知识
- 自建测试集 → 结合你关心的典型问题
🔹 3. 没有需求时的测试落地方案
- 构建通用测试集：
  准备几百条涵盖常识、推理、写作、安全等问题的 Prompt，自动化跑一遍，记录结果。
- 自动化评估：
  - BLEU、ROUGE（文本相似度）
  - GPT-as-a-judge（用另一个模型打分）
  - 人工抽样（定性分析回答质量）
- 对比基线：
  和已有的开源模型（如 LLaMA2、Mistral）或者 ChatGPT/GPT-4 对比，看差距。
🔹 4. 总结一句

👉 如果没有产品需求，就做基线能力验证：
- 跑通模型 → 能力覆盖 → 鲁棒性 → 性能 → 安全 → 和基线对比。这样就能得到一份清晰的 “模型体检报告”，以后有产品需求时，可以直接参考这份基线。
要不要我帮你设计一份 **“大模型通用测试清单”**（可以直接拿去做实验，每个维度附示例题）？
各位大佬，小弟目前职业迷茫，希望各位可以给给经验 at 2025年08月27日

看到评论同感，还是要深耕开发这一条路
糟糕的数字 at 2025年08月22日

小心一语成谶
突然发现还有积分商城，现在还可以换笔记本吗？ at 2025年08月20日

积攒一下

🔹 1. 明确测试目的

🔹 2. 通用测试维度（无需求时的 “基线测试”）

🔹 3. 没有需求时的测试落地方案

🔹 4. 总结一句