xiaoHei · 回帖 · 测试之家

会员

xiaoHei

第 93725 位会员 / 2024-07-31

10 篇帖子 • 79 条回帖

1 关注者

0 正在关注

0 收藏

未设置 GitHub 信息.

社区真有点没落的既视感 at 2026年04月09日

用大模型推理制药吗？
社区真有点没落的既视感 at 2026年04月02日

每次都稳定赚钱啊
2025 年的年终奖都有吗？ at 2026年02月26日

睡着了吗
开工第一天，好困，好累 at 2026年02月25日

恭喜老哥要结婚了
基于 python，自动化接口测试 at 2026年01月19日

博客园里面有，都可以落地
当前比较好的 UI 自动化测试框架的好的解决思路或者技术选型，有推荐的吗？ at 2026年01月16日

我没研究过链接 PC 窗口，具体可以参考一下操作手册：https://airtest.doc.io.netease.com/IDEdocs/faq/2_common%20problems/qq 群维护这个软件，里面有很多人，你可以去群里交流，网易也有个
当前比较好的 UI 自动化测试框架的好的解决思路或者技术选型，有推荐的吗？ at 2026年01月16日

自己写就是 pytest+selenium/playright 、小白推荐 airtest
年终总结（一个五年的小测试迷茫和对于未来的思考🌳） at 2026年01月12日

仅楼主可见
下属内向不爱说话，怎么帮他融入集体？ at 2026年01月09日

还招人吗？
【大连】世纪鲲鹏 [腾讯子公司] - 自动化测试工程师 at 2025年12月09日

仅楼主可见
Kong 上海招聘资深测试开发工程师 at 2025年12月09日

本地测试团队现在多少人呀
不会写代码的测试，用 100% 的 AI 编程，写了个自动化测试平台（自动编写测试用例 + 自然语言执行 UI 自动化） at 2025年11月18日

这是真的牛呀
怎么拒绝领导安排的临时项目出差 at 2025年11月10日

多少薪资就干多少活、不自己决定项目的优先级，让领导来决定哪个项目优先
零基础测开学习 03——用例设计_边界值 at 2025年10月31日

哪个 AI 啊，稍微复杂一点得需求，AI 就冒烟了
很好奇有老哥从测试转行的吗 at 2025年09月17日

老哥积累多久到现在这个地步的
大模型怎么测试？ at 2025年08月29日
你这个问题其实挺典型的 👍——有了一个大模型，但没有明确的产品需求，那怎么测？我帮你拆开思路：

🔹 1. 明确测试目的

既然没有具体业务需求，就要先想清楚测出来是为了什么：
- 验证可用性：模型能不能跑通、输入输出正常？
- 验证能力边界：模型在通用任务上表现怎么样？
- 验证稳定性：多次运行是否稳定，结果是否一致？
- 验证安全性：会不会输出违规、错误、幻觉内容？
🔹 2. 通用测试维度（无需求时的 “基线测试”）

你可以把大模型放在一个 “沙箱” 里，按以下几个方向测：
1. 功能性（基础问答）
- 简单问答：能否回答常识问题（如首都、数学运算）
- 逻辑推理：能否正确推理（如数列规律、三段论）
- 创造性任务：写故事、改写句子
- 多轮对话：能否保持上下文
1. 鲁棒性（容错性）
- 拼写错误：能否理解错别字、口语化
- 模糊表达：能否在模糊输入下给合理回答
- 长文本：能否处理长输入并总结
1. 性能指标
- 响应速度：延迟、吞吐量
- 资源消耗：显存、CPU、内存占用
- 稳定性：长时间调用是否崩溃、OOM
1. 安全性/合规性
- 敏感话题：是否会输出违规内容
- 幻觉检测：对事实问题是否容易编造
- Prompt Injection：是否容易被提示劫持
1. 客观评估（基准数据集）
- SQuAD / BoolQ → 阅读理解
- GSM8K → 数学推理
- MMLU → 综合知识
- 自建测试集 → 结合你关心的典型问题
🔹 3. 没有需求时的测试落地方案
- 构建通用测试集：
  准备几百条涵盖常识、推理、写作、安全等问题的 Prompt，自动化跑一遍，记录结果。
- 自动化评估：
  - BLEU、ROUGE（文本相似度）
  - GPT-as-a-judge（用另一个模型打分）
  - 人工抽样（定性分析回答质量）
- 对比基线：
  和已有的开源模型（如 LLaMA2、Mistral）或者 ChatGPT/GPT-4 对比，看差距。
🔹 4. 总结一句

👉 如果没有产品需求，就做基线能力验证：
- 跑通模型 → 能力覆盖 → 鲁棒性 → 性能 → 安全 → 和基线对比。这样就能得到一份清晰的 “模型体检报告”，以后有产品需求时，可以直接参考这份基线。
要不要我帮你设计一份 **“大模型通用测试清单”**（可以直接拿去做实验，每个维度附示例题）？
各位大佬，小弟目前职业迷茫，希望各位可以给给经验 at 2025年08月27日

看到评论同感，还是要深耕开发这一条路
糟糕的数字 at 2025年08月22日

小心一语成谶
突然发现还有积分商城，现在还可以换笔记本吗？ at 2025年08月20日

积攒一下
Mercor 有人了解吗？ at 2025年08月19日

顶一下
招纯牛马 at 2025年07月25日

普本撤退
聊聊副业吧 at 2025年07月01日

看名字就知道
2 家选 1 家 at 2025年07月01日

男生选 2，女生选 1
闲聊一下 at 2025年06月30日

先找到对象再说

🔹 1. 明确测试目的

🔹 2. 通用测试维度（无需求时的 “基线测试”）

🔹 3. 没有需求时的测试落地方案

🔹 4. 总结一句