大数据测试想请教一下基于大数据的测试有没有什么好方法

归云乡 · 2019年01月07日 · 最后由 fylz 回复于 2020年01月21日 · 5223 次阅读

背景
对于大数据测试，验证数据的正确性，一直没有一个好的切入点，画了个思维导图抛砖引玉，请教一下大佬们。
如图

11 个赞

共收到 17 条回复时间点赞

山顶冻人 #1 · 2019年01月08日

我也想知道，我现在都是代码审查，查看 sql 逻辑，自己再写 sql 分段验证。主要是要熟悉业务数据

我问问 #2 · 2019年01月08日

同求啊，我现在只是造数据，根据清洗规则，看结果，

董先生 #3 · 2019年01月08日

不用测，上线真实数据验证，错误快速重跑即可，开发就能搞定。测试来做工作量巨大属浪费时间

bauul #4 · 2019年01月08日

什么样的需求，什么样的场景，得先说说吧

归云乡 #13 · 2019年01月09日 Author

对

山顶冻人回复

看 mr，看 hivesql，我现在的做法和你差不多- -

归云乡 #5 · 2019年01月09日 Author

对

我问问回复

造数据我也提到了，造的数据就不完整咋测，我们不测清洗，测的是清洗完以后的计算这一步

归云乡 #6 · 2019年01月09日 Author

对

董先生回复

数据监控这块也提到了，我们的东西给客户以后完全没有控制权，很尴尬呀

归云乡 #8 · 2019年01月09日 Author

对

bauul 回复

场景就是数据采集 - 清洗 - 计算 - 导出这个流程，需求就是验证计算这一步，开发跑出来的数据经过计算后到底对不对

我问问 #9 · 2019年01月10日

对

归云乡回复

你自己造的数据肯定是完整的啊，自己造的数据我们都是可控的啊，json，xml 都是类似这样的结构，，然后看清洗，如果清洗都不对，计算肯定不对啊

归云乡 #10 · 2019年01月10日 Author

对

我问问回复

自己造的数据，造什么样的数据得看业务规则是什么样的，数据之间关联性很强，所以导致数据造不完整

bauul #11 · 2019年01月10日

对

归云乡回复

这个应该有两个方向来看，一种是知道目标数据是啥，来对比；一种是不知道目标数据是啥，但是知道应该肯定没有哪一类数据，包含不应该存在的数据的量占比有多大，与之前的结果作对比，可以了解到这次算法结果是不是有提升吧？

magicyang #12 · 2019年01月10日

留个名，有大公司的来指导一下么？
数据筛选的简单原则？
凭空造数据是条死路吧。泛化很难保证的，还不如用爬虫之类的还稍微靠谱点。或者 GAN 之类的？

归云乡 #13 · 2019年01月10日 Author

对

bauul 回复

对，你说的这个情况也考虑过，现在我们就是都不能保证计算后的数据是否正确，没有目标数据。然后就是 diff 前后数据只能筛选哪些明显异常或者在业务规则范围内不太应该出现的数据，可以与之前的数据对比来判断算法修改后的效果，但是感觉也作用不大的样子，所以整个测试组都很迷茫

归云乡 #4 · 2019年01月10日 Author

对

magicyang 回复

凭空造数据是条死路啊，我们也尝试了很多，然后又没有真实数据，只能去客户现场测，压力很大，也想有大佬来指导一下

huangshengnan #14 · 2019年07月17日

先收藏，等行业大佬出现或自己琢磨出点东西再回头看

winfri #15 · 2020年01月09日

1.造数据验证代码执行符合设计逻辑
2.已标注数据集（可以根据不同侧重多做几个），第一步测试完，上测试集群跑测试标注数据集，比对修改前结果。（这部分开发测试做都 ok）

fylz #17 · 2020年01月21日

数据准确性是个难题，模拟数据与预期结果这一关目前没看到有什么好的解决方案~ 更何况还有数据量的区别。
哪怕有线上数据，也很难保证预期结果的完整性。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

大数据测试 想请教一下基于大数据的测试有没有什么好方法

大数据测试 想请教一下基于大数据的测试有没有什么好方法

大数据测试想请教一下基于大数据的测试有没有什么好方法

大数据测试想请教一下基于大数据的测试有没有什么好方法