大数据测试 想请教一下基于大数据的测试有没有什么好方法

归云乡 · 2019年01月07日 · 最后由 fylz 回复于 2020年01月21日 · 410 次阅读

背景
对于大数据测试,验证数据的正确性,一直没有一个好的切入点,画了个思维导图抛砖引玉,请教一下大佬们。
如图

共收到 17 条回复 时间 点赞

我也想知道,我现在都是代码审查,查看 sql 逻辑,自己再写 sql 分段验证。主要是要熟悉业务数据

同求啊,我现在只是造数据,根据清洗规则,看结果,

不用测,上线真实数据验证,错误快速重跑即可,开发就能搞定。测试来做工作量巨大属浪费时间

什么样的需求,什么样的场景,得先说说吧

山顶冻人 回复

看 mr,看 hivesql,我现在的做法和你差不多- -

我问问 回复

造数据我也提到了,造的数据就不完整咋测,我们不测清洗,测的是清洗完以后的计算这一步

董先生 回复

数据监控这块也提到了,我们的东西给客户以后完全没有控制权,很尴尬呀

bauul 回复

场景就是数据采集 - 清洗 - 计算 - 导出这个流程,需求就是验证计算这一步,开发跑出来的数据经过计算后到底对不对

归云乡 回复

你自己造的数据肯定是完整的啊,自己造的数据我们都是可控的啊,json,xml 都是类似这样的结构,,然后看清洗,如果清洗都不对,计算肯定不对啊

我问问 回复

自己造的数据,造什么样的数据得看业务规则是什么样的,数据之间关联性很强,所以导致数据造不完整

归云乡 回复

这个应该有两个方向来看,一种是知道目标数据是啥,来对比;一种是不知道目标数据是啥,但是知道应该肯定没有哪一类数据,包含不应该存在的数据的量占比有多大,与之前的结果作对比,可以了解到这次算法结果是不是有提升吧?

留个名,有大公司的来指导一下么?
数据筛选的简单原则?
凭空造数据是条死路吧。泛化很难保证的,还不如用爬虫之类的还稍微靠谱点。或者 GAN 之类的?

bauul 回复

对,你说的这个情况也考虑过,现在我们就是都不能保证计算后的数据是否正确,没有目标数据。然后就是 diff 前后数据只能筛选哪些明显异常或者在业务规则范围内不太应该出现的数据,可以与之前的数据对比来判断算法修改后的效果,但是感觉也作用不大的样子,所以整个测试组都很迷茫😭

magicyang 回复

凭空造数据是条死路啊,我们也尝试了很多,然后又没有真实数据,只能去客户现场测,压力很大,也想有大佬来指导一下😕

先收藏,等行业大佬出现或自己琢磨出点东西再回头看

1.造数据验证代码执行符合设计逻辑
2.已标注数据集(可以根据不同侧重多做几个),第一步测试完,上测试集群跑测试标注数据集,比对修改前结果。(这部分开发测试做都 ok)

数据准确性是个难题,模拟数据与预期结果这一关目前没看到有什么好的解决方案~ 更何况还有数据量的区别。
哪怕有线上数据,也很难保证预期结果的完整性。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册