🎉 🎂 🍰 TesterHome 创立 9 周年纪念日 🍰 🎂 🎉

大数据测试 标签系统测试

WD · 2020年04月20日 · 最后由 冰薄荷 回复于 2020年04月28日 · 396 次阅读

如题,公司最近要做一个标签系统,上线前要验证各标签的准确率,没想到什么好的方法,自己模拟数据这个量太小,测出来的结果可信度不高,特来请求一下有没有高人

共收到 21 条回复 时间 点赞
WD #1 · 2020年04月20日 Author

用户的数据是基于端级的数据埋点上报,模拟用户只能在机器上点点点,这个着实是效率很低

标签的算法本身你了解么?如果算法本身对你来说是黑盒的,那你就做好接口测试就行了,搞量化时间成本太高了,我认为属于事倍功半的做法

WD #3 · 2020年04月21日 Author
我去催饭 回复

嗯,算法本身对我这儿是黑盒的。其实我是想问,用来作为标准的用户数据需要怎么高效收集或者模拟,无奈项目组就是要把标签的效果量化出来,胳膊拧不过大腿啊

WD 回复

你模拟不出来真实的用户标签,就算你靠调接口弄出几千万条数据,也不表示这就是用户真实的选择,除非加入人工智能的算法,这又是另一个黑盒了……所以说,只要算法黑盒,你只要保证接口逻辑是正确的就可以了

“标签系统,上线前要验证各标签的准确率”
是根据标签进行圈人吗?如果是,验证标签逻辑就好了!对于用户而言,这个标签你要么符合要么不符合。

如果算法是黑盒的,感觉比较难,除非你自己写个算法来验证。。。

方便告诉一下,你测试大数据 一般怎么测试的呢;

WD #8 · 2020年04月21日 Author

可以这么理解,现在其实也是这么验证的。问题就是自己造或者模拟用户,这样的数据都太少了,而且很耗费时间

WD #9 · 2020年04月21日 Author
我去催饭 回复

这就是这个测试矛盾的地方,没上线前确实没用户,但是这个标签是否具有可信度,还是得测,测了才会真正拿到线上用

WD #10 · 2020年04月21日 Author

刚接触,并没有什么好的方法😂

WD 回复

个人认为和数据量关系不大,主要在于标签逻辑是否正确,造的数据全覆盖标签逻辑就没大的问题了。造数据会有这么两个个要求:数据流转,理清楚关联表;基础的 sql。

大数据,指定灌入数据有什么意义呢,大数据 就是 抽取/清洗/验证/应用。那测试要做的 就是 按照业务目标抽取获取目标的数据灌入 这个模型,进行验证。验证逻辑的,不然 你按照定义的抽取规则获取的 数据 ,貌似 有不怎么地道了

算法对他来说是黑盒的,里面的逻辑可能很复杂,输出结果可能就是是和否,但是怎么得出来的结论,他测不了

WD #14 · 2020年04月22日 Author

我试试看这个方法。目前遇到的困境就是开发不太愿意说明具体的逻辑。或者说实际上报的数据来源,大数据这边的开发也不是很清楚,就造成了这种需要测试去尽可能覆盖多的用户行为。

WD #15 · 2020年04月22日 Author

这其实就回到我上边说的,这个标签并没有上线。已有的这些用户数据,又不能确定数据是否是可信的。只能限定一些条件,人为创造一些满足 “条件” 的用户,看标签预测是否是正确的

WD #16 · 2020年04月22日 Author

另外,不知道各位在测试这种标签的时候,有做过回访用户确认下标签是否正确吗?

这种只能在线上环境测试,所见即所得来测试,统计一个周期,得到一个平均值吧

WD 回复

所以要用到沟通软技能了~

最近我们要大数据系统做数据仓库和数据分析,也想了解下大数据这块的测试方法。
目前我想到的是先分析线上数据的类型情况,汇总出对应的等价类,然后验证大数据系统存储和展示是否正常。
其他功能方面的,就按照对应功能进行验证。

WD #20 · 2020年04月27日 Author
冰薄荷 回复

分许线上数据类型情况,这个是测试的分析还是团队有了明确的定义标准呢?

WD 回复

目前数据类型还没有明确定义,后面我会找研发负责人讨论,自己也会去看下线上数据,最后汇总一组测试数据。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册