大数据测试标签系统测试

WD · 2020年04月20日 · 最后由冰薄荷回复于 2020年04月28日 · 4690 次阅读

如题，公司最近要做一个标签系统，上线前要验证各标签的准确率，没想到什么好的方法，自己模拟数据这个量太小，测出来的结果可信度不高，特来请求一下有没有高人

共收到 21 条回复时间点赞

WD #1 · 2020年04月20日 Author

用户的数据是基于端级的数据埋点上报，模拟用户只能在机器上点点点，这个着实是效率很低

我去催饭 #2 · 2020年04月21日

标签的算法本身你了解么？如果算法本身对你来说是黑盒的，那你就做好接口测试就行了，搞量化时间成本太高了，我认为属于事倍功半的做法

WD #3 · 2020年04月21日 Author

对

我去催饭回复

嗯，算法本身对我这儿是黑盒的。其实我是想问，用来作为标准的用户数据需要怎么高效收集或者模拟，无奈项目组就是要把标签的效果量化出来，胳膊拧不过大腿啊

我去催饭 #4 · 2020年04月21日

对

WD 回复

你模拟不出来真实的用户标签，就算你靠调接口弄出几千万条数据，也不表示这就是用户真实的选择，除非加入人工智能的算法，这又是另一个黑盒了……所以说，只要算法黑盒，你只要保证接口逻辑是正确的就可以了

神奇的小新 #5 · 2020年04月21日

“标签系统，上线前要验证各标签的准确率”
是根据标签进行圈人吗？如果是，验证标签逻辑就好了！对于用户而言，这个标签你要么符合要么不符合。

Ouroboros #6 · 2020年04月21日

如果算法是黑盒的，感觉比较难，除非你自己写个算法来验证。。。

YangPower海盐 #15 · 2020年04月21日

方便告诉一下，你测试大数据一般怎么测试的呢；

WD #8 · 2020年04月21日 Author

对

神奇的小新回复

可以这么理解，现在其实也是这么验证的。问题就是自己造或者模拟用户，这样的数据都太少了，而且很耗费时间

WD #9 · 2020年04月21日 Author

对

我去催饭回复

这就是这个测试矛盾的地方，没上线前确实没用户，但是这个标签是否具有可信度，还是得测，测了才会真正拿到线上用

WD #10 · 2020年04月21日 Author

对

YangPower海盐回复

刚接触，并没有什么好的方法

神奇的小新 #11 · 2020年04月22日

对

WD 回复

个人认为和数据量关系不大，主要在于标签逻辑是否正确，造的数据全覆盖标签逻辑就没大的问题了。造数据会有这么两个个要求：数据流转，理清楚关联表；基础的 sql。

YangPower海盐 #12 · 2020年04月22日

大数据，指定灌入数据有什么意义呢，大数据就是抽取/清洗/验证/应用。那测试要做的就是按照业务目标抽取获取目标的数据灌入这个模型，进行验证。验证逻辑的，不然你按照定义的抽取规则获取的数据，貌似有不怎么地道了

我去催饭 #13 · 2020年04月22日

对

YangPower海盐回复

算法对他来说是黑盒的，里面的逻辑可能很复杂，输出结果可能就是是和否，但是怎么得出来的结论，他测不了

WD #14 · 2020年04月22日 Author

对

神奇的小新回复

我试试看这个方法。目前遇到的困境就是开发不太愿意说明具体的逻辑。或者说实际上报的数据来源，大数据这边的开发也不是很清楚，就造成了这种需要测试去尽可能覆盖多的用户行为。

WD #15 · 2020年04月22日 Author

对

YangPower海盐回复

这其实就回到我上边说的，这个标签并没有上线。已有的这些用户数据，又不能确定数据是否是可信的。只能限定一些条件，人为创造一些满足 “条件” 的用户，看标签预测是否是正确的

WD #16 · 2020年04月22日 Author

另外，不知道各位在测试这种标签的时候，有做过回访用户确认下标签是否正确吗？

我问问 #17 · 2020年04月23日

这种只能在线上环境测试，所见即所得来测试，统计一个周期，得到一个平均值吧

神奇的小新 #18 · 2020年04月24日

对

WD 回复

所以要用到沟通软技能了~

冰薄荷 #19 · 2020年04月26日

最近我们要大数据系统做数据仓库和数据分析，也想了解下大数据这块的测试方法。
目前我想到的是先分析线上数据的类型情况，汇总出对应的等价类，然后验证大数据系统存储和展示是否正常。
其他功能方面的，就按照对应功能进行验证。

WD #20 · 2020年04月27日 Author

对

冰薄荷回复

分许线上数据类型情况，这个是测试的分析还是团队有了明确的定义标准呢？

冰薄荷 #21 · 2020年04月28日

对

WD 回复

目前数据类型还没有明确定义，后面我会找研发负责人讨论，自己也会去看下线上数据，最后汇总一组测试数据。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

大数据测试 标签系统测试

大数据测试 标签系统测试

大数据测试标签系统测试

大数据测试标签系统测试