如题,公司最近要做一个标签系统,上线前要验证各标签的准确率,没想到什么好的方法,自己模拟数据这个量太小,测出来的结果可信度不高,特来请求一下有没有高人
用户的数据是基于端级的数据埋点上报,模拟用户只能在机器上点点点,这个着实是效率很低
标签的算法本身你了解么?如果算法本身对你来说是黑盒的,那你就做好接口测试就行了,搞量化时间成本太高了,我认为属于事倍功半的做法
嗯,算法本身对我这儿是黑盒的。其实我是想问,用来作为标准的用户数据需要怎么高效收集或者模拟,无奈项目组就是要把标签的效果量化出来,胳膊拧不过大腿啊
你模拟不出来真实的用户标签,就算你靠调接口弄出几千万条数据,也不表示这就是用户真实的选择,除非加入人工智能的算法,这又是另一个黑盒了……所以说,只要算法黑盒,你只要保证接口逻辑是正确的就可以了
“标签系统,上线前要验证各标签的准确率”
是根据标签进行圈人吗?如果是,验证标签逻辑就好了!对于用户而言,这个标签你要么符合要么不符合。
如果算法是黑盒的,感觉比较难,除非你自己写个算法来验证。。。
方便告诉一下,你测试大数据 一般怎么测试的呢;
个人认为和数据量关系不大,主要在于标签逻辑是否正确,造的数据全覆盖标签逻辑就没大的问题了。造数据会有这么两个个要求:数据流转,理清楚关联表;基础的 sql。
大数据,指定灌入数据有什么意义呢,大数据 就是 抽取/清洗/验证/应用。那测试要做的 就是 按照业务目标抽取获取目标的数据灌入 这个模型,进行验证。验证逻辑的,不然 你按照定义的抽取规则获取的 数据 ,貌似 有不怎么地道了
我试试看这个方法。目前遇到的困境就是开发不太愿意说明具体的逻辑。或者说实际上报的数据来源,大数据这边的开发也不是很清楚,就造成了这种需要测试去尽可能覆盖多的用户行为。
这其实就回到我上边说的,这个标签并没有上线。已有的这些用户数据,又不能确定数据是否是可信的。只能限定一些条件,人为创造一些满足 “条件” 的用户,看标签预测是否是正确的
另外,不知道各位在测试这种标签的时候,有做过回访用户确认下标签是否正确吗?
这种只能在线上环境测试,所见即所得来测试,统计一个周期,得到一个平均值吧
最近我们要大数据系统做数据仓库和数据分析,也想了解下大数据这块的测试方法。
目前我想到的是先分析线上数据的类型情况,汇总出对应的等价类,然后验证大数据系统存储和展示是否正常。
其他功能方面的,就按照对应功能进行验证。