@ycwdaaaa 我司将用户数据采用离线方式同步到 HDFS 上,再通过 Spark 对用户数据进行清洗,对清洗结果采用怎样的方式进行验证比较好。当前数据量有 10 亿,目前我采用的是随机抽查样本校验方式。
@heyniu 你采用是什么报表,比 reportng 好看多了