目前我们埋点数据需要统计,每天数据量千万或亿级别的数据,我需要统计每天这些数据,需要先把数据查询出来然后做些计算(聚合不好实现,python 处理的),我现在的问题是:
1.使用滚动查询,查询一批数据处理一批,但是感觉很慢,怎么都执行不完,然后滚动查询时间一长 cpu 也比较高,看下 load 啥的都很高。这个滚动查询要怎么设置比较好点,还是有其他办法?
2.数据量需要每天删除,之前根据查询删除,异步删除不返回,感觉每天数据量还是不断增多,没有删除干净的感觉,我现在直接删除索引,删除索引有个问题就是有个时间内的数据没处理就被删除了。我想问下大家大批量数据都是怎么删除的?
对 ES 不是很熟悉,望有经验的人多指教一下,谢谢!