场景:开发写脚本写库 100 多万 怎么高效校验正确性
具体正确性的定义是什么呢?如果是满足某种业务规则的话,你也可以写个脚本读库然后校验
你得先有正确的参照物吧,不然拿什么校验
我在补充下场景 会有一份算法给出的结果文件 开发通过脚本清洗数据 我之前比较少时 都是 Excel 或把对比文件导入数据库 直接对比 但百万级 Excel 直接卡死 所以最近搞了了 python 脚本 但只能对比两列 想多对比一些
https://github.com/datafold/data-diff 这个试试
数据分段,分布式,多线程,高效的代码自然带来编码的复杂性。如果不是特别紧急,还是用 python 慢慢跑吧
哇 看起来很高级 明天去研究研究 感谢大佬