问答 多份 csv 文件如何按照某一列取交集?

石头 · 2022年04月18日 · 最后由 KK 回复于 2022年04月18日 · 4264 次阅读

现在有多份 csv 文件,其中有一列是时间,我要提取这几份文件时间交集所在的行。现在是用 pandas 设置时间为 index,取时间的交集再去一行行遍历每份文件,然后输出为新的 csv 文件。但是感觉读写速度很慢,各位有没有效率高一点的方法。

共收到 2 条回复 时间 点赞

多线程,然后就是看电脑硬件咋样了😂

多份文件都一样吗?
spark:

  • 读文件
  • union
  • 根据时间输出
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册