Python 公司用 pyspark 脚本在公司的 spark 环境平台来执行一些数据计算任务,这种脚本项目应该如何进行测试呢?

PingPongMan · 2025年09月01日 · 73 次阅读

公司用 pyspark 脚本在公司的 spark 环境平台来执行一些数据计算任务,这种脚本项目应该如何进行测试呢?
基本的概念就是在十几个 hive 表中提取数据,进行数据的筛选、处理、计算,最终生成几张 hive 表的最终结果数据,项目的迭代就是更新各种计算逻辑,最终拿到想要的数据
现状是 test 环境也在用线上的数据源来跑,我也不能动线上的 ods 数据源数据,想要 mock 数据就自己建一张 tmp 表结构一模一样的表,然后每小时同步线上数据源的数据进来,再 insert 自己想要的数据进去,但是这个过程极为繁琐,sparkSQL 插入数据很不友好,造数据特别费时间
然后就是不明白该如何针对这种项目做自动化测试,因为它是一个脚本,并不是运行的项目,没有办法通过调接口的方式去做自动化测试
有大佬有这方面的经验可以分享一下吗,或者有类似的书籍和帖子分享,非常感谢!

暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册