背景:近期有批量文件处理的压测内筒,数据量是 2-3 亿条记录的文件,涉及到的内容有文件生成,文件上传等场景; 提问点: 1、对于亿级的大数据量(数据真实性无强校验,但是格式和长度需要设置),造数是如何实现的; 2、文件处理类的场景,tps 和性能是怎么监控的,因为并不是多个接口请求而是文件处理类; 谢谢;
想尝试回答,又担心自身不够专业造成误导。 推举个专业人士吧,@uhz2008
第一个问题: 用 spark 写脚本提交到 hadoop 集群上利用分布式计算来快速造数就好了。 第二个问题没太看明白是什么场景
有时间限制吗?没有那慢慢跑慢慢造就是了。如果有时间限制,那你要考虑一下大数据量的瓶颈应该是文件写入,所以其实也是有一个极限速度的
压测机性能足够好,脚本多线程实现,如果有时间要求建议用专业的文件生成工具。
我记得以前我们需要在未商用的生产环境上灌装 2000w 的交易数据,我当时用 python(requests) 放在 linux 后台跑了 2 周多 才准备好 2000w 的交易数据。如果时间周期长可以采用通过 api 多线程(java)、golang 来调接口生成数据。当然看看能不能开发协助你通过插入数据库来生成大批量数据。
通过 jmeter 数据库连接操作,搞个插入脚本走自定义定量定时亿级线程/或者加个自定义定量循环,不香吗?