问答大数据量造数

itester · July 08, 2021 · Last by esnake0 replied at August 06, 2021 · 6622 hits

背景：近期有批量文件处理的压测内筒，数据量是 2-3 亿条记录的文件，涉及到的内容有文件生成，文件上传等场景；
提问点：
1、对于亿级的大数据量（数据真实性无强校验，但是格式和长度需要设置），造数是如何实现的；
2、文件处理类的场景，tps 和性能是怎么监控的，因为并不是多个接口请求而是文件处理类；
谢谢；

共收到 7 条回复时间点赞

Thirty-Thirty #1 · July 08, 2021

想尝试回答，又担心自身不够专业造成误导。
推举个专业人士吧，@uhz2008

孙高飞 #2 · July 08, 2021

第一个问题：用 spark 写脚本提交到 hadoop 集群上利用分布式计算来快速造数就好了。
第二个问题没太看明白是什么场景

guoskyhero #3 · July 08, 2021

有时间限制吗？没有那慢慢跑慢慢造就是了。如果有时间限制，那你要考虑一下大数据量的瓶颈应该是文件写入，所以其实也是有一个极限速度的

徐汪成 #4 · July 09, 2021

压测机性能足够好，脚本多线程实现，如果有时间要求建议用专业的文件生成工具。

cooling #5 · July 12, 2021

我记得以前我们需要在未商用的生产环境上灌装 2000w 的交易数据，我当时用 python(requests) 放在 linux 后台跑了 2 周多才准备好 2000w 的交易数据。如果时间周期长可以采用通过 api 多线程（java）、golang 来调接口生成数据。当然看看能不能开发协助你通过插入数据库来生成大批量数据。

Jare #6 · July 20, 2021

通过 jmeter 数据库连接操作，搞个插入脚本走自定义定量定时亿级线程/或者加个自定义定量循环，不香吗？

esnake0 #7 · August 06, 2021

允许重复的话，递归生成，循环复制倍增试试，要么 C++/Go 等开多线程/协程处理。
单元测试/基线测试，比如调用某方法 10 万次，传入不同长度的文件，max/min/avg/mid 处理时长，与文件大小，数据结构深度的关系等，能分析源码看实现机制会使得测试更有针对性。

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up。

问答 大数据量造数

问答 大数据量造数

问答大数据量造数

问答大数据量造数