问答大数据量造数

itester · 2021年07月08日 · 最后由 esnake0 回复于 2021年08月06日 · 3869 次阅读

背景：近期有批量文件处理的压测内筒，数据量是 2-3 亿条记录的文件，涉及到的内容有文件生成，文件上传等场景；
提问点：
1、对于亿级的大数据量（数据真实性无强校验，但是格式和长度需要设置），造数是如何实现的；
2、文件处理类的场景，tps 和性能是怎么监控的，因为并不是多个接口请求而是文件处理类；
谢谢；

共收到 7 条回复时间点赞

Thirty-Thirty #7 · 2021年07月08日

想尝试回答，又担心自身不够专业造成误导。
推举个专业人士吧，@uhz2008

孙高飞 #6 · 2021年07月08日

第一个问题：用 spark 写脚本提交到 hadoop 集群上利用分布式计算来快速造数就好了。
第二个问题没太看明白是什么场景

guoskyhero #3 · 2021年07月08日

有时间限制吗？没有那慢慢跑慢慢造就是了。如果有时间限制，那你要考虑一下大数据量的瓶颈应该是文件写入，所以其实也是有一个极限速度的

徐汪成 #4 · 2021年07月09日

压测机性能足够好，脚本多线程实现，如果有时间要求建议用专业的文件生成工具。

cooling #3 · 2021年07月12日

我记得以前我们需要在未商用的生产环境上灌装 2000w 的交易数据，我当时用 python(requests) 放在 linux 后台跑了 2 周多才准备好 2000w 的交易数据。如果时间周期长可以采用通过 api 多线程（java）、golang 来调接口生成数据。当然看看能不能开发协助你通过插入数据库来生成大批量数据。

雷子 #6 · 2021年07月20日

通过 jmeter 数据库连接操作，搞个插入脚本走自定义定量定时亿级线程/或者加个自定义定量循环，不香吗？

esnake0 #1 · 2021年08月06日

允许重复的话，递归生成，循环复制倍增试试，要么 C++/Go 等开多线程/协程处理。
单元测试/基线测试，比如调用某方法 10 万次，传入不同长度的文件，max/min/avg/mid 处理时长，与文件大小，数据结构深度的关系等，能分析源码看实现机制会使得测试更有针对性。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

问答 大数据量造数

问答 大数据量造数

问答大数据量造数

问答大数据量造数