问答 大数据量造数

itester · 2021年07月08日 · 最后由 esnake0 回复于 2021年08月06日 · 1601 次阅读

背景:近期有批量文件处理的压测内筒,数据量是 2-3 亿条记录的文件,涉及到的内容有文件生成,文件上传等场景;
提问点:
1、对于亿级的大数据量(数据真实性无强校验,但是格式和长度需要设置),造数是如何实现的;
2、文件处理类的场景,tps 和性能是怎么监控的,因为并不是多个接口请求而是文件处理类;
谢谢;

共收到 7 条回复 时间 点赞

想尝试回答,又担心自身不够专业造成误导。
推举个专业人士吧,@uhz2008

第一个问题: 用 spark 写脚本提交到 hadoop 集群上利用分布式计算来快速造数就好了。
第二个问题没太看明白是什么场景

有时间限制吗?没有那慢慢跑慢慢造就是了。如果有时间限制,那你要考虑一下大数据量的瓶颈应该是文件写入,所以其实也是有一个极限速度的

压测机性能足够好,脚本多线程实现,如果有时间要求建议用专业的文件生成工具。

我记得以前我们需要在未商用的生产环境上灌装 2000w 的交易数据,我当时用 python(requests) 放在 linux 后台跑了 2 周多😂 😅 才准备好 2000w 的交易数据。如果时间周期长可以采用通过 api 多线程(java)、golang 来调接口生成数据。当然看看能不能开发协助你通过插入数据库来生成大批量数据。

通过 jmeter 数据库连接操作,搞个插入脚本走自定义定量定时亿级线程/或者加个自定义定量循环,不香吗?

  1. 允许重复的话,递归生成,循环复制倍增试试,要么 C++/Go 等开多线程/协程处理。
  2. 单元测试/基线测试,比如调用某方法 10 万次,传入不同长度的文件,max/min/avg/mid 处理时长,与文件大小,数据结构深度的关系等, 能分析源码看实现机制会使得测试更有针对性。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册