性能测试工具 性能数据测试的铺底数据从何而来呢

Toopoos · 2024年01月16日 · 最后由 孙高飞 回复于 2024年01月17日 · 3731 次阅读

公司需要进行数据压测模拟生产环境,但是生产环境是银行的,不能动数据。
生产环境数据都几亿了,这么多数据怎么模拟呢
在线着急😥 😥

共收到 6 条回复 时间 点赞

我也没做过类似的,我帮你问了下 AI

在银行等对数据安全性要求极高的行业,确实无法直接在生产环境中进行压力测试或使用生产数据进行模拟。但是,为了模拟真实的生产环境以及处理几亿条级别的大数据量压测,可以采用以下策略:

  1. 数据生成工具

    • 使用专门的数据生成工具如 TPC-H、TPC-DS 等来创建与生产数据类似特征的虚拟数据集。这些工具可以根据业务规则和数据模型生成大量随机但结构合理的数据。
  2. 脱敏数据迁移

    • 对生产环境下的实际数据进行严格的脱敏处理(去标识化),确保敏感信息被移除或替换后,将脱敏后的数据复制到测试环境中。
  3. 子集抽样

    • 如果数据规模太大,在保证测试效果的前提下,可以抽取生产数据的一个有代表性的子集,并通过扩展该子集来模拟大规模场景。
  4. 数据合成

    • 利用统计学方法分析生产数据分布特性,然后根据这些特性合成新的数据集,保持数据分布的一致性。
  5. 集群模拟

    • 在非生产环境搭建与生产环境类似的硬件配置和软件架构的大数据集群,以模拟真实世界的并发访问和处理能力。
  6. 性能测试工具

    • 使用 JMeter、LoadRunner 或其他适合大数据系统的性能测试工具,构造复杂的负载场景,模拟大规模并发用户行为和海量数据处理流程。
  7. 日志回放

    • 分析生产环境的日志记录,提取出关键交易请求和行为模式,编写脚本并利用工具进行日志回放,以实现接近真实情况的压力测试。
  8. 容量规划

    • 依据现有的业务增长趋势和系统指标,预测未来的数据规模和处理需求,以此为依据设计测试用例和场景。

在所有操作过程中,务必遵循相关的法律法规和公司内部安全规定,确保任何涉及到生产数据的操作都符合隐私保护和数据安全的要求。同时,与项目经理及相关部门紧密协作,确保整个测试方案得到批准并在可控的安全环境下实施。

着啥急,问开发啊,找 ETL 啊
不能动数据还不能复制下啦,联系要下 UAT 的数据

大多数都是自己造的, 楼主可以翻一下我之前写的帖子, 里面有专门讲造数的。 前些日子我们也是对接银行做性能测试,造了 10 亿行结构化数据, 也就三个半小时就造完了,用 spark 造的很快, 还有一个是给一个车企造 2 亿张图片去测试存储系统,用异步 IO 造的也很快。

不能啊 ,生产数据库都没有,银行不给权限。别说复制了,看都看不上...着急啊...

孙高飞 回复

大佬,能指点下不😅 😅

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册