“造数工厂” 是什么？

理解思考造数工厂是什么之前，我们先需要搞清楚业务功能（前端、服务，数据）之间的关系

在业务系统中，业务数据一般由用户发起业务流程产生，也就是由功能产生，这是所谓的正向数据流，例如 “新建” 相关的功能。而产生的数据为后续的业务功能提供基础支撑，例如 “查询”，“更新”，“内存运算” 等，这是所谓的逆向数据流。用户的操作产生数据，产生的数据根据业务要求进行一系列的操作和加工又反馈给用户。所以在业务系统中，我们可以把功能划分为三大类：

产生数据的功能;
使用数据的功能;
产生和使用数据的功能;

通过上图可以看到：

功能 A 类似 “新建” 或 “数据接入” 的功能，纯产生数据。
功能 B，功能 C 类似 “编辑”，“删除” 的功能，使用其他功能产生的数据，并进行操作数据进行增、删、改。
功能 D 类似 “查询” 的功能，对已经存在数据根据业务要求进行查询，聚合，内存运算，当然这种功能业务产生数据，但这些数据都是存放在内存中，并不会持久化下来，一定时间后会被清理掉。通过上图也可以看出一些基本常识，在业务系统中功能和功能之间、数据和数据之间，功能和数据之间存在依赖。正是这个 “依赖” 为 “造数工厂” 的定义提供了有效的参考。我个人理解造数工厂是一种在软件生产过程中为功能直接快速提供业务数据支撑，缩短业务链路，丰富数据样本的能效工具。在文章后续的内容中，会围绕这个定义进行展开。

为什么生产过程中需要类似 “造数工厂” 工具的存在？意义是什么？

我们站在开发、测试两个角色去看待这个问题。

开发：

又要联调了，开发环境没有支撑联调的数据啊？
开发 A：“我的功能要依赖开发 B 负责的功能产生的数据，我不是很了解，开发 B 你帮我弄一下呗”。开发 B：“我没时间哦，我还要搞其他需求”。
联调过程中，前端开发：“接口 500，后端看一下” 后端开发：“数据缺失了，我补一下，你再看看” 前端开发：“接口还是 500，后端看一下” 后端开发：“数据还有缺失了，我补一下，你再看看” 前端开发：“接口依然 500，后端看一下” 后端开发：“数据怎么还有缺失啊，那个后端开发，你帮我看看” 10 分钟过去了，接口还没 200

现在很多微服务基于 DDD，后端开发各自专注于自己的领域中，对依赖服务的内部逻辑和数据结果并不关注，只关注交互接口提供的数据结构和含义。这就导致了很明显的问题，开发环境进行联调时，花费大量时间在依赖数据的构造中，效率极低。

测试：

我的目标测试对象是功能 X，但是功能 X 依赖其他功能路径和对应的数据，难道我一定要把其他功能路径跑一遍后，我才能测功能 X？

如果测试人员在迭代中为了生成目标功能依赖的业务数据，而去把代码未发生任何变动的功能都跑一遍，这种方式是低效率无意义的。在整个测试过程中，只有阶段 2 才是有效的测试。

如果有造数工厂，你的工作流程会变更为：

你可以在测试设计阶段中，在造数工厂中将你测试过程中需要的数据先准保好，在测试开始的时候直接在造数工厂中生成依赖的业务数据就好。

我的 UI 自动化测试用例，接口自动化测试用例都需要非常多的前置条件，搞得我的脚本内容好多，维护成本大大提升题。

在自动化测试的实践过程中，以下问题会阻碍自动化测试落地：
* 用例和用例之间不独立，依赖严重
* 测试点小、用例大
* 维护脚本成本大
这三个问题背后的原因很大层度都是被 “测试场景构建” 的问题影响：
* 下一个测试用例的测试场景构建，依赖上一个测试用例的执行
* 为了构造测试场景，不得不做很多额外的操作，导致脚本步骤增多，从而导致整个自动化测试的稳定性下降
* 用例无效内容多，不同用例关联关系紧密，与测试点无关的功能变动有可能也会导致用例运行失败
通过造数工厂的能力，将自动化测试脚本强依赖的测试场景构建从自动化测试本身抽离出来，自动化测试的用例只需要调用造数工厂进行测试场景构建。从而解决以上三个问题。