之前一直是测报表,最多就是对比核算的一些逻辑统计规则上。 最近数据组要搞数据仓库,之前浏览社区时候发现提到过一个 “数据工厂”,还以为是一个东西,
首先是 不太懂这个 数据仓库,是做什么的,如果要测试都是关注哪些来进行呢?是要借助工具吗? 其次,可以了解下数据中台、数据工厂、数据仓库的区别吗?
以下个人理解:
数据仓库,属于大数据的概念,指的应该是存储基本所有待分析的有价值的数据的位置。一般用 Hive 等大型数据库存储。所有的分析报表都从数仓出来,所有有价值的业务数据最终都汇总到数仓存储。 数据工厂,或者叫造数据平台,指的是测试过程中快速造数据的工具 数据中台,属于大中台概念的一部分,指的是大数据的所有操作(包括数仓、数据处理、报表等)都集中到一个大服务中完成。日常的业务需求(比如新建一个报表,新接入一个数据源)都在数据中台中进行配置即可。与之对应的概念有业务中台、测试中台等
至于数仓怎么测试,目前我也没接触过,但艾辉老师的《机器学习测试入门与实践》有大致提了下,可以看看了解下。
数据仓库 - 简称数仓,指的是存储大量数据的数据库,最常见的就是 hive+hdfs。 数据工厂 - 可以称作数据加工厂,类似 ETL 工具,用作数据清洗、转换、加载、监控、模型等等的集合。 数据中台 - 可以称作所有处理数据服务的合集,从最开始的数据接入,到数据处理,数据计算,数据输出这些全流程整合成一个集合。
业务测试需要分模块具体深入,比如常见的离线同步,实时计算,数据治理,任务调度,AI 模型等。但这些都离不开常见的大数据知识,hadoop,hive,spark,flink,sqoop 这些,可以优先了解下 hadoop 和 hive 的原理及一些常用的操作命令。具体测试根据业务需求在深入就行啦。
谢谢大佬,感觉还有些难,跟测报表好像差别很大,我再看看能学会哪些
谢谢大佬的解答,好像清晰些了