因为领导给机会,目前参与了一些大数据维护工作,但是遇到几个难题:
(1)指标口径不统一,而且几乎无文档,遇到问题只能看代码
(2)各种 mysql、hive 表、报表之间的依赖关系,目前用 excel 维护,但是感觉很费力,感觉应该会有更合适的工具
(3)大数据任务的调度系统,目前是个古董级的 zeus,非常不稳定,而且也看不到任务执行的依赖路径
网上搜了一些数据治理相关的方案,也看了下 DAMA-BOK 之类,但是感觉要么偏理论,要么太重量级了,想问问有没有开源的、轻量级的数据治理方案/工具推荐,最好是实际现网在用的,求社区赐教