BigData 概念在上世纪 90 年代被提出,随 Google 的 3 篇经典论文(GFS,BigTable,MapReduce)奠基,已经发展了超过 10 年。这 10 年中,诞生了包括 Google 大数据体系,微软 Cosmos 体系,开源 Hadoop 体系等优秀的系统,这其中也包括阿里云的飞天系统。这些系统一步一步推动业界进入 “数字化 “和之后的 “ AI 化” 的时代。
同时,与其他老牌系统相比(如,Linux 等操作系统体系,数据库系统、中间件,很多有超过 30 年的历史),大数据系统又非常年轻,随着云计算的普惠,正在大规模被应用。海量的需求和迭代推动系统快速发展,有蓬勃的生机。(技术体系的发展,可以通过如下 Hype-Cycle 概述,作者认为,大数据系统的发展进入技术复兴期/Slope of Enlightenment,并开始大规模应用 Plateau of Productivity。)
image
上图来自 Gartner
如果说,0 到 1 上线标志一个系统的诞生,在集团内大规模部署标志一个系统的成长,在云上对外大规模服务标志一个系统的成熟。
MaxCompute 这 10 年已经走向成熟,经过多次升级换代,功能、性能、服务、稳定性已经有一个体系化的基础,成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。
"Big data represents the information assets characterized by such a high volume, velocity and variety torequire specific technology and analytical methods for its transformation intovalue. "
用 5 个 “V” 来描述大数据的特点:
Volume(数据量):数据量非线性增长,包括采集、存储和计算的量都非常大,且增速很快。
Variety(数据类型):包括结构化和非结构化的数据,特别是最近随音视图兴起,非结构化数据增速更快。
Velocity(数据存储和计算的增长速度):数据增长速度快,处理速度快,时效性要求高。
Veracity(信噪比):数据量越大,噪声越多,需要深入挖掘数据来得到结果。
Value(价值):数据作为一种资产,有 1+1>2 的特点。
image
1.3 竞品对比与分析
大数据发展到今天,数据仓库市场潜力仍然巨大,更多客户开始选择云数据仓库,CDW 仍处于高速增长期。当前互联网公司和传统数仓厂家都有进入领导者地位,竞争激烈,阿里巴巴 CDW 在全球权威咨询与服务机构 Forrester 发布的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》报告中位列中国第一,全球第七。