第二篇 大数据存储
本篇内容
本篇介绍大数据存储相关技术的概念与原理,包括Hadoop分布式文件系统(HDFS)、分布式数据库(HBase)、NoSQL数据库和云数据库。HDFS提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web 2.0应用,具有强大的横向扩展能力,可以有效弥补传统关系型数据库的不足。云数据库是部署和虚拟化在云计算环境中的数据库,可以将用户从繁琐的数据库硬件定制中解放出来,同时让用户拥有强大的数据库扩展能力,满足各种不同类型用户的数据存储需求。需要特别指出的是,虽然云数据库在概念上更偏向于云计算的范畴,但是,云计算和大数据是密不可分的两种技术,不能割裂看待,而且,了解云数据库有助于拓展对大数据存储和管理方式的认识,因此,本篇内容介绍了云数据库的概念和相关产品。
本篇包括4章。第3章介绍Hadoop分布式文件系统(HDFS),第4章介绍分布式数据库(HBase),第5章介绍NoSQL数据库,第6章介绍云数据库。
知识地图
重点与难点
重点为掌握分布式文件系统和分布式数据库的实现原理和应用方法。难点为理解HDFS的存储原理、HBase的实现原理与运行机制。