《大数据技术原理与应用(第 2 版)》于 2017 年 1 月出版。在过去的 3 年里,
大数据技术又获得了新的发展,开源流计算框架 Flink 迅速崛起,在市场上和 Spark
展开了激烈的角逐。与此同时,Hadoop、HBase 和 Spark 也在不断更新升级,一些
编程接口发生了变化。因此,为适应大数据技术的新发展,继续保持本书的先进性
和实用性,我们及时进行了补充和修订。
在结构上,本书依然分为四篇,包括大数据基础篇、大数据存储与管理篇、大
数据处理与分析篇和大数据应用篇。
在大数据基础篇中,第 1 章介绍大数据的基本概念和应用领域,并阐述大数据
与云计算、物联网的相互关系;第 2 章介绍大数据处理架构 Hadoop,并把 Hadoop
版本升级到 3.0。
在大数据存储与管理篇中,第 3 章介绍分布式文件系统 HDFS,在编程实践部
分根据 3.0 版本的 HDFS 进行修订;第 4 章介绍分布式数据库 HBase,在编程实践
部分根据 HBase 2.0 版本的 API 进行修订;第 5 章介绍 NoSQL 数据库,并增加实
验内容;第 6 章介绍云数据库,并删除阿里云 RDS 的实践内容和相关实验。
在大数据处理与分析篇中,第 7 章介绍分布式并行编程模型 MapReduce;第 8
章对 Hadoop 进行再探讨,介绍 Hadoop 的发展演化和一些新特性;第 9 章介绍基
于 Hadoop 的数据仓库 Hive,该章为本书新增内容,很多大数据教师建议增加此章
内容;第 10 章介绍当前比较热门的、基于内存的分布式计算框架 Spark,并把 Spark
版本升级到 2.4.0;第 11 章介绍流计算以及开源流计算框架 Storm;第 12 章介绍开
源流处理框架 Flink,该章为本书新增内容,从而使本书能够反映当前最热门的新
兴大数据技术;第 13 章介绍典型的大数据分析技术——图计算;最后在第 14 章简
单介绍可视化技术。
在大数据应用篇中,用 3 章(第 15 章~第 17 章)内容介绍大数据在互联网、
生物医学领域的应用和其他的典型应用。
本书是厦门大学计算机科学系大数据课程的配套教材,根据近几年的教学实
践,建议安排 32 学时的理论课,16 个教学周,每周 2 学时。每章的具体学时分配
如下:第 1、3、4、5、8、9、11、12、13、15 章每章安排 2 学时;第 2、7、10
章每章安排 4 学时;第 6、14、16、17 章这 4 章内容由学生自学完成。已经建设大
数据教学实验室的高校,可以增加 16 学时的上机实践课。
本书自 2015 年 7 月第 1 版出版以来,得到了越来越多高校一线大数据课程教
师的肯定,目前已经成为众多国内高校的大数据课程开课教材。在本书的使用过程
中,很多老师给我们团队反馈了大量宝贵的意见、建议以及教学过程中遇到的困
惑。比如如何根据自己高校的课时安排,合理选取部分教材章节作为课程内容,
如何搭建上机实验环境(采用分布式还是伪分布式),是否要在教学环节一直使用
最新版本的大数据软件,如何实现不同大数据课程之间的有序衔接,采用什么样的
人民邮电出版社
大数据技术原理与应用—概念、存储、处理、分析与应用(第 3 版)
2
编程语言等。我们团队在自己实际教学经验的基础上,积极为大家答疑解惑,并把相关信息及时
发布到教材官网。同时,我们也建立了“大数据课程教师交流群”(QQ 群号:461510122),为全
国高校大数据一线教师提供在线的沟通交流平台。很多老师都发扬了互帮互助的精神,在群里分
享经验、解答问题。
为了更好地使用本书开展大数据教学,笔者为本书编写了配套的实验手册《大数据基础编程、
实验和案例教程(第 2 版)》(注意,不是第 3 版)。该实验手册侧重于介绍大数据软件的安装、使
用和基础编程方法,并提供了大量实验和案例。大数据软件大多是开源软件,安装过程一般比较
复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在实验手册中详细
写出了各种大数据软件的安装过程,可以确保读者顺利完成大数据实验环境搭建。
本书官方网站是 http://dblab.xmu.edu.cn/post/bigdata3/,免费提供了全部配套资源的在线浏览
和下载,并接受错误反馈和发布勘误信息。同时,在学习大数据课程的过程中,欢迎读者访问厦
门大学数据库实验室建设的国内首个高校大数据课程公共服务平台(http://dblab.xmu.edu.cn/
post/bigdata-teaching-platform/),该平台为教师教学和学生学习大数据课程提供教学大纲、讲义
PPT、学习指南、备课指南、实验指南、上机习题、授课视频、技术资料等,提供全方位、一站
式免费服务。
本书由林子雨执笔。在编写第 3 版过程中,厦门大学计算机科学系硕士研究生程璐、林哲、
郑宛玉、陈杰祥、陈绍纬、周伟敬等同学做了大量辅助性工作,在此,向他们表示衷心的感谢。
大数据技术处于快速发展和变革之中,我们厦门大学数据库实验室团队会持续跟踪大数据技
术发展趋势,努力保持本书内容的新颖性,并把一些较新的教学内容及时发布到本书官网。书中
难免存在不足之处,望广大读者不吝赐教。
林子雨
2020 年 10 月于厦门大学计算机科学系数据库实验室
我要评论