【修订内容】第2版教材的内容变化主要包括以下几个方面。
(1)采用了最新的Spark版本3.4.0,所有代码全部根据最新版本进行修订。
(2)增加了一个章节“大数据实验环境搭建”,使得本书内容更加完整,减少读者搭建环境的困扰。
(3)增加了一些RDD常用操作的介绍,比如mapPartitions、distinct、union、intersection、subtract、zip、countByKey、aggregate等,并增加了相关实例。
(4)在RDD编程章节删除了读写HBase数据库的内容,因为该实验过于复杂,需要搭建HBase环境,并且经常会发生各种意外错误。
(5)对Spark SQL章节做了较多修改,增加了对编写Spark SQL独立应用程序的介绍,并增加了综合实例。
我要评论