本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书共8个项目,内容包括广告流量检测违规识别需求分析、Spark大数据环境安装搭建、基于Hive实现广告流量检测数据存储、基于Spark SQL实现广告流量检测数据探索分析、基于Spark SQL实现广告流量检测数据预处理、基于Spark MLlib实现广告流量检测违规识别模型构建与评估、基于Spark开发环境实现广告流量检测违规识别,以及基于TipDM大数据挖掘建模平台实现广告流量检测违规识别。本书项目2~项目7都包含知识测试和技能测试,通过练习和操作实践,读者可巩固所学的内容。 本书可以作为大数据分析相关课程的教材,也可以作为数据分析爱好者的自学用书。
我要评论