本书以初学者的角度详细介绍Spark架构的核心技术,主要围绕着Spark的架构、Spark的开发语言、Spark模块的主要功能展开;以IDEA为主要开发工具,CentOS为运行环境系统,采用“理实一体化”授课模式。本书共10章,内容包括Spark导论、Spark环境搭建与使用、Scala语言、Spark弹性分布式数据集、Spark SQL与DataFrame、Kafka分布式发布-订阅消息系统、Spark Streaming实时计算框架、Spark MLlib 机器学习算法库、Redis数据库、综合案例——Spark电商实时数据处理。此外,本书还配置了丰富的示例或案例。通过本书的学习,读者可以充分理解常用数据预处理方法的精髓,掌握具体技术细节,并在实践中提升实际开发能力,为学习大数据技能打下扎实基础。
本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等相关专业的教材,也可供相关技术人员参考。
我要评论