大数据技术原理与应用——从入门到实战

大数据技术基础从入门到精通,配套丰富配套资源、案例和实验
分享 推荐 1 收藏 27 阅读 2.6K
蒋亚平 (作者) 978-7-115-63385-9

关于本书的内容有任何问题,请联系 刘博

1.紧跟时代发展,内容更加完善。注重新技术、新方法的介绍。
2.将大数据基础理论与实践相结合的教材。从初学者角度出发,以轻量级理论、丰富实例相结合的方式介绍大数据常用的各种工具和技术。
3.配套资源丰富。教学大纲、实验大纲、教学课件、案例源代码。

内容摘要

本书全面系统地介绍了大数据的相关技术原理与应用方法。全书从理论知识入手,在介绍大数据相关理论知识的基础上,逐步深入地讲解大数据技术,将理论与实践完美结合。本书分为大数据基础篇、大数据存储篇、大数据采集篇、大数据计算篇和大数据应用篇。全书共15章,内容包括大数据概述、Linux集群搭建、分布式文件系统HDFS、HDFS的安装与基本应用、分布式数据库系统HBase、HBase的安装与基本应用、Sqoop和Flume、数据分发工具Kafka、MapReduce计算框架与应用、基于内存的计算框架Spark、Spark的安装与应用、机器学习、基于Hive的交互式数据处理、数据同步工具与数据可视化和推荐算法与应用。本书在介绍Hadoop、HBase、Sqoop和Flume、MapReduce、Hive和Spark等相关章节时安排了入门级实验,且以电子资源的方式提供给学生,以便读者更好地学习和掌握大数据的关键技术。
本书可以作为高等院校计算机类、信息管理与信息系统等相关专业的大数据课程教材,也可供从事大数据技术开发、研究和应用的研究人员和工程技术人员参考。

诚邀您加入【人邮社大数据教师交流群】

目录

第1篇 大数据基础

第1章 大数据概述 2
1.1 大数据简介 2
1.1.1 数据及大数据分类 2
1.1.2 大数据的基本定义 3
1.2 大数据的特性 3
1.2.1 大数据时代 3
1.2.2 大数据的“4V”特性 4
1.3 大数据生态系统 6
1.3.1 大数据主要平台 6
1.3.2 大数据生态架构 6
1.4 大数据的应用 9
1.4.1 应用案例 9
1.4.2 大数据应用的特点 11
1.5 本章小结 11
思考与练习 11
第2章 Linux集群 13
2.1 计算机集群 13
2.1.1 集群的概念 13
2.1.2 集群的种类与特点 13
2.2 Linux操作系统 15
2.2.1 Linux特点与主要组成 15
2.2.2 Linux目录结构 17
2.3 Linux集群搭建 19
2.3.1 安装VMware虚拟机 19
2.3.2 安装CentOS 21
2.3.3 集群的配置 28
2.4 Linux命令 36
2.5 本章小结 41
思考与练习 42

第2篇 大数据存储

第3章 分布式文件系统HDFS 44
3.1 Hadoop与HDFS概述 44
3.1.1 Hadoop 44
3.1.2 HDFS 46
3.2 HDFS 系统架构 47
3.2.1 系统架构概览 47
3.2.2 组件功能 48
3.3 数据存储 50
3.3.1 数据分块 50
3.3.2 机架感知 51
3.3.3 存储策略 51
3.4 文件操作过程 52
3.4.1 读文件 52
3.4.2 写文件 53
3.5 YARN概述 54
3.5.1 YARN 54
3.5.2 工作流程 57
3.6 本章小结 57
思考与练习 58
第4章 HDFS的安装与基本应用 59
4.1 HDFS的安装与配置 59
4.1.1 安装 59
4.1.2 配置 60
4.2 用户配置 67
4.2.1 编辑环境变量 67
4.2.2 创建数据目录 67
4.2.3 格式化 68
4.3 基本应用 69
4.3.1 启动与关闭 69
4.3.2 监控页面 70
4.3.3 文件上传与下载 71
4.3.4 运行示例程序 73
4.3.5 应用案例 75
4.4 本章小结 79
思考与练习 79
第5章 分布式数据库系统HBase 81
5.1 新型结构化存储模式 81
5.1.1 列存储 81
5.1.2 Key-Value存储 82
5.1.3 图存储 82
5.1.4 其他存储 82
5.1.5 NoSQL和NewSQL 83
5.2 HBase 系统架构 83
5.2.1 基本架构 83
5.2.2 主要组件 83
5.3 HBase的数据模型 84
5.3.1 HBase的列存储模型 84
5.3.2 从逻辑表到物理存储 86
5.4 检索机制 86
5.4.1 分区检索 86
5.4.2 物理存储文件检索 87
5.5 读写过程分析 87
5.5.1 读取数据 87
5.5.2 写入数据 88
5.6 本章小结 89
思考与练习 90
第6章 HBase的安装与基本应用 91
6.1 HBase的安装与配置 91
6.1.1 解压并安装HBase 91
6.1.2 系统配置 92
6.2 HBase基本应用 93
6.2.1 启动与关闭 93
6.2.2 监控页面 94
6.2.3 Shell的基本应用 95
6.3 ZooKeeper的安装与应用 97
6.3.1 ZooKeeper简介 97
6.3.2 安装与基本应用 98
6.3.3 基于独立安装的ZooKeeper运行HBase 100
6.4 本章小结 101
思考与练习 101

第3篇 大数据采集

第7章 Sqoop和Flume 104
7.1 数据采集概述 104
7.1.1 内部数据采集 104
7.1.2 外部数据采集 105
7.2 MySQL的安装与应用 105
7.2.1 MySQL的安装 105
7.2.2 MySQL的基本应用 107
7.3 ETL工具Sqoop 109
7.3.1 Sqoop简介 109
7.3.2 Sqoop的安装与配置 110
7.3.3 Sqoop的基本应用 112
7.4 日志采集工具Flume 116
7.4.1 Flume的系统架构 116
7.4.2 Flume的安装与配置 117
7.4.3 Flume的基本应用 118
7.5 本章小结 119
思考与练习 120
第8章 数据分发工具Kafka 121
8.1 Kafka简介 121
8.1.1 Kafka架构 121
8.1.2 发布与订阅 122
8.2 典型使用场景 122
8.2.1 消息系统 122
8.2.2 网站活性跟踪 123
8.2.3 日志收集 123
8.3 工作原理分析 123
8.3.1 工作流程 123
8.3.2 发送消息 124
8.3.3 消费消息 124
8.4 Kafka的安装与基本应用 125
8.4.1 Kafka的安装与配置 125
8.4.2 Kafka的基本应用 126
8.4.3 Kafka集成Flume 129
8.5 本章小结 132
思考与练习 132

第4篇 大数据计算

第9章 MapReduce计算框架与应用 134
9.1 MapReduce计算框架 134
9.1.1 计算框架概览 134
9.1.2 主要组件分析 135
9.2 计算过程分析 136
9.2.1 Map阶段 137
9.2.2 Reduce阶段 137
9.2.3 Shuffle阶段 138
9.3 编程实践 139
9.3.1 第一个MapReduce程序:
WordCount 139
9.3.2 第二个MapReduce程序 146
9.4 本章小结 152
思考与练习 153
第10章 基于内存的计算框架Spark 154
10.1 Spark系统架构 154
10.1.1 架构概览 154
10.1.2 主要组件 155
10.1.3 Spark和HDFS的配合关系 156
10.2 Spark的核心概念 157
10.2.1 RDD及其特性 157
10.2.2 RDD的依赖关系 159
10.2.3 DAG与Stage划分 160
10.3 Spark工作流程 162
10.3.1 流程分析 162
10.3.2 流程特点 164
10.4 本章小结 164
思考与练习 165
第11章 Spark的安装与应用 166
11.1 Scala编程语言 166
11.1.1 安装编程环境 166
11.1.2 Scala语言的特点 169
11.2 Spark的安装、配置与基本应用 169
11.2.1 Spark的安装与配置 169
11.2.2 Spark的基本应用 173
11.3 应用程序设计 177
11.3.1 安装集成开发环境IDEA 177
11.3.2 第一个Spark程序:分布式估算 圆周率 182
11.4 本章小结 195
思考与练习 195

第5篇 大数据应用

第12章 机器学习 198
12.1 机器学习概述 198
12.1.1 机器学习算法 198
12.1.2 大数据与机器学习 199
12.2 基于Spark的机器学习库 201
12.2.1 Spark MLlib 201
12.2.2 TensorFlowOnSpark 203
12.3 机器学习应用示例 204
12.3.1 决策树与随机森林模型 204
12.3.2 基于Spark MLlib的贷款风险 预测 205
12.4 本章小结 218
思考与练习 218
第13章 基于Hive的交互式数据处理 220
13.1 Hive系统架构与安装 220
13.1.1 Hive系统架构 220
13.1.2 Hive的安装与配置 221
13.2 数据预处理 226
13.2.1 数据查看与扩展 226
13.2.2 数据过滤 228
13.2.3 数据上传 228
13.3 创建数据仓库 229
13.3.1 基本命令 229
13.3.2 创建Hive分区表 230
13.3.3 创建Hive分桶表 233
13.3.4 Hive内置函数 234
13.4 数据分析 235
13.4.1 数据仓库分层 236
13.4.2 准备数据 237
13.4.3 用户行为分析 240
13.4.4 实时数据 245
13.5 本章小结 245
思考与练习 245
第14章 数据同步工具与数据可视化 247
14.1 数据同步工具DataX 247
14.1.1 DataX的原理 247
14.1.2 DataX的基本安装和使用 248
14.2 数据可视化 250
14.2.1 数据可视化概述 250
14.2.2 搭建数据库 251
14.2.3 数据可视化分析 252
14.3 本章小结 253
思考与练习 254
第15章 推荐算法与应用 255
15.1 推荐算法概述 255
15.1.1 基于人口统计学的推荐算法 255
15.1.2 基于内容的推荐算法 256
15.1.3 协同过滤推荐算法 256
15.2 协同过滤推荐算法分析 257
15.2.1 基于用户的协同过滤推荐 算法 257
15.2.2 基于物品的协同过滤推荐 算法 258
15.2.3 基于模型的协同过滤推荐 算法 259
15.3 Spark MLlib推荐算法应用 260
15.3.1 ALS算法原理 260
15.3.2 ALS算法应用设计 262
15.4 本章小结 267
思考与练习 267

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

蒋亚平,男,湖南长沙人,长期从事大数据技术、数据库技术、程序设计语言和算法方面的研究,能够熟练运用多种教学方法,特别是翻转课堂、案例式教学、启发式教学等。从事8年企业开发工作和8年教学经验,对大数据课程教学有一定的积累,并多次参加大数据相关的教改、科研、教学竞赛和指导学生参加比赛。

推荐用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部