关于本书的内容有任何问题,请联系 孙澍
第1章 大数据概述 1 1.1 大数据的相关概念 2 1.2 大数据处理的基础技术 4 1.2.1 大数据处理流程 4 1.2.2 分布式计算 5 1.2.3 分布式文件系统 6 1.2.4 分布式数据库 7 1.2.5 数据库与数据仓库 8 1.2.6 云计算与虚拟化技术 8 1.2.7 虚拟化产品介绍 9 1.3 流行的大数据技术 12 1.4 大数据解决方案 17 1.5 大数据发展现状和趋势 19 1.5.1 大数据现状分析 19 1.5.2 大数据发展趋势 21 1.6 教学建议及教辅资料 22 习题 23 第2章 大数据软件基础 24 2.1 Linux基础 25 2.1.1 Linux简介 25 2.1.2 Linux基本操作 25 2.1.3 网络配置管理 29 2.1.4 其他常用网络命令 32 2.2 Java基础 34 2.2.1 面向对象与泛型 34 2.2.2 集合类 36 2.2.3 内部类与匿名类 37 2.2.4 反射 38 2.3 SQL语言基础 39 2.4 在VirtualBox上安装Linux集群 41 2.4.1 master节点的安装 41 2.4.2 配置Virtualbox网络及虚拟机网卡 49 2.4.3 slave节点的安装与配置 51 2.4.4 Java环境的安装 51 2.4.5 MySQL服务 52 2.4.6 SSH免密钥登录 53 2.4.7 配置时钟同步 55 习题 56 第3章 大数据存储技术 57 3.1 理解HDFS分布式文件系统 58 3.1.1 HDFS简介 58 3.1.2 HDFS的体系结构 59 3.1.3 HDFS中的数据流 62 3.2 NoSQL数据库 66 3.2.1 键值数据库Redis 66 3.2.2 列存储数据库HBase 68 3.2.3 文档数据库MongoDB 71 3.2.4 图数据库Neo4j 73 3.3 Hadoop的安装与配置 74 3.3.1 Hadoop的配置部署 75 3.3.2 启动Hadoop集群 79 3.4 HDFS文件管理 82 3.4.1 命令行访问HDFS 82 3.4.2 使用Java API访问HDFS 84 3.5 HBase的安装与配置 88 3.5.1 解压并安装HBase 88 3.5.2 配置HBase 88 3.6 HBase的使用 91 3.6.1 HBase-shell 91 3.6.2 Java API 94 习题 96 第4章 MapReduce分布式编程 97 4.1 MapReduce编程概述 98 4.2 MapReduce编程示例 98 4.2.1 词频统计程序示例 99 4.2.2 MapReduce编译与运行 101 4.3 深入理解MapReduce程序的运行过程 102 4.4 MapReduce任务调度框架 104 4.4.1 经典MapReduce任务调度模型 104 4.4.2 YARN框架原理及运行机制 105 4.5 MapReduce的数据类型与输入/输出格式 107 4.5.1 MapReduce的数据类型 107 4.5.2 MapReduce的文件输入/输出格式 107 4.6 MapReduce编程实例 111 4.6.1 视频类型统计 111 4.6.2 查询TOP10用户上传的视频列表 113 习题 118 第5章 数据采集与预处理 119 5.1 流数据采集工具Flume 120 5.1.1 Flume的安装 121 5.1.2 Flume的配置与运行 122 5.1.3 Flume源 124 5.1.4 Flume槽 127 5.1.5 通道、拦截器与处理器 129 5.2 数据传输工具Sqoop 130 5.2.1 Sqoop的安装 131 5.2.2 Sqoop的配置与运行 131 5.2.3 Sqoop实例 132 5.2.4 Sqoop导入过程 135 5.2.5 Sqoop导出过程 136 5.3 数据接入工具Kafka 136 5.3.1 Kafka的安装与配置 138 5.3.2 Kafka消息生产者 140 5.3.3 Kafka消息消费者 140 5.3.4 Kafka核心特性 141 习题 142 第6章 数据仓库与联机分析处理 143 6.1 数据仓库 144 6.1.1 数据仓库的概念 144 6.1.2 数据仓库与操作性数据库的区别 144 6.1.3 数据仓库的体系结构 145 6.2 多维数据模型 146 6.2.1 数据立方体 146 6.2.2 数据模型 147 6.2.3 多维数据模型中的OLAP操作 150 6.3 Hive 153 6.3.1 Hive简介 153 6.3.2 Hive的安装与配置 154 6.3.3 Hive使用 156 6.3.4 Hive导入数据实例 161 6.4 Kylin 164 6.4.1 Kylin简介 164 6.4.2 Kylin的安装与配置 165 6.4.3 Kylin的使用 168 6.5 Superset 175 6.5.1 Superset简介 175 6.5.2 Superset的安装与配置 175 6.5.3 Superset的使用 177 习题 186 第7章 大数据分析与挖掘技术 187 7.1 概述 188 7.1.1 数据挖掘简介 188 7.1.2 Mahout的安装与配置 189 7.2 推荐 192 7.2.1 推荐的定义与评估 192 7.2.2 Mahout中的常见推荐算法 194 7.2.3 对GroupLens数据集进行推荐与评价 196 7.3 聚类 198 7.3.1 聚类的基本概念 198 7.3.2 常见的Mahout数据结构 199 7.3.3 几种聚类算法 200 7.3.4 聚类应用实例 202 7.4 分类 206 7.4.1 分类的基本概念 206 7.4.2 Mahout中一些常见的训练分类器算法 208 7.4.3 应用实例:使用SGD训练分类器对新闻分类 210 习题 213 第8章 Spark分布式内存计算框架 214 8.1 Spark简介 215 8.2 Spark的编程模型 216 8.2.1 核心数据结构RDD 216 8.2.2 RDD上的操作 216 8.2.3 RDD的持久化 218 8.2.4 RDD计算工作流 218 8.3 Spark的调度机制 219 8.3.1 Spark分布式架构 219 8.3.2 Spark应用执行流程 220 8.3.3 Spark调度与任务分配 222 8.4 Spark应用案例 225 8.4.1 Spark Shell 225 8.4.2 单词计数 227 8.4.3 统计用户的视频上传数 229 8.4.4 查询Top100用户的上传视频列表 230 8.5 Spark生态圈其他技术 233 8.5.1 Spark SQL 233 8.5.2 Spark Streaming 235 8.5.3 MLlib 236 8.5.4 GraphX 242 8.6 Zeppelin:交互式分析Spark数据 243 8.6.1 Zeppelin简介 243 8.6.2 安装和启动 244 8.6.3 在Zeppelin中处理YouTube数据 244 习题 246 第9章 数据可视化技术 247 9.1 数据可视化概述 248 9.2 数据可视化工具 249 9.2.1 桌面可视化技术 249 9.2.2 OLAP可视化工具 251 9.2.3 Web可视化技术 251 9.3 可视化组件与ECharts示例 253 9.3.1 ECharts使用准备 253 9.3.2 ECharts示例 254 9.4 与大数据平台集成 268 9.4.1 获取对Hive数据库的连接 268 9.4.2 通过Java调用Hive提供的API操作数据 269 9.4.3 将数据提交到Web页面进行数据可视化 271 习题 272 第10章 大数据安全 273 10.1 大数据安全的挑战与对策 274 10.1.1 大数据安全与隐私的挑战 274 10.1.2 数据加密技术 275 10.1.3 大数据安全保障体系 275 10.1.4 华为大数据安全解决方案 276 10.2 基础设施安全 277 10.2.1 认证技术 278 10.2.2 访问控制 279 10.2.3 公钥基础设施 281 10.2.4 华为大数据平台 281 10.3 数据管理安全 285 10.3.1 数据溯源 285 10.3.2 数字水印 285 10.3.3 策略管理 287 10.3.4 完整性保护 287 10.3.5 数据脱敏 288 10.4 安全分析 290 10.4.1 大数据安全分析架构 290 10.4.2 大数据防DDoS攻击 292 10.4.3 攻击可视化与安全业务定制 297 10.5 隐私保护 298 10.5.1 隐私保护面临的挑战 298 10.5.2 内容关联密钥 298 10.5.3 华为大数据隐私保护方案 300 习题 302 附录 《大数据技术基础》配套实验课程方案简介 303 参考文献 304
这么好的书, 应该在印刷了吧?! ,希望在8月底能到手! :D
感谢您的支持,请您继续关注。
怎么买不到啊?还没有发售嘛?
您好,此书正在审校,马上会出版,请您后续关注下,谢谢。
本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...
为了适应Web 3.0时代下区块链技术发展的新趋势,同时培养高素质的区块链技术人才,编者精选了区块链的相关内容...
本书循序渐进地介绍大数据全生命周期中涉及的大数据技术与应用。本书包括9章:第1章和第2章介绍大数据相关的基础理...
本书是一本全面介绍云计算基本概念、常用技术与应用的项目化教材。本书分为3篇,分别是初识云计算、体验云计算和业务...
本书共11章,从Hadoop概述开始,介绍Hadoop的安装、配置与管理,并对Hadoop的生态体系架构进行介...
这么好的书, 应该在印刷了吧?! ,希望在8月底能到手! :D
怎么买不到啊?还没有发售嘛?