大数据导论

一本能使读者快速明晰大数据的核心技术和发展趋势、大数据与云计算、大数据与人工智能的区别与联系的图书
分享 推荐 2 收藏 58 阅读 6.7K
安俊秀 (作者) 978-7-115-53704-1

关于本书的内容有任何问题,请联系 孙澍

1.囊括大数据的基本知识,也介绍了大数据与云计算、人工智能的关系
2.提供PPT等教学资源


内容摘要

本书是高校的大数据导论课程教材,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据导论”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。

目录

第1章 大数据概述 1
1.1 什么是大数据 1
1.1.1 大数据的来源 1
1.1.2 大数据的定义 5
1.1.3 从信息技术(IT)转向数据
技术(DT) 5
1.2 大数据的数据特征及对科学研究的
影响 7
1.2.1 大数据的数据特征 7
1.2.2 大数据对科学研究的影响 8
1.3 大数据的数据类型 11
1.4 大数据的价值及相关技术 13
1.4.1 大数据的可用性及衍生
价值 13
1.4.2 大数据存储及处理技术 14
1.5 大数据的发展趋势 15
习题 16
第2章 大数据与云计算 17
2.1 云计算概述 17
2.1.1 云计算的提出 17
2.1.2 云计算的定义 18
2.1.3 云计算的概念模型 19
2.1.4 云计算的特点 20
2.2 云计算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云计算的主要服务模式 24
2.3.1 基础设施即服务(IaaS) 24
2.3.2 平台即服务(PaaS) 26
2.3.3 软件即服务(SaaS) 26
2.3.4 3种服务模式之间的关系 27
2.4 云计算与大数据体系架构的关系 28
2.4.1 云计算基础设施—
Google平台 28
2.4.2 大数据基础设施—
Hadoop平台 29
2.5 物联网、大数据和云计算之间的
关系 30
2.5.1 认识物联网 31
2.5.2 边缘计算 31
2.5.3 雾计算 33
2.5.4 大数据和云计算之间的
关系 33
习题 34
第3章 从产业结构来探索大数据技术 35
3.1 大数据产业结构概述 35
3.2 大数据的解决方案 37
3.2.1 大数据的产生、采集与处理
方式 37
3.2.2 大数据处理的基本流程及
相应技术 40
3.3 大数据采集技术 43
3.3.1 大数据采集概述 43
3.3.2 日志采集系统—Flume 44
3.3.3 消息采集系统—Kafka 46
3.3.4 Scrapy网络爬虫框架 47
3.4 大数据预处理技术 50
3.4.1 数据预处理 50
3.4.2 数据清洗 51
3.4.3 数据集成 53
3.4.4 数据归约 54
3.5 大数据可视化技术 56
3.5.1 数据可视化的概念 56
3.5.2 数据可视化的分类 57
3.5.3 数据可视化工具 61
3.5.4 大数据可视化技术的
发展方向 63
习题 64
第4章 大数据的硬件架构——集群 65
4.1 集群的来源 65
4.1.1 并行计算机的发展 65
4.1.2 通过计算机食物链理解
集群 68
4.2 集群的产生促进了大数据技术的
发展 70
4.3 集群系统的概念及分类 72
4.3.1 集群的基本概念 72
4.3.2 集群系统的分类 73
4.4 集群的结构模型 75
4.5 集群文件系统 76
习题 79
第5章 大数据开发与计算技术 80
5.1 Hadoop—分布式大数据系统 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架构 81
5.1.3 Hadoop生态系统 87
5.2 Spark—大规模数据实时处理
系统 89
5.2.1 Spark概述 89
5.2.2 弹性分布式数据集 94
5.2.3 Spark扩展功能 96
5.3 Storm—基于拓扑的流数据实时
计算系统 99
5.3.1 Storm概述 99
5.3.2 Storm的组成结构 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark与Storm的比较 103
5.5 大数据开发技术与Web应用
开发技术的比较 105
5.5.1 Web应用开发技术简介 105
5.5.2 大数据开发技术简介 109
5.5.3 大数据开发技术与Web应用
开发技术的应用环境 110
习题 112
第6章 大数据存储技术 113
6.1 数据存储概述 113
6.2 分布式文件系统 115
6.2.1 分布式文件系统的设计
思路 116
6.2.2 最早的分布式文件系统 118
6.2.3 大数据环境下分布式文件
系统的优化思路 119
6.3 结构化大数据的存储—Hive 120
6.3.1 Hive简介 120
6.3.2 Hive架构 121
6.3.3 Hive数据模型与存储 122
6.4 半结构化大数据的存储—HBase 124
6.4.1 HBase简介 124
6.4.2 HBase数据模型 125
6.4.3 存储架构 127
6.5 云存储技术 134
6.5.1 云存储的概念及特性 134
6.5.2 云存储系统的结构模型 136
6.5.3 云存储的应用 138
习题 139
第7章 大数据分析 141
7.1 大数据分析与数据分析的关系 141
7.1.1 对数据分析师的要求 142
7.1.2 对大数据分析师的要求 142
7.2 大数据分析的重要性及认识数据 143
7.2.1 大数据分析的重要性 143
7.2.2 认识数据 145
7.3 统计数据分析 147
7.4 基于机器学习的数据分析 151
7.4.1 机器学习简介 151
7.4.2 机器学习的主要用途 153
7.4.3 有监督学习、无监督学习和
强化学习 154
7.5 经典的机器学习算法 157
7.5.1 分类算法原理 157
7.5.2 决策树分类算法 157
7.5.3 K-均值聚类算法 158
7.5.4 Apriori关联规则算法 159
7.5.5 朴素贝叶斯分类算法 159
7.6 基于图的数据分析 161
7.7 基于自然语言的数据分析 162
习题 163
 第8章 大数据与人工智能 164
8.1 人工智能的概念及分类 164
8.2 人工智能的发展史 168
8.3 限制人工智能发展的因素 170
8.4 大数据与人工智能的关系 172
8.5 人工智能核心技术概述 173
8.5.1 深度学习 174
8.5.2 卷积神经网络 175
8.5.3 图像处理 176
8.6 人工智能技术应用 177
习题 179
参考文献 180

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

安俊秀,教授,硕士生导师。2004年毕业于西安交通大学计算机科学与技术专业,获工学硕士学位。2016年-2017年美国加州大学河滨分校(UCR)公派访问学者,2014年-2015年美国科罗拉多大学斯普林司分校(UCCS)访问学者。软件自动生成与智能服务四川省重点实验室学术带头人(领域知识本体和大数据方向)。作为项目负责人承担国家自然基金面上项目1项(71673032),作为主研人员参与国家级项目6项。已发表研究领域相关论文及发明专利40余篇。主编完成专著或教材10余部,均是云计算与大数据方向,由国家级出版社出版(如Linux操作系统基础教程、Hadoop大数据处理技术基础与实践、云计算与大数据技术应用等),其中2016年出版了有影响力的独著:量化社会——大数据与社会计算。国家自然科学基金委通讯评审专家,四川省科技项目评审专家,成都市科技攻关计划评审专家,成都军区项目评审专家。
1993年进入山西大学商务学院任教,2006年底调入成都信息工程大学任教。
最近三年,先后承担了《Linux体系和编程》、《软件工程项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程。

推荐用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部