数据科学与大数据技术导论

一本大数据导论教材
分享 推荐 3 收藏 40 阅读 5.1K
杜小勇 (主编) 978-7-115-53297-8

关于本书的内容有任何问题,请联系 人邮社 王宣

1.详细介绍数据科学的基本概念和内涵
2.培养读者初步具备用开源工具进行数据分析的能力
3.培训读者了解大数据技术的框架,为今后系统学习打下基础
4.培养读者对大数据分析的兴趣,愿意为从事该领域的工作进一步学习

内容摘要

本书是高校的大数据导论课程教材,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据道路”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。

目录

第1章 数据科学概论 1
1.1 数据与大数据 1
1.2 大数据应用案例——从数据到知识,数据思维浅析 2
1.2.1 数据密集型科学发现 3
1.2.2 电子商务与推荐技术 5
1.2.3 网络舆情管理 6
1.2.4 数据思维 7
1.3 数据科学与数据科学家 7
1.4 数据科学与大数据技术课程的内容体系与具体内容 11
1.5 思考题 12
第2章 Python语言与数据科学 13
2.1 Python概述 13
2.2 Python开发环境配置 14
2.3 变量、常量和注释 16
2.4 数据类型 16
2.4.1 布尔型 17
2.4.2 整数 17
2.4.3 浮点数 17
2.4.4 字符串 17
2.4.5 列表 18
2.4.6 元组 19
2.4.7 字典 19
2.5 运算符及其优先级、表达式 20
2.6 程序的基本结构 21
2.6.1 顺序结构 21
2.6.2 分支结构 22
2.6.3 循环结构 22
2.6.4 编写完整的程序 23
2.6.5 程序实例:二分查找 24
2.7 函数以及库函数 24
2.8 面向对象编程 27
2.8.1 构造函数 28
2.8.2 对象的摧毁和垃圾回收 28
2.8.3 继承 28
2.8.4 重写 28
2.9 异常处理 29
2.10 第三方库和实例 29
2.10.1 机器学习库scikit-learn简介 30
2.10.2 深度学习库Keras简介 30
2.10.3 绘图库matplotlib简介 30
2.10.4 社交网络与图数据处理库networkX简介 31
2.10.5 自然语言处理库NLTK简介 31
2.10.6 pandas库入门 31
2.11 思考题 38
第3章 数据分析基础 39
3.1 数据模型 39
3.1.1 数组 39
3.1.2 图 42
3.1.3 关系模型 44
3.1.4 时序模型 45
3.2 数据分析流程与数据生命期 45
3.2.1 业务理解 45
3.2.2 数据理解 46
3.2.3 数据准备 46
3.2.4 建模 46
3.2.5 评估 47
3.2.6 部署 47
3.3 数据分析的基础方法 47
3.3.1 描述性分析 47
3.3.2 诊断性分析 48
3.3.3 预测性分析 48
3.3.4 规范分析 49
3.4 大数据平台 49
3.4.1 Hadoop 49
3.4.2 Hive 51
3.4.3 Mahout 52
3.4.4 Spark 52
3.4.5 Storm 53
3.4.6 Flink 53
3.4.7 Neo4j 54
3.5 思考题 54
第4章 数据可视化 55
4.1 可视化的定义 55
4.2 可视化发展历程 55
4.3 可视化的意义和价值 57
4.4 数据可视化的流程 59
4.5 常见可视化图表 59
4.5.1 柱状图 60
4.5.2 折线图 61
4.5.3 饼图 61
4.5.4 散点图 61
4.5.5 雷达图 61
4.6 可视化图表工具 62
4.7 思考题 64
第5章 数据分析与计算 65
5.1 机器学习简介 65
5.2 分类 67
5.2.1 支持向量机 67
5.2.2 决策树 70
5.2.3 朴素贝叶斯方法 72
5.2.4 K最近邻(KNN)算法 75
5.2.5 逻辑斯蒂回归 76
5.2.6 分类算法的实例 77
5.3 聚类 81
5.3.1 K-Means算法 81
5.3.2 DBSCAN算法 83
5.3.3 聚类实例 85
5.4 回归 88
5.4.1 线性回归与多元线性回归 88
5.4.2 回归实例 90
5.5 关联规则分析 92
5.5.1 关联规则分析 92
5.5.2 关联规则分析实例 95
5.6 推荐 97
5.6.1 基于用户的协同过滤推荐 98
5.6.2 基于项目的协同过滤推荐 100
5.7 神经网络与深度学习 101
5.7.1 神经网络 101
5.7.2 深度学习 104
5.7.3 神经网络与深度学习实例 112
5.8 云计算平台与主流大数据平台 119
5.8.1 云计算平台 119
5.8.2 Hadoop大数据处理平台与MapReduce计算模型 121
5.8.3 Spark大数据处理平台与DAG计算模型 128
5.9 思考题 134
第6章 文本分析 135
6.1 文本分析的背景和意义 135
6.2 文本表达 136
6.2.1 单词的局域性表示和分布式表示 136
6.2.2 基于话题模型的文本表示 139
6.2.3 基于词嵌入的文本表示 139
6.3 文本聚类 140
6.3.1 聚类分析问题描述 141
6.3.2 常用聚类算法 142
6.4 文本分类 144
6.4.1 分类问题定义 144
6.4.2 主要文本分类方法 144
6.5 思考题 149
第7章 数据存储与管理 150
7.1 数据管理的初级阶段——文件管理 150
7.2 层次数据库和网状数据库 151
7.3 关系数据库管理系统 153
7.3.1 关系数据模型 153
7.3.2 数据操作 154
7.3.3 事务处理、并发控制和恢复技术 155
7.3.4 SQL入门 156
7.4 NoSQL数据库 160
7.4.1 CAP理论与NoSQL数据库 160
7.4.2 Key Value数据库 161
7.4.3 Column Family数据库 164
7.4.4 Document数据库 165
7.4.5 Graph数据库 166
7.5 NewSQL及其代表VoltDB 167
7.5.1 事务的串行执行 167
7.5.2 通过存储过程存取数据库 167
7.5.3 数据分区策略考虑尽量避免跨节点数据通信 168
7.5.4 命令日志与恢复技术 168
7.6 思考题 168
第8章 数据采集与集成 170
8.1 数据采集 170
8.1.1 数据采集的重要因素 171
8.1.2 推-拉机制 171
8.1.3 发布-订阅机制 172
8.1.4 大数据收集系统 172
8.1.5 自定义连接器 173
8.2 信息抽取 173
8.2.1 信息抽取概述 174
8.2.2 半结构化数据和非结构化数据 174
8.2.3 信息抽取的关键技术 176
8.3 数据清洗 178
8.3.1 数据清洗的定义及对象 178
8.3.2 数据清洗原理 179
8.3.3 数据清洗方法 179
8.4 数据集成 181
8.4.1 数据集成概述 182
8.4.2 数据集成方法 183
8.4.3 数据集成的数据源异构问题 186
8.5 思考题 188
第9章 数据治理 189
9.1 数据治理的业务驱动力 189
9.2 数据治理的概念 190
9.3 数据治理的目标 191
9.3.1 实现价值 191
9.3.2 管控风险 192
9.4 数据治理的要素和框架 192
9.4.1 人员要素 194
9.4.2 技术要素 196
9.5 数据治理的实践 201
9.5.1 各个业务子系统的建设和数据治理同步推进 201
9.5.2 建立数据治理的组织机构,确定数据治理战略/政策和标准 201
9.5.3 规划具体的数据治理任务 201
9.5.4 开展数据治理工作 202
9.5.5 数据治理的评价 203
9.6 大数据时代数据治理的挑战 203
9.7 思考题 204
第10章 数据科学综合案例 205
10.1 利用现成分类器对Twitter数据集进行情感分类 206
10.2 如何自行构造一个文本分类器 209
10.3 综合实例 218
10.4 思考题 232
参考文献 233

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

杜小勇,中国人民大学信息学院教授,博士生导师。我国著名的数据库专家,曾担任过国家863计划数据库重大专项专家组组长,现为中国计算机学会数据库专业委员会主任。致力于数据库系统核心技术的研发与成果转化,科研成果先后获得过北京市科技进步一等奖,中国计算机学会科学技术一等奖,以及教育部科技进步一等奖等。

推荐用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部