Python大数据应用基础

大数据应用基础
分享 推荐 0 收藏 84 阅读 4.8K
吕会红 邱静怡 (主编) 978-7-115-54386-8

关于本书的内容有任何问题,请联系 许金霞

案例实用,内容全面--本书采用目前大数据领域的热门软件Python编写,结合python语言的特性,全面讲解大数据相关的数据处理和数据挖掘的相关知识。内容从基础理论到实践应用,由浅入深、循序渐进,并配以大量的图例和实例讲解,能够使读者快速地了解和掌握大数据原理及应用案例。
涵盖实验教学内容--本书还将实验环节及实操内容融入到各个知识点与课程教学中,满足该课程对实践教学的需求。
配套资源丰富--本书还配套丰富的教学资源与学习资源,包括教案、课件、数据源的教学辅助资源,后续还将提供课程的教学视频的学习资源。

内容摘要

本书内容由浅入深,实例指导性强,通过大量的实例讲述Python程序设计基础,同时结合Python语言的特性,讲解各类基于Python的大数据应用实例。本书全部例题代码适用于Python3.6及更高版本。
全书共13章,主要内容包括大数据及Python概述,Python基础知识、程序流程控制结构、常用组合数据类型、函数与模块、面向对象程序设计、文件相关操作、数据预处理和数据分析、使用NumPy进行处理数据分析、使用Pandas处理结构化数据、使用NumPy和Pandas进行数据预处理、使用scikit-learn进行机器学习,以及综合案例。
本书适合作为普通高等院校非计算机专业大数据相关课程的教材,也可以作为职业培训教育及相关技术人员的参考用书。

目录

第 1章 大数据及Python概述 1
1.1 大数据的发展和现状 1
1.1.1 大数据的产生 1
1.1.2 大数据的发展历程 2
1.1.3 大数据国内外发展现状 4
1.2 大数据的概念 5
1.2.1 数据量大 5
1.2.2 数据类型繁多 6
1.2.3 处理速度快 7
1.2.4 价值密度低 8
1.3 大数据的应用 8
1.4 大数据的关键技术 9
1.4.1 大数据采集技术 9
1.4.2 大数据预处理技术 10
1.4.3 大数据存储及管理技术 10
1.4.4 大数据分析及挖掘技术 10
1.4.5 大数据展现与应用技术 11
1.5 大数据分析的现状和步骤 12
1.5.1 大数据分析的现状 12
1.5.2 大数据分析创造价值的步骤 13
1.6 Python在大数据应用中的重要性 14
1.7 Python与数据分析的关系 14
1.7.1 数据分析 14
1.7.2 数据分析的基本步骤 15
1.7.3 Python与数据分析 16
1.7.4 数据分析相关的Python库 16
思考与练习 18
第 2章 Python基础知识 19
2.1 Python概述 19
2.1.1 Python语言的发展历程 19
2.1.2 Python的特点 20
2.1.3 Python的下载、安装与使用 22
2.1.4 Anaconda开发环境的安装和使用 26
2.2 基础数据类型 30
2.2.1 数字 30
2.2.2 字符串 31
2.3 常量与变量 33
2.4 运算符与表达式 34
2.4.1 算术运算符 35
2.4.2 关系运算符 35
2.4.3 逻辑运算符 36
2.4.4 位运算符 36
2.4.5 成员和身份运算符 36
2.4.6 赋值运算符 37
2.5 常用Python内置函数 37
2.5.1 基本输入/输出函数 38
2.5.2 常用转换函数 39
2.5.3 常用数学函数 40
2.5.4 其他常用函数 40
思考与练习 42
第3章 程序流程控制结构 43
3.1 顺序结构 43
3.2 分支结构 44
3.2.1 单分支结构 44
3.2.2 双分支结构 45
3.2.3 多分支选择结构 46
3.2.4 分支结构的嵌套 48
3.3 循环结构 49
3.3.1 while 语句 49
3.3.2 for 语句 50
3.3.3 循环控制语句 51
3.3.4 循环嵌套 53
思考与练习 54
第4章 常用组合数据类型 55
4.1 列表 55
4.1.1 列表的创建 55
4.1.2 列表的基本操作 56
4.1.3 列表常用方法 58
4.1.4 列表操作符 63
4.1.5 内置函数对列表的操作 64
4.1.6 切片操作 65
4.1.7 列表应用举例 67
4.2 元组 69
4.2.1 元组的创建 69
4.2.2 元组的基本操作 69
4.2.3 元组运算符 70
4.2.4 元组和列表的区别 70
4.2.5 元组应用举例 71
4.3 字典 72
4.3.1 字典的创建 72
4.3.2 字典的基本操作 73
4.3.3 字典常用方法 74
4.3.4 字典应用举例 75
4.4 集合 76
4.4.1 集合的创建 76
4.4.2 集合的基本操作 77
4.4.3 集合常用方法 77
4.4.4 集合运算符 79
4.4.5 集合应用举例 80
思考与练习 81
第5章 函数与模块 82
5.1 函数概述 82
5.1.1 函数的功能 82
5.1.2 函数分类 82
5.2 函数的定义和调用 82
5.2.1 函数的定义和调用 82
5.2.2 函数的返回值 83
5.2.3 lambda表达式 84
5.3 函数的参数 85
5.3.1 形参和实参 85
5.3.2 参数的传递 86
5.3.3 参数类型 87
5.4 变量的作用域 88
5.4.1 局部变量 88
5.4.2 全局变量 88
5.5 函数的递归调用 89
5.6 模块 91
5.6.1 导入模块 91
5.7 常用标准模块 92
5.7.1 math模块 93
5.7.2 time 模块 93
5.7.3 datetime模块 95
5.7.4 calendar模块 98
5.7.5 random库 99
思考与练习 99
第6章 面向对象程序设计 101
6.1 面向对象概述 101
6.1.1 面向对象程序设计基础 101
6.1.2 类和对象 102
6.2 类的定义与使用 102
6.2.1 定义类 102
6.2.2 创建类的实例 102
6.2.3 构造方法和析构方法 103
6.2.4 类变量和实例变量 104
6.2.5 访问限制 105
6.2.6 实例方法、类方法和静态方法 106
6.3 继承 108
6.3.1 类的继承 108
6.3.2 子类和父类的关系 110
6.3.3 方法重写 111
6.3.4 子类继承父类的构造方法 111
6.3.5 多重继承 112
6.4 多态 113
6.5 特殊变量、方法与运算符重载 114
6.5.1 特殊变量和方法 114
6.5.2 运算符重载 116
思考与练习 117
第7章 文件相关操作 118
7.1 文件的类型 118
7.2 文本文件和二进制文件的操作方法 118
7.2.1 打开和关闭文件 118
7.2.2 文件对象常用操作 119
7.2.3 上下文管理语句 121
7.3 CSV和json文件的操作方法 122
7.3.1 数据的维度 122
7.3.2 CSV文件操作 122
7.3.3 JSON文件操作 125
思考与练习 127
第8章 数据预处理和数据分析 129
8.1 了解数据 129
8.2 数据质量 130
8.2.1 完整性 131
8.2.2 一致性 131
8.2.3 准确性 132
8.2.4 及时性 132
8.3 数据预处理 132
8.3.1 数据清洗 133
8.3.2 数据集成 136
8.3.3 数据转换 136
8.3.4 数据消减 137
8.4 特征工程 138
8.4.1 特征选择 138
8.4.2 特征构建 139
8.5 数据分析 140
8.5.1 数据分析常用分析思维模式 140
8.5.2 数据分析的经典算法 142
思考与练习 152
第9章 使用Numpy进行数据分析 154
9.1 NumPy概述 154
9.2 NumPy Ndarray对象 154
9.3 NumPy 数据类型 156
9.4 NumPy 数组属性 158
9.5 NumPy 创建数组 160
9.6 NumPy 从数值范围创建数组 161
9.7 NumPy 切片和索引 162
9.8 Numpy 数组操作 164
9.8.1 修改数组形状 164
9.8.2 数组元素的添加与删除 166
9.9 NumPy字符串函数 171
9.10 NumPy Matplotlib 172
9.10.1 安装 Matplotlib 172
9.10.2 图形中文显示 173
9.10.3 绘制正弦波。 175
9.10.4 在同一图中绘制多张子图 176
9.10.5 生成条形图 176
9.10.6 频率分布图 177
9.10.7 将直方图的数字表示转换为图形 177
思考与练习 178
第 10章 使用Pandas处理结构化数据 179
10.1 Pandas数据结构Series 179
10.1.1 Series基本概念及创建 179
10.1.2 Series的索引 180
10.1.3 Series的基本技巧 182
10.2 Pandas数据结构Dataframe 183
10.2.1 基本概念及创建 183
10.2.2 Dataframe的索引 184
10.2.3 Dataframe的基本技巧 188
10.3 Pandas时间模块 191
10.4 Pandas时刻数据 192
10.5 Pandas时间戳索引:DatetimeIndex 193
10.6 Pandas时期:Period 196
10.7 时间序列 - 索引及切片 196
10.8 时间序列 - 重采样 198
10.9 数值计算和统计基础 203
10.10 文本数据 206
10.11 合并 211
10.12 连接与修补 212
10.13 去重及替换 214
10.14 数据分组 216
10.15 数据读取 217
思考与练习 218
第 11章 使用Numpy和Pandas对数据进行预处理 219
11.1 缺失值处理 219
11.1.1 判断是否是缺失值:isnull,notnull 219
11.1.2 删除缺失值:dropna 220
11.1.3 填充/替换缺失数据:fillna、replace 221
11.1.4 4. 缺失值插补 223
11.2 异常值分析和处理 225
11.2.1 正态分布3σ原则 225
11.2.2 箱型图分析 227
11.3 数据归一化/标准化 228
11.3.1 0-1标准化 229
11.3.2 Z-score标准化 229
11.4 数据连续属性离散化 230
11.4.1 等宽法 230
11.4.2 等频法 232
11.5 数据预处理案例:分析各省市各年度的流感人口数据 233
11.5.1 数据介绍和任务要求 233
11.5.2 流感数据的读取与清洗 233
11.5.3 检查数据 236
11.5.4 人口数据的清洗与重塑 238
11.5.5 拼接数据 240
思考与练习 241
第 12章 使用Scikit-learn进行机器学习 242
12.1 常用模块 242
12.1.1 分类方法 242
12.1.2 回归方法 246
12.1.3 聚类方法 248
12.1.4 模型选择 250
12.2 机器学习选择算法的策略 250
12.3 机器学习案例——识别 Iris(鸢尾花)类别 251
12.3.1 加载数据 251
12.3.2 数据可视化 252
12.3.3 使用逻辑回归分类器识别 253
12.3.4 可视化模型结果 254
思考与练习 255
第 13章 综合案例 256
13.1 综合案例1 USDA食品数据库简单分析食品的营养成分 256
13.1.1 数据介绍和任务要求 256
13.1.2 数据预处理和数据拼接 257
13.1.3 数据分析 260
13.2 综合案例2 利用泰坦尼克号数据进行生还者分析 261
13.2.1 泰坦尼克号问题之背景 261
13.2.2 问题解决方法 261
13.2.3 数据分析 262
13.2.4 逻辑回归建模 272
13.2.5 交叉验证 275
13.2.6 学习曲线 276
13.2.7 总结 279
思考与练习 279

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

吕会红 广东外语外贸大学信息学院实验中心实验师,主持教育厅创新人才类项目等多个项目,编写《计算机网络实验教程》《移动自组织网络——体系结构与路由技术》等教材。

相关图书

  • ECharts数据可视化

    本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...

    ¥59.80
  • 区块链技术及应用(微课版)

    郝兴伟 梁志勇

    为了适应Web 3.0时代下区块链技术发展的新趋势,同时培养高素质的区块链技术人才,编者精选了区块链的相关内容...

    ¥69.80
  • 大数据技术与应用

    孔华锋

    本书循序渐进地介绍大数据全生命周期中涉及的大数据技术与应用。本书包括9章:第1章和第2章介绍大数据相关的基础理...

    ¥59.80
  • 云计算导论(微课版)

    荆于勤 石慧霞 吴锡微 龚秀波 姚骏屏

    本书是一本全面介绍云计算基本概念、常用技术与应用的项目化教材。本书分为3篇,分别是初识云计算、体验云计算和业务...

    ¥59.80
  • Hadoop大数据处理技术基础与实践(微课版)(第3版)

    本书共11章,从Hadoop概述开始,介绍Hadoop的安装、配置与管理,并对Hadoop的生态体系架构进行介...

    ¥59.80
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部