Python大数据分析与挖掘实战(微课版)

Python基础+数据分析基础+机器学习+深度学习+行业案例+课程设计
分享 推荐 19 收藏 431 阅读 25.6K
黄恒秋 (作者) 978-7-115-54240-3

关于本书的内容有任何问题,请联系 许金霞

1.从Python程序设计基础入手,深入讲解数据分析的相关包及数据分析方法
2.结合金融、交通、图像识别等行业应用将理论与案例结合,实用性强
3.配套资源丰富,配套微课视频,案例数据源,课件,上机实验指导等
4.本书配套的教学视频和实训项目,已经全部上线头歌平台,可以进行大规模推广应用了,作者团队给予全面的实训指导及相关支持。
https://www.educoder.net/paths/3243

特别说明

本书配套的教学视频和实训项目,已经全部上线头歌平台,可以进行大规模推广应用了,作者团队给予全面的实训指导及相关支持。
https://www.educoder.net/paths/3243

从基础到数据分析、机器学习、深度学习、GUI,全路径学习
涉及金融、地理信息、交通、文本分析、图像识别等核心领域,案例全覆盖
配备视频、课件、数据、代码、教学大纲、习题与参考答案,资源丰富

内容摘要

本书以应用为导向,将理论与实践相结合,深入浅出地介绍了利用Python进行大数据分析与挖掘的基本知识,以及如何将其应用到具体领域的方法。
本书分为基础篇、案例篇和附录三个部分。基础篇(第1章~第6章)主要介绍Python基础知识及应用于科学计算、数据处理、数据可视化、机器学习、深度学习等方面的基础知识;案例篇(第7章~第12章)主要介绍利用Python进行金融、地理信息、交通、文本分析、图像识别等领域大数据分析与挖掘的案例,以及图形用户界面可视化应用开发的案例;附录提供了6个综合实训课题,以帮助读者提高实践应用能力。同时,本书还提供了详细的实训指导、数据源和程序代码等配套资源。
本书作为普通高等院校数据科学与大数据技术、数学、计算机、经济管理等专业相关课程的教材,也可作为数据分析从业人员及数据挖掘爱好者的参考书。

目录

目 录
基 础 篇

第1章 Python基础 1
1.1 Python简介 1
1.2 Python安装及启动 2
1.2.1 Python安装 2
1.2.2 Python启动及界面认识 4
1.3 Python扩展包安装 8
1.3.1 在线安装 9
1.3.2 离线安装 9
1.4 Python基本数据类型 10
1.4.1 数值的定义 11
1.4.2 字符串的定义 11
1.4.3 列表的定义 11
1.4.4 元组的定义 12
1.4.5 集合的定义 12
1.4.6 字典的定义 12
1.5 Python的公有方法 13
1.5.1 索引 13
1.5.2 切片 13
1.5.3 长度 14
1.5.4 统计 14
1.5.5 确认成员身份 15
1.5.6 删除变量 15
1.6 列表、元组、字符串与字典方法 16
1.6.1 列表方法 16
1.6.2 元组方法 17
1.6.3 字符串方法 18
1.6.4 字典方法 19
1.7 条件语句 20
1.7.1 if…语句 20
1.7.2 if…else…语句 21
1.7.3 if…elif…else…语句 21
1.8 循环语句 21
1.8.1 while语句 22
1.8.2 for语句 22
1.9 函数 22
1.9.1 无返回值函数的定义与调用 23
1.9.2 有一个返回值函数的定义与
调用 23
1.9.3 有多返回值函数的定义与调用 23
本章小结 24
本章练习 24
第2章 科学计算包NumPy 26
2.1 NumPy简介 26
2.2 创建数组 27
2.2.1 利用array()函数创建数组 27
2.2.2 利用内置函数创建数组 28
2.3 数组尺寸 29
2.4 数组运算 30
2.5 数组切片 30
2.5.1 常见的数组切片方法 31
2.5.2 利用ix_()函数进行数组切片 32
2.6 数组连接 32
2.7 数据存取 33
2.8 数组形态变换 34
2.9 数组排序与搜索 35
2.10 矩阵与线性代数运算 36
2.10.1 创建NumPy矩阵 36
2.10.2 矩阵的属性和基本运算 37
2.10.3 线性代数运算 38
本章小结 41
本章练习 42
第3章 数据处理包Pandas 43
3.1 Pandas简介 43
3.2 序列 44
3.2.1 序列创建及访问 44
3.2.2 序列属性 45
3.2.3 序列方法 45
3.2.4 序列切片 47
3.2.5 序列聚合运算 48
3.3 数据框 48
3.3.1 数据框创建 48
3.3.2 数据框属性 49
3.3.3 数据框方法 49
3.3.4 数据框切片 54
3.4 外部文件读取 55
3.4.1 Excel文件读取 56
3.4.2 TXT文件读取 57
3.4.3 CSV文件读取 57
3.5 常用函数 58
3.5.1 滚动计算函数 59
3.5.2 数据框合并函数 59
3.5.3 数据框关联函数 60
本章小结 61
本章练习 62
第4章 数据可视化包Matplotlib 64
4.1 Matplotlib绘图基础 64
4.1.1 Matplotlib图像构成 64
4.1.2 Matplotlib绘图基本流程 64
4.1.3 中文字符显示 66
4.1.4 坐标轴字符刻度标注 68
4.2 Matplotlib常用图形绘制 69
4.2.1 散点图 70
4.2.2 线性图 71
4.2.3 柱状图 72
4.2.4 直方图 73
4.2.5 饼图 74
4.2.6 箱线图 74
4.2.7 子图 75
本章小结 78
本章练习 78
第5章 机器学习与实现 79
5.1 scikit-learn简介 79
5.2 数据预处理 80
5.2.1 缺失值处理 80
5.2.2 数据规范化 82
5.2.3 主成分分析 85
5.3 线性回归 91
5.3.1 一元线性回归 92
5.3.2 多元线性回归 94
5.3.3 Python线性回归应用举例 95
5.4 逻辑回归 97
5.4.1 逻辑回归模型 97
5.4.2 Python逻辑回归模型应用
举例 98
5.5 神经网络 99
5.5.1 神经网络模拟思想 99
5.5.2 神经网络结构及数学
模型 101
5.5.3 Python神经网络分类应用
举例 101
5.5.4 Python神经网络回归应用
举例 102
5.6 支持向量机 104
5.6.1 支持向量机原理 104
5.6.2 Python支持向量机应用举例 105
5.7 K-均值聚类 107
5.7.1 K-均值聚类的基本原理 107
5.7.2 Python K-均值聚类算法应用
举例 110
5.8 关联规则 112
5.8.1 关联规则概念 112
5.8.2 布尔关联规则挖掘 113
5.8.3 一对一关联规则挖掘及Python
实现 114
5.8.4 多对一关联规则挖掘及Python
实现 116
本章小结 120
本章练习 120
第6章 深度学习与实现 125
6.1 深度学习简介 125
6.2 深度学习框架简介 126
6.2.1 Caffe框架 126
6.2.2 Theano框架 126
6.2.3 PaddlePaddle框架 126
6.2.4 TensorFlow框架 126
6.3 TensorFlow基础 127
6.3.1 TensorFlow安装 127
6.3.2 TensorFlow命令 130
6.3.3 TensorFlow案例 132
6.4 多层神经网络 135
6.4.1 多层神经网络结构及数学
模型 136
6.4.2 多层神经网络分类问题应用
举例 137
6.4.3 多层神经网络回归问题应用
举例 140
6.5 卷积神经网络 147
6.5.1 卷积层计算 147
6.5.2 池化层计算 149
6.5.3 全连接层计算 151
6.5.4 CNN应用案例 151
6.6 循环神经网络 157
6.6.1 RNN结构及数学模型 157
6.6.2 LSTM 158
6.6.3 RNN应用案例 160
本章小结 163
本章练习 163

案 例 篇

第7章 基于财务与交易数据的量化投资
分析 164
7.1 案例背景 164
7.2 案例目标及实现思路 165
7.3 基于总体规模与投资效率指标的
上市公司综合评价 165
7.3.1 指标选择 166
7.3.2 数据获取 166
7.3.3 数据处理 168
7.3.4 主成分分析 168
7.3.5 综合排名 168
7.4 技术分析指标选择与计算 170
7.4.1 移动平均线指标 170
7.4.2 指数平滑异同平均线指标 170
7.4.3 随机指标 171
7.4.4 相对强弱指标 172
7.4.5 乖离率指标 172
7.4.6 能量潮指标 173
7.4.7 涨跌趋势指标 173
7.4.8 计算举例 174
7.5 量化投资模型与策略实现 177
7.5.1 投资组合构建 177
7.5.2 基于逻辑回归的量化投资策略
实现 178
本章小结 180
本章练习 180
第8章 众包任务定价优化方案 181
8.1 案例背景 181
8.2 案例目标及实现思路 182
8.3 数据获取与探索 182
8.3.1 Folium地理信息可视化包
安装 182
8.3.2 数据读取与地图可视化 183
8.4 指标计算 183
8.4.1 指标设计 183
8.4.2 指标计算方法 184
8.4.3 程序实现 185
8.5 任务定价模型构建 191
8.5.1 指标数据预处理 191
8.5.2 多元线性回归模型 194
8.5.3 神经网络模型 194
8.6 方案评价 195
8.6.1 任务完成增加量 195
8.6.2 成本增加额 196
8.6.3 完整实现代码 196
本章小结 197
本章练习 197
第9章 地铁站点日客流量预测 199
9.1 案例背景 199
9.2 案例目标及实现思路 200
9.3 数据获取与探索 200
9.3.1 二分法查找思想 201
9.3.2 每日数据索引范围提取 201
9.4 指标计算 202
9.4.1 指标设计 202
9.4.2 指标计算方法 203
9.4.3 程序实现 203
9.5 数据可视化 207
9.6 因素分析 210
9.6.1 SPSS进行指数平滑 210
9.6.2 因素分析结果 213
9.7 神经网络预测模型的建立 213
9.7.1 示例站点客流量预测 214
9.7.2 全部站点客流量预测 215
9.7.3 模型预测结果分析 216
本章小结 217
本章练习 218
第10章 微博文本情感分析 219
10.1 案例背景 219
10.2 案例目标及实现思路 219
10.3 数据预处理 220
10.3.1 数据读取 220
10.3.2 分词 221
10.3.3 去停用词 223
10.3.4 词向量 224
10.3.5 划分数据集 226
10.4 支持向量机分类模型 227
10.5 基于LSTM的分类模型 229
本章小结 232
本章练习 232
第11章 基于水色图像的水质评价 233
11.1 案例背景 233
11.2 案例目标及实现思路 233
11.3 数据获取与探索 234
11.4 支持向量机分类识别模型 236
11.4.1 颜色特征计算方法 236
11.4.2 自变量与因变量计算 236
11.4.3 模型实现 238
11.5 卷积神经网络分类识别模型:
灰图 239
11.5.1 数据处理 239
11.5.2 模型实现 241
11.6 卷积神经网络识别模型:彩图 243
11.6.1 数据处理 243
11.6.2 模型实现 245
本章小结 246
本章练习 246
第12章 图形用户界面可视化应用
开发 248
12.1 水色图像水质评价系统 248
12.1.1 PyCharm安装 249
12.1.2 创建项目文件夹 250
12.1.3 配置QtDesigner工具 253
12.1.4 配置代码生成工具 254
12.1.5 系统界面设计 256
12.1.6 系统界面转化为PyQt5
代码 258
12.1.7 配置项目解释器 260
12.1.8 系统功能实现 262
12.1.9 生成可独立运行的exe
文件 265
12.2 上市公司综合评价系统 269
12.2.1 界面设计 270
12.2.2 系统功能实现 271
12.2.3 生成EXE文件 274
本章小结 275
本章练习 275
附录 综合实训课题 276
参考文献 278

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

黄恒秋,2011.7-2014.6 就职于深圳市国泰安信息技术有限公司,从事CSMAR数据库分析师、软件策划及设计相关工作。2014.9-今,广西民族师范学院数学与计算机科学学院专任教师,从事数据分析与挖掘、数学建模、Python语言、MATLAB语言、高等数学相关课程教学工作。出版教材《Python金融数据分析与挖掘实战》和《Python大数据分析与挖掘实战(微课版)》2部。2019年组织参加第七届“泰迪杯”数据挖掘挑战赛,获全国一等奖1组,二等奖2组,三等奖4组。2019年组织参加第一届广西大学生人工智能设计大赛(大数据建模赛道)获一等奖1组,二等奖2组,三等奖6组。2020年组织参加第二届广西人工智能设计大赛(AI建模赛道)获二等奖8组,三等奖8组。

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部