大数据技术精品系列教材

Python数据分析与实战(微课版)

配套微课视频,以任务为导向,全面地介绍Python数据分析
分享 推荐 0 收藏 29 阅读 2.5K
赵男男 , 邹平辉 (主编) 张良均 , 王宏刚 , 陈慕君 (副主编) 978-7-115-65621-6

关于本书的内容有任何问题,请联系 初美呈

1.全流程能力培养体系:从NumPy数值计算到pandas数据处理,从Matplotlib可视化到scikit-learn建模,完整覆盖数据分析全链路,配套实训项目实现学练闭环。
2.商业级实战案例驱动:行业标杆案例——用户行为分析、客户流失预测深度解析,融合回归、预测、SVM等主流算法,无缝对接企业级数据分析场景。
3.二维可视化能力矩阵:同时掌握Matplotlib+seaborn静态可视化与pyecharts交互可视化技术,覆盖分布分析、相关性分析等大数据分析维度。
4.教学练习一体化设计:每章配置思维导图式小结+分层习题+完整实训案例,特别提供数独游戏矩阵构建、超市价格对比等创新实训场景,实现零障碍上手。

内容摘要

本书全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全书共10章,第1章介绍数据分析的概念等相关知识;第2~6章介绍Python数据分析的常用库及其应用,涵盖NumPy数组计算基础,pandas统计分析基础,使用pandas进行数据预处理,Matplotlib、seaborn、pyecharts数据可视化基础,以及使用scikit-learn构建模型,较为全面地阐述Python数据分析方法;第7~9章结合之前介绍的数据分析技术,进行企业综合案例数据分析;第10章基于去编程化的TipDM大数据挖掘建模平台进行客户流失预测。除第1章外,其余各章都包含实训,通过练习和操作实践,帮助读者巩固所学内容。

目录

第 1章 Python数据分析概述 1
1.1 认识数据分析 2
1.1.1 数据分析的概念 2
1.1.2 数据分析的流程 3
1.1.3 数据分析的应用场景 5
1.2 Python数据分析 6
1.2.1 数据分析常用工具 7
1.2.2 Python数据分析的优势 7
1.2.3 Python数据分析常用库 8
1.3 安装Python的Anaconda发行版 10
1.3.1 Python的Anaconda发行版 10
1.3.2 在Windows系统中安装Anaconda发行版 10
1.4 Jupyter Notebook的常用功能 13
1.4.1 Jupyter Notebook的基本功能 13
1.4.2 Jupyter Notebook的高级功能 15
小结 18
课后习题 18
第 2章 NumPy数组计算基础 20
2.1 NumPy数组对象ndarray 21
2.1.1 创建数组对象 21
2.1.2 生成随机数 27
2.1.3 通过索引访问数组 29
2.1.4 变换数组的形状 31
2.2 NumPy矩阵与通用函数 34
2.2.1 创建NumPy矩阵 34
2.2.2 ufunc函数 37
2.3 利用NumPy进行统计分析 40
2.3.1 读/写文件 40
2.3.2 使用函数进行简单的统计分析 43
小结 47
实训 48
实训1 使用数组比较运算对超市牛奶价格进行对比 48
实训2 创建6×6的简单数独游戏矩阵 48
课后习题 48
第3章 pandas统计分析基础 50
3.1 读/写不同数据源的数据 51
3.1.1 认识pandas 51
3.1.2 读/写文本文件 52
3.1.3 读/写Excel文件 55
3.1.4 读/写数据库 57
3.2 DataFrame的常用操作 60
3.2.1 查看DataFrame的常用属性 60
3.2.2 查、改、增、删DataFrame数据 61
3.2.3 描述分析DataFrame数据 67
3.3 转换与处理时间序列数据 70
3.3.1 转换时间字符串为标准时间 70
3.3.2 提取时间序列数据 72
3.3.3 时间数据的算术运算 73
3.4 使用分组聚合进行组内计算 74
3.4.1 使用groupby()方法拆分数据 75
3.4.2 使用agg()方法聚合数据 76
3.4.3 使用apply()方法聚合数据 79
3.4.4 使用transform()方法聚合数据 80
小结 81
实训 81
实训1 读取并查看某地区房屋销售数据的基本信息 81
实训2 提取房屋售出时间信息并描述房屋价格信息 81
实训3 使用分组聚合方法分析房屋销售情况 82
课后习题 82
第4章 使用pandas进行数据预处理 85
4.1 数据合并 86
4.1.1 堆叠合并 86
4.1.2 主键合并 89
4.1.3 重叠合并 90
4.2 数据清洗 92
4.2.1 检测与处理重复值 92
4.2.2 检测与处理缺失值 95
4.2.3 检测与处理异常值 99
4.3 数据标准化 100
4.3.1 离差标准化 101
4.3.2 标准差标准化 101
4.3.3 小数定标标准化 102
4.4 数据变换 103
4.4.1 哑变量处理 103
4.4.2 离散化处理 104
小结 107
实训 107
实训1 合并年龄、平均血糖数据和中风患者信息数据 107
实训2 删除年龄异常的数据 108
实训3 离散化年龄特征 109
课后习题 109
第5章 Matplotlib、seaborn、pyecharts数据可视化基础 111
5.1 Matplotlib基础绘图 112
5.1.1 pyplot绘图基础语法与常用参数 112
5.1.2 使用Matplotlib绘制进阶图形 118
5.2 seaborn基础绘图 128
5.2.1 seaborn绘图基础 128
5.2.2 使用seaborn绘制基础图形 144
5.3 pyecharts基础绘图 145
5.3.1 pyecharts绘图基础 146
5.3.2 使用pyecharts绘制交互式图形 150
小结 155
实训 155
实训1 分析学生成绩特征的分布与分散情况 155
实训2 分析学生成绩与各个特征之间的关系 156
实训3 分析各空气质量指标之间的相关关系 156
实训4 绘制交互式基础图形 157
课后习题 158
第6章 使用scikit-learn构建模型 160
6.1 使用sklearn转换器处理数据 161
6.1.1 加载datasets模块中的数据集 161
6.1.2 将数据集划分为训练集和测试集 164
6.1.3 使用sklearn转换器进行数据预处理 165
6.2 构建并评价聚类模型 167
6.2.1 使用sklearn估计器构建聚类模型 168
6.2.2 评价聚类模型 171
6.3 构建并评价分类模型 173
6.3.1 使用sklearn估计器构建分类模型 173
6.3.2 评价分类模型 175
6.4 构建并评价回归模型 176
6.4.1 使用sklearn估计器构建线性回归模型 177
6.4.2 评价回归模型 179
小结 180
实训 181
实训1 使用sklearn处理竞标行为数据集 181
实训2 构建基于竞标行为数据集的K-Means聚类模型 182
实训3 构建基于竞标行为数据集的支持向量机分类模型 182
实训4 构建基于竞标行为数据集的回归模型 182
课后习题 183
第7章 竞赛网站用户行为分析 185
7.1 竞赛网站用户行为分析的背景和方法 186
7.1.1 分析竞赛网站背景 186
7.1.2 认识用户行为分析 187
7.1.3 竞赛网站用户行为分析的步骤与流程 187
7.2 预处理竞赛网站用户访问数据 188
7.2.1 用户识别 188
7.2.2 数据清洗 189
7.2.3 网页分类 192
7.2.4 构造特征 194
7.3 对竞赛网站用户进行分群 194
7.3.1 K-Means聚类算法 195
7.3.2 使用K-Means聚类算法进行用户分群 196
7.3.3 模型应用 198
小结 198
实训 198
实训1 处理某App用户信息数据集 198
实训2 构建与用户使用信息相关的特征 199
实训3 构建K-Means聚类模型 200
课后习题 200
第8章 企业所得税预测分析 201
8.1 企业所得税预测的背景与方法 202
8.1.1 分析企业所得税预测背景 202
8.1.2 企业所得税预测的方法 204
8.1.3 企业所得税预测的步骤与流程 204
8.2 分析企业所得税数据特征的相关性 205
8.2.1 相关性分析 205
8.2.2 计算Pearson相关系数 205
8.3 使用Lasso回归方法选取企业所得税预测的关键特征 207
8.3.1 Lasso回归方法 207
8.3.2 选取关键特征 208
8.4 使用灰色预测算法和SVR算法构建企业所得税预测模型 209
8.4.1 灰色预测算法 209
8.4.2 SVR算法 210
8.4.3 预测企业所得税 211
小结 214
实训 215
实训1 处理二手汽车交易数据集 215
实训2 构建二手汽车价格预测关键特征 216
实训3 构建线性回归模型 216
课后习题 217
第9章 餐饮企业客户流失预测 218
9.1 餐饮企业客户分析需求 219
9.1.1 分析餐饮企业客户流失预测背景 219
9.1.2 认识餐饮企业客户流失预测 221
9.1.3 餐饮企业客户流失预测的步骤与流程 221
9.2 预处理餐饮企业数据 221
9.2.1 数据探索 222
9.2.2 查看重复值 224
9.2.3 处理异常值 224
9.2.4 处理缺失值 225
9.2.5 构建客户流失特征 226
9.3 使用决策树算法和支持向量机算法进行餐饮企业客户流失预测 228
9.3.1 决策树算法 228
9.3.2 支持向量机算法 229
9.3.3 预测餐饮企业客户流失 231
小结 233
实训 233
实训1 预处理尺码信息数据 233
实训2 构建支持向量机分类模型预测客户服装尺寸 234
课后习题 234
第 10章 基于TipDM大数据挖掘建模平台进行客户流失预测 236
10.1 平台简介 237
10.1.1 共享库 238
10.1.2 数据连接 238
10.1.3 数据集 239
10.1.4 我的工程 239
10.1.5 个人组件 242
10.2 使用平台进行客户流失预测 242
10.2.1 使用平台配置客户流失预测案例的步骤和流程 242
10.2.2 数据源配置 244
10.2.3 数据预处理 245
10.2.4 构建模型 251
小结 256
实训 256
实训 预测客户服装尺寸 256
课后习题 256

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

赵男男,广东海洋大学副教授,硕士研究生导师,省优秀教师,九三学社社员,市政协委员,中国人工智能学会专委委员,广东海洋大学计算机科学与工程学院副院长,主要从事计算机应用方向教学与科研工作。在国内外权威刊物累计发表论文50余篇,获发明专利3项,软件著作权10项,主持省部级课题10余项,参与课题若干项。曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。

同系列书

  • Python数据分析与实战(微课版)

    赵男男 邹平辉 张良均 王宏刚 陈慕君

    本书全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全...

    ¥59.80
  • Power BI数据分析与可视化(第2版)(微课版)

    陈翠松 张良均 潘强 曾确令 张尚佳

    本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...

    ¥49.80
  • 大数据导论

    林涛 张良均 李微 葛苏慧 胡晓东

    本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...

    ¥49.80
  • Spark大数据分析实务

    郑浩森 张荣 张良均 杨树例 陈国珍

    本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...

    ¥59.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部