大数据技术精品系列教材

Python数据分析与应用(第2版)(微课版)

“十四五”职业教育国家规划教材 “1+X”大数据应用开发(Python)职业技能等级证书(中级)配套教材,配套微课视频,以任务为导向,全面地介绍Python数据分析
分享 推荐 9 收藏 282 阅读 46.3K
曾文权 , 张良均 (主编) 黄红梅 , 施兴 , 黄添喜 (副主编) 978-7-115-57558-6

关于本书的内容有任何问题,请联系 初美呈

1. 全书紧扣任务需求展开,不堆积知识点
2. 随书附带Python源码,微课视频,方便读者系统学习并动手实践
3. 实战案例丰富
4. “1+X”大数据应用开发(Python)职业技能等级证书(中级)配套教材

内容摘要

本书以任务为导向,全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全书共10章,第1章介绍数据分析的概念等相关知识;第2~6章介绍Python数据分析的常用库及其应用,涵盖NumPy数组计算、pandas统计分析、使用pandas进行数据预处理、Matplotlib、seaborn与pyecharts数据可视化,以及使用scikit-learn构建模型,较为全面地阐述Python数据分析方法;第7~9章介绍结合之前所学的数据分析技术,进行企业综合案例数据分析的内容;第10章介绍基于去编程化的TipDM大数据挖掘建模平台实现客户流失预测的内容。除第1章外,本书各章都包含实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
本书可以用于“l+X”证书制度试点工作中的大数据应用开发(Python)职业技能等级(中级)证书相关知识的教学和培训,也可以作为高校大数据技术相关专业的教材和大数据技术爱好者的自学用书。

目录

目录

第 1章 Python数据分析概述 1
任务1.1 认识数据分析 2
1.1.1 掌握数据分析的概念 2
1.1.2 掌握数据分析的流程 3
1.1.3 了解数据分析的应用场景 4
任务1.2 熟悉Python数据分析的工具 6
1.2.1 了解数据分析常用工具 6
1.2.2 了解Python数据分析的优势 7
1.2.3 了解Python数据分析常用库 7
任务1.3 安装Python的Anaconda发行版 9
1.3.1 了解Python的Anaconda发行版 10
1.3.2 在Windows系统中安装Anaconda发行版 10
1.3.3 在Linux系统中安装Anaconda发行版 13
任务1.4 掌握Jupyter Notebook常用功能 15
1.4.1 掌握Jupyter Notebook的基本功能 15
1.4.2 掌握Jupyter Notebook的高级功能 17
小结 20
课后习题 21

第2章 NumPy数组计算基础 23
任务2.1 掌握NumPy数组对象ndarray 24
2.1.1 创建数组对象 24
2.1.2 生成随机数 30
2.1.3 通过索引访问数组 31
2.1.4 变换数组的形状 33
任务2.2 掌握NumPy矩阵与通用函数 37
2.2.1 创建NumPy矩阵 37
2.2.2 掌握ufunc函数 39
任务2.3 利用NumPy进行统计分析 43
2.3.1 读/写文件 43
2.3.2 使用函数进行简单的统计分析 45
小结 50
实训 50
实训1 使用数组比较运算对超市牛奶价格进行对比 50
实训2 创建6×6的简单数独游戏矩阵 51
课后习题 51

第3章 pandas统计分析基础 53
任务3.1 读/写不同数据源的数据 54
3.1.1 认识pandas库 54
3.1.2 读/写文本文件 54
3.1.3 读/写Excel文件 58
3.1.4 读/写数据库 60
任务3.2 掌握DataFrame的常用操作 62
3.2.1 查看DataFrame的常用属性 63
3.2.2 查、改、增、删DataFrame数据 64
3.2.3 描述分析DataFrame数据 70
任务3.3 转换与处理时间序列数据 73
3.3.1 转换时间字符串为标准时间 73
3.3.2 提取时间序列数据信息 75
3.3.3 加减时间数据 76
任务3.4 使用分组聚合进行组内计算 78
3.4.1 使用groupby()方法拆分数据 78
3.4.2 使用agg()方法聚合数据 80
3.4.3 使用apply()方法聚合数据 82
3.4.4 使用transform()方法聚合数据 83
任务3.5 创建透视表与交叉表 84
3.5.1 使用pivot_table函数创建透视表 85
3.5.2 使用crosstab函数创建交叉表 87
小结 88
实训 89
实训1 读取并查看某地区房屋销售数据的基本信息 89
实训2 提取房屋售出时间信息并描述房屋价格信息 89
实训3 使用分组聚合方法分析房屋销售情况 90
实训4 分析房屋地区、配套房间数和房屋价格的关系 90
课后习题 91

第4章 使用pandas进行数据预处理 93
任务4.1 合并数据 93
4.1.1 堆叠合并数据 94
4.1.2 主键合并数据 97
4.1.3 重叠合并数据 99
任务4.2 清洗数据 100
4.2.1 检测与处理重复值 100
4.2.2 检测与处理缺失值 104
4.2.3 检测与处理异常值 108
任务4.3 标准化数据 110
4.3.1 离差标准化数据 110
4.3.2 标准差标准化数据 111
4.3.3 小数定标标准化数据 111
任务4.4 变换数据 112
4.4.1 哑变量处理类别型数据 112
4.4.2 离散化连续型数据 114
小结 117
实训 117
实训1 合并年龄、平均血糖和中风患者信息数据 117
实训2 删除年龄异常的数据 118
实训3 离散化年龄特征 118
课后习题 119

第5章 Matplotlib、seaborn、pyecharts数据可视化基础 121
任务5.1 掌握Matplotlib基础绘图 122
5.1.1 熟悉pyplot绘图基础语法与常用参数 122
5.1.2 使用Matplotlib绘制进阶图形 128
任务5.2 掌握seaborn基础绘图 137
5.2.1 熟悉seaborn绘图基础 137
5.2.2 使用seaborn绘制基础图形 153
任务5.3 掌握pyecharts基础绘图 162
5.3.1 熟悉pyecharts绘图基础 162
5.3.2 使用pyecharts绘制交互式图形 166
小结 171
实训 172
实训1 分析学生考试成绩特征的分布与分散情况 172
实训2 分析学生考试成绩与各个特征之间的关系 172
实训3 分析各空气质量指数之间的相关关系 173
实训4 绘制交互式基础图形 174
课后习题 174

第6章 使用scikit-learn构建模型 177
任务6.1 使用sklearn转换器处理数据 178
6.1.1 加载datasets模块中的数据集 178
6.1.2 将数据集划分为训练集和测试集 180
6.1.3 使用sklearn转换器进行数据预处理 182
任务6.2 构建并评价聚类模型 184
6.2.1 使用sklearn估计器构建聚类模型 185
6.2.2 评价聚类模型 187
任务6.3 构建并评价分类模型 189
6.3.1 使用sklearn估计器构建分类模型 190
6.3.2 评价分类模型 192
任务6.4 构建并评价回归模型 194
6.4.1 使用sklearn估计器构建线性回归模型 194
6.4.2 评价回归模型 197
小结 198
实训 198
实训1 使用sklearn处理竞标行为数据集 198
实训2 构建基于竞标行为数据集的K-Means聚类模型 199
实训3 构建基于竞标行为数据集的支持向量机分类模型 200
实训4 构建基于竞标行为数据集的回归模型 200
课后习题 200

第7章 竞赛网站用户行为分析 202
任务7.1 了解竞赛网站用户行为分析的背景和方法 203
7.1.1 了解竞赛网站背景 203
7.1.2 认识用户行为分析 204
7.1.3 熟悉竞赛网站用户行为分析的步骤与流程 204
任务7.2 预处理竞赛网站用户访问数据 205
7.2.1 特征值变换 205
7.2.2 用户识别 207
7.2.3 数据清洗 208
7.2.4 网页分类 211
7.2.5 构造特征 213
任务7.3 对竞赛网站用户进行分群 214
7.3.1 了解K-Means聚类算法 214
7.3.2 使用K-Means聚类算法进行用户分群 215
7.3.3 模型应用 217
小结 218
实训 218
实训1 处理某App用户信息数据集 218
实训2 构建与用户使用信息相关的 特征 219
实训3 构建K-Means聚类模型 219
课后习题 219

第8章 企业所得税预测分析 221
任务8.1 了解企业所得税预测的背景与方法 222
8.1.1 分析企业所得税预测背景 222
8.1.2 了解企业所得税预测的方法 223
8.1.3 熟悉企业所得税预测的步骤与流程 224
任务8.2 分析企业所得税数据特征的相关性 224
8.2.1 了解相关性分析 225
8.2.2 计算Pearson相关系数 225
任务8.3 使用Lasso回归选取企业所得税预测的关键特征 227
8.3.1 了解Lasso回归方法 227
8.3.2 选取关键特征 228
任务8.4 使用灰色预测算法和SVR算法构建企业所得税预测模型 229
8.4.1 了解灰色预测算法 230
8.4.2 了解SVR算法 231
8.4.3 预测企业所得税 232
小结 236
实训 236
实训1 处理英雄联盟游戏数据集 236
实训2 构建游戏胜负预测关键特征 237
实训3 构建SVR模型 238
课后习题 238

第9章 餐饮企业客户流失预测 240
任务9.1 了解餐饮企业客户分析需求 241
9.1.1 了解餐饮企业客户流失预测背景 241
9.1.2 认识餐饮企业客户流失预测 243
9.1.3 熟悉餐饮企业客户流失预测的步骤与流程 243
任务9.2 预处理餐饮企业数据 244
9.2.1 数据探索 244
9.2.2 查看重复值 246
9.2.3 处理异常值 246
9.2.4 处理缺失值 247
9.2.5 构建客户流失特征 248
任务9.3 使用决策树算法和支持向量机算法进行餐饮企业客户流失预测 250
9.3.1 了解决策树算法 250
9.3.2 了解支持向量机算法 252
9.3.3 预测餐饮企业客户流失 253
小结 255
实训 256
实训1 预处理尺码信息数据 256
实训2 构建支持向量机分类模型预测客户
服装尺寸 256
课后习题 257

第10章 基于TipDM大数据挖掘建模平台实现客户流失预测 259
任务10.1 了解平台的相关概念、特点和功能 260
10.1.1 了解平台的界面、访问方式和特点 260
10.1.2 了解“实训库”模块的功能 261
10.1.3 了解“数据连接”模块的功能 261
10.1.4 了解“实训数据”模块的功能 262
10.1.5 了解“我的实训”模块的功能 262
10.1.6 了解“系统算法”模块的功能 263
10.1.7 了解“个人算法”模块的功能 265
任务10.2 使用平台实现客户流失预测 265
10.2.1 掌握使用平台配置客户流失预测案例的步骤和流程 265
10.2.2 数据源配置 266
10.2.3 数据预处理 268
10.2.4 构建模型 273
小结 275
实训 275
实训 预测客户服装尺寸 275
课后习题 276

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

曾文权,广东科学技术职业学院计算机学院院长、教授,教育部计算机职业教育教学指导委员会委员、中国计算机学会职业教育发展委员会副主席、国家课程思政教学名师、国家软件技术高水平专业群建设负责人、国家教学创新团队带头人、广东省千百十人才工程省级培养对象、广东省移动应用开发专业领军人才;获国家教学成果奖1项、省级教学成果奖3项;主持国家和省级教科研项目20余项、主编出版专著1部、教材8部,发表论文30余篇。
张良均
资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。
曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖

同系列书

  • Power BI数据分析与可视化(第2版)(微课版)

    陈翠松 张良均 潘强 曾确令 张尚佳

    本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...

    ¥49.80
  • 大数据导论

    林涛 张良均 李微 葛苏慧 胡晓东

    本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...

    ¥49.80
  • Spark大数据分析实务

    郑浩森 张荣 张良均 杨树例 陈国珍

    本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...

    ¥59.80
  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80

购买本书用户

相关图书

单击此处加入人邮社数据科学教师服务群(大数据&人工智能&区块链),共同探讨交流
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部