Python数据分析、挖掘与可视化(慕课版)

无需多言,我社最畅销的数据分析教材:)本书提供教学社群,QQ群号815172169(仅限Python授课教师加入)
分享 推荐 11 收藏 515 阅读 42.7K
董付国 (作者) 978-7-115-52361-7

关于本书的内容有任何问题,请联系 人邮教育-赵广宇

1.Python零基础,轻松学会数据分析与挖掘
2.编码、分析、挖掘,数据分析全流程一次搞定
3.微课视频,扫码即可观看,重点难点逐个击破

特别说明

本书提供社群支持,QQ群号为815172169,限教师身份。

内容摘要

本书首先简要地介绍了进行数据分析、挖掘和可视化时,需要了解的Python基础知识,然后重点介绍了扩展库numpy、pandas、sklearn、matplotlib以及相应的理论知识。全书以案例为主,通过大量的实际案例演示相关理论和Python语言的应用。

前言

数据分析、数据挖掘与数据可视化是一个古老的话题,并非什么新生事物。近些年来,随着计算机软硬件的飞速发展,数据分析、数据挖掘、数据可视化的相关理论和技术在各领域的应用更是有了质的飞跃。饭店选址、公交路线规划、物流规划、春运车次安排、原材料选购、商场进货与货架位置摆放、查找隐性贫困生、房价预测、股票预测、寻找黑客攻击向量、犯罪人员社交关系挖掘、网络布线、潜在客户挖掘、个人还贷能力预测、异常交易分析、网络流量预测、成本控制与优化、客户关系分析、商品推荐、文本分类、笔迹识别与分析、智能交通、智能医疗等,这些都要借助于数据分析与挖掘相关的理论和工具才能更好、更快地完成,而可视化则一直是用于辅助数据分析、挖掘进而做出正确决策的有力工具与技术。
数据分析、数据挖掘与数据可视化是综合性非常强的学科领域。从事相关工作的人员既要掌握线性代数、统计学、人工智能、机器学习等大量理论知识,又要熟悉编程语言及相关软件的使用。
在众多的编程语言中,Python应该是最适合做数据分析、数据挖掘和数据可视化的,其简洁的语法、强大的功能、丰富的扩展库以及开源免费、易学易用的低门槛特点,使Python成为多个领域不可替代的语言。
本书首先简要地介绍了进行数据分析、挖掘和可视化时,需要了解的Python基础知识,然后重点介绍了扩展库numpy、pandas、sklearn、matplotlib以及相应的理论知识。全书以案例为主,通过大量的实际案例演示相关理论和Python语言的应用。
本书配有视频讲解,可以登录智慧树网搜索“董付国”学习配套慕课。另外,微信公众号“Python小屋”中900余篇文章和400多个微课视频是对书中内容很好的补充和扩展。

董付国
2019年8月
山东烟台

详情页

目录

第1章 Python开发环境的搭建与编码规范 1
1.1 Python开发环境的搭建与使用 1
1.1.1 IDLE 2
1.1.2 Anaconda3 3
1.1.3 安装扩展库 4
1.2 Python编码规范 5
1.3 标准库、扩展库对象的
导入与使用 7
1.3.1 import模块名[ as 别名] 7
1.3.2 from模块名import
对象名[ as 别名] 7
1.3.3 from模块名import * 8
本章知识要点 8
本章习题 9
第2章 数据类型、运算符与内置函数 10
2.1 常用内置数据类型 10
2.1.1 整数、浮点数、复数 11
2.1.2 列表、元组、字典、集合 12
2.1.3 字符串 13
2.2 运算符与表达式 14
2.2.1 算术运算符 15
2.2.2 关系运算符 17
2.2.3 成员测试运算符 18
2.2.4 集合运算符 18
2.2.5 逻辑运算符 18
2.3 常用内置函数 19
2.3.1 类型转换 21
2.3.2 最大值、最小值 22
2.3.3 元素数量、求和 23
2.3.4 排序、逆序 24
2.3.5 基本输入/输出 25
2.3.6 range() 26
2.3.7 zip() 26
2.3.8 map()、reduce()、filter() 27
2.4 综合应用与例题解析 28
本章知识要点 29
本章习题 30
第3章 列表、元组、字典、集合与
字符串 31
3.1 列表与列表推导式 31
3.1.1 创建列表 31
3.1.2 使用下标访问列表中的
元素 32
3.1.3 列表常用方法 33
3.1.4 列表推导式 34
3.1.5 切片操作 35
3.2 元组与生成器表达式 36
3.2.1 元组与列表的区别 36
3.2.2 生成器表达式 36
3.2.3 序列解包 37
3.3 字典 37
3.3.1 字典元素的访问 38
3.3.2 字典元素的修改、
添加与删除 39
3.4 集合 39
3.4.1 集合概述 39
3.4.2 集合常用方法 40
3.5 字符串常用方法 40
3.5.1 encode() 41
3.5.2 format() 41
3.5.3 index()、rindex()、count() 42
3.5.4 replace()、maketrans()、
translate() 42
3.5.5 ljust()、rjust()、center() 43
3.5.6 split()、rsplit()、join() 43
3.5.7 lower()、upper()、capitalize()、
title()、swapcase() 44
3.5.8 startswith()、endswith() 44
3.5.9 strip()、rstrip()、lstrip() 44
3.6 综合应用与例题解析 45
本章知识要点 47
本章习题 47
第4章 选择结构、循环结构、
函数定义与使用 49
4.1 选择结构 49
4.1.1 条件表达式 49
4.1.2 单分支选择结构 50
4.1.3 双分支选择结构 50
4.1.4 嵌套的分支结构 50
4.2 循环结构 51
4.2.1 for循环 51
4.2.2 while循环 51
4.2.3 break与continue语句 52
4.3 函数定义与使用 52
4.3.1 函数定义基本语法 52
4.3.2 lambda表达式 52
4.3.3 递归函数 53
4.3.4 生成器函数 53
4.3.5 位置参数、默认值参数、关键
参数、可变长度参数 54
4.3.6 变量作用域 55
4.4 综合应用与例题解析 56
本章知识要点 57
本章习题 58
第5章 文件操作 59
5.1 文件操作基础 59
5.1.1 内置函数open() 59
5.1.2 文件对象常用方法 60
5.1.3 上下文管理语句with 61
5.2 JSON文件操作 61
5.3 CSV文件操作 62
5.4 Word、Excel、PowerPoint
文件操作实战 63
本章知识要点 65
本章习题 65
第6章 numpy数组与矩阵运算 67
6.1 numpy数组及其运算 67
6.1.1 创建数组 67
6.1.2 测试两个数组的对应元素
是否足够接近 69
6.1.3 修改数组中的元素值 70
6.1.4 数组与标量的运算 71
6.1.5 数组与数组的运算 71
6.1.6 数组排序 72
6.1.7 数组的内积运算 73
6.1.8 访问数组中的元素 73
6.1.9 数组对函数运算的支持 74
6.1.10 改变数组形状 75
6.1.11 数组布尔运算 76
6.1.12 分段函数 77
6.1.13 数组堆叠与合并 78
6.2 矩阵生成与常用操作 79
6.2.1 矩阵生成 79
6.2.2 矩阵转置 79
6.2.3 查看矩阵特征 80
6.2.4 矩阵乘法 81
6.2.5 计算相关系数矩阵 81
6.2.6 计算方差、协方差、标准差 82
6.3 计算特征值与特征向量 82
6.4 计算逆矩阵 83
6.5 求解线性方程组 84
6.6 计算向量和矩阵的范数 85
6.7 奇异值分解 86
6.8 函数向量化 87
本章知识要点 88
本章习题 88
第7章 pandas数据分析实战 91
7.1 pandas常用数据类型 91
7.1.1 一维数组与常用操作 92
7.1.2 时间序列与常用操作 96
7.1.3 二维数组DataFrame 99
7.2 DataFrame数据处理与分析实战 101
7.2.1 读取Excel文件中的数据 101
7.2.2 筛选符合特定条件的数据 103
7.2.3 查看数据特征和统计信息 106
7.2.4 按不同标准对数据排序 108
7.2.5 使用分组与聚合对员工
业绩进行汇总 110
7.2.6 处理超市交易数据中的
异常值 114
7.2.7 处理超市交易数据中的
缺失值 115
7.2.8 处理超市交易数据中的
重复值 117
7.2.9 使用数据差分查看员工
业绩波动情况 118
7.2.10 使用透视表与交叉表查看
 业绩汇总数据 119
7.2.11 使用重采样技术按时间段
 查看员工业绩 123
7.2.12 多索引相关技术与操作 125
7.2.13 使用标准差与协方差分析
 员工业绩 127
7.2.14 使用pandas的属性接口实现
 高级功能 130
7.2.15 绘制各员工在不同柜台
 业绩平均值的柱状图 132
7.2.16 查看DataFrame的内存
 占用情况 134
7.2.17 数据拆分与合并 135
本章知识要点 139
本章习题 140
第8章 sklearn机器学习实战 141
8.1 机器学习基本概念 141
8.2 机器学习库sklearn简介 147
8.2.1 扩展库sklearn常用
模块与对象 147
8.2.2 选择合适的模型和算法 149
8.3 线性回归算法的原理与应用 149
8.3.1 线性回归模型的原理 149
8.3.2 sklearn中线性回归模型的
简单应用 150
8.3.3 岭回归的基本原理与
sklearn实现 151
8.3.4 套索回归Lasso的基本
原理与sklearn实现 152
8.3.5 弹性网络ElasticNet的基本
原理与sklearn实现 153
8.3.6 使用线性回归模型预测
儿童身高 153
8.4 逻辑回归算法的原理与应用 155
8.4.1 逻辑回归算法的原理与
sklearn实现 155
8.4.2 使用逻辑回归算法预测
考试能否及格 157
8.5 朴素贝叶斯算法的原理与应用 158
8.5.1 基本概念 158
8.5.2 朴素贝叶斯算法分类的原理与
sklearn实现 160
8.5.3 使用朴素贝叶斯算法对中文
邮件进行分类 161
8.6 决策树与随机森林算法的应用 163
8.6.1 基本概念 163
8.6.2 决策树算法原理与
sklearn实现 163
8.6.3 随机森林算法原理与
sklearn实现 166
8.6.4 使用决策树算法判断学员的
Python水平 168
8.7 支持向量机算法原理与应用 170
8.7.1 支持向量机算法基本原理与
sklearn实现 170
8.7.2 使用支持向量机对手写数字
图像进行分类 172
8.8 KNN算法原理与应用 175
8.8.1 KNN算法的基本原理与
sklearn实现 175
8.8.2 使用KNN算法判断交通
工具类型 177
8.9 KMeans聚类算法原理与应用 178
8.9.1 KMeans聚类算法的基本原理
与sklearn实现 178
8.9.2 使用KMeans算法压缩
图像颜色 181
8.10 分层聚类算法原理与应用 182
8.11 DBSCAN算法原理与应用 184
8.12 使用协同过滤算法进行
 电影推荐 187
8.13 关联规则分析原理与应用 189
8.13.1 关联规则分析原理与
 基本概念 189
8.13.2 使用关联规则分析
 演员关系 190
8.14 数据降维 192
8.15 交叉验证与网格搜索 195
8.15.1 使用交叉验证评估模型
 泛化能力 195
8.15.2 使用网格搜索确定模型
 最佳参数 197
本章知识要点 199
本章习题 200
第9章 matplotlib数据可视化实战 201
9.1 数据可视化库matplotlib基础 201
9.2 绘制折线图实战 202
9.3 绘制散点图实战 205
9.4 绘制柱状图实战 208
9.5 绘制饼状图实战 212
9.6 绘制雷达图实战 215
9.7 绘制三维图形实战 218
9.8 绘图区域切分实战 224
9.9 设置图例样式实战 225
9.10 事件响应与处理实战 229
9.11 填充图形 244
9.12 保存绘图结果 246
本章知识要点 247
本章习题 247
部分习题答案 248
第1章 Python开发环境搭建与
编码规范 248
第2章 数据类型、运算符与
内置函数 248
第3章 列表、元组、字典、集合与
字符串 249
第4章 选择结构、循环结构、函数
定义与使用 251
第5章 文件操作 253
第6章 numpy数组与矩阵运算 254
第7章 pandas数据分析实战 255
附录A 运算符、内置函数对常用内置
对象的支持情况表 257
附录B Python关键字清单 258
附录C 常用标准库对象速查表 260
附录D 常用Python扩展库清单 263
参考文献 264

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

董付国老师:Python教育的先行者,Python畅销书作者。

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部