Python数据预处理(微课版)

Python数据预处理(微课版)
分享 推荐 0 收藏 37 阅读 2.7K
千锋 (作者) 978-7-115-62141-2

关于本书的内容有任何问题,请联系 李召

1.以Jupyter Notebook为主要开发工具, 采用“理实一体化”授课模式。
2.从单个知识点应用示例到大型综合案例的介绍,由浅入深,丰富且新颖。
3.配套资源丰富,还配有教学辅助平台,提高教学质量。

内容摘要

本书以Jupyter Notebook为主要开发工具,全面地介绍数据预处理的相关知识。全书共分8章,内容分别为初识Python数据预处理、数据获取与存储、数据清洗、数据集成、数据变换、数据规约、综合实战:家用热水器用户行为分析以及两个综合实战项目。每个章节均配置了丰富的示例或案例,通过本书的学习,读者可以充分理解常用数据预处理方法的精髓、掌握具体技术细节,并在实践中提升实际开发能力,为数据分析和机器学习实践打下扎实基础。
本书既可作为高等院校大数据、计算机相关专业的教材,也可作为技术爱好者的入门用书。

诚邀您加入【人邮社大数据教师交流群】

目录

第1章 初识Python数据预处理
1.1 数据预处理概述 1
1.1.1 认识数据 1
1.1.2 数据应用开发流程 2
1.1.3 数据预处理的目的 2
1.1.4 数据预处理的应用领域 3
1.2 高质量的数据 4
1.2.1 常见的数据问题 4
1.2.2 数据质量 5
1.3 数据预处理流程 5
1.3.1 数据获取与存储 6
1.3.2 数据清洗 6
1.3.3 数据集成 6
1.3.4 数据变换 7
1.3.5 数据规约 7
1.4 开发环境设置 8
1.4.1 Anaconda概述 8
1.4.2 Anaconda下载安装 8
1.4.3 Anaconda管理虚拟环境 13
1.5 Jupyter的使用 16
1.5.1 认识Jupyter 16
1.5.2 启动Jupyter Notebook 16
1.5.3 Jupyter工作原理 18
1.5.4 Jupyter使用方法 18
1.6 常用的数据预处理工具 22
1.6.1 数值计算工具NumPy 22
1.6.2 数据处理工具SciPy 31
1.6.3 数据处理工具Pandas 35
1.7 本章小结 40
1.8 习题 40
第2章 数据获取与存储
2.1 数据准备 43
2.1.1 常见的数据类型 43
2.1.2 常见的数据文件格式 46
2.2 网络爬虫获取数据 49
2.2.1 认识网络爬虫 49
2.2.2 网络爬虫执行阶段 50
2.2.3 爬取百度logo 50
2.2.4 常见的数据存储方式 52
2.3 数据读写 53
2.3.1 可读写数据 53
2.3.2 读写CSV数据 55
2.3.3 读写JSON数据 59
2.3.4 读写XML数据 61
2.3.5 读写Excel数据 62
2.4 使用数据库实现数据存储 65
2.4.1 认识数据库 65
2.4.2 数据库存储数据 66
2.5 实战1:遍历文件批量抽取文本内容 68
2.5.1 任务说明 68
2.5.2 任务分析 69
2.5.3 任务实现 71
2.6 本章小结 74
2.7 习题 74
第3章 数据清洗
3.1 数据清洗概述 77
3.1.1 初识数据清洗 77
3.1.2 数据清洗必要性 78
3.1.3 导入与审视数据 78
3.2 缺失值处理 83
3.2.1 缺失值产生原因 83
3.2.2 检测缺失值 83
3.2.3 填充缺失值fillna( ) 86
3.2.4 删除缺失值dropna( ) 88
3.2.5 插补缺失值interpolate( ) 89
3.3 重复值处理 91
3.3.1 检测重复值 91
3.3.2 处理重复值 92
3.4 异常值处理 97
3.4.1 检测异常值 97
3.4.2 处理异常值 100
3.5 时间日期格式处理 102
3.5.1 常见的时间日期格式 102
3.5.2 Python处理时间日期格式 105
3.5.3 Pandas转换数据 106
3.6 实战2:用户用电数据清洗 107
3.6.1 任务说明 107
3.6.2 任务分析 107
3.6.3 任务实现 108
3.7 本章小结 109
3.8 习题 109
第4章 数据集成
4.1 数据集成概述 112
4.1.1 初识数据集成 112
4.1.2 冗余属性识别 113
4.1.3 实体识别 114
4.1.4 数据不一致 114
4.2 主键合并数据 114
4.2.1 Pandas的merge( )函数 114
4.2.2 join( )函数 116
4.2.3 Pandas的merge( )函数使用how参数合并数据 117
4.3 堆叠合并数据 119
4.3.1 Pandas的concat( )函数 119
4.3.2 NumPy的concatenate( )函数 121
4.3.3 append( )函数 122
4.4 重叠合并数据 123
4.4.1 combine( )函数 123
4.4.2 combine_first( )函数 125
4.5 集成方法介绍 125
4.5.1 认识机器学习库sklearn 126
4.5.2 数据集拆分 132
4.6 实战3:探索虚拟姓名数据 134
4.6.1 任务说明 134
4.6.2 任务分析 134
4.6.3 任务实现 135
4.7 本章小结 137
4.8 习题 137
第5章 数据变换
5.1 数据变换概述 140
5.1.1 初识数据变换 140
5.1.2 数据变换方式 141
5.2 常见操作 141
5.2.1 简单函数变换 141
5.2.2 连续属性离散化 143
5.2.3 属性构造 149
5.2.4 小波变换 150
5.2.5 数据规范化 151
5.3 分组与聚合 154
5.3.1 概述 154
5.3.2 窗口函数 155
5.3.3 分组函数 157
5.3.4 聚合函数 162
5.4 轴向旋转 167
5.4.1 Pandas透视表 168
5.4.2 melt( )函数 171
5.5 哑变量处理与面元切分 173
5.5.1 哑变量处理 173
5.5.2 面元切分 174
5.6 数据转换 175
5.6.1 函数映射转换 175
5.6.2 值处理:replace( )替换元素 176
5.6.3 行列处理:map( )映射 177
5.6.4 索引处理:rename( )重命名 178
5.7 实战4:探索酒类消费数据 179
5.7.1 任务说明 179
5.7.2 任务分析 179
5.7.3 任务实现 180
5.8 本章小结 180
5.9 习题 181
第6章 数据规约
6.1 数据规约概述 184
6.1.1 初识数据规约 184
6.1.2 数据规约的常见类型 185
6.2 Pandas数据规约操作 189
6.2.1 数据重塑 189
6.2.2 降采样 192
6.2.3 PCA降维 194
6.3 实战5:利用sklearn实现鸢尾花数据降维 199
6.3.1 任务说明 199
6.3.2 任务分析 199
6.3.3 任务实现 200
6.4 本章小结 201
6.5 习题 202
第7章 综合实战:家用热水器用户行为分析
7.1 项目背景与目标 204
7.1.1 项目背景 204
7.1.2 项目目标 205
7.1.3 项目分析 205
7.1.4 项目总体流程 206
7.2 探索数据 206
7.2.1 认识数据集 206
7.2.2 探索数据特征 207
7.3 数据预处理 210
7.3.1 数据变换之连续属性离散化 211
7.3.2 数据规约之属性规约 212
7.3.3 数据集成之合并数据 213
7.3.4 数据变换之属性构造 216
7.3.5 数据清洗之筛选候选洗浴事件 223
7.4 构建模型 224
7.4.1 BP神经网络模型 224
7.4.2 构建洗浴事件识别模型 226
7.5 模型评估 228
7.5.1 评价指标 228
7.5.2 绘制ROC曲线 229
7.6 本章小结 230
第8章 综合实战:赏析中华古诗词
8.1 项目背景与目标 231
8.1.1 项目背景 231
8.1.2 项目目标 231
8.1.3 项目总体流程及分析 231
8.2 基本特征提取 232
8.2.1 数据集介绍 232
8.2.2 数据描述 233
8.2.3 jieba分词 235
8.2.4 分词模式和并行分词 236
8.2.5 关键词提取 236
8.3 文本预处理 239
8.3.1 独热编码器处理标签 239
8.3.2 词性标注、自定义字典 240
8.3.3 去除停用词 241
8.3.4 文本中的字符处理 241
8.4 模型构建——中文文本词云 243
8.4.1 认识词云 243
8.4.2 wordcloud库 243
8.5 实战6:三国演义中文词频统计 246
8.5.1 任务说明 246
8.5.2 任务分析 246
8.5.3 任务实现 247
8.6 本章小结 248

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

千锋教育 1.千锋教育采用全程面授高品质、高成本培养模式,教学大纲紧跟企业需求,拥有全国一体化就业保障服务,成为学员信赖的IT职业教育品牌。 2.获得荣誉包括:中关村移动互联网产业联盟副理事长单位、中国软件协会教育培训委员会认证一级培训机构、中关村国际孵化软件协会授权中关村移动互联网学院、教育部教育管理信息中心指定移动互联网实训基地等。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部