数据采集与预处理(第2版 )

数据采集 大数据
分享 推荐 1 收藏 17 阅读 1.3K
林子雨 (作者) 978-7-115-65728-2

关于本书的内容有任何问题,请联系 孙澍

1.实验部署在Linux操作系统,同时,教学资源中提供Windows系统实验,便于不同院校教学。
2.突出实践,增加案例数量,与更多行业相结合,便于学生掌握数据采集与预处理技术的应用。
3. 配套资源丰富:题库、PPT、教案、教学大纲、授课视频、实验指南、课后习题答案等。
¥69.80 ¥59.33 (8.5 折)
教学资源仅供教师教学使用,转载或另作他用版权方有权追究法律责任。

内容摘要

本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书包含丰富的实践操作和应用案例,以帮助读者更好地学习和掌握数据采集与预处理的关键技术。
本书可以作为高等院校大数据专业的大数据课程教材,也可供相关技术人员参考。

目录

第1章 概述 1
1.1 数据 1
1.1.1 数据的概念 1
1.1.2 数据的类型 2
1.1.3 数据的组织形式 2
1.1.4 数据的价值 2
1.1.5 数据爆炸 3
1.2 数据分析过程 3
1.3 数据采集与预处理的任务 4
1.4 数据采集 5
1.4.1 数据采集的概念 5
1.4.2 数据采集的三大要点 5
1.4.3 数据采集的数据源 6
1.4.4 数据采集方法 7
1.5 数据清洗 8
1.5.1 数据清洗的应用领域 8
1.5.2 数据清洗的实现方式 8
1.5.3 数据清洗的内容 9
1.5.4 数据清洗的注意事项 9
1.5.5 数据清洗的基本流程 10
1.5.6 数据清洗的评价标准 10
1.6 数据集成 11
1.7 数据转换 11
1.7.1 数据转换策略 11
1.7.2 平滑处理 12
1.7.3 规范化处理 13
1.8 数据归约 14
1.9 数据脱敏 16
1.9.1 数据脱敏原则 16
1.9.2 数据脱敏方法 16
1.10 本章小结 17
1.11 习题 17
第2章 大数据实验环境搭建 19
2.1 Linux操作系统的安装和使用 19
2.1.1 下载安装文件 19
2.1.2 Linux操作系统的安装方式 20
2.1.3 安装Linux虚拟机 20
2.1.4 创建hadoop用户 29
2.1.5 在Windows操作系统和Linux虚拟机之间互相复制文件 29
2.1.6 使用FTP实现Windows和Linux之间的文件传输 31
2.1.7 vim编辑器的安装和使用 33
2.1.8 设置中文输入法 34
2.1.9 常用的Linux命令 36
2.1.10 文件解压 36
2.1.11 目录的权限 37
2.1.12 更新APT 37
2.1.13 Linux操作系统的一些使用技巧 37
2.2 Python的安装和使用 37
2.2.1 Python简介 38
2.2.2 Python的安装 39
2.2.3 Python的基本使用方法 39
2.2.4 Python基础语法知识 40
2.2.5 Python第三方模块的安装 43
2.3 JDK的安装 44
2.4 Hadoop的安装和使用 45
2.4.1 Hadoop简介 45
2.4.2 安装Hadoop前的准备工作 46
2.4.3 安装Hadoop的3种模式 48
2.4.4 下载Hadoop安装文件 48
2.4.5 伪分布式模式配置 48
2.4.6 分布式文件系统HDFS 51
2.4.7 HDFS的基本使用方法 52
2.5 MySQL数据库的安装和使用 53
2.5.1 关系数据库 53
2.5.2 关系数据库标准语言SQL 55
2.5.3 安装MySQL 57
2.5.4 MySQL数据库的使用方法 58
2.5.5 使用Python操作MySQL数据库 59
2.6 MongoDB的安装和使用 63
2.6.1 MongoDB简介 63
2.6.2 安装MongoDB 6.0 63
2.6.3 MongoDB基础操作 65
2.6.4 使用Python操作MongoDB 67
2.7 Redis的安装和使用 69
2.7.1 Redis简介 69
2.7.2 安装Redis 69
2.7.3 Redis操作实例 70
2.7.4 使用Python操作Redis数据库 72
2.8 本章小结 73
2.9 习题 73
实验1 熟悉MySQL和HDFS的操作 73
第3章 网络数据采集 76
3.1 网络爬虫概述 76
3.1.1 网络爬虫的定义及工作原理 76
3.1.2 网络爬虫的类型 77
3.1.3 反爬虫机制 77
3.1.4 爬取策略制订 79
3.2 网页基础知识 80
3.2.1 超文本和HTML 80
3.2.2 HTTP 80
3.3 用Python实现HTTP请求 81
3.3.1 urllib模块 81
3.3.2 urllib3模块 82
3.3.3 requests模块 82
3.4 定制requests 83
3.4.1 传递URL参数 83
3.4.2 定制请求头 84
3.4.3 网络超时处理 84
3.5 解析网页 85
3.5.1 BeautifulSoup简介 85
3.5.2 BeautifulSoup四大对象 86
3.5.3 遍历文档树 88
3.5.4 搜索文档树 92
3.5.5 CSS选择器 95
3.6 综合实例 96
3.6.1 实例1:采集网页数据保存到文本文件 96
3.6.2 实例2:采集网页数据保存到MySQL数据库 99
3.6.3 实例3:采集网页数据保存到MongoDB数据库 101
3.6.4 实例4:采集网页数据保存到Redis数据库 102
3.7 Scrapy框架 104
3.7.1 Scrapy框架概述 104
3.7.2 XPath语言 105
3.7.3 Scrapy框架应用实例 109
3.8 通过JSON接口爬取网站数据 115
3.8.1 为什么选择JSON接口 115
3.8.2 通过JSON接口爬取数据的步骤 116
3.8.3 实例 116
3.9 本章小结 118
3.10 习题 119
实验2 网络爬虫初级实践 119
第4章 分布式消息系统Kafka 121
4.1 Kafka简介 121
4.1.1 Kafka的特性 121
4.1.2 Kafka的主要应用场景 122
4.1.3 Kafka的消息传递模式 122
4.2 Kafka在大数据生态系统中的作用 123
4.3 Kafka和Flume的区别与联系 124
4.4 Kafka相关概念 124
4.5 Kafka的安装和使用 125
4.5.1 安装Kafka 125
4.5.2 使用Kafka 126
4.6 使用Python操作Kafka 127
4.7 Kafka与MySQL的组合使用 130
4.8 Kafka采集数据保存到MongoDB中 132
4.8.1 任务描述 132
4.8.2 实现代码 132
4.8.3 执行过程 133
4.9 本章小结 133
4.10 习题 133
实验3 熟悉Kafka的基本使用方法 134
第5章 日志采集系统Flume 136
5.1 Flume简介 136
5.2 Flume的安装和使用 137
5.2.1 Flume的安装 137
5.2.2 Flume的使用 138
5.3 Flume和Kafka的组合使用 139
5.3.1 Flume采集NetCat数据到
Kafka 139
5.3.2 Flume采集文件数据到Kafka 141
5.3.3 Flume采集MySQL数据库中的数据到Kafka 143
5.4 采集日志文件到HDFS 145
5.4.1 采集目录到HDFS 145
5.4.2 采集文件到HDFS 147
5.5 采集MySQL数据库中的数据到HDFS 148
5.5.1 准备工作 149
5.5.2 创建MySQL数据库 149
5.5.3 配置和启动Flume 149
5.6 Flume多数据源应用实例 151
5.6.1 方案设计 151
5.6.2 配置Flume 152
5.6.3 执行过程 154
5.7 本章小结 154
5.8 习题 155
实验4 熟悉Flume的基本使用方法 155
第6章 数据仓库中的数据集成 157
6.1 数据仓库的概念 157
6.1.1 传统的数据仓库 157
6.1.2 实时主动数据仓库 158
6.2 数据集成 159
6.2.1 数据集成方式 159
6.2.2 数据分发方式 160
6.2.3 数据集成技术 160
6.3 ETL 161
6.3.1 ETL简介 161
6.3.2 ETL基本模块 162
6.3.3 ETL模式 163
6.3.4 ETL工具 164
6.4 CDC 165
6.4.1 CDC的特性 165
6.4.2 CDC的组成 166
6.4.3 CDC的具体应用场景 166
6.4.4 对于CDC需要思考和重视的问题 167
6.5 本章小结 168
6.6 习题 168
第7章 ETL工具Kettle 169
7.1 Kettle的基本概念 169
7.2 Kettle的基本功能 170
7.3 安装Kettle 172
7.4 数据抽取 174
7.4.1 把文本文件导入Excel文件 174
7.4.2 把文本文件导入MySQL数据库 179
7.4.3 把Excel文件导入MySQL数据库 183
7.5 数据清洗与转换 186
7.5.1 使用Kettle实现数据排序 187
7.5.2 在Kettle中用正则表达式清洗数据 189
7.5.3 使用Kettle去除缺失值记录 192
7.5.4 使用Kettle转化MySQL数据库中的数据 197
7.6 数据加载 203
7.6.1 把本地文件加载到HDFS中 203
7.6.2 把HDFS文件加载到MySQL数据库中 208
7.7 本章小结 212
7.8 习题 212
实验5 熟悉Kettle的基本使用方法 212
第8章 使用Pandas进行数据清洗 215
8.1 NumPy的基本使用方法 215
8.1.1 数组创建 215
8.1.2 数组索引和切片 217
8.1.3 数组运算 218
8.1.4 数组对象的常用函数 218
8.2 Pandas的数据结构 221
8.2.1 Series 221
8.2.2 DataFrame 224
8.2.3 索引对象 228
8.3 Pandas导入导出数据 229
8.3.1 导入与导出Excel文件 229
8.3.2 导入与导出CSV文件 230
8.3.3 导入与导出TXT文件 231
8.3.4 将数据导入与导出MySQL数据库 231
8.4 Pandas的基本功能 233
8.4.1 数据拆分与合并 233
8.4.2 重新索引 237
8.4.3 丢弃指定轴上的项 239
8.4.4 索引、选取和过滤 240
8.4.5 算术运算 241
8.4.6 DataFrame和Series之间的运算 241
8.4.7 函数应用和映射 242
8.4.8 排序和排名 243
8.4.9 分组 246
8.4.10 其他常用函数 248
8.5 汇总和描述统计 251
8.5.1 与描述统计相关的函数 251
8.5.2 唯一值、值计数及成员资格 253
8.6 处理缺失数据 254
8.6.1 检查缺失值 255
8.6.2 清理/填充缺失值 255
8.6.3 排除缺少的值 256
8.7 清洗格式内容 257
8.7.1 删除字符串中的空格 257
8.7.2 清洗大小写混用 258
8.8 综合实例 258
8.8.1 Matplotlib的使用方法 258
8.8.2 实例1:对食品数据集进行基本操作 261
8.8.3 实例2:对电影数据集进行清洗 262
8.8.4 实例3:百度搜索指数分析 263
8.8.5 示例4:B站数据分析 265
8.8.6 实例5:电影评分数据分析 270
8.8.7 实例6:App行为数据预处理 273
8.9 本章小结 281
8.10 习题 281
实验6 Pandas数据清洗初级实践 281
参考文献 284

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

林子雨,男,博士,国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版12本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2300万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。

推荐用户

购买本书用户

相关图书

  • 大数据与人工智能导论(通识课版)

    本书紧紧围绕通识教育核心理念,系统介绍大数据、人工智能、云计算、物联网、区块链、元宇宙等技术的相关知识,旨在培...

    ¥59.80
  • 数字素养通识教程

    本书详细阐述了培养具有数字素养的综合型人才所需要的相关知识。作为通识类课程教材,本书在确定知识布局时,紧紧围绕...

    ¥59.80
  • 机器学习原理与应用

    本书是机器学习的入门教材,讲述机器学习的主流算法原理及其应用。全书着重对线性回归、Logistic回归、朴素贝...

    ¥69.80
  • Python大数据财务处理与分析(微课版)

    王宇韬

    本书将引导读者进入Python大数据财务分析的领域,从基础知识入手,逐步深入到高级应用。通过对本书内容的学习和...

    ¥59.80
  • 深度学习案例实战

    赵卫东

    本书涵盖多个领域的深度学习应用案例,旨在通过具体的案例阐述典型深度学习算法在图像分类、声音识别、目标检测等多个...

    ¥52.00
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部