随着海量网络信息的增长和互联网技术的发展,人们对信息获取的需求日益增大。大数据是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要经过新处理模式进行处理才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这些错综复杂的数据需通过数据采集技术进行收集。数据采集作为数据分析生命周期的重要一环,是需要首先了解并掌握的技术。大数据需要经过处理才能成为自己需要的数据。现实中的数据大体上都是不完整、不一致的脏数据,无法直接进行数据掘,或挖掘结果差强人意。为了提高数据挖掘的质量,产生了数据预处理技术。数据预处理有多种方法,包括数据清理、数据集成、数据变换、数据归约等。在数据挖掘之前使用这些数据处理技术,大大提高了数据挖掘的质量,降低了实际挖掘所需要的时间。在数据处理方面,Python 是数据科学家比较喜欢的语言之一。这是因为 Python 本身就是一门工程性语言,数据科学家用 Python 实现的算法可以直接用在产品中。这非常有助于大数据初创公司节省成本。
本书将 Python 与大数据的处理和分析进行整合。首先介绍数据的采集,使读者能够从不同的领域采集到想要的数据。然后讲解数据清洗,使读者能够在拥有一定 Python 基础的情况下把采集到的“脏”数据“洗掉”。在处理数据前,还需要对数据进行规整和聚合,以便于后续的大数据分析。最后通过三个使用 Python 对数据进行采集与预处理的案例,使读者对 Python 处理大数据有更直观的认识,实现理论与实践的有机结合。
本书非常适合开设 Python 或者大数据技术相关课程的高校作为教材,也适合从事Python 与大数据技术相关工作的人员使用。在学习本书之前,读者需要具备一定的计算机体系结构和计算机编程语言的基础。
本书共 8 章,分为基础篇和实例篇。基础篇为第 1~5 章,实例篇为第 6~8章。第 1 章是概述,主要介绍了数据采集与预处理的基本概念。第 2 章是数据采集与数据存储,主要介绍了如何采集数据、什么是网络爬虫及如何存储数据。第 3章是数据采集进阶,主要介绍了 AJAX 数据的抓取、使用 Selenium 抓取动态页面、Scrapy 爬虫框架。第 4 章是数据清洗,主要介绍了数据清洗的概念、缺失数据处理、异常值和重复值、数据转换。第 5 章是数据规整与分组聚合,主要介绍了数据规整的方法以及处理好数据后如何对数据进行分组聚合。第 6 章通过案例“豆瓣电影排行榜数据”介绍了数据抓取与预处理实战。第 7 章通过案例“股评数据”介绍了数据采集与可视化实战。第 8 章通过案例“房产数据”,介绍了数据处理实战。
本书由成都信息工程大学安俊秀教授、重庆师范大学徐传运副教授和成都信息工程大学的学生戴宇睿、陈金鹏等共同编写。其中第 1 章由邓鹏飞、安俊秀编写;第 2 章由税佳艺、徐传运编写;第 3 章由陈金鹏、李硕阳编写;第 4 章由谢雨江、徐传运编写;第 5 章由陈金鹏、蒋思畅编写;第 6 章、第 7 章、第 8 章由戴宇睿、安俊秀编写。安俊秀、戴宇睿、陈宏松、岳希对本书进行了审校。本书的编写和出版还得到了国家自然科学基金项目(No.71673032)的支持。
尽管在本书的编写过程中,编者力求严谨、准确,但由于技术的发展日新月异,加之编者水平有限,书中难免存在疏漏和不足之处,敬请广大读者批评指正。
我要评论