当下,我们处在一个数据为王的时代。若要在政府部门、金融机构、各行业企业、非营利组织等机构的决策和运营中体现出数据的价值,数据挖掘是相关从业人员所需的基本技能。时代对于数据挖掘人才有着旺盛需求,因而也迫切需要能系统并深入浅出地普及数据挖掘知识和实际操作技能的教材。本书旨在回应这样的需求。
作者基于十多年给北京大学各学科的学生讲授数据挖掘课程的经验,设计了本书的架构。在数据挖掘理论和方法的讲解部分,本书首先介绍数据挖掘的框架和方法论,接着介绍在应用模型之前的数据理解和数据准备,然后介绍关联规则挖掘和聚类分析这两种无监督数据挖掘方法,以及线性模型和广义线性模型、神经网络、决策树、基于决策树的模型组合这些有监督数据挖掘方法,最后介绍模型的评估与比较。在介绍这些知识时,作者尽量使用深入浅出的语言,说明相关理论或方法的基本要素,避免赘述过于繁杂或难度过高的技术细节。
本书同时着重介绍基于 R 语言的数据挖掘实战,并使用基于 R 语言的数据挖掘案例贯穿全书。另外,在案例部分还注重连贯性。例如,本书多章的正文实践示例部分使用了同一套关于移动运营商的数据,以便读者能够基于对这套数据的分析了解数据挖掘的全过程。最后一章的正文部分还展示了另一个基于 R 语言的数据挖掘大案例。本书多章的上机实验部分使用了同一套关于电影的数据,习题部分使用了同一套关于心脏病研究的数据。
感谢狗熊会邀请我加入系列教材的开发工作,使我有机会梳理多年的数据挖掘教学经验。感谢北京大学光华管理学院的高钰静和北京大学前沿交叉学科研究院大数据科学研究中心的徐铖,他们为本书的小部分内容写了初稿。也感谢本书的编辑们(尤其是武恩玉女士),他们一丝不苟的工作提升了本书的质量。
张俊妮
2020 年 7 月
于北大燕园
我要评论