R语言数据分析与挖掘(微课版)

R语言数据分析与挖掘
分享 推荐 0 收藏 58 阅读 3.4K
谢佳标 (作者) 978-7-115-58633-9

关于本书的内容有任何问题,请联系 许金霞

1.R语言实战派专家,又一力作
2.数据分析、数据管理及数据可视化,核心技能全掌握
3.配备视频,边学边做,数据分析轻松上手
4.本书可作为高等院校数据科学相关专业的教材,也可作为初级数据分析进行数据分析学习的指导书。

内容摘要

本书由浅入深,内容丰富。全书共11章,主要内容包括第1章R语言数据分析概述、第2章R语言数据操作基础、第3章数据读写、第4章数据预处理、第5章数据的描述统计分析、第6章 数据相关性分析、第7章 R语言可视化基础、第8章 高级可视化工具、第9章聚类分析、第10章关联规则、第11章分类及预测。
本书可作为高等院校数据科学相关专业的教材,也可作为初级数据分析进行数据分析学习的指导书。

目录

目录
第 1章 R语言数据分析概述 1
1.1 认识数据分析 1
1.1.1 为什么要对数据做分析 1
1.1.2 数据分析的流程 1
1.2 R语言的简介及安装 2
1.2.1 R语言简介 2
1.2.2 R语言的安装 3
1.2.3 其他辅助工具 3
1.2.4 R语言快速上手 4
1.3 小结 9
1.4 本章练习 9
第 2章 R语言数据操作基础 11
2.1 R语言数据类型 11
2.1.1 数据类型判断及转换 11
2.1.2 日期类型数据处理 12
2.2 R语言数据对象 16
2.2.1. 向量 16
2.2.2. 矩阵和数组 20
2.2.3 因子 22
2.2.4 列表和数据框 24
2.3 文本处理 25
2.3.1 基础文本处理 25
2.3.2 stringr扩展包 33
2.4 小结 37
2.5 本章练习 37
第3章 R语言数据读写 39
3.1 文本文件读写 39
3.1.1 base包 39
3.1.2 readr包 43
3.1.3 data.table包 46
3.2 Excel文件读写 48
3.2.1 xlsx包 50
3.2.2 XLConnect包 54
3.2.3 openxlsx包 56
3.2.4 readxl包 59
3.3 数据库文件读写 60
3.3.1 RODBC包 61
3.3.2 RMySQL包 65
3.4 本章小结 67
3.5 本章练习 67
第4章 数据基本管理 68
4.1 数据去重 68
4.2 数据排序 69
4.3 数据筛选 71
4,4 数据合并 73
4.5 数据关联 75
4.6 数据转换 78
4.7 融合重铸 79
4.8 数据聚合 81
4.9 数据分组 83
4.10 本章小结 84
4.11 本章练习 85
第5章 数据预处理 86
5.1 数据抽样 86
5.1.1 数据抽样的必要性 86
5.1.2 类失衡处理方法:SMOTE 86
5.1.3 数据随机抽样:sample函数 87
5.1.4 数据等比抽样:createDataPartition函数 88
5.1.5 用于交叉验证的样本抽样 89
5.2 数据清洗 90
5.2.1缺失值判断及处理 90
5.2.2异常值判断处理 95
5.3 数据变换 99
5.3.1 数据分箱 99
5.3.2 数据标准化 100
5.4 数据哑变量处理 102
5.5 本章小结 104
5.6 本章练习 104
第6章 R语言重要绘图技术 105
6.1 图形三要素 105
6.1.1 颜色元素 105
6.1.2 文字元素 108
6.1.3 点线元素 109
6.2 低级绘图函数 111
6.2.1 标题 111
6.2.2 坐标轴 112
6.2.3 图例 113
6.2.4 网格线 115
6.2.5 点 116
6.2.6 文字 116
6.2.7 线 117
6.3 高级绘图函数 119
6.3.1 散点图 120
6.3.2 气泡图 122
6.3.3 线图 123
6.3.4 柱状图 124
6.3.5 饼图 125
6.3.6 直方图和密度图 125
6.3.7 箱线图 127
6.4 本章小结 127
6.5 本章练习 127
第7章 高级绘图工具 129
7.1 lattice绘图工具 129
7.1.1 绘图特色 129
7.1.2 基本图形 135
7.2 ggplot2绘图工具 139
7.1.1 从qplot开始 139
7.1.2 ggplot作图 146
7.1.3 ggplot2扩展包 149
7.3 交互式绘图工具 152
7.3.1 rCharts包 152
7.3.2 recharts包 154
7.3.3 rbokeh包 162
7.3.4 plotly包 164
7.4 本章小结 166
7.5 本章练习 166
第8章 聚类分析 168
8.1 概述 168
8.2 聚类距离度量 169
8.3 层次聚类 172
8.3.1 层次聚类原理 172
8.3.2 R语言实现 173
8.3.3 聚类树形图可视化 177
8.3.4 比较聚类树形图 186
8.4 K-均值聚类 190
8.4.1 K-均值聚类原理 190
8.4.2 R语言实现 190
8.5 K-中心点聚类 192
8.6 密度聚类 195
8.6.1 密度聚类原理 195
8.6.2 R语言实现 196
8.7 集群评估及验证 201
8.7.1 估计聚类趋势 201
8.7.2 确定数据集中的簇数 202
8.7.3 集群验证 204
8.8 本章小结 205
8.9 本章练习 205
第9章 理解回归分析 207
9.1 简单线性回归 207
9.1.1 简单线性回归原理 207
9.1.2 简单线性回归R语言实现 209
9.1.3 模型诊断及预测 211
9.1.4 指数变换 212
9.1.5 多项式回归 213
9.1.6 稳健线性回归 215
9.2 多元线性回归 216
9.3 自变量有定性变量的回归 217
9.4 逐步回归 219
9.5 多重共线性分析 221
9.6 线性回归的正则化 222
9.6.1 为什么要使用正则化 222
9.6.2 岭回归的原理 223
9.6.3 Lasso回归的原理 224
9.6.4 glmnet包简介 225
9.6.5 综合案例 228
9.7 逻辑回归 230
9.7.1 逻辑回归基本原理 230
9.7.2 逻辑回归的R实现 231
9.8 本章小结 234
9.9 本章练习 234
10.1 决策树概述 236
10.2 决策树基本原理 237
10.3 ID3算法 237
10.3.1 C4.5算法 240
10.3.2 CART算法 241
10.4 R语言实现及案例 243
10.4.1 R语言实现 243
10.4.2 C5.0案例 243
10.4.3 CART案例 247
10.4.4 条件推理决策树案例 254
10.4.5 绘制决策边界 256
10.5 集成学习与随机森林 258
10.6 本章小结 260
10.7 本章练习 260
第 11章 神经网络与支持向量机 262
11.1 理解神经网络 262
11.1.1 激活函数 262
11.1.2 网络结构 265
11.1.3 人工神经网络的主要类型 265
11.2 神经网络的R语言实现 266
11.3 基于神经网络进行类别预测 269
11.4 理解支持向量机 275
11.5 支持向量机的R语言实现 276
11.6 基于支持向量机进行类别预测 278
11.7 本章小结 285
11.8 本章练习 285
12.1 模型性能评估 287
12.1.1 数值预测评估方法 287
12.1.2 概率预测评估方法 289
12.2 模型参数优化 298
12.2.1 训练集、验证集、测试集的引入 298
12.2.2 K折交叉验证 301
12.2.3 网格搜索 302
12.3 本章小结 304
12.4 本章练习 304

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

谢佳标,WOT “互联网+”大数据技术峰会演讲嘉宾,历届中国R语言大会演讲嘉宾,某知名科技公司高级数据分析师,8年以上数据挖掘建模工作实战经验,部分研究成果曾获得国家专利。 攥写《R语言与数据挖掘》、《R语言游戏数据分析》书籍。主要利用R语言进行大数据的挖掘和可视化工作。有丰富的利用R语言进行数据挖掘实战经验,同时也是公司R语言和数据分析培训的内部讲师。

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部