关于本书的内容有任何问题,请联系 许金霞
目录 第 1章 R语言数据分析概述 1 1.1 认识数据分析 1 1.1.1 为什么要对数据做分析 1 1.1.2 数据分析的流程 1 1.2 R语言的简介及安装 2 1.2.1 R语言简介 2 1.2.2 R语言的安装 3 1.2.3 其他辅助工具 3 1.2.4 R语言快速上手 4 1.3 小结 9 1.4 本章练习 9 第 2章 R语言数据操作基础 11 2.1 R语言数据类型 11 2.1.1 数据类型判断及转换 11 2.1.2 日期类型数据处理 12 2.2 R语言数据对象 16 2.2.1. 向量 16 2.2.2. 矩阵和数组 20 2.2.3 因子 22 2.2.4 列表和数据框 24 2.3 文本处理 25 2.3.1 基础文本处理 25 2.3.2 stringr扩展包 33 2.4 小结 37 2.5 本章练习 37 第3章 R语言数据读写 39 3.1 文本文件读写 39 3.1.1 base包 39 3.1.2 readr包 43 3.1.3 data.table包 46 3.2 Excel文件读写 48 3.2.1 xlsx包 50 3.2.2 XLConnect包 54 3.2.3 openxlsx包 56 3.2.4 readxl包 59 3.3 数据库文件读写 60 3.3.1 RODBC包 61 3.3.2 RMySQL包 65 3.4 本章小结 67 3.5 本章练习 67 第4章 数据基本管理 68 4.1 数据去重 68 4.2 数据排序 69 4.3 数据筛选 71 4,4 数据合并 73 4.5 数据关联 75 4.6 数据转换 78 4.7 融合重铸 79 4.8 数据聚合 81 4.9 数据分组 83 4.10 本章小结 84 4.11 本章练习 85 第5章 数据预处理 86 5.1 数据抽样 86 5.1.1 数据抽样的必要性 86 5.1.2 类失衡处理方法:SMOTE 86 5.1.3 数据随机抽样:sample函数 87 5.1.4 数据等比抽样:createDataPartition函数 88 5.1.5 用于交叉验证的样本抽样 89 5.2 数据清洗 90 5.2.1缺失值判断及处理 90 5.2.2异常值判断处理 95 5.3 数据变换 99 5.3.1 数据分箱 99 5.3.2 数据标准化 100 5.4 数据哑变量处理 102 5.5 本章小结 104 5.6 本章练习 104 第6章 R语言重要绘图技术 105 6.1 图形三要素 105 6.1.1 颜色元素 105 6.1.2 文字元素 108 6.1.3 点线元素 109 6.2 低级绘图函数 111 6.2.1 标题 111 6.2.2 坐标轴 112 6.2.3 图例 113 6.2.4 网格线 115 6.2.5 点 116 6.2.6 文字 116 6.2.7 线 117 6.3 高级绘图函数 119 6.3.1 散点图 120 6.3.2 气泡图 122 6.3.3 线图 123 6.3.4 柱状图 124 6.3.5 饼图 125 6.3.6 直方图和密度图 125 6.3.7 箱线图 127 6.4 本章小结 127 6.5 本章练习 127 第7章 高级绘图工具 129 7.1 lattice绘图工具 129 7.1.1 绘图特色 129 7.1.2 基本图形 135 7.2 ggplot2绘图工具 139 7.1.1 从qplot开始 139 7.1.2 ggplot作图 146 7.1.3 ggplot2扩展包 149 7.3 交互式绘图工具 152 7.3.1 rCharts包 152 7.3.2 recharts包 154 7.3.3 rbokeh包 162 7.3.4 plotly包 164 7.4 本章小结 166 7.5 本章练习 166 第8章 聚类分析 168 8.1 概述 168 8.2 聚类距离度量 169 8.3 层次聚类 172 8.3.1 层次聚类原理 172 8.3.2 R语言实现 173 8.3.3 聚类树形图可视化 177 8.3.4 比较聚类树形图 186 8.4 K-均值聚类 190 8.4.1 K-均值聚类原理 190 8.4.2 R语言实现 190 8.5 K-中心点聚类 192 8.6 密度聚类 195 8.6.1 密度聚类原理 195 8.6.2 R语言实现 196 8.7 集群评估及验证 201 8.7.1 估计聚类趋势 201 8.7.2 确定数据集中的簇数 202 8.7.3 集群验证 204 8.8 本章小结 205 8.9 本章练习 205 第9章 理解回归分析 207 9.1 简单线性回归 207 9.1.1 简单线性回归原理 207 9.1.2 简单线性回归R语言实现 209 9.1.3 模型诊断及预测 211 9.1.4 指数变换 212 9.1.5 多项式回归 213 9.1.6 稳健线性回归 215 9.2 多元线性回归 216 9.3 自变量有定性变量的回归 217 9.4 逐步回归 219 9.5 多重共线性分析 221 9.6 线性回归的正则化 222 9.6.1 为什么要使用正则化 222 9.6.2 岭回归的原理 223 9.6.3 Lasso回归的原理 224 9.6.4 glmnet包简介 225 9.6.5 综合案例 228 9.7 逻辑回归 230 9.7.1 逻辑回归基本原理 230 9.7.2 逻辑回归的R实现 231 9.8 本章小结 234 9.9 本章练习 234 10.1 决策树概述 236 10.2 决策树基本原理 237 10.3 ID3算法 237 10.3.1 C4.5算法 240 10.3.2 CART算法 241 10.4 R语言实现及案例 243 10.4.1 R语言实现 243 10.4.2 C5.0案例 243 10.4.3 CART案例 247 10.4.4 条件推理决策树案例 254 10.4.5 绘制决策边界 256 10.5 集成学习与随机森林 258 10.6 本章小结 260 10.7 本章练习 260 第 11章 神经网络与支持向量机 262 11.1 理解神经网络 262 11.1.1 激活函数 262 11.1.2 网络结构 265 11.1.3 人工神经网络的主要类型 265 11.2 神经网络的R语言实现 266 11.3 基于神经网络进行类别预测 269 11.4 理解支持向量机 275 11.5 支持向量机的R语言实现 276 11.6 基于支持向量机进行类别预测 278 11.7 本章小结 285 11.8 本章练习 285 12.1 模型性能评估 287 12.1.1 数值预测评估方法 287 12.1.2 概率预测评估方法 289 12.2 模型参数优化 298 12.2.1 训练集、验证集、测试集的引入 298 12.2.2 K折交叉验证 301 12.2.3 网格搜索 302 12.3 本章小结 304 12.4 本章练习 304
随着云计算技术的飞速发展,企业对容器编排和管理的需求日益增长,Kubernetes作为领先的开源容器编排平台,...
本书深入浅出地介绍数据分析的完整流程及Python实现,分为三篇共10章。第一篇为基础篇(第1章~第5章),包...
本书将Python程序设计的知识按由易到难、由浅入深的规律精心设计为12个模块,包括程序开发环境构建与数据输入...
本书注重零基础商科类专业读者实现Python数据分析的学习,加强读者基于数据分析而非常用的编程基础,本书是Py...
本书注重零基础商科类专业读者实现Python数据分析的学习,加强读者基于数据分析而非常用的编程基础。全书共11...
我要评论