关于本书的内容有任何问题,请联系 人邮社 王宣
第1章 数据科学概论 1 1.1 数据与大数据 1 1.2 大数据应用案例——从数据到知识,数据思维浅析 2 1.2.1 数据密集型科学发现 3 1.2.2 电子商务与推荐技术 5 1.2.3 网络舆情管理 6 1.2.4 数据思维 7 1.3 数据科学与数据科学家 7 1.4 数据科学与大数据技术课程的内容体系与具体内容 11 1.5 思考题 12 第2章 Python语言与数据科学 13 2.1 Python概述 13 2.2 Python开发环境配置 14 2.3 变量、常量和注释 16 2.4 数据类型 16 2.4.1 布尔型 17 2.4.2 整数 17 2.4.3 浮点数 17 2.4.4 字符串 17 2.4.5 列表 18 2.4.6 元组 19 2.4.7 字典 19 2.5 运算符及其优先级、表达式 20 2.6 程序的基本结构 21 2.6.1 顺序结构 21 2.6.2 分支结构 22 2.6.3 循环结构 22 2.6.4 编写完整的程序 23 2.6.5 程序实例:二分查找 24 2.7 函数以及库函数 24 2.8 面向对象编程 27 2.8.1 构造函数 28 2.8.2 对象的摧毁和垃圾回收 28 2.8.3 继承 28 2.8.4 重写 28 2.9 异常处理 29 2.10 第三方库和实例 29 2.10.1 机器学习库scikit-learn简介 30 2.10.2 深度学习库Keras简介 30 2.10.3 绘图库matplotlib简介 30 2.10.4 社交网络与图数据处理库networkX简介 31 2.10.5 自然语言处理库NLTK简介 31 2.10.6 pandas库入门 31 2.11 思考题 38 第3章 数据分析基础 39 3.1 数据模型 39 3.1.1 数组 39 3.1.2 图 42 3.1.3 关系模型 44 3.1.4 时序模型 45 3.2 数据分析流程与数据生命期 45 3.2.1 业务理解 45 3.2.2 数据理解 46 3.2.3 数据准备 46 3.2.4 建模 46 3.2.5 评估 47 3.2.6 部署 47 3.3 数据分析的基础方法 47 3.3.1 描述性分析 47 3.3.2 诊断性分析 48 3.3.3 预测性分析 48 3.3.4 规范分析 49 3.4 大数据平台 49 3.4.1 Hadoop 49 3.4.2 Hive 51 3.4.3 Mahout 52 3.4.4 Spark 52 3.4.5 Storm 53 3.4.6 Flink 53 3.4.7 Neo4j 54 3.5 思考题 54 第4章 数据可视化 55 4.1 可视化的定义 55 4.2 可视化发展历程 55 4.3 可视化的意义和价值 57 4.4 数据可视化的流程 59 4.5 常见可视化图表 59 4.5.1 柱状图 60 4.5.2 折线图 61 4.5.3 饼图 61 4.5.4 散点图 61 4.5.5 雷达图 61 4.6 可视化图表工具 62 4.7 思考题 64 第5章 数据分析与计算 65 5.1 机器学习简介 65 5.2 分类 67 5.2.1 支持向量机 67 5.2.2 决策树 70 5.2.3 朴素贝叶斯方法 72 5.2.4 K最近邻(KNN)算法 75 5.2.5 逻辑斯蒂回归 76 5.2.6 分类算法的实例 77 5.3 聚类 81 5.3.1 K-Means算法 81 5.3.2 DBSCAN算法 83 5.3.3 聚类实例 85 5.4 回归 88 5.4.1 线性回归与多元线性回归 88 5.4.2 回归实例 90 5.5 关联规则分析 92 5.5.1 关联规则分析 92 5.5.2 关联规则分析实例 95 5.6 推荐 97 5.6.1 基于用户的协同过滤推荐 98 5.6.2 基于项目的协同过滤推荐 100 5.7 神经网络与深度学习 101 5.7.1 神经网络 101 5.7.2 深度学习 104 5.7.3 神经网络与深度学习实例 112 5.8 云计算平台与主流大数据平台 119 5.8.1 云计算平台 119 5.8.2 Hadoop大数据处理平台与MapReduce计算模型 121 5.8.3 Spark大数据处理平台与DAG计算模型 128 5.9 思考题 134 第6章 文本分析 135 6.1 文本分析的背景和意义 135 6.2 文本表达 136 6.2.1 单词的局域性表示和分布式表示 136 6.2.2 基于话题模型的文本表示 139 6.2.3 基于词嵌入的文本表示 139 6.3 文本聚类 140 6.3.1 聚类分析问题描述 141 6.3.2 常用聚类算法 142 6.4 文本分类 144 6.4.1 分类问题定义 144 6.4.2 主要文本分类方法 144 6.5 思考题 149 第7章 数据存储与管理 150 7.1 数据管理的初级阶段——文件管理 150 7.2 层次数据库和网状数据库 151 7.3 关系数据库管理系统 153 7.3.1 关系数据模型 153 7.3.2 数据操作 154 7.3.3 事务处理、并发控制和恢复技术 155 7.3.4 SQL入门 156 7.4 NoSQL数据库 160 7.4.1 CAP理论与NoSQL数据库 160 7.4.2 Key Value数据库 161 7.4.3 Column Family数据库 164 7.4.4 Document数据库 165 7.4.5 Graph数据库 166 7.5 NewSQL及其代表VoltDB 167 7.5.1 事务的串行执行 167 7.5.2 通过存储过程存取数据库 167 7.5.3 数据分区策略考虑尽量避免跨节点数据通信 168 7.5.4 命令日志与恢复技术 168 7.6 思考题 168 第8章 数据采集与集成 170 8.1 数据采集 170 8.1.1 数据采集的重要因素 171 8.1.2 推-拉机制 171 8.1.3 发布-订阅机制 172 8.1.4 大数据收集系统 172 8.1.5 自定义连接器 173 8.2 信息抽取 173 8.2.1 信息抽取概述 174 8.2.2 半结构化数据和非结构化数据 174 8.2.3 信息抽取的关键技术 176 8.3 数据清洗 178 8.3.1 数据清洗的定义及对象 178 8.3.2 数据清洗原理 179 8.3.3 数据清洗方法 179 8.4 数据集成 181 8.4.1 数据集成概述 182 8.4.2 数据集成方法 183 8.4.3 数据集成的数据源异构问题 186 8.5 思考题 188 第9章 数据治理 189 9.1 数据治理的业务驱动力 189 9.2 数据治理的概念 190 9.3 数据治理的目标 191 9.3.1 实现价值 191 9.3.2 管控风险 192 9.4 数据治理的要素和框架 192 9.4.1 人员要素 194 9.4.2 技术要素 196 9.5 数据治理的实践 201 9.5.1 各个业务子系统的建设和数据治理同步推进 201 9.5.2 建立数据治理的组织机构,确定数据治理战略/政策和标准 201 9.5.3 规划具体的数据治理任务 201 9.5.4 开展数据治理工作 202 9.5.5 数据治理的评价 203 9.6 大数据时代数据治理的挑战 203 9.7 思考题 204 第10章 数据科学综合案例 205 10.1 利用现成分类器对Twitter数据集进行情感分类 206 10.2 如何自行构造一个文本分类器 209 10.3 综合实例 218 10.4 思考题 232 参考文献 233
本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...
本书是面向PHP语言和MySQL数据库初学者的一本入门教材,使用通俗易懂的语言、丰富的图解和实用的案例,详细讲...
本书为Java基础入门教材,适合初学者使用。全书共13章,第1~2章主要讲解Java技术的一些基础知识,内容包...
本书全面、系统地介绍银河麒麟桌面操作系统的基础知识、WPS Office的基本操作,以及其他信息技术的相关内容...
本书基于openEuler(22.03 LTS SP3版)国产操作系统和OpenStack(Train版)云计...
我要评论