大数据技术精品系列教材

大数据开发项目实战

浙江省普通本科高校“十四五”重点教材,贯穿讲解一个大数据的实战项目
分享 推荐 2 收藏 82 阅读 6.0K
祝锡永 , 张良均 (主编) 陈小伟 , 胡军浩 , 王爱国 (副主编) 978-7-115-59804-2

关于本书的内容有任何问题,请联系 初美呈

1. 以任务为导向,实现大数据项目开发全流程操作
2. 随书附带案例数据及代码,方便读者系统学习并动手实践
3. 实现企业实际项目,综合性强
4. 包括数据采集、数据分析、数据存储、数据可视化等多个模块

内容摘要

本书以项目案例为导向,贯穿讲解一个大数据的实战项目:广电大数据用户画像。全书共8章,具体内容包括大数据项目概述、Hadoop生态组件基础、广电大数据用户画像——需求分析、广电大数据用户画像——数据采集与预处理、广电大数据用户画像——实时统计订单信息、广电大数据用户画像——用户标签计算与可视化、广电大数据用户画像——任务调度实现、基于TipDM大数据挖掘建模平台实现广电大数据用户画像。本书从项目需求探索、技术选型、架构设计、集群安装部署与集成开发以及项目开发进行实战讲解,有助于读者综合运用大数据技术知识和各种工具软件,实现大数据项目开发全流程操作。
本书可以作为高校大数据技术类专业的大数据项目实训课程的教材,也可以作为大数据技术爱好者的自学用书。

目录

第 1章 大数据项目概述 1
学习目标 1
1.1 企业大数据项目简介 1
1.1.1 数据处理流程 1
1.1.2 架构分析 2
1.1.3 人员安排 5
1.2 大数据项目实战基础 5
1.2.1 实战环境 5
1.2.2 涉及的技术及需掌握的能力 11
小结 20

第 2章 Hadoop生态组件基础 21
学习目标 21
2.1 Hadoop基础 21
2.1.1 Hadoop概述 21
2.1.2 Hadoop集群安装与配置 25
2.1.3 Hadoop框架组成 36
2.1.4 Hadoop应用实践 42
2.2 Hive基础 45
2.2.1 Hive概述 45
2.2.2 Hive安装与配置 46
2.2.3 Hive体系架构 50
2.2.4 Hive应用实践 54
2.3 Spark基础 58
2.3.1 Spark概述 59
2.3.2 Spark集群安装与配置 63
2.3.3 Spark集群架构 66
2.3.4 Spark应用实践 67
小结 69

第3章 广电大数据用户画像——需求分析 70
学习目标 70
3.1 项目需求 70
3.1.1 项目背景 70
3.1.2 项目目标 71
3.2 需求探索 71
3.2.1 数据说明 71
3.2.2 基础探索 76
3.2.3 业务需求探索 84
3.3 技术方案 96
3.3.1 技术选型 96
3.3.2 系统架构 98
小结 99

第4章 广电大数据用户画像——数据采集与预处理 101
学习目标 101
4.1 业务数据 101
4.1.1 生产数据来源 101
4.1.2 模拟产生业务数据 102
4.2 数据存储与传输 119
4.2.1 Elasticsearch数据传输到Hive 119
4.2.2 用户画像标签结果保存到MySQL 133
4.3 基础数据预处理 135
小结 141

第5章 广电大数据用户画像——实时统计订单信息 142
学习目标 142
5.1 实时统计目标 142
5.2 Kafka安装和配置 142
5.3 实时统计订单信息 144
5.3.1 模拟产生订单实时数据流 144
5.3.2 Spark Streaming实时统计订单信息 146
小结 151

第6章 广电大数据用户画像——用户标签计算与可视化 152
学习目标 152
6.1 SVM预测用户是否值得挽留 152
6.1.1 SVM算法 152
6.1.2 构建特征列和标签列数据 153
6.1.3 建立SVM模型 159
6.1.4 模型评估 160
6.1.5 模型预测 161
6.1.6 整体实现及参数封装 163
6.2 用户画像 168
6.2.1 用户画像概述 169
6.2.2 标签计算 170
6.2.3 用户画像工程实现 179
6.3 用户画像可视化 188
6.3.1 用户画像可视化简介 188
6.3.2 可视化工程实现 188
6.3.3 结果展示 192
小结 195

第7章 广电大数据用户画像——任务调度实现 196
学习目标 196
7.1 调度策略 196
7.2 调度实现 199
小结 227

第8章 基于TipDM大数据挖掘建模平台实现广电大数据用户画像 229
学习目标 229
8.1 平台简介 229
8.1.1 模板 230
8.1.2 数据空间 231
8.1.3 我的项目 232
8.1.4 系统组件 232
8.1.5 个人组件 234
8.1.6 访问TipDM大数据挖掘建模平台的方式 234
8.2 广电大数据用户画像开发 234
8.2.1 数据源配置 236
8.2.2 数据探索 238
8.2.3 数据处理 239
8.2.4 用户画像 241
小结 249

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

祝锡永,男,现为浙江理工大学管理科学与工程教授,管理科学与工程系主任,信息管理与信息系统专业负责人,国家级双万一流专业建设点负责人。主讲课程:数据库原理与应用、软件开发工具、管理信息系统、数据挖掘与应用。主要研究方向:信息系统开发工具与技术、数据库技术、知识管理与商务智能
张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。

推荐用户

同系列书

  • Power BI数据分析与可视化(第2版)(微课版)

    陈翠松 张良均 潘强 曾确令 张尚佳

    本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...

    ¥49.80
  • 大数据导论

    林涛 张良均 李微 葛苏慧 胡晓东

    本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...

    ¥49.80
  • Spark大数据分析实务

    郑浩森 张荣 张良均 杨树例 陈国珍

    本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...

    ¥59.80
  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80

购买本书用户

相关图书

  • ECharts数据可视化

    本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...

    ¥59.80
  • 区块链技术及应用(微课版)

    郝兴伟 梁志勇

    为了适应Web 3.0时代下区块链技术发展的新趋势,同时培养高素质的区块链技术人才,编者精选了区块链的相关内容...

    ¥69.80
  • Python编程基础(项目式微课版)

    王健

    本书根据高等院校应用技术型人才培养的目标编写,适合案例学习和模块化教学相结合的教学方式。本书以真实企业开发案例...

    ¥56.00
  • 人工智能云平台部署与开发(微课版)

    易海博

    本书涵盖云计算和人工智能两大领域的内容,着重讲解人工智能应用在云平台上的部署与开发。全书共7个项目,分别介绍云...

    ¥49.80
  • 云计算导论(微课版)

    荆于勤 石慧霞 吴锡微 龚秀波 姚骏屏

    本书是一本全面介绍云计算基本概念、常用技术与应用的项目化教材。本书分为3篇,分别是初识云计算、体验云计算和业务...

    ¥59.80
单击此处加入人邮社数据科学教师服务群(大数据&人工智能&区块链),共同探讨交流
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部