大数据技术精品系列教材

ETL数据整合与处理(Kettle)(第2版)(微课版)

ETL、大数据、Kettle、数据分析
分享 推荐 0 收藏 0 阅读 22
郑健 , 张良均 (主编) 肖佳 , 李文彪 , 温俊杰 (副主编) 978-7-115-66547-8

关于本书的内容有任何问题,请联系 初美呈

真实案例贯穿全书,理论与实践相结合。本书以ETL数据整合与处理流程为主线,以食品销售数据处理为案例,使用常见的数据处理方法,通过图文并茂的方式介绍数据处理的过程。
以项目业务为导向,实现项目数据的处理。本书针项目数据的各种问题,如重复数据、源数据来源不一、数据不一致、数据缺失、数据计算与统计等问题,从任务介绍到使用方法,再到处理流程都进行了详细介绍,让读者明确如何利用所学知识和方法来解决问题,并通过实训和课后习题巩固所学知识,帮助读者理解并应用ETL技术。
注重细节和流程,采用渐进式教学。本书采用项目任务的方式,大部分章节是以项目任务为开端,分析目标,划为任务,构建任务实现的处理流程,并注重对读者思路的启发,以及任务细节的解决方法。通过对数据整合与处理任务全流程的体验,使得读者真正能够掌握ETL的相关知识和技术,并完成项目任务。

内容摘要

本书以Kettle工具实现ETL流程为目标,将ETL知识点与项目任务相结合,配套真实的案例,按照ETL的流程,循序渐进地介绍了ETL数据整合与处理的相关内容。全书共6个项目,项目1介绍了ETL概念和ETL工具;项目2以食品销售数据为例,介绍了获取不同类型源数据的方法,并说明了它们之间的差别;项目3以整合和处理某供应链的食品销售数据为案例,从获取多份源数据开始,经过数据清洗、删除、合并、去重、排序、过滤和输出等一系列与ETL流程相匹配的任务操作,整合和处理成一份符合项目阶段目标要求的数据,能帮助读者快速理解和掌握ETL;项目4以项目3的阶段目标数据作为源数据,介绍了如何进行数据计算和统计的方法,并将统计结果输出到不同类型的数据文件中,帮助读者从业务上理解数据计算和统计的要求,以及结果输出;项目5介绍了Kettle的任务执行方式,构建任务操作流程,设定调度时间,自动执行项目3整合和处理食品销售数据的任务;项目6介绍了无人售货机ETL项目,通过项目案例的形式,帮助读者将所学知识融会贯通。

目录

目录

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

郑健,武昌职业学院,担任专职教师、如软件技术、信息安全技术应用专业教研室主任。获得软件著作权2项,专利2项;2023年“湖北工匠杯”职业技能大赛-计算机软件工程技术人员赛项一等奖,获得“湖北省技术能手”称号;2023年第五届全国高校计算机能力挑战赛评为“优秀指导教师”“优秀组织者”;第二十二届武汉市职业技能大赛暨2021年武汉市职业院校技能大赛,指导学生获得一等奖,并获得“优秀指导教师”称号;2021、2022、2023、2024年连续4年获得新华三全国大学生数字技术大赛“优秀指导教师”。

同系列书

  • Python数据分析与实战(微课版)

    赵男男 邹平辉 张良均 王宏刚 陈慕君

    本书全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全...

    ¥59.80
  • Power BI数据分析与可视化(第2版)(微课版)

    陈翠松 张良均 潘强 曾确令 张尚佳

    本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...

    ¥49.80
  • 大数据导论

    林涛 张良均 李微 葛苏慧 胡晓东

    本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...

    ¥49.80
  • Spark大数据分析实务

    郑浩森 张荣 张良均 杨树例 陈国珍

    本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...

    ¥59.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部