Python网络爬虫(Scrapy框架)

Python网络爬虫(Scrapy框架)
分享 推荐 10 收藏 332 阅读 9.2K
北京课工场教育科技有限公司 (作者) 978-7-115-52729-5

关于本书的内容有任何问题,请联系 祝智敏

(1)采用逆向课程设计法不断迭代优化课程,促进应用型人才培养。
(2)任务驱动讲解技能点和知识点,助力读者融会贯通、举一反三。
(3)贯穿项目与实战项目相结合,极大提升读者项目开发实战能力。
(4)体系化学习路径、在线资源及交流社区,实现跨媒体终身学习。

特别说明

1.以企业需求为设计导向。满足企业对人才的技能需求是本系列丛书的核心设计原则,课工场大数据开发教研团队通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析,实现对技术的准确定位,达到课程与企业需求的高契合度。
2.以任务驱动为讲解方式。本书中的知识点和技能点均由任务驱动,读者在学习知识时不仅可以知其然,而且可以知其所以然,帮助读者融会贯通、举一反三。
3.以实战项目来提升技术。本书设置项目实战环节,以综合运用书中的知识点帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。
4.以“互联网+”实现终身学习。本书可配合课工场App进行二维码扫描,来观看配套视频的理论讲解和案例操作,同时课工场在线开辟教材配套版块,提供案例代码及案例素材下载。此外,课工场还为读者提供了体系化的学习路径、丰富的在线学习资源和活跃的学习社区,方便读者随时学习。

内容摘要

互联网上存在着大量值得收集的公共信息,而爬虫技术就是获取这些公共信息的主要工具。本书以主流的Scrapy爬虫框架为例,介绍了Python网络爬虫的组成、爬虫框架的使用以及分布式爬虫等内容。本书运用了大量案例和实践,融入了含金量十足的开发经验,使得内容紧密结合实际应用。在此基础上,本书还通过丰富的练习和操作实践,帮助读者巩固所学的内容。本书配以多元的学习资源和支持服务,包括视频、案例素材、学习社区等,为读者提供全方位的学习体验。
本书适合作为计算机、大数据等相关专业的教材,也适合具有一定Linux或Python开发基础的人员阅读,还可以作为爬虫工程师的学习用书。

本书内容架构图

目录

第1章 使用第三方库实现信息抓取 1
任务1 使用第三方库实现北京公交站点页面信息抓取 2
1.1.1 介绍爬虫 2
1.1.2 HTTP 5
1.1.3 HTML 9
1.1.4 使用第三方库实现爬虫功能 10
1.1.5 技能实训 14
任务2 使用第三方库实现北京公交站点详细信息抓取 14
1.2.1 lxml库 14
1.2.2 第三方库数据抓取及保存 17
1.2.3 技能实训 19
本章小结 19
本章作业 20

第2章 初探Scrapy爬虫框架 21
任务1 安装Scrapy爬虫框架并创建爬虫工程 22
2.1.1 根据使用场景划分爬虫种类 22
2.1.2 开发基于Scrapy爬虫框架的工程 25
任务2 学习并掌握Scrapy爬虫框架各模块的功能 30
2.2.1 Scrapy爬虫工程组成 30
2.2.2 Scrapy爬虫框架架构 34
本章小结 36
本章作业 36

第3章 提取网页数据 37
任务1 使用Scrapy的选择器提取豆瓣电影信息 38
3.1.1 Response对象 38
3.1.2 css选择器 42
3.1.3 多层级网页爬取 44
3.1.4 技能实训 49
任务2 使用正则表达式从电影介绍详情中提取指定信息 50
3.2.1 正则表达式 50
3.2.2 技能实训 55
本章小结 55
本章作业 55

第4章 Scrapy数据保存(文件、MySQL、MongoDB) 57
任务一 使用Feed exports将爬取的电影信息保存到常见数据格式文件中 58
4.1.1 Feed exports 58
4.1.2 技能实训 62
任务2 使用pipeline将爬取的电影信息数据保存到数据库中 63
4.2.1 Python操作MySQL数据库 63
4.2.2 pipeline模块 66
4.2.3 将数据保存到MongoDB中 68
4.2.4 技能实训 73
本章小结 73
本章作业 73

第5章 Scrapy反反爬技术 75
任务1 学习反爬虫和反反爬虫策略 76
5.1.1 反爬虫方法和反反爬虫策略 76
5.1.2 Scrapy设置实现反反爬 78
5.1.3 技能实训 85
任务2 学习Scrapy框架中更多常用的设置 86
5.2.1 抓取需要登录的网站 86
5.2.2 Scrapy常用扩展设置 90
本章小结 91
本章作业 91

第6章 Selenium+浏览器加载动态数据 93
任务一 使用Selenium和第三方浏览器驱动完成搜狐网页信息爬取 94
6.1.1 静态网页与动态网页 94
6.1.2 爬虫抓取动态网页的常用方法 98
6.1.3 Selenium+Chrome driver 100
6.1.4 技能实训 102
任务二 使用Selenium+Chrome+Scrapy完成京东商品信息爬取 102
6.2.1 Selenium的使用 102
6.2.2 Selenium提高效率的方法 108
6.2.3 技能实训 111
本章小结 111
本章作业 111

第7章 App数据爬取 113
任务一 使用Scrapy爬虫框架爬取雪球App基金频道新闻列表数据 114
7.1.1 App数据爬取介绍 114
7.1.2 App数据接口分析方法 116
7.1.3 使用Scrapy爬取App数据 126
7.1.4 技能实训 129
任务2 使用Scrapy爬虫框架爬取知乎App推荐栏目列表数据 129
7.2.1 爬取使用证书校验技术的App数据 130
7.2.2 技能实训 134
本章小结 134
本章作业 134

第8章 分布式爬虫Scrapy-Redis 135
任务1 搭建分布式爬虫运行环境 136
8.1.1 分布式爬虫框架介绍 136
8.1.2 搭建分布式爬虫运行环境 140
任务2 使用分布式爬虫完成对火车信息的爬取 147
8.2.1 Scrapy-Redis分布式爬虫 147
8.2.2 技能实训 153
本章小结 153
本章作业 154

第9章 Python数据分析 155
任务1 使用Pandas统计招聘信息中城市名称出现的次数 156
9.1.1 Python数据分析 156
9.1.2 NumPy 159
9.1.3 Pandas 163
9.1.4 技能实训 170
任务2 使用Matplotlib实现招聘信息中城市名称出现次数的可视化展示 170
9.2.1 数据可视化 170
9.2.2 技能实训 174
本章小结 174
本章作业 174

第10章 项目实训——爬取招聘网站数据 175
10.1 项目准备 176
10.2 难点分析 180
10.3 项目实现思路 187
本章小结 199
本章作业 199

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

肖睿,课工场创始人,北京大学教育学博士,北京大学软件学院特约讲师,北京大学学习科学实验室特约顾问。作为北大青鸟 Aptech 的联合创始人,历任学术总监、研究院院长、公司副总裁等核心岗位,拥有20多年的IT职业教育产品管理和企业管理经验。于2015年创办课工场,兼任总经理,旨在为大学生提供更可靠的 IT 就业教育及服务。

购买本书用户

相关图书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部