大数据技术精品系列教材

Python自然语言处理入门与实战

自然语言处理基础+新闻传媒方向实战
分享 推荐 3 收藏 127 阅读 9.9K
戴程 , 张良均 (主编) 李微,徐新爱,律波 (副主编) 978-7-115-59278-1

关于本书的内容有任何问题,请联系 人邮社-赵亮

1. 泰迪大数据套系教材
2. 随书附带Python源码,方便读者系统学习并动手实践
3. 以应用为导向,从知识点背景介绍到原理分析,再到具体的新闻传播类案例,让读者明确如何利用所学知识来解决问题
4. 适用对象:
⭐设置有新闻传播学类专业的高校学生。
⭐学习自然语言处理课程的高校学生。
⭐自然语言处理应用的开发人员。
⭐进行自然语言处理应用研究的科研人员。

内容摘要

本书以自然语言处理常用技术与真实案例相结合的方式,深入浅出地介绍自然语言处理中的关键内容。全书共8章,内容包括导论、文本数据爬取、文本基础处理、文本进阶处理、天问一号事件中的网民评论情感分析、新闻文本分类、基于浏览记录的个性化新闻推荐以及基于TipDM大数据挖掘建模平台实现新闻文本分类。本书各章均包含课后习题,其中前4章为选择题,后4章为操作题,帮助读者通过练习和操作实践,巩固所学的内容。
本书可作为高校数据科学、人工智能和新闻传播相关专业的教材,也可作为自然语言处理爱好者的自学用书。

目录

目录

目录
第 1章 导论 1
1.1 自然语言处理概述 1
1.1.1 发展历程 1
1.1.2 研究任务 3
1.1.3 自然语言处理与新闻传媒 5
1.2 自然语言处理工具 11
1.2.1 常见的自然语言处理工具 12
1.2.2 Python与自然语言处理 14
1.3 NLP的开发环境 14
1.3.1 Anaconda安装 14
1.3.2 Anaconda应用介绍 15
小结 22
课后习题 22
第 2章 文本数据爬取 24
2.1 HTTP通信基础 24
2.1.1 熟悉HTTP请求方法与过程 24
2.1.2 熟悉常见HTTP状态码 27
2.1.3 熟悉HTTP头部信息 28
2.1.4 熟悉Cookie 29
2.2 静态网页爬取 31
2.2.1 实现HTTP请求 32
2.2.2 网页解析 35
2.2.3 数据存储 42
2.3 动态网页爬取 44
2.3.1 逆向分析爬取 45
2.3.2 使用Selenium库爬取 50
小结 58
课后习题 59
第3章 文本基础处理 61
3.1 语料库 61
3.1.1 语料库概述 61
3.1.2 语料库种类与原则 63
3.1.3 NLTK库 65
3.1.4 语料库的获取 68
3.1.5 语料库的构建与应用 70
3.2 分词与词性标注 74
3.2.1 中文分词简介 74
3.2.2 基于规则的分词 74
3.2.3 基于统计的分词 76
3.2.4 中文分词工具jieba库 79
3.2.5 词性标注简介 80
3.2.6 词性标注规范 81
3.2.7 jieba词性标注 82
3.3 命名实体识别 85
3.3.1 命名实体识别简介 86
3.3.2 CRF模型 87
3.3.3 命名实体识别流程 87
3.4 关键词提取 91
3.4.1 关键词提取技术简介 91
3.4.2 关键词提取算法 92
3.4.3 自动提取文本关键词 93
小结 97
课后习题 97
第4章 文本进阶处理 99
4.1 文本向量化 99
4.1.1 文本向量化简介 99
4.1.2 文本离散表示 100
4.1.3 分布式表示 102
4.1.4 Word2Vec词向量的训练 106
4.2 文本相似度计算 108
4.2.1 文本相似度的定义 108
4.2.2 文本的表示 108
4.2.3 常用文本相似度算法 111
4.3 文本分类与聚类 117
4.3.1 文本挖掘简介 117
4.3.2 文本分类常用算法 118
4.3.3 文本聚类常用算法 120
4.3.4 文本分类与聚类的步骤 121
4.3.5 新闻文本分类 122
4.3.6 新闻文本聚类 130
小结 135
课后习题 136
第5章 天问一号事件中的网民评论情感分析 137
5.1 业务背景与项目目标 137
5.1.1 业务背景 138
5.1.2 数据说明 138
5.1.3 分析目标 139
5.2 分析方法与过程 140
5.2.1 数据探索 140
5.2.2 文本预处理 145
5.2.3 绘制词云图 149
5.2.4 使用朴素贝叶斯构建情感分析模型 154
5.2.5 模型评估 160
5.2.6 模型优化 162
小结 167
课后习题 167
第6章 新闻文本分类 172
6.1 业务背景与项目目标 172
6.1.1 业务背景 172
6.1.2 数据说明 173
6.1.3 分析目标 173
6.2 分析方法与过程 174
6.2.1 数据采集 174
6.2.2 数据探索 175
6.2.3 文本预处理 181
6.2.4 SVM模型构建 185
6.2.5 模型评价 189
小结 191
课后习题 191
第7章 基于浏览记录的个性化新闻推荐 193
7.1 业务背景与项目目标 193
7.1.1 业务背景 194
7.1.2 数据说明 194
7.1.3 分析目标 195
7.2 分析方法与过程 196
7.2.1 数据探索 196
7.2.2 数据预处理 201
7.2.3 模型构建 202
7.2.4 模型评估 209
小结 210
课后习题 211
第8章 基于TipDM数据挖掘建模平台实现新闻文本分类 212
8.1 平台简介 212
8.1.1 实训库 213
8.1.2 数据连接 214
8.1.3 实训数据 215
8.1.4 系统算法 217
8.1.5 个人算法 219
8.2 实现新闻文本分类 220
8.2.1 数据源配置 221
8.2.2 文本预处理 223
8.2.3 支持向量机模型 231
小结 233
课后习题 233

读者评论

赶紧抢沙发哦!

我要评论

作者介绍

戴程(闽江学院新闻传播学院),博士,教授,美国北卡罗莱纳大学教堂山分校访问学者,福建省高校杰青科研人才。兼任福建省商务厅、福建省广电集团专家。研究方向:品牌管理、新媒体营销。主持省部级科研课题4项,厅级课题2项,主持省级一流课程2门,省级教改课题1项。发表论文20余篇,论文获得过教育部、福建省传播学会、福建省广告协会举办的相关学术论文竞赛的多个奖项,获得福建省高校教育教学成果奖一等奖1项、二等奖1项。

推荐用户

同系列书

  • Power BI数据分析与可视化(第2版)(微课版)

    陈翠松 张良均 潘强 曾确令 张尚佳

    本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...

    ¥49.80
  • 大数据导论

    林涛 张良均 李微 葛苏慧 胡晓东

    本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...

    ¥49.80
  • Spark大数据分析实务

    郑浩森 张荣 张良均 杨树例 陈国珍

    本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...

    ¥59.80
  • PySpark大数据分析与应用

    戴刚 张良均 桂友武 李晓英 李晓丹

    本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相...

    ¥69.80
  • Hive大数据存储与处理

    何煌 张良均 孙一铭 胡健 陈翠松

    本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...

    ¥59.80

购买本书用户

相关图书

  • ECharts数据可视化

    本书是一本采用任务驱动式体例编写的ECharts数据可视化技术教材,以通俗易懂的语言和丰富实用的任务,帮助读者...

    ¥59.80
  • Python编程基础(项目式微课版)

    王健

    本书根据高等院校应用技术型人才培养的目标编写,适合案例学习和模块化教学相结合的教学方式。本书以真实企业开发案例...

    ¥56.00
  • 人工智能云平台部署与开发(微课版)

    易海博

    本书涵盖云计算和人工智能两大领域的内容,着重讲解人工智能应用在云平台上的部署与开发。全书共7个项目,分别介绍云...

    ¥49.80
  • 鲲鹏智能计算导论

    华为技术有限公司 林新华 郑骏 陈瑛 夏林中 马祥 陈炯

    本书以鲲鹏智能计算为主线,共12 章,分别为绪论、计算机与服务器、鲲鹏通用计算平台、鲲鹏openEuler操作...

    ¥59.80
  • 人工智能概论(项目式)(微课版)

    李文斌 韩提文 刘少坤

    本书系统地介绍人工智能相关技术,项目1介绍人工智能的基本概念和相关的前沿技术,项目2至项目4介绍人工智能与大数...

    ¥48.00
人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部