关于本书的内容有任何问题,请联系 人邮社-赵亮
目录 第 1章 导论 1 1.1 自然语言处理概述 1 1.1.1 发展历程 1 1.1.2 研究任务 3 1.1.3 自然语言处理与新闻传媒 5 1.2 自然语言处理工具 11 1.2.1 常见的自然语言处理工具 12 1.2.2 Python与自然语言处理 14 1.3 NLP的开发环境 14 1.3.1 Anaconda安装 14 1.3.2 Anaconda应用介绍 15 小结 22 课后习题 22 第 2章 文本数据爬取 24 2.1 HTTP通信基础 24 2.1.1 熟悉HTTP请求方法与过程 24 2.1.2 熟悉常见HTTP状态码 27 2.1.3 熟悉HTTP头部信息 28 2.1.4 熟悉Cookie 29 2.2 静态网页爬取 31 2.2.1 实现HTTP请求 32 2.2.2 网页解析 35 2.2.3 数据存储 42 2.3 动态网页爬取 44 2.3.1 逆向分析爬取 45 2.3.2 使用Selenium库爬取 50 小结 58 课后习题 59 第3章 文本基础处理 61 3.1 语料库 61 3.1.1 语料库概述 61 3.1.2 语料库种类与原则 63 3.1.3 NLTK库 65 3.1.4 语料库的获取 68 3.1.5 语料库的构建与应用 70 3.2 分词与词性标注 74 3.2.1 中文分词简介 74 3.2.2 基于规则的分词 74 3.2.3 基于统计的分词 76 3.2.4 中文分词工具jieba库 79 3.2.5 词性标注简介 80 3.2.6 词性标注规范 81 3.2.7 jieba词性标注 82 3.3 命名实体识别 85 3.3.1 命名实体识别简介 86 3.3.2 CRF模型 87 3.3.3 命名实体识别流程 87 3.4 关键词提取 91 3.4.1 关键词提取技术简介 91 3.4.2 关键词提取算法 92 3.4.3 自动提取文本关键词 93 小结 97 课后习题 97 第4章 文本进阶处理 99 4.1 文本向量化 99 4.1.1 文本向量化简介 99 4.1.2 文本离散表示 100 4.1.3 分布式表示 102 4.1.4 Word2Vec词向量的训练 106 4.2 文本相似度计算 108 4.2.1 文本相似度的定义 108 4.2.2 文本的表示 108 4.2.3 常用文本相似度算法 111 4.3 文本分类与聚类 117 4.3.1 文本挖掘简介 117 4.3.2 文本分类常用算法 118 4.3.3 文本聚类常用算法 120 4.3.4 文本分类与聚类的步骤 121 4.3.5 新闻文本分类 122 4.3.6 新闻文本聚类 130 小结 135 课后习题 136 第5章 天问一号事件中的网民评论情感分析 137 5.1 业务背景与项目目标 137 5.1.1 业务背景 138 5.1.2 数据说明 138 5.1.3 分析目标 139 5.2 分析方法与过程 140 5.2.1 数据探索 140 5.2.2 文本预处理 145 5.2.3 绘制词云图 149 5.2.4 使用朴素贝叶斯构建情感分析模型 154 5.2.5 模型评估 160 5.2.6 模型优化 162 小结 167 课后习题 167 第6章 新闻文本分类 172 6.1 业务背景与项目目标 172 6.1.1 业务背景 172 6.1.2 数据说明 173 6.1.3 分析目标 173 6.2 分析方法与过程 174 6.2.1 数据采集 174 6.2.2 数据探索 175 6.2.3 文本预处理 181 6.2.4 SVM模型构建 185 6.2.5 模型评价 189 小结 191 课后习题 191 第7章 基于浏览记录的个性化新闻推荐 193 7.1 业务背景与项目目标 193 7.1.1 业务背景 194 7.1.2 数据说明 194 7.1.3 分析目标 195 7.2 分析方法与过程 196 7.2.1 数据探索 196 7.2.2 数据预处理 201 7.2.3 模型构建 202 7.2.4 模型评估 209 小结 210 课后习题 211 第8章 基于TipDM数据挖掘建模平台实现新闻文本分类 212 8.1 平台简介 212 8.1.1 实训库 213 8.1.2 数据连接 214 8.1.3 实训数据 215 8.1.4 系统算法 217 8.1.5 个人算法 219 8.2 实现新闻文本分类 220 8.2.1 数据源配置 221 8.2.2 文本预处理 223 8.2.3 支持向量机模型 231 小结 233 课后习题 233
本书全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全...
本书以项目为导向,以任务为驱动,全面地介绍数据分析与可视化的流程,以及 Power BI 数据分析与可视化的应...
本书以大数据处理技术涉及的主要流程为主线,深入浅出地介绍大数据相关的基础知识。本书条理清晰、重点突出,内容循序...
本书以Spark大数据分析的常用技术与真实项目相结合的方式,深入浅出地介绍Spark大数据分析的重要内容。全书...
本书以广电大数据案例为主线,系统介绍数据仓库Hive存储和初步处理方法的相关知识。本书条理清楚、重点突出,内容...
本书是机器学习的入门教材,讲述机器学习的主流算法原理及其应用。全书着重对线性回归、Logistic回归、朴素贝...
“深度学习与计算机视觉” 是一门理论性和实践性都很强的课程,它是Python程序设计、机器学习等前期课程的进阶...
本书希望以通俗明了的方式带领读者入门图像处理技术。教研团队联合企业高级工程师, 从企业项目案例中提取典型工作任...
本书深入浅出地介绍数据分析的完整流程及Python实现,分为三篇共10章。第一篇为基础篇(第1章~第5章),包...
本书注重零基础商科类专业读者实现Python数据分析的学习,加强读者基于数据分析而非常用的编程基础。全书共11...
我要评论