电子书:《自然语言处理理论与实战》_百宁超等_2018-07-01

[复制链接]
查看235 | 回复1 | 2020-1-2 11:14:20 | 显示全部楼层 |阅读模式

《自然语言处理理论与实战》_百宁超等_2018-07-01_1

《自然语言处理理论与实战》_百宁超等_2018-07-01_1

《自然语言处理理论与实战》_百宁超等_2018-07-01_2

《自然语言处理理论与实战》_百宁超等_2018-07-01_2

《自然语言处理理论与实战》_百宁超等_2018-07-01_3

《自然语言处理理论与实战》_百宁超等_2018-07-01_3


内容简介:

以短小精悍的篇章使读者掌握基本的统计知识。
◎第6章语言学:本章主要从语音、词汇、语法三个角度对现代汉语进行一个简单概要
的勾勒,在以往传统的语言学教材中一般还有“文字”“修辞”两节内容,因篇幅有限
与全书关联不强,在此删繁就简,未给读者一一呈现。需要注意的是,语言学本身是
门十分庞杂的学科,知识体系与研究方法或因语言不同而有区别,或因派别主义不
同而有区别。但无论是何种语言,或是何门何派,在进行自然语言处理时我们要面临
的永远是一个个真实的语料和具体的语言现象。理论是用来指导实践、拓宽我们研究
思路的,究竟最后采用何种理论,这只是一个“白猫黑猫”的问题。
⊙第7章自然语言处理:本章开篇直击要点,即自然语言处理的任务和限制。进而介绍
其所涉及的主要技术范畴,并对这些技术方向进行介绍。在针对当前自然语言处理的
难点进行详细剖析后,最终对2017年以后自然语言处理的发展进行展望
◎第8章语料库:大数据发展的基石就是数据量的快速增加,无论是自然语言处理
据挖掘、文本处理,还是机器学习领域,都是在此基础上通过规则或统计方法进行模
型构建的。但是不是数据量足够大就叫大数据了呢?是不是数据量足够多就构成语料
了呢?带着这些疑问,本章将
深入的了解
◎第9章中文自动分词:中文分词技术属于自然语言处理的技术范畴,中文分词是其他
中文信息处理的基础,搜索引擎只是中文分词的一
诸如机器翻译(MT)、语
音合成、自动分类、自动摘要、自动校对,等等
◎第10章数据预处理:数据预处理的整个步骤流程在自然语言处理的工程中要比其在机
器学习的工程中精简一些,最大的区别就在于数据清洗和特征构造这两个至关重要的
过程。在自然语言处理中特征构造是否良好,很大程度上取决于所构造的特征数据集
的数据特性与文本内容语义吻合程度的高低。比如,文本情感分类和文本内容分类都
属于分类范畴,但对于同一种算法(参数都调整到最优),在两个不同分类的业务下
得到的结果可能会相差很大。通过仔细分析,我们不难发现造成这种差异的根本原因
就是构造出来的特征数据集的数据模式没有很好地契合文本的真实语义,这也是自然
语言处理的最大难点。
第11章马尔可夫模型:笔者最早接触马尔可夫模型的定义源于吴军先生的《数学之
美》一书,起初觉得深奥难懂且没什么用处。直到学习自然语言处理时,才真正使用
尔可夫模型,并体会到此模型的奇妙之处。马尔可夫模型在处理序列分类时具有
的功能,解决诸如词类标注、语音识别、句子切分、字素音位转换、局部句法剖

v|前言
析、语块分析、命名实体识别、信息抽取等问题。此外它还广泛应用于自然科学、工
程技术、生物科技、公用事业、信道编码等多个领域
第12章条件随机场:条件随机场常用于序列标注、数据分割等自然语言处理任务中
此外在中文分词、中文人名识别和歧义消解等任务中也有应用。本书基于笔者在做语
句识别序列标注过程中对条件随机场产生的了解。主要内容源于自然语言处理、机器
学习、统计学习方法和部分网上资料对CRF的相关介绍,最后由笔者进行大量研究整
理后汇总成知识体系。本章首先介绍条件随机场的相关概念,然后结合实例以期让读
者深入理解条件随机场的应用。
第13章模型评估:本章源于基于HMM模型序列标注的一个实验,在实验完成之后
迫切想知道采用的序列标注模型好坏,有哪些指标可以度量。于是就产生了对这一专
題进度的学习总结,这样也便于其他人参考。本章依旧简明扼要地梳理出模型评估核
心指标,以期达到实用的目的
第14章命名实体识别:命名实体识别在自然语言处理中占据着非常重要的地位,也
是不可逾越的学术问题。命名实体识别的学术理论和研究方法众多,本章侧重整体介
绍。首先阐述命名实体识别的背景知识和研究概况,介绍中文命名实体识别的特点与
难点,辅以案例加深理解;然后对命名实体识别当前的研究方法和核心技术进行详细
个绍;最后展望其在未来人工智能方面的发展前景
◎第15章自然语言处理实战:自然语言处理技术是理论与实践相结合的一门学科,通过
前面基础理论知识的介绍,读者对其理论有所认识,但其究竟有何用、怎么用却不深
刻。本章通过实例演练,一方面对前面几章的知识进行复习回顾,另一方面利于加深
哩解研发的相关工作。本章的第一个案例以 GitHub为例,实现数据提取和可视化;第
个案例以微博话题为例,实现数据采集、提取、存储与分析
勘误
由于笔者能力有限,时间仓促,书中难免有错漏,欢迎读者批评指正
联系方式: nlpjiaocheng@ sinacom
作者介绍
唐聃教授,中科院工学博士。现工作于成都信息工程大学软件工程学院。研究方向包
括自然语言处理、信息.安.全.、数据分析。曾参与多项guo家863项目和中科院知识创新工程项

目、省科技厅和教育厅项目;2016年人选中guo科学院西部之光人才计划(中guo科学院西部
青年学者)
白宁超四川省计算机研究院软件开发工程师,曾参与多项四川省科技厅项目。其自然
语言处理系列博文曾被
博客园、_阿.里_云栖等多个技术社区转载
冯睻高级工程师,硕土学位。现仼四川省计算机硏究院信息化工程硏究所所长。研究
息融合、软件工程。主持或参与guo家级、省级科研项目16项。获
得四川省科技进步奖二等奖2项、四川省科技进步奖三等奖1项。
卿鸿宾四川大学中文系在校生。研究方向包括应用语言学、计算语言学、韵律句法学
等。常年从事文学创作与文字工作,2017年作品《黄昏速写》发表于《子曰书院》微 信公众
号,取得了不错的反响
文俊硕士学位,现工作于成都广播电视台橙视传媒大数据中心,大数据箅法工程师
研究方向主要包括数据挖掘、机器学习、自然语言处理、深度学习及云计算
读者服务
轻松注册成为博文视点社区用户(www.broadviewcom.cn),扫码直达本书页面
⑧提交勘误:您对书中内容的修改意见可在提交勘误处提交,若被釆纳,将获赠博文视
点社区积分(在您购买电子书时,积分可用来抵扣相应金额)
交流互动:在页面下方读者评论处留下您的疑问或观点,与我们和其他读者一同学习
交流
页面入口http://www.broadviewcomcn/34390

目录
第1章基础入门
1.1什么是自然语言处理
1.1.1自然语言处理概述
1.1.2自然语言处理的发展历史
3自然语言处理的工作原理
1.1.4自然语言处理的应用前景
1.2开发工具与环境
12.1 Sublime Text和 Anaconda介绍
12.2开发环境的安装与配置
3实战:第一个小程序的诞生
3.1实例介绍
13.2源码实现
第2章快速上手 Python
15
21初识 Python编程语言
Python概述
21.2 Python能做什么
2.1.3 Python的语法和特点
Python进阶
.2.1 Hello World
22.2语句和控制流
2.3函数
224List列表
22.5元组
22.6set集合
22.7_字_典_

2.2.8面向对象编程:类
标准库
23 Python深入—第三方库
23.1Wb框架
23.2科学计算
23.4其他库
第3章线性代数
31线性代数介绍
3.2向量
3.2.2向量表示
4向量运算
33矩阵
3.3.1矩阵定义
3.3.2矩阵表示
.3矩阵运算
3.34线性方程组
3.3.6特征值和特征向量
34距离计算
34.1余弦距离
342欧氏距离
344明可夫斯基距离
了89
34.5切比雪夫距离
346杰卡德距离
34.7汉明距离
4.8标准化欧式距离
皮尔逊相关系数



回复

使用道具 举报

夏天蓝了海 | 2020-1-2 11:14:24 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则