一,什么是自然语言
- 以语言,记号(文字)为载体的信息记录形式,用于个体或集体交流,知识传承。
- 参考书:《统计自然语言处理》《统计自然语言处理基础》
- 自然语言处理(NLP=Natural Language Processing):利用计算机为工具,对书面实行或口头形式的语言进行各种处理和加工的技术,是研究人与人交际中以及人与计算机交际中的语言问题的一门学科,是人工智能领域的主要内容。
- NLP是研究语言能力和语言应用的模型,建立计算(算法)框架来实现这样的语言模型,完善并监测,设计各种实用系统
- 发展阶段:(1)以语言学为主要基础的时代(过去)(2)以统计方法为主流的时代(现在)(3)深度学习等人工智能(将来)
- 研究内容:信息检索,机器翻译,文档分类,问答系统,信息过滤,自动文摘,信息抽取,文本挖掘,舆情分析,机器写作,文稿机器校对,OCR或语言识别
二,什么是形式语言
- 形式语言(Formal Language)是为了特定应用而人为设计的语言,主要研究的是内部结构迷失这类语言的纯粹的语法领域。形式语言是用来表示公理系统的语法。
- 创始人乔姆斯基,麻省理工语言学教授,《生成语法》形式语言与自动机之间存在的对应关系。参考书《形式语言与自动机理论》
- 图论基础
- 树
- 字符串
- 语言(1)语言是按照一定规律构成的句子和符号串的有限或无限的集合 (2)描述语言的三种途径:
二,语言理解系统
- 文本(自然形态)
- 分句(句子序列)
- 词法分析/分词(标准化词序列)
- 词性标注(词性序列)
- 短词分析(短词结构)
- 句法分析(句法及句法功能结构)
- 语义分析(语义结构)
- 语篇分析(语篇结构/命题网络)
- 理解
三,分词
1,最大匹配法
基本思想:(1)分词词表(2)设定最大词长(3)原始语料根据设定最大词长来划分
2,最大概率法分词
基本思想:(1)一个待切分的汉字串可能包含多个分词结果
(2)将其中概率最大的那个作为该字串的分词结果最短路径分词方法
3,最短路径法
基本思想:在词图上旋转一条词数最少的路径
参考文献:北京大学《文本挖掘技术》TextMining-特征提取