文本挖掘理论学习笔记(一)

浏览: 2147

一,什么是自然语言

  1. 以语言,记号(文字)为载体的信息记录形式,用于个体或集体交流,知识传承。
  2. 参考书:《统计自然语言处理》《统计自然语言处理基础》
  3. 自然语言处理(NLP=Natural Language Processing):利用计算机为工具,对书面实行或口头形式的语言进行各种处理和加工的技术,是研究人与人交际中以及人与计算机交际中的语言问题的一门学科,是人工智能领域的主要内容。
  4. NLP是研究语言能力和语言应用的模型,建立计算(算法)框架来实现这样的语言模型,完善并监测,设计各种实用系统
  5. 发展阶段:(1)以语言学为主要基础的时代(过去)(2)以统计方法为主流的时代(现在)(3)深度学习等人工智能(将来)
  6. 研究内容:信息检索,机器翻译,文档分类,问答系统,信息过滤,自动文摘,信息抽取,文本挖掘,舆情分析,机器写作,文稿机器校对,OCR或语言识别

二,什么是形式语言

  1. 形式语言(Formal Language)是为了特定应用而人为设计的语言,主要研究的是内部结构迷失这类语言的纯粹的语法领域。形式语言是用来表示公理系统的语法。
  2. 创始人乔姆斯基,麻省理工语言学教授,《生成语法》形式语言与自动机之间存在的对应关系。参考书《形式语言与自动机理论》
  3. 图论基础屏幕快照 2017-04-28 下午8.22.54.png屏幕快照 2017-04-28 下午8.24.11.png屏幕快照 2017-04-28 下午8.24.37.png屏幕快照 2017-04-28 下午8.25.58.png
  4. 屏幕快照 2017-04-28 下午8.33.02.png
  5. 字符串屏幕快照 2017-04-28 下午8.39.41.png
  6. 语言(1)语言是按照一定规律构成的句子和符号串的有限或无限的集合 (2)描述语言的三种途径:


二,语言理解系统

  1. 文本(自然形态)
  2. 分句(句子序列)
  3. 词法分析/分词(标准化词序列)
  4. 词性标注(词性序列)
  5. 短词分析(短词结构)
  6. 句法分析(句法及句法功能结构)
  7. 语义分析(语义结构)
  8. 语篇分析(语篇结构/命题网络)
  9. 理解

三,分词

      1,最大匹配法

           基本思想:(1)分词词表(2)设定最大词长(3)原始语料根据设定最大词长来划分

      2,最大概率法分词

          基本思想:(1)一个待切分的汉字串可能包含多个分词结果

                            (2)将其中概率最大的那个作为该字串的分词结果最短路径分词方法

      3,最短路径法

          基本思想:在词图上旋转一条词数最少的路径


参考文献:北京大学《文本挖掘技术》TextMining-特征提取











推荐 0
本文由 shannon1996 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册