NLP

0
推荐
2969
阅读

从零开始学Python自然语言处理(十)—— 最大匹配算法分词

前文传送门:从零开始学自然语言处理(九)—— 依存句法分析最大匹配算法分词是一种基于词典的分词方法。最大匹配算法分为正向最大匹配算法和逆向最大匹配算法和双向最大匹配算法。正向最大匹配算法正向最大匹配算法,就是从左往右去扫描,然后寻找词的最大匹配。首先需要规定一个词可能的最大长度,每次扫描的时候寻找当...

发表了文章 • 2020-05-09 14:11 • 0 条评论

0
推荐
3671
阅读

从零开始学Python自然语言处理(九)—— 依存句法分析

前文传送门:从零开始学自然语言处理(八)—— jieba 黑科技依存句法分析(Dependency Parsing, DP) 是通过分析语言单位内成分之间的依存关系揭示其句法结构。依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成...

发表了文章 • 2020-05-09 14:08 • 0 条评论

0
推荐
3331
阅读

从零开始学Python自然语言处理(八)—— jieba 黑科技

前文传送门:从零开始学自然语言处理(七)—— 句法结构分析小编喜欢用 jieba 分词,是因为它操作简单,速度快,而且可以添加自定义词,从而让 jieba 分出你想要分出的词,特别适用于特定场景的中文分词任务。然鹅,万事都有两面性,jieba 分词这么好用,也难免有缺陷。第一大缺陷就是它占用内存太大了。jieba 分词自带了...

发表了文章 • 2020-05-09 11:27 • 0 条评论

0
推荐
3481
阅读

从零开始学Python自然语言处理(七)—— 句法结构分析

前文传送门:从零开始学自然语言处理(六)—— 命名实体识别在之前的 从零开始学自然语言处理(六)—— 命名实体识别 文章中,我们使用了 standford CoreNLP 工具,本文中,我们继续会使用 standford CoreNLP 进行句法分析。句法分析分为句法结构分析(syntactic structure parsing)和依存...

发表了文章 • 2020-05-09 11:24 • 0 条评论

0
推荐
4656
阅读

从零开始学Python自然语言处理(六)—— 命名实体识别

前文传送门:从零开始学自然语言处理(五)—— 词性标注在之前的文章中我们使用了jieba进行分词和词性标注,遗憾的是,jieba无法进行命名实体识别。什么是命名实体识别呢?命名实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每...

发表了文章 • 2020-05-09 11:21 • 0 条评论

0
推荐
4574
阅读

从零开始学Python自然语言处理(五)—— 词性标注

前文传送门:  从零开始学自然语言处理(四)—— 做 NLP 任务文本 id 化与预训练词向量初始化方法词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或简称标注,是指分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较...

发表了文章 • 2020-05-09 11:14 • 0 条评论

0
推荐
2384
阅读

从零开始学Python自然语言处理(四)—— 做 NLP 任务文本 id 化与预训练词向量初始化方法

前文传送门:从零开始学自然语言处理(三)——手把手带你实现word2vec(skip-gram)许多新入门 NLP 的小伙伴开始做 NLP 相关任务的时候,还没到模型构建阶段,就已经被数据预处理给“劝退”了。这其实是在把字或词转换为计算机可计算的数值型数据时,姿势不对。我们都知道,最简单的方式,就是将词处理成 one-hot 的形式。...

发表了文章 • 2020-05-09 10:38 • 0 条评论

0
推荐
3265
阅读

从零开始学Python自然语言处理(三)——手把手带你实现word2vec(skip-gram)

前文传送门:从零开始学自然语言处理(二)——手把手带你用代码实现word2vec上一期我们用keras实现了CBOW模型。本期我们来实现skip-gram模型。其实只需要对CBOW模型稍加改动就可以了。keras 实现 word2vec 的 skip-gram 模型上一期也提到了,小编用keras写的CBOW模型是参考了苏神的代码。苏神在他博客中说,“上面是C...

发表了文章 • 2020-05-09 10:30 • 0 条评论

0
推荐
2562
阅读

从零开始学Python自然语言处理(一)—— jieba 分词

今天,我们正式开始《从零开始学自然语言处理》系列文章的更新。内容会涉及自然语言处理的各个方面知识内容和具体操作:包括但不仅限于词法分析,句法分析,语义分析,文本聚类,文本分类,情感分析,文本摘要生成,主题模型,词嵌入,文本语义相似度,自然语言推理,机器翻译,语言模型,信息抽取,关系预测,对话,指...

发表了文章 • 2020-05-09 10:11 • 0 条评论

11
推荐
7582
阅读

Python面向对象编程从零开始(1)——从没对象到有对象

前言【本文授权“Python爱好者社区”微信公众号以本人“王大伟”为作者原创首发】最近在写关于自然语言处理的文章,but,没对象啊,这可是个大问题。莫慌,看完本文,你就能有对象了。人生苦短,我选Python,其他空余的时间可以和对象一起玩耍。。。(此处省略n字)对象和类当然,此对象非彼对象。360百科对对象的描述如下:...

发表了文章 • 2017-05-31 17:06 • 3 条评论

3
推荐
2556
阅读

基于统计词频分析图书馆采购书籍方向(朴素版)

前言这个故事的开始是一个师姐(现在是本校图书馆老师)想要看看图书馆的被借过的书和没被借过的书的特征可能是想为之后图书馆采购书籍做个参考。于是当师姐找到我时我欣然接受这个task啦~首先,她给我两个excel文档打开是这样的:不重要和敏感信息已经打码脱敏~pandas大法好接下来,就要使用Python中学过的pandas啦~在...

发表了文章 • 2017-05-30 23:41 • 1 条评论