王大伟-AI终身学习者

《SQL数据分析:从基础破冰到面试题解》作者

0
推荐
2070
阅读

从零开始学Python自然语言处理(十九)—— 不可不知的循环神经网络(RNN)

前文传送门:从零开始学自然语言处理(十八)—— 如何评价统计语言模型的好坏循环神经网络(RNN)对自然语言处理来说,是非常重要的,包括之后的LSTM等网络结构,都是基于基础RNN变化而来。既然循环神经网络是一种神经网络,那它长什么样呢?如下图所示:可能你看的有点迷糊,我们可以看看另一张图:其实,左边的这个结构展...

发表了文章 • 2020-05-09 17:27 • 0 条评论

0
推荐
2483
阅读

从零开始学Python自然语言处理(十八)—— 如何评价统计语言模型的好坏

前文传送门:从零开始学自然语言处理(十七)—— 统计语言模型(下)在之前的两篇文章中,我们讲解了统计语言模型来计算句子的概率大小,并且讲到了平滑方法。当我们学会计算句子的概率大小后,我们通常会思考,如何衡量和比较不同的统计语言模型好坏呢?比较不同语言模型的好坏,我们最快想到的就是将不同模型用在同一个...

发表了文章 • 2020-05-09 17:24 • 0 条评论

0
推荐
2253
阅读

从零开始学Python自然语言处理(十七)—— 统计语言模型(下)

前文传送门:从零开始学自然语言处理(十六)—— 统计语言模型(上)在上一章中,我们从语言模型讲到N-gram,并在文末点出了一个N-gram的问题,当训练N-gram的语料库中如果没有出现某种词语组合,导致计算包含这种组合的句子概率计算为0,这显然是不合理的,在训练语料库中不存在不代表在总体中不存在,所以有一种叫做平...

发表了文章 • 2020-05-09 17:16 • 0 条评论

0
推荐
2796
阅读

从零开始学Python自然语言处理(十六)—— 统计语言模型(上)

前文传送门:从零开始学自然语言处理(十五)—— fasttext-pytorch代码实现在说统计语言模型之前,我们先来看看语言模型是什么。语言模型是描述自然语言规律的数学模型,可以判断一个句子是否合理。比如:“我正在吃饭” 就比 “饭正在吃我” 合理。语言模型大致经历了三个发展阶段:专家语法规则模型、统计语言模...

发表了文章 • 2020-05-09 17:12 • 0 条评论

0
推荐
2725
阅读

从零开始学Python自然语言处理(十五)—— fasttext-pytorch代码实现

前文传送门:从零开始学自然语言处理(十四)——Fasttext原理详解 之前已经介绍过fasttext的基本概念从零开始学自然语言处理(十四)——Fasttext原理详解 ,这里给出实现fasttext的pytorch版本。思想很简单,但这里就不给出数据预处理的代码了,毕竟大家使用的具体场景不一样。小编尽量给出每一行代码的注释。im...

发表了文章 • 2020-05-09 17:09 • 0 条评论

0
推荐
3289
阅读

从零开始学Python自然语言处理(十四)——Fasttext原理详解

前文传送门:从零开始学自然语言处理(十三)——CBOW原理详解fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。在当时,它的性能比肩深度学习而且速度更快。Fasttext方法包含三部分,模型架构,层次SoftMax和N-gram子词特征。模型架构fastText的架构和word2vec中...

发表了文章 • 2020-05-09 17:05 • 0 条评论

0
推荐
4537
阅读

从零开始学Python自然语言处理(十三)——CBOW原理详解

从零开始学自然语言处理(十二)——上下文无关文法在之前的连载中我们用代码实现了word2vec,但并没有详细讲解CBOW的原理,本文手把手带你走入CBOW的算法原理。word2vec是一种将word转为向量的方法,其包含两种算法,分别是skip-gram和CBOW,它们的最大区别是skip-gram是通过中心词去预测中心词周围的词,而CBOW是通过周...

发表了文章 • 2020-05-09 16:56 • 0 条评论

0
推荐
3094
阅读

从零开始学Python自然语言处理(十二)——上下文无关文法

前文传送门:从零开始学自然语言处理(十一)——keras实现textCNN在说上下文无关文法之前,我们来看看形式语言理论,什么是形式语言理论?形式语言理论形式语言理论是用数学方法研究自然语言或者程序设计语言的理论。研究语言组成规则,而不研究语言的具体含义。说到形式语言,必须说一下它的形式文法。形式文法被严格地...

发表了文章 • 2020-05-09 16:20 • 0 条评论

0
推荐
2804
阅读

从零开始学Python自然语言处理(十一)——keras实现textCNN

前文传送门:从零开始学自然语言处理(十)—— 最大匹配算法分词“说实在的,理论型的东西,我不太爱看。看得再多,知道是那么回事,但就是写不出来。如果有一个现成的例子让我看一下,我理解得会更快。”所以这次以英文文本分类为例,写一个textCNN的实例,同时加载预训练的词向量来提升模型性能。最后再分享一些实战经验...

发表了文章 • 2020-05-09 16:09 • 0 条评论

0
推荐
2979
阅读

从零开始学Python自然语言处理(十)—— 最大匹配算法分词

前文传送门:从零开始学自然语言处理(九)—— 依存句法分析最大匹配算法分词是一种基于词典的分词方法。最大匹配算法分为正向最大匹配算法和逆向最大匹配算法和双向最大匹配算法。正向最大匹配算法正向最大匹配算法,就是从左往右去扫描,然后寻找词的最大匹配。首先需要规定一个词可能的最大长度,每次扫描的时候寻找当...

发表了文章 • 2020-05-09 14:11 • 0 条评论

0
推荐
3678
阅读

从零开始学Python自然语言处理(九)—— 依存句法分析

前文传送门:从零开始学自然语言处理(八)—— jieba 黑科技依存句法分析(Dependency Parsing, DP) 是通过分析语言单位内成分之间的依存关系揭示其句法结构。依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成...

发表了文章 • 2020-05-09 14:08 • 0 条评论

0
推荐
5908
阅读

从零开始学Python自然语言处理(九)—— 依存句法分析

前文传送门:依存句法分析(Dependency Parsing, DP) 是通过分析语言单位内成分之间的依存关系揭示其句法结构。依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。依存语法的结构没...

发表了文章 • 2020-05-09 11:47 • 0 条评论

0
推荐
3336
阅读

从零开始学Python自然语言处理(八)—— jieba 黑科技

前文传送门:从零开始学自然语言处理(七)—— 句法结构分析小编喜欢用 jieba 分词,是因为它操作简单,速度快,而且可以添加自定义词,从而让 jieba 分出你想要分出的词,特别适用于特定场景的中文分词任务。然鹅,万事都有两面性,jieba 分词这么好用,也难免有缺陷。第一大缺陷就是它占用内存太大了。jieba 分词自带了...

发表了文章 • 2020-05-09 11:27 • 0 条评论

0
推荐
3488
阅读

从零开始学Python自然语言处理(七)—— 句法结构分析

前文传送门:从零开始学自然语言处理(六)—— 命名实体识别在之前的 从零开始学自然语言处理(六)—— 命名实体识别 文章中,我们使用了 standford CoreNLP 工具,本文中,我们继续会使用 standford CoreNLP 进行句法分析。句法分析分为句法结构分析(syntactic structure parsing)和依存...

发表了文章 • 2020-05-09 11:24 • 0 条评论

0
推荐
4660
阅读

从零开始学Python自然语言处理(六)—— 命名实体识别

前文传送门:从零开始学自然语言处理(五)—— 词性标注在之前的文章中我们使用了jieba进行分词和词性标注,遗憾的是,jieba无法进行命名实体识别。什么是命名实体识别呢?命名实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每...

发表了文章 • 2020-05-09 11:21 • 0 条评论