郭昱良的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1582

阅读

干货 | 自然语言处理(3)之词频-逆文本词频（TF-IDF）详解

前言在（）中讲到在文本挖掘预处理中，在向量化后一般都伴随着TF-IDF的处理。什么是TF-IDF，为什么一般需要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。文本向量化存在的不足在将文本分词并向量化后，就可以得到词汇表中每个词在文本中形成的词向量，比如（）这篇文章中，我们将下面4个短文本做了词频统计：corp...

发表了文章 • 2017-12-21 10:04 • 0 条评论

0

推荐

1904

阅读

机器学习(32)之典型相关性分析(CCA)详解

前言典型关联分析(Canonical Correlation Analysis，简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据，第一组是人身高和体重的数据，第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢？CCA可以帮助我们分析这个问题。CCA概述在数理统计里面，都知道相关系数这个概念...

发表了文章 • 2017-12-21 09:58 • 0 条评论

0

推荐

1593

阅读

干货 | 自然语言处理(2)之浅谈向量化与Hash-Trick

前言在文本挖掘的分词原理（干货 | 自然语言处理(1)之聊一聊分词原理）中讲到了文本挖掘的预处理中的分词，而分词后，如果是做文本分类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文对向量化和特例Hash Trick预处理方法做一个总结。词袋模型词袋模型（Bag of Words，简称BoW）假设不考虑文本中词...

发表了文章 • 2017-12-14 15:37 • 0 条评论

1

推荐

1681

阅读

机器学习(31)之频繁集挖掘FP Tree详解

前言在（机器学习(22)之Apriori算法原理总结）中，对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。FP Tr...

发表了文章 • 2017-12-12 10:35 • 0 条评论

0

推荐

1660

阅读

干货 | 自然语言处理(1)之聊一聊分词原理

前言在做文本挖掘时，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但有时也需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都类似，本文就对文本挖掘时的分词原理做一个...

发表了文章 • 2017-12-08 11:08 • 0 条评论

2

推荐

1782

阅读

机器学习(30)之线性判别分析(LDA)原理详解

前言在主成分分析（PCA）原理总结（机器学习(27)【降维】之主成分分析(PCA)详解）中对降维算法PCA做了总结。这里就对另外一种经典的降维方法线性判别分析（Linear Discriminant Analysis, 简称LDA）做一个总结。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下...

发表了文章 • 2017-12-07 15:17 • 0 条评论

0

推荐

1405

阅读

为什么说自然语言处理是人工智能的核心

如果一台计算机能够欺骗人类，让人相信它是人类，那么该计算机就应当被认为是智能的。——阿兰·图灵机器能跟我们人类交流吗，能像我们人类一样理解文本吗，这是大家对人工智能最初的幻想。如今，它已成为人工智能的核心领域——自然语言处理（简称：NLP）。自然语言处理是一门融语言学、计算机科学、人工智能于一体的科学，...

发表了文章 • 2017-12-07 15:02 • 0 条评论

0

推荐

1609

阅读

机器学习(29)之奇异值分解SVD原理与应用详解

前言奇异值分解(Singular Value Decomposition，简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。特征值与特征向量首先回顾下特征值...

发表了文章 • 2017-12-07 14:40 • 0 条评论

0

推荐

1821

阅读

机器学习(28)【降维】之sklearn中PCA库讲解与实战

前言在（机器学习(27)【降维】之主成分分析(PCA)详解）中，对主成分分析的原理做了总结，本章总结如何使用scikit-learn工具来进行PCA降维。sklearn中PCA介绍在scikit-learn中，与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA。除了PCA类以外，最常用的PCA相关类还有KernelPCA...

发表了文章 • 2017-12-07 14:22 • 0 条评论

1

推荐

1830

阅读

值的收藏的干货 | 如何用Python实现常见机器学习算法

在 GitHub 上发现了东南大学研究生“Lawlite”的一个项目——机器学习算法的Python实现，下面从线性回归到反向传播算法、从SVM到K-means聚类算法，咱们一一来分析其中的Python代码。目录一、线性回归1、代价函数2、梯度下降算法3、均值归一化4、最终运行结果5、使用scikit-learn库中的线性模型实现二、逻辑回归1、代价函数2...

发表了文章 • 2017-12-05 11:52 • 0 条评论

3

推荐

2113

阅读

机器学习(27)【降维】之主成分分析(PCA)详解

前言主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。PCA基本思想PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数...

发表了文章 • 2017-12-05 11:03 • 0 条评论

1

推荐

1986

阅读

干货 | 深度学习之CNN反向传播算法详解

前言在卷积神经网络(CNN)前向传播算法（干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解）中对CNN的前向传播算法做了总结，基于CNN前向传播算法的基础，下面就对CNN的反向传播算法做一个总结。在阅读本文前，建议先研究DNN的反向传播算法：深度神经网络（DNN）反向传播算法(BP)（深度学习之DNN与反向传播算法）...

发表了文章 • 2017-12-05 10:35 • 0 条评论

0

推荐

2092

阅读

机器学习(26)之K-Means实战与调优详解

前言在K-Means聚类算法原理（机器学习(25)之K-Means聚类算法详解）中对K-Means的原理做了总结，本文来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。K-Means类概述在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法...

发表了文章 • 2017-12-01 16:06 • 0 条评论

0

推荐

1916

阅读

干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解

前言在（干货 | 深度学习之卷积神经网络(CNN)的模型结构）中，我们对CNN的模型结构做了总结，这里我们就在CNN的模型基础上，看看CNN的前向传播算法是什么样子的。重点会和传统的DNN比较讨论。深度学习系列深度学习之DNN与前向传播算法深度学习之DNN与反向传播算法干货 | 深度学习之损失函数与激活函数的选择干货 | 深度...

发表了文章 • 2017-12-01 15:35 • 0 条评论

0

推荐

1471

阅读

机器学习(25)之K-Means聚类算法详解

前言K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。K-M原理K-Means算...

发表了文章 • 2017-12-01 15:06 • 0 条评论