郭昱良的博客专栏

公众号:机器学习算法与Python学习。。不定期发布人工智能、机器学习、深度学习及Python编程方面的算法与实现,欢迎光大机器学习与数据挖掘领域的朋友加入交流与学习。

0
推荐
1582
阅读

干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解

前言在()中讲到在文本挖掘预处理中,在向量化后一般都伴随着TF-IDF的处理。什么是TF-IDF,为什么一般需要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。文本向量化存在的不足在将文本分词并向量化后,就可以得到词汇表中每个词在文本中形成的词向量,比如()这篇文章中,我们将下面4个短文本做了词频统计:corp...

发表了文章 • 2017-12-21 10:04 • 0 条评论

0
推荐
1904
阅读

机器学习(32)之典型相关性分析(CCA)详解

前言典型关联分析(Canonical Correlation Analysis,简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题。CCA概述在数理统计里面,都知道相关系数这个概念...

发表了文章 • 2017-12-21 09:58 • 0 条评论

0
推荐
1593
阅读

干货 | 自然语言处理(2)之浅谈向量化与Hash-Trick

前言在文本挖掘的分词原理(干货 | 自然语言处理(1)之聊一聊分词原理)中讲到了文本挖掘的预处理中的分词,而分词后,如果是做文本分类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文对向量化和特例Hash Trick预处理方法做一个总结。词袋模型词袋模型(Bag of Words,简称BoW)假设不考虑文本中词...

发表了文章 • 2017-12-14 15:37 • 0 条评论

1
推荐
1681
阅读

机器学习(31)之频繁集挖掘FP Tree详解

前言在(机器学习(22)之Apriori算法原理总结)中,对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。FP Tr...

发表了文章 • 2017-12-12 10:35 • 0 条评论

0
推荐
1660
阅读

干货 | 自然语言处理(1)之聊一聊分词原理

前言在做文本挖掘时,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但有时也需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都类似,本文就对文本挖掘时的分词原理做一个...

发表了文章 • 2017-12-08 11:08 • 0 条评论

2
推荐
1782
阅读

机器学习(30)之线性判别分析(LDA)原理详解

前言在主成分分析(PCA)原理总结(机器学习(27)【降维】之主成分分析(PCA)详解)中对降维算法PCA做了总结。这里就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 简称LDA)做一个总结。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下...

发表了文章 • 2017-12-07 15:17 • 0 条评论

0
推荐
1405
阅读

为什么说自然语言处理是人工智能的核心

如果一台计算机能够欺骗人类,让人相信它是人类,那么该计算机就应当被认为是智能的。——阿兰·图灵机器能跟我们人类交流吗,能像我们人类一样理解文本吗,这是大家对人工智能最初的幻想。如今,它已成为人工智能的核心领域——自然语言处理(简称:NLP)。自然语言处理是一门融语言学、计算机科学、人工智能于一体的科学,...

发表了文章 • 2017-12-07 15:02 • 0 条评论

0
推荐
1609
阅读

机器学习(29)之奇异值分解SVD原理与应用详解

前言奇异值分解(Singular Value Decomposition,简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。特征值与特征向量首先回顾下特征值...

发表了文章 • 2017-12-07 14:40 • 0 条评论

0
推荐
1821
阅读

机器学习(28)【降维】之sklearn中PCA库讲解与实战

前言在(机器学习(27)【降维】之主成分分析(PCA)详解)中,对主成分分析的原理做了总结,本章总结如何使用scikit-learn工具来进行PCA降维。sklearn中PCA介绍在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA。除了PCA类以外,最常用的PCA相关类还有KernelPCA...

发表了文章 • 2017-12-07 14:22 • 0 条评论

1
推荐
1830
阅读

值的收藏的干货 | 如何用Python实现常见机器学习算法

在 GitHub 上发现了东南大学研究生“Lawlite”的一个项目——机器学习算法的Python实现,下面从线性回归到反向传播算法、从SVM到K-means聚类算法,咱们一一来分析其中的Python代码。目录一、线性回归1、代价函数2、梯度下降算法3、均值归一化4、最终运行结果5、使用scikit-learn库中的线性模型实现二、逻辑回归1、代价函数2...

发表了文章 • 2017-12-05 11:52 • 0 条评论

3
推荐
2113
阅读

机器学习(27)【降维】之主成分分析(PCA)详解

前言主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。PCA基本思想PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数...

发表了文章 • 2017-12-05 11:03 • 0 条评论

1
推荐
1986
阅读

干货 | 深度学习之CNN反向传播算法详解

前言在卷积神经网络(CNN)前向传播算法(干货 | 深度学习之卷积神经网络(CNN)的前向传播算法详解)中对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,下面就对CNN的反向传播算法做一个总结。在阅读本文前,建议先研究DNN的反向传播算法:深度神经网络(DNN)反向传播算法(BP)(深度学习之DNN与反向传播算法)...

发表了文章 • 2017-12-05 10:35 • 0 条评论

0
推荐
2092
阅读

机器学习(26)之K-Means实战与调优详解

前言在K-Means聚类算法原理(机器学习(25)之K-Means聚类算法详解)中对K-Means的原理做了总结,本文来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。K-Means类概述在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法...

发表了文章 • 2017-12-01 16:06 • 0 条评论

0
推荐
1916
阅读

干货 | 深度学习之卷积神经网络(CNN)的前向传播算法详解

前言在(干货 | 深度学习之卷积神经网络(CNN)的模型结构)中,我们对CNN的模型结构做了总结,这里我们就在CNN的模型基础上,看看CNN的前向传播算法是什么样子的。重点会和传统的DNN比较讨论。深度学习系列深度学习之DNN与前向传播算法深度学习之DNN与反向传播算法干货 | 深度学习之损失函数与激活函数的选择干货 | 深度...

发表了文章 • 2017-12-01 15:35 • 0 条评论

0
推荐
1471
阅读

机器学习(25)之K-Means聚类算法详解

前言K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。K-M原理K-Means算...

发表了文章 • 2017-12-01 15:06 • 0 条评论