【十大经典数据挖掘算法系列】文章分类 Talk is Cheap的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1348

阅读

【十大经典数据挖掘算法】CART

1. 前言分类与回归树（Classification and Regression Trees, CART）是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出，既可用于分类也可用于回归。本文将主要介绍用于分类的CART。CART被称为数据挖掘领域内里程碑式的算法。不同于C4.5，CART本质是对特征空间进行二元划分（即CART生...

发表了文章 • 2017-03-28 09:32 • 0 条评论

0

推荐

1482

阅读

【十大经典数据挖掘算法】Naïve Bayes

朴素贝叶斯（Naïve Bayes）属于监督学习的生成模型，实现简单，没有迭代，学习效率高，在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立，在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素贝叶斯分类器的主要思路：通过联合概率P(x,y)=P(x|y)P(y)建模，运用贝叶斯定理求解后验概率P(y|...

发表了文章 • 2017-03-28 09:25 • 0 条评论

0

推荐

1272

阅读

【十大经典数据挖掘算法】kNN

1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 CART。以前看过关于这些数据挖掘算法，但对背后数学原理未做过多探究，因而借此整理以更深入地理解这些算法。本文讨论的kNN算法是监督学习中分类方法的一种。所...

发表了文章 • 2017-03-27 15:48 • 1 条评论

1

推荐

1409

阅读

【十大经典数据挖掘算法】AdaBoost

1. 集成学习集成学习（ensemble learning）通过组合多个基分类器（base classifier）来完成学习任务，颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习（weakly learnable）分类器，通过集成学习，组合成一个强可学习（strongly learnable）分类器。所谓弱可学习，是指学习的正确率仅略优于随机...

发表了文章 • 2017-03-27 14:03 • 0 条评论

0

推荐

1351

阅读

【十大经典数据挖掘算法】PageRank

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇，是因为本人是Google脑残粉。因了PageRank而Google得以成立，因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的，用来解决链接分析中网页排名的问题。在衡量一个网页的排名，直觉告诉我们：当...

发表了文章 • 2017-03-27 12:19 • 0 条评论

1

推荐

1393

阅读

【十大经典数据挖掘算法】EM

1. 极大似然极大似然（Maximum Likelihood）估计为用于已知模型的参数估计的统计学方法。比如，我们想了解抛硬币是正面（head）的概率分布θ；那么可以通过最大似然估计方法求得。假如我们抛硬币10次，其中8次正面、2次反面；极大似然估计参数θ值：其中，l(θ)为观测变量序列的似然函数（likelihood function of the obser...

发表了文章 • 2017-03-24 13:28 • 0 条评论

0

推荐

1952

阅读

【十大经典数据挖掘算法】Apriori

1. 关联分析关联分析是一类非常有用的数据挖掘方法，能从数据中挖掘出潜在的关联关系。比如，在著名的购物篮事务（market basket transactions）问题中，关联分析则被用来找出此类规则：顾客在买了某种商品时也会买另一种商品。在上述例子中，大部分都知道关联规则：{Diapers} → {Beer}；即顾客在买完尿布之后通常会买啤...

发表了文章 • 2017-03-24 13:19 • 0 条评论

0

推荐

1443

阅读

【十大经典数据挖掘算法】SVM

SVM（Support Vector Machines）是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述，本文仅做整理。由简至繁SVM可分类为三类：线性可分（linear SVM in linearly separable case）的线性SVM、线性不可分的线性SVM、非线性（nonlinear）SVM。1. 线性可分对于二类分类问题，训练...

发表了文章 • 2017-03-23 15:10 • 0 条评论

2

推荐

1265

阅读

【十大经典数据挖掘算法】k-means

1. 引言k-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派，指将未标注的样本数据中相似的分为同一类，正所谓“物以类聚，人以群分”嘛。k-means是聚类算法中最为简单、高...

发表了文章 • 2017-03-22 16:30 • 0 条评论

0

推荐

1954

阅读

【十大经典数据挖掘算法】C4.5

1. 决策树模型与学习决策树（decision tree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。其中，C4.5是基于ID3的，对分裂属性的目标函数做出了改进。决策树模型决策树是一种通过对特征属性的分类对样本进行分类的...

发表了文章 • 2017-03-22 16:27 • 0 条评论