0
推荐
1348
阅读

【十大经典数据挖掘算法】CART

1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,既可用于分类也可用于回归。本文将主要介绍用于分类的CART。CART被称为数据挖掘领域内里程碑式的算法。不同于C4.5,CART本质是对特征空间进行二元划分(即CART生...

发表了文章 • 2017-03-28 09:32 • 0 条评论

0
推荐
1482
阅读

【十大经典数据挖掘算法】Naïve Bayes

朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素贝叶斯分类器的主要思路:通过联合概率P(x,y)=P(x|y)P(y)建模,运用贝叶斯定理求解后验概率P(y|...

发表了文章 • 2017-03-28 09:25 • 0 条评论

0
推荐
1272
阅读

【十大经典数据挖掘算法】kNN

1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 CART。 以前看过关于这些数据挖掘算法,但对背后数学原理未做过多探究,因而借此整理以更深入地理解这些算法。本文讨论的kNN算法是监督学习中分类方法的一种。所...

发表了文章 • 2017-03-27 15:48 • 1 条评论

1
推荐
1409
阅读

【十大经典数据挖掘算法】AdaBoost

 1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnable)分类器,通过集成学习,组合成一个强可学习(strongly learnable)分类器。所谓弱可学习,是指学习的正确率仅略优于随机...

发表了文章 • 2017-03-27 14:03 • 0 条评论

0
推荐
1351
阅读

【十大经典数据挖掘算法】PageRank

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题。在衡量一个网页的排名,直觉告诉我们:当...

发表了文章 • 2017-03-27 12:19 • 0 条评论

1
推荐
1393
阅读

【十大经典数据挖掘算法】EM

1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布θ;那么可以通过最大似然估计方法求得。假如我们抛硬币10次,其中8次正面、2次反面;极大似然估计参数θ值:其中,l(θ)为观测变量序列的似然函数(likelihood function of the obser...

发表了文章 • 2017-03-24 13:28 • 0 条评论

0
推荐
1952
阅读

【十大经典数据挖掘算法】Apriori

1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,关联分析则被用来找出此类规则:顾客在买了某种商品时也会买另一种商品。在上述例子中,大部分都知道关联规则:{Diapers} → {Beer};即顾客在买完尿布之后通常会买啤...

发表了文章 • 2017-03-24 13:19 • 0 条评论

0
推荐
1443
阅读

【十大经典数据挖掘算法】SVM

SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in linearly separable case)的线性SVM、线性不可分的线性SVM、非线性(nonlinear)SVM。1. 线性可分对于二类分类问题,训练...

发表了文章 • 2017-03-23 15:10 • 0 条评论

2
推荐
1265
阅读

【十大经典数据挖掘算法】k-means

1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类聚,人以群分”嘛。k-means是聚类算法中最为简单、高...

发表了文章 • 2017-03-22 16:30 • 0 条评论

0
推荐
1954
阅读

【十大经典数据挖掘算法】C4.5

1. 决策树模型与学习决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。决策树模型决策树是一种通过对特征属性的分类对样本进行分类的...

发表了文章 • 2017-03-22 16:27 • 0 条评论