0
推荐
1778
阅读

【源码分享】机器学习之Python支持向量机

前言在写代码前,先简单的过一下SVM的基本原理,如下:SVM(support vector machine)简单的说是一个分类器,并且是二类分类器。Vector:通俗说就是点,或是数据。Machine:也就是classifier,也就是分类器。SVM作为传统机器学习的一个非常重要的分类算法,它是一种通用的前馈网络类型,最早是由Vladimir N.Vapnik 和 Alex...

发表了文章 • 2018-03-14 17:02 • 0 条评论

2
推荐
2217
阅读

机器学习(36)之协同过滤典型算法概述【精华】

前言推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。推荐算法概述推荐算法是非常古老的,在机器学习还没有兴起的时候就...

发表了文章 • 2018-01-24 15:44 • 0 条评论

3
推荐
1938
阅读

精华 | 机器学习岗面试,这些是基础!(ML,DL,SL相关知识整理)

找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的...

发表了文章 • 2018-01-17 11:07 • 0 条评论

0
推荐
1643
阅读

机器学习(35)之PrefixSpan算法原理详解

前言前面讲到频繁项集挖掘的关联算法Apriori(机器学习(22)之Apriori算法原理总结)和FP Tree(机器学习(31)之频繁集挖掘FP Tree详解),这两个算法都是挖掘频繁项集的。而今天要介绍的PrefixSpan(PrefixSpan算法的全称是Prefix-Projected Pattern Growth,即前缀投影的模式挖掘)算法也是关联算法,但是它是挖掘频繁序...

发表了文章 • 2018-01-17 10:51 • 0 条评论

0
推荐
1689
阅读

机器学习(34)之BIRCH层次聚类详解

前言在K-Means算法(机器学习(25)之K-Means聚类算法详解)中讲到了K-Means和Mini Batch K-Means的聚类原理。这里再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。什么是流形学习BIRCH的全称是利用层次方法的平衡迭代规约...

发表了文章 • 2018-01-05 13:57 • 0 条评论

0
推荐
2803
阅读

自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)

前言在对文本做数据分析时,一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点首先看中文文本挖掘预处理与英文文本挖掘预处理的不同点。首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简...

发表了文章 • 2017-12-26 10:38 • 0 条评论

0
推荐
2738
阅读

机器学习(33)之局部线性嵌入(LLE)【降维】总结

前言局部线性嵌入(Locally Linear Embedding,简称LLE)也是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。什么是流形学习LLE属于流形学习(Manifold Learning)的一...

发表了文章 • 2017-12-26 10:24 • 0 条评论

0
推荐
1707
阅读

精华 | 12个关键词告诉你告诉你什么是机器学习(基础篇)

随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于非专业人士来说略为玄幻。这篇文章为读者梳理了包括这些在内的12个关键词,希望帮助读者更清晰地理解,这项人工智能技术的内涵和潜能。1、 机器学习汤姆·米歇尔教授任职于...

发表了文章 • 2017-12-26 10:16 • 0 条评论

0
推荐
1582
阅读

干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解

前言在()中讲到在文本挖掘预处理中,在向量化后一般都伴随着TF-IDF的处理。什么是TF-IDF,为什么一般需要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。文本向量化存在的不足在将文本分词并向量化后,就可以得到词汇表中每个词在文本中形成的词向量,比如()这篇文章中,我们将下面4个短文本做了词频统计:corp...

发表了文章 • 2017-12-21 10:04 • 0 条评论

0
推荐
1904
阅读

机器学习(32)之典型相关性分析(CCA)详解

前言典型关联分析(Canonical Correlation Analysis,简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题。CCA概述在数理统计里面,都知道相关系数这个概念...

发表了文章 • 2017-12-21 09:58 • 0 条评论

0
推荐
1593
阅读

干货 | 自然语言处理(2)之浅谈向量化与Hash-Trick

前言在文本挖掘的分词原理(干货 | 自然语言处理(1)之聊一聊分词原理)中讲到了文本挖掘的预处理中的分词,而分词后,如果是做文本分类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文对向量化和特例Hash Trick预处理方法做一个总结。词袋模型词袋模型(Bag of Words,简称BoW)假设不考虑文本中词...

发表了文章 • 2017-12-14 15:37 • 0 条评论

1
推荐
1681
阅读

机器学习(31)之频繁集挖掘FP Tree详解

前言在(机器学习(22)之Apriori算法原理总结)中,对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。FP Tr...

发表了文章 • 2017-12-12 10:35 • 0 条评论

0
推荐
1660
阅读

干货 | 自然语言处理(1)之聊一聊分词原理

前言在做文本挖掘时,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但有时也需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都类似,本文就对文本挖掘时的分词原理做一个...

发表了文章 • 2017-12-08 11:08 • 0 条评论

2
推荐
1782
阅读

机器学习(30)之线性判别分析(LDA)原理详解

前言在主成分分析(PCA)原理总结(机器学习(27)【降维】之主成分分析(PCA)详解)中对降维算法PCA做了总结。这里就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 简称LDA)做一个总结。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下...

发表了文章 • 2017-12-07 15:17 • 0 条评论

0
推荐
1608
阅读

机器学习(29)之奇异值分解SVD原理与应用详解

前言奇异值分解(Singular Value Decomposition,简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。特征值与特征向量首先回顾下特征值...

发表了文章 • 2017-12-07 14:40 • 0 条评论