陈福强的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1455

阅读

逻辑回归杂谈

本文聊聊逻辑回归(logistic regression)。逻辑回归虽然名字中带有回归二字，但是它并不是一种回归算法，而是一种分类算法，并且它是在工业界十分常用的一种分类算法。跟回归问题不同，logistic回归中的因变量是分类型变量（比如0,1这种二分类或者0,1,2,3这种多分类问题）。logistic回归的自变量和因变量之间不一定...

发表了文章 • 2017-09-18 10:23 • 0 条评论

1

推荐

1915

阅读

聊聊泛化低秩模型

在机器学习及数据挖掘领域中，数据集中的每个样本通常用一行数据来表示，其中每个数据表示某种特征的具体表现，所有数据样本会构成一个矩阵。一般情况下，会遇到其中含有多种类型的数据，比如数值型，布尔类型，类别型，序列型等，也会遇到其中包含缺失值的情形。现在处理的矩阵一般都是非常高维度的，直接对其处理计算...

发表了文章 • 2017-06-30 11:59 • 0 条评论

0

推荐

2118

阅读

Deep ADMM-Net for Compressive Sensing MRIYan Yang, Xi'an Jiaotong University; Jian Sun*, Xi'an Jiaotong University; Huibin Li, ; Zongben Xu, Swapout: Learning an ensemble of deep architecturesSaurabh Singh*, UIUC; Derek Hoiem, UIUC; David Forsyth, UIUCDeep Learning without Poor Local MinimaK...

发表了文章 • 2017-04-06 13:22 • 0 条评论

2

推荐

2100

阅读

亚线性时间复杂度近似k-means++

K-Means聚类算法的目标是找到一个由k个聚类中心构成的集合，使得所有样本点到距其最近的聚类中心之间的距离之和最小。为避免引起歧义，这里解释一下，目标函数中距离的个数等于样本点的个数，并且每个距离都是该样本点到距其最近的聚类中心的距离。k-means聚类是一种经典的聚类算法，其诞生时间距今已有数十年，在很多机...

发表了文章 • 2017-04-06 13:16 • 0 条评论

0

推荐

3176

阅读

浅谈L1与L2正则化

正则化方法 (Regularization) 是机器学习领域中一种非常重要的技巧，它主要用来对权重系数加以约束限制，进而防止过拟合。数学上来讲，正则化即为在目标函数中加入对权值系数的约束。L1正则化与L2正则化形式上的区别在于范数的阶。这两种正则化的主要区别在于以下几点：解的唯一性：L2正则化具有唯一解，而L1正则化没有...

发表了文章 • 2017-04-05 15:12 • 0 条评论

0

推荐

7223

阅读

聊聊group lasso

这次聊聊线性模型中的group lasso （lasso即为将模型中权重系数的一阶范数惩罚项加到目标函数中）惩罚项。假设Y是由N个样本的观测值构成的向量，X是一个大小为N * p的特征矩阵。在group lasso中，将p个特征分成L组，每个组中特征个数为Pi，其中i的取值为1，2，..., L。将第i个特征组对应的矩阵记为Xi，对应的系数向量记...

发表了文章 • 2017-04-05 15:07 • 0 条评论

0

推荐

2114

阅读

谈谈梯度下降法与牛顿法

机器学习中对目标函数进行优化时，通常需要一些优化算法。其中比较常用的算法都是基于梯度下降法或牛顿法或者相关变形算法。首先来看下梯度下降过程中每次迭代的公式，其中αk是一个标量，称为步幅或者学习率。梯度下降法的收敛速度高度依赖于学习率，如果步幅较小，则迭代比较"费劲"，如果步幅较大，则调整过程呈现Z字形...

发表了文章 • 2017-04-05 15:01 • 0 条评论

1

推荐

1604

阅读

NIPS 2016 deep learning 论文摘读

NIPS 是机器学习领域的顶级会议之一，类似等级的顶级会议还有CVPR, ICCV, ICML, CIKM，IJCAI等。本次摘读论文题目是：Swapout: Learning an ensemble of deep architectures获取论文→https://arxiv.org/pdf/1605.06465.pdf在NIPS 2016中，来自伊利诺伊大学香槟分校的学者提出了swapout，它是一种随机循环方法，在同样...

发表了文章 • 2017-04-01 14:57 • 0 条评论

0

推荐

1961

阅读

浅析logistic regression

逻辑回归是一种应用非常广泛的分类算法，同时也广泛地用于排序场景。如果样本集是线性可分的，逻辑回归是一个效果比较好的分类器。对于非线性特征，可以通过特征工程将其线性化。这种算法本身不具有选择重要特征的功能，通常利用l2或l1正则化方法（关于l2和l1的对比参见）做特征选择。由于逻辑回归的计算简单，具有高效...

发表了文章 • 2017-04-01 14:53 • 0 条评论

0

推荐

4126

阅读

random forests用于分类和回归的spark示例

紧接上文，本文谈谈随机森林。随机森林是由多个决策树集成得到的。它是一种比较成功地机器学习算法，不仅可以用于分类问题，也可以用于回归问题。随机森林通过结合多个决策树来降低过拟合的风险。随机森林可以捕捉到非线性特征，也可以学到特征的交互作用。spark.mllib 中的随机森林支持二分类和多分类以及回归问题，其...

发表了文章 • 2017-04-01 14:51 • 0 条评论

0

推荐

5937

阅读

GBDT 用于分类和回归的spark示例

GBDT是推荐系统中应用非常广泛的算法。GBDT 是由决策树集成而来的，这种算法不断地迭代式训练决策树算法，目标是最小化损失函数。跟决策树类似，GBDT能够捕捉到非线性特征，也能发掘特征交互作用。spark.mllib 支持GBDT的二分类问题和回归问题，spark.mllib中的GBDT是基于决策树来实现的，能够处理连续性和离散性的特征...

发表了文章 • 2017-03-31 14:26 • 0 条评论

0

推荐

2510

阅读

SVD 浅入深出深入浅出

本文谈谈实矩阵的奇异值分解（Singular Value Decomposition）。首先提个简单的问题，什么是奇异值呢？对于一个方阵或一般矩阵 A ，如果非负标量 σ 和非零向量对 u 和 v 满足如下条件：Av = σu,A'u = σv.则称 σ 是矩阵 A 的奇异值， u和v 是相应的奇异向量对。容易推出 AA'u = Aσv = σAv = σ2u，A'Av = A'σu = σA'u = σ...

发表了文章 • 2017-03-31 14:24 • 0 条评论

0

推荐

2355

阅读

NIPS 2016 -- 增量Boosting CNN 用于面部动作单元识别

本文是机器学习领域顶级会议 NIPS 2016 所接收的论文中深度学习相关的一篇论文。这篇论文的作者来自美国的南卡莱罗纳大学（https://cse.sc.edu/~mengz/papers/NIPS2016.pdf）。Incremental Boosting Convolutional Neural Network for Facial Action Unit RecognitionShizhong Han*, University of South Carolina; Zib...

发表了文章 • 2017-03-31 14:20 • 0 条评论

0

推荐

3455

阅读

谈谈 SVD++ 和概率矩阵分解

协同过滤是一种通过分析用户的历史数据来建立用户和商品之间联系的方法。协同过滤中两种比较成功的方法是隐含因子模型和近邻模型，其中SVD是隐含因子模型的代表。隐含因子模型什么是隐含因子模型？隐含因子模型即为将商品和用户映射到同样的隐含因子空间中，使得它们之间可以直接比较。最常用的方法即为SVD。其中通过Fro...

发表了文章 • 2017-03-30 14:25 • 0 条评论

0

推荐

2539

阅读

集成方法系列--bagging及基于scikit-learn的示例

本篇是集成方法系列（1）---bagging方法。首先简单介绍下scikit-learn，这是一个用python实现的机器学习库。它的特点如下：简单高效，可以用于数据挖掘和数据分析；人人可用，可以用于多种场景；基于Numpy， SciPy 和matplotlib，其中numpy和scipy是python实现的科学计算库，matplotlib是画图库；开源，可商用----BSD l...

发表了文章 • 2017-03-30 14:00 • 0 条评论