机器学习文章分类数据取经团 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

1

推荐

2097

阅读

自我代码提升之启发式算法(番外篇)

本文作者：数据取经团 - JQstyle 本期给大家带来一些启发式算法的介绍和代码实现。严格来说，启发式算法并不属于机器学习领域的方法，其解决的问题也并不是分类和回归预测，因此本篇属于该系列番外篇。启发式算法简介在数学建模的经典问题当中，有一种问题是最优化问题，即在给定...

发表了文章 • 2018-03-08 13:42 • 0 条评论

0

推荐

2182

阅读

自我代码提升之梯度提升树

本文作者：数据取经团 - JQstyle 之前已经为大家带来了决策树和基于决策树并行实现的随机森林的介绍。本期将为大家带来基于决策树基础模型的第二种算法，梯度提升树（即GBDT算法）。GBDT的基本原理梯度提升树属于Boosting集成学习算法的一种，其思想不同于随机森林、Bagging的并...

发表了文章 • 2018-03-08 13:38 • 0 条评论

0

推荐

1933

阅读

机器学习模型效果评估指标

本文作者：数据取经团 - 张俊红前言前面的推文中介绍了几种常用的机器学习算法，每个算法都有各自的优劣势，我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法，以此达到效果最优，那么什么样的效果才是最优的，用什么来衡量这个效果。这一篇就针对机器学习算法的效果评估指标进行介绍。准确率...

发表了文章 • 2018-03-08 11:55 • 0 条评论

3

推荐

2457

阅读

机器学习实战--KNN算法详解

作者：数据取经团-Monke写在前面走了很多弯路，看了很多风景，才发现，想要好好学算法，还是要一行一行敲代码，于是有了这个系列。这个系列按照机器学习实战的章节来写，由于市面上已经有很多同类的文章，一般以介绍算法，贴代码，举例子为主，个人读下来，觉得对于实现的代码还是不能有很好的理解，所有有了这个系列。...

发表了文章 • 2017-12-26 14:34 • 0 条评论

1

推荐

2308

阅读

自我代码提升之随机森林

本文作者：数据取经团 - JQstyle 本期将为大家带来建立在决策树基础上的一种集成学习方法，随机森林模型。随机森林的思想介绍从集成学习的基本思想来看，将多个弱学习器组合作为新的模型来提升预测效果，就模型的组合方式而言，可以分为Boosting和Bagging两个大类。随机森林作为一种类Bagging的模...

发表了文章 • 2017-11-22 16:06 • 0 条评论

0

推荐

1656

阅读

利用多种方法来进行分类算法

前一段时间，作者利用Python进行了分类的数据挖掘算法，根据天善智能的《案例为师，实战为王》的课程代码，自己将泰坦尼克号的建模过程进行了整理，主要由回归分析，逻辑回归算法，决策树算法（参数选择），随机森林算法的Python代码实现进行了整合。第一步：数据提取和描述性统计在这一步中，Python中的一些简单函数可...

发表了文章 • 2017-11-21 16:37 • 0 条评论

0

推荐

2653

阅读

kd-tree:k近邻查询和范围查询

想象一下我们有如下两个任务:我现在想骑一辆小黄车，我想查找离我最近的k辆小黄车.找到百度地图中显示在屏幕上区域中的所有酒店这两个任务均可以用kd-tree来解决kd-tree 主要两个用途:查询离某个点的最近的个邻居,搜索某个区域内的所有点.后者在计算几何中称为范围查询,例如查询某个平面区域内的点的个数.kd-tree是什么...

发表了文章 • 2017-11-21 16:01 • 0 条评论

0

推荐

2210

阅读

自我代码提升之决策树

作者：数据取经团 - JQstyle本期将为大家带来决策树算法的介绍和实现，在机器学习领域、决策树为代表的一系列算法是不可忽视的一部分。当前在实际应用中较为主流的几种算法，如随机森林（RF）、梯度迭代决策树（GBDT）和XGBoost等，均是以决策树作为基础模型。决策树简单介绍决策树是一种基本的分类和回归方法，在本章中...

发表了文章 • 2017-11-21 15:46 • 0 条评论

0

推荐

1975

阅读

机器学习面试题目总结

作者：数据取经团 - Monke（本文阅读时长：10分钟）1.机器学习中特征的理解def：特征选择和降维特征选择：原有特征选择出子集，不改变原来的特征空间降维：将原有的特征重组成为包含信息更多的特征，改变了原有的特征空间降维的主要方法Principal Component Analysis(主成分分析)Singular Value Decomposition(奇异值分...

发表了文章 • 2017-09-18 11:04 • 0 条评论

0

推荐

1838

阅读

自我代码提升之朴素贝叶斯

作者：数据取经团 - JQstyle（本文阅读时长：10分钟）朴素贝叶斯的简介在机器学习的分类算法的各个门类中，贝叶斯分类方法是一个比较重要的组成部分。而隶属于贝叶斯分类方法的算法，均是以贝叶斯定理为基础的。对于一个分类问题，目标是Y{y1,y2…yN}，已知条件X{x1,x2…xN}，需要通过用X来...

发表了文章 • 2017-08-17 13:39 • 0 条评论

2

推荐

2965

阅读

以莺尾花数据集为例，探讨R模型部署之道

内容概要：1、iris数据集简介2、R模型部署的可能方案3、H2o.ai框架及pojo/mojo模型部署正式内容：iris data set简介Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长...

发表了文章 • 2017-08-03 15:26 • 1 条评论

0

推荐

2335

阅读

基于五种机器算法的信用风险评估

作者：数据取经团-白云飞基于五种机器算法的信用风险评估是一个系列文章，从互金数据出发，经过数据预处理，特征工程，建立机器学习模型，以及模型评估四个部分来分析建模。文章将按照一般的建模流程来组织：确定业务目标→数据获取→数据检验→变量选择（数据清洗）→变量转化→数据输入模型算法→模型评估。本文的重点放在...

发表了文章 • 2017-07-26 15:25 • 0 条评论

1

推荐

2051

阅读

自我代码提升之K近邻算法

作者：数据取经团-王嘉琪在机器学习和数据挖掘常用的方法中，常规的建模思路是输入给定的训练数据集（类别标签已知），通过一系列的训练建立预测模型，通过将需要预测的数据输入到训练完成的模型中得到预测结果。然而，并非所有的方法都包含了训练过程，K近邻算法就是其中之一。K近邻的基本思想 K近邻算法（KNN）是一...

发表了文章 • 2017-07-24 17:31 • 0 条评论

0

推荐

4460

阅读

Logistic回归的几种特殊形式

我们上周对Logistic回归已经有了初步的认识，Logistic回归就是在因变量不是连续型变量，而是分类变量的情况下来考虑的解释变量和被解释变量之间的关系的一个模型。下面我们来讨论Logistic回归的几种特殊情况。一、哑变量设置在Logistic回归中，如果自变量是只有两个水平的分类变量，我们就可以只用前面提到的Logistic回...

发表了文章 • 2017-07-05 10:55 • 0 条评论

0

推荐

1805

阅读

PCA，不得不提的降维手段

主成分分析(principal components analysis)1.前期需要掌握的知识点及其相关课程：⑴高等代数/线性代数：线性方程组、特征值和特征向量⑵统计学：方差分析等2.主成分分析思想：主成分分析是利用降维的思想，在损失较少信息的前提下，用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分，...

发表了文章 • 2017-07-05 10:46 • 0 条评论