1
推荐
3676
阅读

数据结构-图

总第120篇前言图是不同于前面两种数据结构的另一种新的数据结构,线性表中元素与元素之间是被串起来的,每个数据元素只有一个直接前驱和一个直接后继,是一种一对一的数据结构;在树的结构中,数据元素之间有明显的层次关系,并且每一层上的数据元素可能和下一层中多个元素相关,但只能和上一层中的一个元素相关,是一种...

发表了文章 • 2018-08-20 16:53 • 0 条评论

0
推荐
2742
阅读

数据结构—树与二叉树

总第119篇前言之前谈到的线性表、栈和队列都是一对一的数据结构,但是现实中也存在很多一对多的数据结构,这篇要写的就是一种一对多的数据结构———树。全文分为如下几部分:树的一些基本概念树的存储结构二叉树树与二叉树相互转换树和森林的遍历树的一些基本概念树是n个结点的有限集,n=0时称为空树,在任意一颗非空树中...

发表了文章 • 2018-08-15 13:28 • 0 条评论

0
推荐
2725
阅读

数据结构—字符串

总第118篇前言本篇开始写数据结构的第三部分——字符串,主要内容如下:概念串的存储结构串的基本操作关于字符串还有一个重要的知识点是KMP模式匹配算法,关于这个算法会单独拿一篇来写。概念串是由零个或多个字符组成的有限序列,又叫字符串。串中字符的个数称为串的长度,含有零个元素的串叫空串,空格也属于一个元素,...

发表了文章 • 2018-08-15 13:26 • 0 条评论

0
推荐
2397
阅读

数据结构-栈和队列

总第117篇前言本章节开始数据结构第二篇,栈和队列:栈:栈的存储结构栈的基本操作队列:队列的存储结构队列的基本操作前文回顾:数据结构—线性表栈我们把类似于弹夹那种先进后出的数据结构称为栈,栈是限定仅在表尾进行插入和删除操作的线性表,我们把允许插入和删除的一端称为栈顶,另一端称为栈底,不含任何数据元素...

发表了文章 • 2018-08-14 15:08 • 0 条评论

0
推荐
2224
阅读

数据结构—线性表

总第116篇前言本篇开始,又会开始一个新的系列,数据结构,数据结构在算法或者是编程中的重要性不言而喻,所以学好数据结构还是很有必要的。本篇主要介绍数据结构的第一个结构——线性表,主要分为以下几部分:1.概念2.存储结构顺序存储链式存储3.存储结构优缺点比较4.表操作单链表操作双链表操作注:本系列语言会使用C语...

发表了文章 • 2018-08-03 13:52 • 0 条评论

1
推荐
5690
阅读

Sklearn参数详解—聚类算法

总第115篇前言聚类是一种非监督学习,是将一份给定数据集划分成k类,这一份数据集可能是某公司的一批用户,也可能是某媒体网站的一系列文章,如果是某公司的一批用户,那么k-means做的就是根据用户的表现对用户的分类;如果媒体的文章,那么k-means做的就是根据文章的类型,把他分到不同的类别。当一个公司用户发展到一...

发表了文章 • 2018-08-02 15:52 • 0 条评论

0
推荐
1822
阅读

SKlearn参数详解—随机森林

总第114篇前言随机森林(RandomForest,简称RF)是集成学习bagging的一种代表模型,随机森林模型正如他表面意思,是由若干颗树随机组成一片森林,这里的树就是决策树。在GBDT篇我们说了GBDT和Adaboost的不同,那么RF和GBDT又有什么异同呢?主要有以下两点:模型迭代方式不同,GBDT是boosting模型,RF是bagging模型。GBDT...

发表了文章 • 2018-08-02 15:51 • 0 条评论

0
推荐
3024
阅读

Sklearn参数详解—GBDT

总第113篇前言这篇介绍Boosting的第二个模型GBDT,GBDT和Adaboost都是Boosting模型的一种,但是略有不同,主要有以下两点不同:GBDT使用的基模型是CART决策树,且只能是CART决策树,而Adaboost的默认基模型是CART决策树,可以是其他模型。GBDT通过计算每次模型的负梯度来进行模型迭代,而Adaboost模型则根据错分率来进行...

发表了文章 • 2018-07-24 16:20 • 0 条评论

0
推荐
8864
阅读

Sklearn参数详解—Adaboost

前言今天这篇讲讲集成学习,集成学习就是将多个弱学习器集合成一个强学习器,你可以理解成现在有好多道判断题(判断对错即01),如果让学霸去做这些题,可能没啥问题,几乎全部都能做对,但是现实情况是学霸不常有,学渣倒是很多,怎么样做才能保证题做对的准确率较高呢?就是让多个学渣一起做, 每个人随机挑选一部分题...

发表了文章 • 2018-07-03 15:47 • 0 条评论

1
推荐
4435
阅读

为jupyter_notebook增加目录

前言jupyter_notebook是数据相关岗位从业者的一个不错的选择,很清晰、很方便,可以将分析过程和分析结果同步显示在一起。但是有的时候随着你的分析增多,你的代码就会变得很长,这个时候就需要目录这样的功能,来帮助你整理框架以及快速定位对应内容。jupyter_notebook提供了目录功能,可以更好地帮助你梳理框架以及快...

发表了文章 • 2018-05-23 10:51 • 0 条评论

1
推荐
2637
阅读

Sklearn参数详解—LR模型

最近开始一个新的系列,sklearn库中各模型的参数解释,本篇主要讲述最基础的LR模型。模型参数详解逻辑回归:sklearn.linear_model.LogisticRegression(penalty='l2', dual=False,         tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1,         class_weight=...

发表了文章 • 2018-05-17 15:51 • 0 条评论

3
推荐
1976
阅读

Sklearn参数详解--决策树

前言先来简短的回顾一下决策树原理:决策树学习的算法通常是一个递归地(根据某一准则,信息增益或基尼系数)选择最优切分点/特征,并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类过程,这一过程对应着对特征空间的划分,也对应着决策树的构建,继续在子数据集上循环这个切割的过程,直到所有的...

发表了文章 • 2018-05-15 18:00 • 0 条评论

0
推荐
1970
阅读

机器学习中的特征选择

本篇讲解一些特征工程部分的特征选择(feature_selection),主要包括以下几方面:特征选择是什么为什么要做特征选择特征选择的基本原则特征选择的方法及实现特征选择是什么特征选择也称特征子集选择,是从现有的m个特征中选出对机器学习有用的n个特征(n<=m),以此降低特征维度减少计算量,同时也使模型效果达到最优。为...

发表了文章 • 2018-03-12 11:00 • 0 条评论

1
推荐
1677
阅读

机器学习中非平衡数据处理

这一篇主要说一下机器学习中非平衡数据的处理方式以及用python如何实现.在前面的一篇推文中我们提到过,非平衡数据会影响最后的评判效果,严重的会带来过拟合的效果,即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确,我们需要对非平衡数据进行一定的处理,主要有以下几种方式:欠采样过采样人工合成...

发表了文章 • 2018-03-05 11:31 • 0 条评论

1
推荐
1335
阅读

机器学习模型效果评估

前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用什么来衡量这个效果。这一篇就针对机器学习算法的效果评估指标进行介绍。准确率精确率召回率F1-score交叉报告混淆矩阵ROC/AUC...

发表了文章 • 2018-03-05 11:27 • 0 条评论