未来码农

为成为未来的数据分析大神而努力

1
推荐
1686
阅读

降维与度量学习

K近邻学习K近邻学习简称knn,是一种常用的监督学习方法,其工作机制简单,给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测,通常在分类任务中可使用投票法即选择这K个样本中出现最多的类别标记作为预测结果;在回归任务中可使用平均法即将这K个样本的实值输出标...

发表了文章 • 2018-11-01 19:30 • 0 条评论

1
推荐
1531
阅读

神经网络

神经元神经网络由具有适应性的的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络最基本的部分就是神经元模型。在神经元模型中,神经元接收来自n个其他神经元传递来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入与神经元的阈值进行...

发表了文章 • 2018-10-24 19:57 • 0 条评论

1
推荐
2298
阅读

集成学习之Bagging

我们知道,想得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立,虽然独立在现实中无法做到,但是可以设法使基学习器具有较大差异。BaggingBagging是并行式集成学习方法最著名的代表,它是基于前面博客提到的自助采样法:给定m个样本的数据集,我们随机取出一个样本放入采样集中,再把该样本放回初始数据集,使...

发表了文章 • 2018-10-17 17:42 • 0 条评论

0
推荐
1342
阅读

集成学习之Boosting

集成学习通过构建并结合多个学习器来完成学习任务,也被称作多分类器系统、基于委员会的学习(大概是因为它的工作原理与委员会工作机制相似)等。所谓集成算法顾名思义就是先产生一组个体学习器,再用某种策略将这些个体学习器结合起来,个体学习器也可以称为组件学习器。当这些个体学习器为同种类型的,则称它们为同质的...

发表了文章 • 2018-10-16 09:02 • 0 条评论

0
推荐
2186
阅读

模型评估与选择之比较检验

之前的博客讲了使用某种实验评估方法测得学习器的某个性能度量结果,但是怎么比较这些性能度量的结果呢?统计假设检验为我们进行学习器性能的比较提供了重要依据。基于假设检验结果可以推断出:若在测试集上观察到学习器A比B好,则A的泛华能力是否在统计意义上优于B,以及这个结论的把握有多大。由于自己的统计学知识储...

发表了文章 • 2018-10-11 16:59 • 0 条评论

1
推荐
1229
阅读

模型评估与选择之性能度量

在预测任务中,要评估学习器的性能,就要将学习器的预测结果与真实标记进行比较。下面将介绍几个评估学习器性能的方法:首先给定样例集:,其中是示例的真实标记,想评估学习器的性能的话需要将与真实标记进行比较。1.回归任务中常见的度量(均方误差)均方误差表示:2.错误率与精度错误率与精度是最常用的两种性能度量方...

发表了文章 • 2018-10-11 16:08 • 0 条评论

1
推荐
1690
阅读

模型评估与选择之评估方法

训练误差和泛化误差在训练集上的误差称为训练误差或者经验误差,在新样本上的误差称为泛化误差。误差评估方法使用测试集来测试学习期对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。需要注意一点:测试集尽量与训练集互斥。1.留出法直接将数据集D划分为两个互斥的集合,一个集合为训练集S,另一个集...

发表了文章 • 2018-09-23 21:41 • 0 条评论

0
推荐
1060
阅读

python中的数据类型

    自开始(一周前)学python到现在,学习了一套基础课程,总共26节课,但是我只学习了里边的22节课左右,因为后边的四节课基本上讲的是线性回归之类的进阶版的知识。说实话,这套课程很适合做数据分析的入门,其实本身这套课程就是面向数据分析者的一套入门课程。    学到这里,基本上 这套课程算...

发表了文章 • 2018-09-13 16:14 • 0 条评论

0
推荐
1446
阅读

柱状图上画直线(图上加图)

现有一个数据:mydata <- data.frame(A = letters[1:4], B = 1:4, D = 4:1)现在想画出下面的图:应该怎么实现?代码如下:ggplot(mydata) + geom_bar(aes(x = A, y = B), stat = "identity") + geom_line(aes(x = A, y = D, group = 1), size = 1)

发表了文章 • 2018-09-06 20:52 • 0 条评论

0
推荐
3369
阅读

自变量为离散型变量,因变量也为离散型变量画什么图

如附件中的数据所示:有10个score变量,现在需要探究这10个score与因变量bad_good之间的影响关系。在这之前将每个score做纵坐标,bad_good做横坐标画箱线图,但是关系不是很明显,需要进一步展示他们之间的关系,如下图(以score1为例)。在探索更好的方法中,我首先将score从小到大排序,利用深度分箱将数据分成10段(...

发表了文章 • 2018-09-06 20:46 • 1 条评论

0
推荐
12882
阅读

ROC、KS曲线及AUC、KS值

上图中,我们最常用的就是TPR(True Positive Rate)和FPR(False Positive Rate):其中:TPR = TP/(TP+FN)即真实1中预测错的;FPR = FP/(FP+TN)即真实0中预测错的;Precision = TP/(TP+FP)即预测1中对的  最理想的模型,是TPR尽量高而FPR尽量低,然而任何模型在提高正确预测概率的同时,也会难以避免地增加误判率。...

发表了文章 • 2018-09-06 20:18 • 0 条评论

0
推荐
1470
阅读

计算占比、将小数用百分数表示、计算分位数、排序

1.计算占比(prop.table)trip %>% count(usertype) %>% select(n) %>% prop.table() %>% lapply(percent)2.将小数用百分数表示(percent)percent(0.93)输出:93%3.计算分位数quantile(trip$tripduration/60, probs = c(0, 0.25, 0.5, 0.75, 1))输出:0%           ...

发表了文章 • 2018-09-01 16:38 • 0 条评论

0
推荐
1421
阅读

标准形式显示时间,抽出里边的年月或日,原来时间加10分钟

1.以标准形式显示时间:修改前:station$online_date %>% mdy()修改后:再试一下另一种:修改前:trip_starttime_shape <- trip$starttime %>% mdy_hm()修改后:2.抽出年月或日:(注意,这项操作必须建立在上一步之上,即必须先变成上述标准形式)小时:starttime_h <- hour(trip_starttime_shap...

发表了文章 • 2018-09-01 16:22 • 0 条评论

1
推荐
3018
阅读

ggplot画累积概率分布图

ggplot画累积概率分布图:ggplot(trip_duration_re, aes(x = duration_re, color="skyblue")) + geom_line(aes(y=..y..), stat="ecdf", colour="skyblue", size = 1) + labs(x = "出行时长(单位:分钟)", y = "Pr[X<x]")

发表了文章 • 2018-09-01 16:01 • 0 条评论

0
推荐
2584
阅读

ggplot更改图形的框线和填充颜色,并改图形组距

ggplot更改图形的框线和填充颜色,并改图形组距:ggplot(data = station, aes(x = dpcapacity)) + geom_histogram(colour="black", fill = "skyblue", binwidth = 6) + labs(x = "车桩数", y = "频数")

发表了文章 • 2018-09-01 15:55 • 0 条评论