夏尔康

新人一枚的数据分析师,写写博客,交流学习

5
推荐
87
阅读

数据分析中常见的七种回归分析以及R语言实现(七)---弹性网络回归

其实这个方法比较新颖,自己本人也没怎么用过,看了不少文献,但是大多数都是枯燥公式推导;这里就写少量的简单公式求解,因为不写稍微长点话都不好意思发表了,因为这系列的文章只是写个介绍,毕竟如果只是写介绍的话实在太短了,接个我想要用的表情弹性网络回归说起来的话,其实它和lasso方法和岭回归方法有些关系,因...

发表了文章 • 2017-02-05 21:53 • 1 条评论

7
推荐
187
阅读

数据分析中常见的七种回归分析以及R语言实现(五)---套索回归

l套索回归,这个回归模型有些新颖,要写个详细的介绍估计要写好长,受限于水平,就写个普及文,所以这里就稍微简答的介绍一下;为什么我们老说多重共线性呢?那是,因为我们在研究数据的时候总会不可避免的出现多维度的数据,这时候高纬度的数据就会出现多重共线性,变量选择等;所以如何消除多重共线性确定最佳模型,是...

发表了文章 • 2017-01-17 21:37 • 3 条评论

10
推荐
318
阅读

数据分析中常见的七种回归分析以及R语言实现(四)---多项式回归

这篇文章是个普及文,比较浅,没有太深入;在我们平时做回归的时候,大部分都是假定自变量和因变量是线性,但有时候自变量和因变量可能是非线性的,这时候我们就可能需要多项式回归了,多项式回归就是自变量和因变量是非线性所做的一个回归模型,其表达式:Y=A0+A1X1+A2X2^2+ANXN^2+u 公式存手打,不是很好看,其特定就...

发表了文章 • 2017-01-10 22:15 • 2 条评论

9
推荐
312
阅读

数据分析中常见的七种回归分析以及R语言实现(三)---岭回归(代码部分全程引用谢佳标老师)

我们在回归分析的时候,古典模型中有一个基本的假定就是自变量之间是不相关的,但是如果我们在拟合出来的回归模型出现了自变量之间高度相关的话,可能对结果又产生影响,我们称这个问题为多重共线性,多重共线性又分为两种,一种是完全多重共线性,还有一种是不完全多重共线性;产生的原因有几个方面1、变量之间存在内部...

发表了文章 • 2017-01-08 22:43 • 3 条评论

21
推荐
238
阅读

再见2016,你好2017

不知不觉又到了写一年的总结的时候了,也是从2016年开始在天善坚持写博客学习的一年,对我来说是一个极其有意义的一年。首先回首一下我的2016年过程1、3月,在天善完成了自己的第一篇博客2、5月,回了趟西安看望了母校并和舍友们相聚3、7月,在咨询了小郭姐等人毅然的决定要跳槽了4,8月,入职新公司,这次接触更多的数...

发表了文章 • 2017-01-07 19:36 • 8 条评论

7
推荐
323
阅读

数据分析中常见的七种回归分析以及R语言实现(二)---逐步回归

接着上篇文章,这里讲一下逐步回归,那么大家应该都知道逐步回归是什么样的作用了,就是为我们剔除一些不重要或者不显著的自变量,使得回归方程最优形式去预测因变量;其中主要思路将所有自变量按照对因变量Y的作用大小,显著程度,由大到小引入回归方程中;其中主要通过几个统计值来识别重要变量,可决系数,T值和AIC值...

发表了文章 • 2016-12-29 22:01 • 3 条评论

6
推荐
443
阅读

数据分析中常见的七种回归分析以及R语言实现(一)--简单线性模型

刚刚学习数据分析的人应该知道回归分析是作为预测用的一种模型,它主要是通过函数来表达因变量(连续值)和自变量变量的关系,通俗的来说就是Y和X的关系通过公式表达出来;这样能够表明因变量和自变量之间的显著关系并且是函数关系,还可以表明多个自变量对一个因变量的影响强度,回归分析主要运用在预测分析上,虽然说...

发表了文章 • 2016-12-27 21:47 • 2 条评论

6
推荐
380
阅读

简单的认识R语言和逻辑斯蒂回归

在生活中并不是所有的问题都要预测一个连续型的数值,比如药剂量,某人薪水,或者客户价值;逻辑斯蒂回归回归它主要用于只有两个结果的分类问题,它定义结果的变量只有两类的值,然后根据线性模型来预测归属类的概率;本文可能写的浅显,如果有错还望能指出来,因为只是写了普及问而已;logistic回归假设有一个变量它一...

发表了文章 • 2016-12-26 21:44 • 3 条评论

4
推荐
184
阅读

简单的介绍一下评价分类器常用指标

我们日常用的分类算法有很多种,不同的份额里算法又用不同的测度指标,所以在不同的数据集上会有表现也会有所不同;所以这时候对分类器的性能判断尤为重要,所以有几个简单的性能评价指标,简单说下在说之前先说下几个字母和一个常见术语1、TP:被正确划分为正例的个数,既实际为正例且被分为正例的样本数2、FP:被错误划...

发表了文章 • 2016-12-12 21:48 • 0 条评论

5
推荐
421
阅读

常用的几种商品推荐算法介绍

1、现有推荐算法商品推荐系统根据算法分为基于内容,协同过滤和混合的推荐系统,这些算法目前都具有些局限性1.1基于内容的推荐算法算法的核心思想和关键步骤基于内容的推荐算法起源于信息检索,通常用来推荐包括文本信息的文档信息的文档,网页和新闻等,即向用户推荐与他们过去喜爱的商品相似的商品,这个有两个关键步...

发表了文章 • 2016-09-27 21:57 • 0 条评论

5
推荐
428
阅读

简单的认识一下组合分类器以及R语言对应使用函数

首先,我们大家都有学习过一系列的分类方法,例如决策树,贝叶斯分类器等,有时候分类的效果不太如人意,哪怕是参数是最优化也一样,所以这时候就需要一些提高分类准确性的方法,我们常用的就是组合分类器,它就是一个复合模型,也就是由多个分类器组合而成;个体的分类器对结果进行投票,然后对组合分类器返回的投票进...

发表了文章 • 2016-09-17 22:18 • 0 条评论

6
推荐
901
阅读

R语言的股市人生

1.1问题描述和目标对数据挖掘而言股票市场交易是个具有巨大潜力的应用领域;我们目标是尽可能的获取利润;应用数据挖掘技术得到结果给出信号,然后据此作为决策的基础来制定交易策略;1.2数据说明我还是使用上篇博客的数据集作为我们这此研究的重点,我们一样使用西班牙著名企业迪亚天天的股市价格数据作为我们的模型数...

发表了文章 • 2016-09-07 20:42 • 27 条评论

9
推荐
849
阅读

用R语言简单的认识一下股票数据

最近坐个公交车闲得无聊就有了些想法和思路;今天来分享一个关于股市数据的应用,这里我用一些我前面所学的一些关于时序的皮毛的处理方式去呈现给大家,本人正除于菜鸟期,怕误人子弟,有错误还请大牛指出,这里谢谢啦!1.1问题描述和目标相信大家为了股票的价格的涨跌折磨的生不如死,能够预测到股票价格能够给我们带来...

发表了文章 • 2016-08-21 21:59 • 8 条评论

4
推荐
177
阅读

分享一些LINUX常用命令行

最近在学习一些关于大数据的知识,感觉LINUX系统不做维护的话不需要掌握太深,所以这里就分享一些常用命令行给大家LINUX一些常用指令LS 显示文件或者目录 -l 列出文件详细信息 -a 列出当前目录下所有文件及目录mkdir -p 创建目录,若无父目录cd               切换目录touch  ...

发表了文章 • 2016-08-15 16:04 • 5 条评论

3
推荐
265
阅读

读书笔记《增长黑客 创业公司的用户与收入增长秘籍》之如何成为增长黑客

1什么是增长黑客什么是增长黑客,一群以数据群东营销,以市场指导产品,通过技术手段贯彻增长且目标的人;增长黑客必须懂得真正的产品核心价值,能有最简单的语言描述这个产品是什么,解决什么问题;2如何解决增长问题我们将增长目标拆分并概括为“AARRR”转化漏斗模型,即:获取用户,激发活跃,提高留存,增加收入,传播...

发表了文章 • 2016-07-29 11:14 • 1 条评论