夏尔康

新人一枚的数据分析师,写写博客,交流学习

9
推荐
5311
阅读

用R语言简单的认识一下股票数据

最近坐个公交车闲得无聊就有了些想法和思路;今天来分享一个关于股市数据的应用,这里我用一些我前面所学的一些关于时序的皮毛的处理方式去呈现给大家,本人正除于菜鸟期,怕误人子弟,有错误还请大牛指出,这里谢谢啦!1.1问题描述和目标相信大家为了股票的价格的涨跌折磨的生不如死,能够预测到股票价格能够给我们带来...

发表了文章 • 2016-08-21 21:59 • 8 条评论

4
推荐
1812
阅读

分享一些LINUX常用命令行

最近在学习一些关于大数据的知识,感觉LINUX系统不做维护的话不需要掌握太深,所以这里就分享一些常用命令行给大家LINUX一些常用指令LS 显示文件或者目录 -l 列出文件详细信息 -a 列出当前目录下所有文件及目录mkdir -p 创建目录,若无父目录cd               切换目录touch  ...

发表了文章 • 2016-08-15 16:04 • 5 条评论

3
推荐
2026
阅读

读书笔记《增长黑客 创业公司的用户与收入增长秘籍》之如何成为增长黑客

1什么是增长黑客什么是增长黑客,一群以数据群东营销,以市场指导产品,通过技术手段贯彻增长且目标的人;增长黑客必须懂得真正的产品核心价值,能有最简单的语言描述这个产品是什么,解决什么问题;2如何解决增长问题我们将增长目标拆分并概括为“AARRR”转化漏斗模型,即:获取用户,激发活跃,提高留存,增加收入,传播...

发表了文章 • 2016-07-29 11:14 • 1 条评论

4
推荐
8558
阅读

金融时间序列-用R语言建一个简单的时间序列自回归模型

1简单自回归模型当X具有间隔为1的自相关系数时,滞后值X(T-1)可能会在预测X(T)时有用,下面的简单模型可以利用这样的预测功能其中a(t)是均值为0,方差为常数的白噪声序列,这个和一元线性回归模型是一样的形式,这里X(T)是因变量,X(T-1)是自变量,这个模型我们称之为一阶自回归(AR)模型模型,其中一阶自回归模型的...

发表了文章 • 2016-07-29 09:16 • 1 条评论

3
推荐
2002
阅读

金融分析时间序列相关基础概念初探

前言由于自己在时间序列没有过多的花时间研究,最近难得有时间,加上之前听了张丹老师说的R语言在金融分析中的应用,自己也颇为心动,所以也想加强在这方面的学习,哪怕是目前用不到,所以写下来和大家一起交流,由于写得较为简单,一些繁琐的推导公式这里就怎么查文献写上去,需要深入了解可以查查文献在金融分析中,我...

发表了文章 • 2016-07-28 15:50 • 0 条评论

8
推荐
2940
阅读

读书笔记《数据分析 企业的贤内助》--数据分析篇

1、界定分析目的分析师要基于需求分析,需求就是客户做数据分析的目的。然而数据分析是帮助企业解决经营决策的难题,换句话来说它要回答两个问题--决定做什么?如何达到?决定做什么,就是战略决策,如何达到,一方面要考虑资金投到哪个项目上,就是投资决策,另一方面要考虑所提供的产品或者服务如何推向市场,就是营销...

发表了文章 • 2016-07-27 11:43 • 5 条评论

3
推荐
6290
阅读

别说尔康不教你卖钻石---基于R语言钻石价格预测

由于写了很多东西,但一直都没整合在一起,这次写一个案例将自己所学的一些东西整合一下,也给大家分享一下1.1问题描述和目标因为钻石的价格定价取决于重量,颜色,刀工等影响,价格该如何制定合理,为公司抢占市场制定价格提供依据。1.2数据说明这里我使用的是R语言里面数据集diamonds,如果看这本《ggplot2:数据分析与...

发表了文章 • 2016-07-20 22:45 • 14 条评论

4
推荐
1587
阅读

读书笔记:数据分析-企业的贤内助---市场定位篇

问题与背景:背景顺义一个镇拿下一块地,都打算做高端住宅,但是存在两个问题,第一,不知道房地产项目如何定位,价格定多少,目标用户是谁?销量能否消化,项目如何设计?第二,不知道如何评估这个项目的投资价值,做下来到低是赚了还是亏了1。市场定位的思路回答两个问题:市场定位解决那些问题?为解决问题要研究那些...

发表了文章 • 2016-07-11 17:56 • 0 条评论

3
推荐
2030
阅读

读书笔记:数据分析-企业的贤内助---企业战略篇

前言  上周看了菜鸟数据岛推荐了一本书《数据分析-企业的贤内助》,对自己的思维影响还是有点大,感觉获益匪浅,可以关注一下菜鸟数据岛,这些分享一篇自己写的笔记,大家喜欢的话可以去买,电子版的我没有,我只有实物书,毕竟要尊重原作者的劳动成果;笔记企业最头疼的就是如何做战略决策,因为战略决策关乎到企...

发表了文章 • 2016-07-11 17:34 • 0 条评论

1
推荐
3416
阅读

聚类分析最简单的机器算法之一--KNN(K近邻)

什么是聚类呢?聚类就是一个把数据对象划分成多个组或簇的过程,每一个自己都是一个簇,使得簇内的对象具有很高的相似性,但与其他的簇中的的对象很不相似;那怎么去度量这些属性的相异性和相似性呢?通常都是根据描述对象的属性值去评估,并且通常涉及距离度量;基于技术上对分类划分的话,分成这几种:划分方法、层次...

发表了文章 • 2016-07-11 16:48 • 0 条评论

3
推荐
6432
阅读

用R语言稍微带你认识一下随机森林

随机森林介绍随机森林是一种用于解决回归或者分类问题的算法,它是组合分类的一个应用,组合分类就是把K个学习得到的模型M1,M2,MK全部组合在一起,创建一个改进的复合分类模型M,组合分类器基于分类器的投票返回类预测;组合分类器往往比它的基分类更准确,组合分类中还有想装袋,提升等;随机森林的估计过程A、指定M值...

发表了文章 • 2016-07-01 17:23 • 2 条评论

3
推荐
4297
阅读

线性回归模型比较-稳健回归,阻力回归,传统线性回归比较

稳健回归先说一下在传统的回归中,使用的是最小二乘法进行的参数估计的,这个算法就要求误差项是相互独立,服从正态分布,零为数学期望并拥有相同方差的随机变量中,当实际中的样本数据或者观察值出现了异常值时,误差将不再服从正态分布,这样我们估计出来的模型参数将不准确了,而稳健回归能够克服异常值和异方差的影...

发表了文章 • 2016-06-30 18:27 • 0 条评论

4
推荐
2384
阅读

利用R语言来实现关联分析

一、前提叙述        由于库里执行的SQL等待时间太过长了,加上下班回去的那段时间有点热,所以就稍微写一下,上次我用过一个实例去还原关联分析apriori算法的过程,这次的话我用自己工作中的数据使用R语言来分析,前面自己有写文章描述过关联分析算法的一些过程和重要步骤,这里就不重复了,我还是...

发表了文章 • 2016-06-22 18:39 • 2 条评论

9
推荐
2068
阅读

用R来认识支持向量机

        学习支持向量机确实是有点吃力,因为网上的资料篇幅都比较长在说支持向量机前我先给各位介绍4个关键的概念,尽量用通俗易懂的语言给大家介绍;        分离超平面:因为我们在处理分类问题的时候往往需要有个给我们参考的决策边界,就好像国界一样,你出生在哪里就是哪...

发表了文章 • 2016-06-14 22:27 • 2 条评论

8
推荐
3236
阅读

利用下班时间写个R语言对回归模型进行回归诊断

    在R语言中,对数据进行回归建模是一件很简单的事情,一个lm()函数就可以对数据进行建模了,但是建模了之后大部分人很可能忽略了一件事情就是,对回归模型进行诊断,判断这个模型到低是否模型的假定;如果不符合假定,模型得到的结果和现实中会有巨大的差距,甚至一些参数的检验因此失效。    因...

发表了文章 • 2016-06-13 18:43 • 10 条评论