夏尔康

新人一枚的数据分析师,写写博客,交流学习

1
推荐
395
阅读

使用python的gensim做主题模型分析(LDA模型)

由于本人水平有限,对LDA的模型介绍可能不够深入或者有误之处还请各位指出,在下谢谢了;在传统的主题挖掘中,我们可以最早的发现是使用文本聚类的算法,聚类的结果可能近似的认为满足一个主题,但是,这种基于聚类是算法普遍依赖文本之间的距离计算;而这种距离的量化在海量的文本中是难以定义的,在聚类的结果上也只是...

发表了文章 • 2017-06-05 22:28 • 0 条评论

1
推荐
218
阅读

简单的使用PYTHON对中文文本聚类并预测

前言这篇文章会接着上篇分词文章讲,内容也是比较简单,并没有做太多的深究,主要是为了让自己尽快熟悉PYTHON的语言环境,至于算法之类的讲解这里就不多说了工具:pycharm环境:python2.7在这里我导入习惯常用的包# -*- coding: UTF-8 -*-import sysimport osfrom sklearn.datasets.base import Bunchfrom sklearn import...

发表了文章 • 2017-06-01 21:18 • 0 条评论

7
推荐
611
阅读

用Python实现本文分词以及本地保存

我们通常在做中文文本分析的时候,首先都需要先对文本进行分词,分割成我们想要的形式,这里的话我就使用python进行文本分词,并保存在本地相应文件夹中,这里的话我使用的数据集是answer;好像复旦大学某个人收集的,抱歉,我没记住名字,至少说明我还是有点责任感,哈哈;入正题因为使用的python进行分词的话,我们就...

发表了文章 • 2017-05-25 21:46 • 3 条评论

1
推荐
168
阅读

初识pandas包的数据预处理

前言 这篇文章是通过一个简单的数据认识pandas在数据预处理上的一个运用,这个也是写给自己以后当作参考手册用的,部分步骤缺少Python代码,后面会加上,本文可能较为简单,不适合大神;本文的数据是书名《机器学习系统设计》第一章的数据,数据处理上不参考书里环境背景:python环境:2.7工具:Pycharm1、读入数据导入我...

发表了文章 • 2017-05-23 20:50 • 3 条评论

5
推荐
277
阅读

数据分析中常见的七种回归分析以及R语言实现(七)---弹性网络回归

其实这个方法比较新颖,自己本人也没怎么用过,看了不少文献,但是大多数都是枯燥公式推导;这里就写少量的简单公式求解,因为不写稍微长点话都不好意思发表了,因为这系列的文章只是写个介绍,毕竟如果只是写介绍的话实在太短了,接个我想要用的表情弹性网络回归说起来的话,其实它和lasso方法和岭回归方法有些关系,因...

发表了文章 • 2017-02-05 21:53 • 1 条评论

7
推荐
384
阅读

数据分析中常见的七种回归分析以及R语言实现(五)---套索回归

l套索回归,这个回归模型有些新颖,要写个详细的介绍估计要写好长,受限于水平,就写个普及文,所以这里就稍微简答的介绍一下;为什么我们老说多重共线性呢?那是,因为我们在研究数据的时候总会不可避免的出现多维度的数据,这时候高纬度的数据就会出现多重共线性,变量选择等;所以如何消除多重共线性确定最佳模型,是...

发表了文章 • 2017-01-17 21:37 • 3 条评论

10
推荐
478
阅读

数据分析中常见的七种回归分析以及R语言实现(四)---多项式回归

这篇文章是个普及文,比较浅,没有太深入;在我们平时做回归的时候,大部分都是假定自变量和因变量是线性,但有时候自变量和因变量可能是非线性的,这时候我们就可能需要多项式回归了,多项式回归就是自变量和因变量是非线性所做的一个回归模型,其表达式:Y=A0+A1X1+A2X2^2+ANXN^2+u 公式存手打,不是很好看,其特定就...

发表了文章 • 2017-01-10 22:15 • 2 条评论

9
推荐
497
阅读

数据分析中常见的七种回归分析以及R语言实现(三)---岭回归(代码部分全程引用谢佳标老师)

我们在回归分析的时候,古典模型中有一个基本的假定就是自变量之间是不相关的,但是如果我们在拟合出来的回归模型出现了自变量之间高度相关的话,可能对结果又产生影响,我们称这个问题为多重共线性,多重共线性又分为两种,一种是完全多重共线性,还有一种是不完全多重共线性;产生的原因有几个方面1、变量之间存在内部...

发表了文章 • 2017-01-08 22:43 • 3 条评论

22
推荐
306
阅读

再见2016,你好2017

不知不觉又到了写一年的总结的时候了,也是从2016年开始在天善坚持写博客学习的一年,对我来说是一个极其有意义的一年。首先回首一下我的2016年过程1、3月,在天善完成了自己的第一篇博客2、5月,回了趟西安看望了母校并和舍友们相聚3、7月,在咨询了小郭姐等人毅然的决定要跳槽了4,8月,入职新公司,这次接触更多的数...

发表了文章 • 2017-01-07 19:36 • 8 条评论

7
推荐
490
阅读

数据分析中常见的七种回归分析以及R语言实现(二)---逐步回归

接着上篇文章,这里讲一下逐步回归,那么大家应该都知道逐步回归是什么样的作用了,就是为我们剔除一些不重要或者不显著的自变量,使得回归方程最优形式去预测因变量;其中主要思路将所有自变量按照对因变量Y的作用大小,显著程度,由大到小引入回归方程中;其中主要通过几个统计值来识别重要变量,可决系数,T值和AIC值...

发表了文章 • 2016-12-29 22:01 • 4 条评论

6
推荐
588
阅读

数据分析中常见的七种回归分析以及R语言实现(一)--简单线性模型

刚刚学习数据分析的人应该知道回归分析是作为预测用的一种模型,它主要是通过函数来表达因变量(连续值)和自变量变量的关系,通俗的来说就是Y和X的关系通过公式表达出来;这样能够表明因变量和自变量之间的显著关系并且是函数关系,还可以表明多个自变量对一个因变量的影响强度,回归分析主要运用在预测分析上,虽然说...

发表了文章 • 2016-12-27 21:47 • 2 条评论

6
推荐
474
阅读

简单的认识R语言和逻辑斯蒂回归

在生活中并不是所有的问题都要预测一个连续型的数值,比如药剂量,某人薪水,或者客户价值;逻辑斯蒂回归回归它主要用于只有两个结果的分类问题,它定义结果的变量只有两类的值,然后根据线性模型来预测归属类的概率;本文可能写的浅显,如果有错还望能指出来,因为只是写了普及问而已;logistic回归假设有一个变量它一...

发表了文章 • 2016-12-26 21:44 • 3 条评论

4
推荐
285
阅读

简单的介绍一下评价分类器常用指标

我们日常用的分类算法有很多种,不同的份额里算法又用不同的测度指标,所以在不同的数据集上会有表现也会有所不同;所以这时候对分类器的性能判断尤为重要,所以有几个简单的性能评价指标,简单说下在说之前先说下几个字母和一个常见术语1、TP:被正确划分为正例的个数,既实际为正例且被分为正例的样本数2、FP:被错误划...

发表了文章 • 2016-12-12 21:48 • 0 条评论

5
推荐
633
阅读

常用的几种商品推荐算法介绍

1、现有推荐算法商品推荐系统根据算法分为基于内容,协同过滤和混合的推荐系统,这些算法目前都具有些局限性1.1基于内容的推荐算法算法的核心思想和关键步骤基于内容的推荐算法起源于信息检索,通常用来推荐包括文本信息的文档信息的文档,网页和新闻等,即向用户推荐与他们过去喜爱的商品相似的商品,这个有两个关键步...

发表了文章 • 2016-09-27 21:57 • 0 条评论

5
推荐
543
阅读

简单的认识一下组合分类器以及R语言对应使用函数

首先,我们大家都有学习过一系列的分类方法,例如决策树,贝叶斯分类器等,有时候分类的效果不太如人意,哪怕是参数是最优化也一样,所以这时候就需要一些提高分类准确性的方法,我们常用的就是组合分类器,它就是一个复合模型,也就是由多个分类器组合而成;个体的分类器对结果进行投票,然后对组合分类器返回的投票进...

发表了文章 • 2016-09-17 22:18 • 0 条评论