数据科学家养成记

鲁伟 一个数据科学践行者的学习日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人公众号:数据科学家养成记 (微信ID:louwill12)

2
推荐
2106
阅读

数据分析入行半年之经验、感悟与思考

作者简介:鲁伟:一个数据科学践行者的学习日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人公众号:数据科学家养成记 (微信ID:louwill12)转眼间这个当初志在分享数据科学技术和经验的公众号已经两个月没有更新了。真心的向各位关注我、督促我的各位老师、同学和数据科学爱好者、从业者们致个歉。今天这篇...

发表了文章 • 2018-07-12 14:48 • 1 条评论

1
推荐
1561
阅读

一个统计方向毕业生的2017年数据科学从业之路总结

作者简介:鲁伟:一个数据科学践行者的学习日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人公众号:数据科学家养成记 (微信ID:louwill12) 农历2017年的最后一天,终于能抽出点时间给过去一年以来关注我个人公众号的几千粉丝写点什么了。翻了一下上次的推送时间是1月16号,快一个月没更新了。一个是...

发表了文章 • 2018-07-12 14:42 • 0 条评论

1
推荐
1991
阅读

深度学习笔记2:手写一个单隐层的神经网络

    笔记1中我们利用 numpy 搭建了神经网络最简单的结构单元:感知机。笔记2将继续学习如何手动搭建神经网络。我们将学习如何利用 numpy 搭建一个含单隐层的神经网络。单隐层顾名思义,即仅含一个隐藏层的神经网络,抑或是成为两层网络。    继续回顾一下搭建一个神...

发表了文章 • 2018-07-03 16:21 • 0 条评论

0
推荐
1802
阅读

深度学习笔记1:利用numpy从零搭建一个神经网络

很多人说深度学习就是个黑箱子,把图像预处理之后丢进 tensorflow 就能出来预测结果,简单有效又省时省力。但正如我在上一篇推送中所说,如果你已是一名功力纯厚的深度学习工程师,这么做当然没问题。但我想大多数人也和我一样,都是走在学习深度学习的路上,一上来就上框架并没有什么特别不妥之处,但总归是对你理解深...

发表了文章 • 2018-07-02 17:07 • 0 条评论

1
推荐
1887
阅读

Python爬虫的两套解析方法和四种爬虫实现

 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门。本文想针对某一网页对python基础爬虫的两大解析库(BeautifulSoup和lxml)和几种信息提取实现方法进行分析,以开python爬虫之初见。基础爬虫的固定模式...

发表了文章 • 2018-06-26 13:22 • 0 条评论

0
推荐
2119
阅读

谈谈过拟合

在尚未接触机器学习之前,笔者在学习统计学中的回归分析的时候,曾经对R2这个指标盲目迷信,总是前方百计的想提R2的值,想必学统计出身的诸位必然也有此经历。后来历经艰辛,明白真实世界所拿到的数据不可能有教材给你的那么完美,数据的拟合程度若有五六十则是比较好的情况,二三十的情形则再常见不过。 前段时间...

发表了文章 • 2018-02-26 13:47 • 0 条评论

1
推荐
5642
阅读

利用scikit-learn进行机器学习:特征工程(二)特征选择

特征选择 1 概述 2 特征选择之Filter   2.1 方差选择法   2.2 卡方检验法   2.3 互信息法 3 特征选择之Wrapper   3.1 递归式特征消除法 4 特征选择之Embedded   4.1 基于惩罚项的特征选择法   4.2 基于树模型的特征选择法1 概述 ...

发表了文章 • 2018-01-18 10:28 • 0 条评论

2
推荐
2619
阅读

利用scikit-learn进行机器学习:特征工程(一)数据预处理

   对于机器学习,业内早有这样的说法:“数据和特征决定了你机器学习模型效果的上限,而模型和算法只是逐渐逼近这个上限而已。”小编不才,在机器学习方面只尝试过一些简单的数据建模过程,但对这种观点深以为然。在全球数据科学顶级比赛kaggle里面,特征工程往往被众多资深kaggler们所重视,一言以敝之,机器...

发表了文章 • 2018-01-03 14:41 • 0 条评论

0
推荐
3598
阅读

利用pandas进行数据分析(三):缺失值处理

   在实际的数据处理过程中,数据缺失是一种再平常不过的现象了。缺失值的存在极大的影响了我们数据分析结果的可靠性,以至于在数据建模前我们必须对缺失值进行处理。实际的缺失值处理主要包括两个部分:即识别数据集中的缺失值和如何处理缺失。 相较于 Python, R在数据缺失处理方面提供了大量的函数和包,但...

发表了文章 • 2017-12-19 10:05 • 0 条评论

6
推荐
2373
阅读

以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程

本文转载自微信公众号运营喵是怎样炼成的之前在八月份写过一篇针对外部数据分析的文章,《作为一个合格的“增长黑客”,你还得重视外部数据的分析!》,一部分读者向笔者反映,说对外部数据的分析跳出了原有的只针对企业内部数据分析(用户数据、销售数据、流量数据等)的窠臼,往往能给产品、运营、营销带来意想不到的启...

发表了文章 • 2017-12-11 11:22 • 0 条评论

1
推荐
2559
阅读

利用pandas进行数据分析(二):索引与层次化索引

     继上一节的 pandas基本数据结构的介绍之后,本节继续介绍 pandas中操作 Series和 DataFrame的基本手段。一个最常用的操作就是索引,如何根据分析目的对 Series和 DataFrame进行索引访问得到数据是利用 pandas进行数据分析的基本技能之一。索引用的好,对于数据访问、筛选和过滤以及理解 pandas数据...

发表了文章 • 2017-12-11 10:56 • 0 条评论

1
推荐
2079
阅读

利用pandas进行数据分析(一):Series和DataFrame数据结构

对于Python而言,坊间早有这种说法:在有了 pandas之后,Python才算有了数据分析的能力。在此之前,要想用Python来做数据分析,可能就没那么友好了,可见pandas在学习数据分析时候的重要程度。对于 pandas来说,很多功能的实现也是要基于科学计算库 numpy的,所以 numpy+ pandas的组合在Python数据分析中就显得尤为关键...

发表了文章 • 2017-12-04 14:17 • 0 条评论

0
推荐
1952
阅读

R数据处理包plyr:超越apply函数族的向量化运算

    R有着强大而又丰富的数据处理能力,除了一些常用的基础数据处理函数之外,R还为我们提供了大量以实现不同的数据处理功能的扩展包。关注小编公众号的朋友应该还记得之前曾写过一篇关于R向量化运算的 apply函数族的文章:    R语言向量化运算:apply函数族用法心得   &n...

发表了文章 • 2017-12-01 10:36 • 0 条评论

0
推荐
1989
阅读

从numpy开启Python数据科学之旅

   目前小编的Python学习是按照两个路径在一路往下推,希望借此改变过去大半年的Python一直在入门的状态。一个路径就是从纯编程语言的角度来学习Python的,包括Python编程基础、编写函数、Python高级特性、函数式编程、面向对象编程、多进程和多线程、常用内建模块和第三方库等等,旨在学习和锻炼编程思维,提...

发表了文章 • 2017-12-01 10:21 • 0 条评论

0
推荐
3816
阅读

gganimate:构建R语言可视化gif动图

gganimate简介      gganimate是一款基于ggplot2的动态可视化扩展包,简单就是将ggplot2绘图对象转为gif动图的形式,这对于一些统计分析原理和可视化展示尤为重要,可以让抽象的数理理论更加形象化,也便于理解和方便课堂教学。 gganimate包的安装本身没有什么麻烦,但是这个包脾气倔,需要本地提前安装...

发表了文章 • 2017-12-01 10:09 • 0 条评论