尾巴说数

学R与PYTHON的故事

1
推荐
2025
阅读

Hadoop里的数据挖掘应用-Mahout——学习笔记<三>

由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频。Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类、分类、推荐算法)不过数据挖掘调参和业务理解是关键,个人觉得真正想学习的话,还是看正规机器学习的课程比较好。这里省略了大部分比较技术那一块的笔记...

发表了文章 • 2016-02-23 12:51 • 0 条评论

2
推荐
2860
阅读

Hadoop-HBASE案例分析-Hadoop学习笔记<二>

主要介绍HBase,一个分布式数据库的应用案例。案例概况:1)时间序列数据库(OpenTSDB) 用HBase储存时间序列数据,每时每刻都在解决,数据库为开源 2)HBase爬虫调度库 垂直搜索爬虫 大规模爬虫(全网爬虫) 这里界定URL爬虫调度 3)HBase文档库 储存文档数据库,偏重于储存 4)...

发表了文章 • 2016-02-22 21:33 • 1 条评论

7
推荐
4023
阅读

Hadoop概括——学习笔记<一>

前言第一章主要讲的是hadoop基础知识。老师讲的还是比较全面简单的,起码作为一个非专业码农以及数据库管理人员,也能狗大致了解其特点首先是概括图(以hadoop2.0为例) 一、Hadoop基础架构:HDFS(分布式存储层,主要储存数据) YARN(集群资源管理层) MapReduce 分布式数据处理,javaHDFS为最基本的,...

发表了文章 • 2016-02-22 21:25 • 3 条评论

1
推荐
1872
阅读

R语言——七月

这两个月没有写什么代码。也没做什么大项目,基本就是对以前写的那个用ggplot2可视化数据的项目做一些增增补补,大部分技术难关都在ggplot2和R语言EXCEL处理这里解决并总结了。然后业余帮人修改一个用RVEST写的亚马逊简陋爬虫,花了两个周末时间。就简单记一下最近弄的这个功能块功能块分区,并自定义 这个是在处理...

发表了文章 • 2016-02-22 21:19 • 0 条评论

2
推荐
4370
阅读

R语言:ggplot2精细化绘图——以实用商业化图表绘图为例

本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人。不讨论那些样式非常酷炫的图表,以实用的商业化图表为主。包括以下结构:1、画图前的准备:自定义ggplot2格式刷 2、画图前的准备:数据塑形利...

发表了文章 • 2016-02-22 21:18 • 1 条评论

2
推荐
3424
阅读

R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理

前言: 应用背景兼吐槽继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯。 这次的主题是论R与excel的结合,又称 论如何正确把EXCEL文件喂给R处理分为: 1、 xlsx包安装及注意事项 2、用vba实现xlsx批量转化csv以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel...

发表了文章 • 2016-02-22 21:05 • 0 条评论

1
推荐
3235
阅读

R语言学习笔记-机器学习1-3章

在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了《机器学习-实用案例解析》这本书。这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例。分12章。作者备注以及代码部分都讲得比较深。不过或许因为出书较早,在数据处理方面,他使用更多的是plyr...

发表了文章 • 2016-02-22 21:03 • 0 条评论

1
推荐
4222
阅读

R语言-处理异常值或报错的三个示例

之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了。里面涉及了一些报错的处理。这里主要参考了stackoverflow上的以下问答:How to skip an error in a loopskip to next value of loop upon error in RtryCatch部分,后续查找资料,发现以下博文: 1. ...

发表了文章 • 2016-02-22 21:01 • 0 条评论

1
推荐
5721
阅读

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后,继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖查阅资料如下:rvest的githubrvest自身的帮助文档rvest + CSS Selector 网页数据抓取的最佳选择-戴申: 里面有提及如何快速获得html的位置。看完...

发表了文章 • 2016-02-22 20:51 • 2 条评论

1
推荐
1745
阅读

Coursera-Getting and Cleaning Data-week4-R语言中的正则表达式以及文本处理

补上第四周笔记,以及本次课程总结。第四周课程主要针对text进行处理。里面包括1.变量名的处理 2.正则表达式 3.日期处理(参见swirl lubridate包练习)首先,变量名的处理,奉行两个原则,1)统一大小写tolower/toupper;2)去掉在导入数据时,因为特殊字符导致的合并变量 3)不要重复;4)少用代码缩写使用的函数包括替...

发表了文章 • 2016-02-22 20:46 • 0 条评论

1
推荐
2923
阅读

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的组合拳

好久不写笔记了,年底略忙。。Getting and Cleaning Data第三周其实没什么好说的,一个quiz,一个project,加一个swirl。基本上swirl已经把第三周的内容都概括进去了。就是dplyr, tidyr以及lubridate包的学习和使用。其中dplyr专注于选择/筛选,tidyr关注于数据重塑型,二lubridate是我目前接触过的最好用的R中处理时间的...

发表了文章 • 2016-02-22 20:44 • 0 条评论

2
推荐
2319
阅读

Coursera-Getting and Cleaning Data-Week2-课程笔记

课程概述week2主要是介绍从各个来源读取数据。包括MySql,HDF5,webpage,API等,范围还蛮广。因为工作和日常中没有直接到数据库拿数据的权限,所以暂时只是走马观花看了一遍,然后做quiz时再看一遍,留个概念即可。下面的笔记因为主要是我自己留着以后做备查的,所以可能有些地方有点泄题。强烈建议想要好好学习,认真学习...

发表了文章 • 2016-02-22 20:43 • 0 条评论

1
推荐
2428
阅读

Coursera-Getting and Cleaning Data-week1-课程笔记

课程概述Getting and Cleaning Data是Coursera数据科学专项的第三门课,有中文翻译。但是由于中文区讨论没有英文区热闹,以及资料积累,强烈建议各位同时选报中文项目和英文项目,可以互相匹配学习。Week1的课程概括下来,主要介绍了getting and cleaning data的目的,即从不同数据源里获得整洁数据集(Tidy Data),以及...

发表了文章 • 2016-02-22 20:40 • 0 条评论

1
推荐
2728
阅读

Coursera系列-R Programming-Final Week-Assignment3 & 总结

经过周末一个半天的努力,终于把这次的Assignment3做出来,然后做完Quiz4,顺利结束R Programming这门课程。对这门课的综合吐槽就是,Roger老师的github头像好帅,动态视频更帅,视频内容还算充足,但远远不足以应付assignment。Assignment设计一个比一个精巧,难度一个比一个大,没有足够的耐性以及一定的基础,还真的...

发表了文章 • 2016-02-22 20:37 • 0 条评论

1
推荐
2515
阅读

Coursera系列-R Programming第三周-词法作用域

完成R Programming第三周这周作业有点绕,更多地是通过一个缓存逆矩阵的案例,向我们示范【词法作用域 Lexical Scopping】的功效。但是作业里给出的函数有点绕口,花费了我们蛮多心思。Lexical Scopping:The value of free variables are searched for in the environment where the function was defined。因此make.pow...

发表了文章 • 2016-02-22 20:35 • 0 条评论