3
推荐
3040
阅读

R语言:用简单的文本处理方法优化我们的读书体验

前言延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理、分词的事情。其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话。。用的代码超级简单,不涉及其他包这里讲两个示例,结尾再来吐槽和总结。1)R-Blogger...

发表了文章 • 2016-02-23 13:59 • 0 条评论

16
推荐
5385
阅读

R语言-用R眼看琅琊榜小说的正确姿势

目录:零:写在前面的一些废话 一、R眼看琅琊榜的基本原理 1、导入数据 2、筛选数据 3、多条件筛选对话 4、导出数据 二、R眼看琅琊榜的基础分析 1、快速对文本分章节 2、快速定位人物出场章节 3、快速定位人物互动章节 三、总结零:写在前面的一些废话最近电视剧琅琊...

发表了文章 • 2016-02-23 13:51 • 11 条评论

1
推荐
2744
阅读

R语言-Kindle特价书爬榜示例 & 输出HTML小技巧

----自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。主要看的是kindle新品排行榜和最快畅销榜。销售爬升最快榜...

发表了文章 • 2016-02-23 12:55 • 0 条评论

1
推荐
1863
阅读

R语言——七月

这两个月没有写什么代码。也没做什么大项目,基本就是对以前写的那个用ggplot2可视化数据的项目做一些增增补补,大部分技术难关都在ggplot2和R语言EXCEL处理这里解决并总结了。然后业余帮人修改一个用RVEST写的亚马逊简陋爬虫,花了两个周末时间。就简单记一下最近弄的这个功能块功能块分区,并自定义 这个是在处理...

发表了文章 • 2016-02-22 21:19 • 0 条评论

2
推荐
4359
阅读

R语言:ggplot2精细化绘图——以实用商业化图表绘图为例

本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人。不讨论那些样式非常酷炫的图表,以实用的商业化图表为主。包括以下结构:1、画图前的准备:自定义ggplot2格式刷 2、画图前的准备:数据塑形利...

发表了文章 • 2016-02-22 21:18 • 1 条评论

2
推荐
3420
阅读

R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理

前言: 应用背景兼吐槽继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯。 这次的主题是论R与excel的结合,又称 论如何正确把EXCEL文件喂给R处理分为: 1、 xlsx包安装及注意事项 2、用vba实现xlsx批量转化csv以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel...

发表了文章 • 2016-02-22 21:05 • 0 条评论

1
推荐
3232
阅读

R语言学习笔记-机器学习1-3章

在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了《机器学习-实用案例解析》这本书。这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例。分12章。作者备注以及代码部分都讲得比较深。不过或许因为出书较早,在数据处理方面,他使用更多的是plyr...

发表了文章 • 2016-02-22 21:03 • 0 条评论

1
推荐
4216
阅读

R语言-处理异常值或报错的三个示例

之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了。里面涉及了一些报错的处理。这里主要参考了stackoverflow上的以下问答:How to skip an error in a loopskip to next value of loop upon error in RtryCatch部分,后续查找资料,发现以下博文: 1. ...

发表了文章 • 2016-02-22 21:01 • 0 条评论

1
推荐
5710
阅读

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后,继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖查阅资料如下:rvest的githubrvest自身的帮助文档rvest + CSS Selector 网页数据抓取的最佳选择-戴申: 里面有提及如何快速获得html的位置。看完...

发表了文章 • 2016-02-22 20:51 • 2 条评论

1
推荐
1740
阅读

Coursera-Getting and Cleaning Data-week4-R语言中的正则表达式以及文本处理

补上第四周笔记,以及本次课程总结。第四周课程主要针对text进行处理。里面包括1.变量名的处理 2.正则表达式 3.日期处理(参见swirl lubridate包练习)首先,变量名的处理,奉行两个原则,1)统一大小写tolower/toupper;2)去掉在导入数据时,因为特殊字符导致的合并变量 3)不要重复;4)少用代码缩写使用的函数包括替...

发表了文章 • 2016-02-22 20:46 • 0 条评论

1
推荐
2916
阅读

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的组合拳

好久不写笔记了,年底略忙。。Getting and Cleaning Data第三周其实没什么好说的,一个quiz,一个project,加一个swirl。基本上swirl已经把第三周的内容都概括进去了。就是dplyr, tidyr以及lubridate包的学习和使用。其中dplyr专注于选择/筛选,tidyr关注于数据重塑型,二lubridate是我目前接触过的最好用的R中处理时间的...

发表了文章 • 2016-02-22 20:44 • 0 条评论

2
推荐
2314
阅读

Coursera-Getting and Cleaning Data-Week2-课程笔记

课程概述week2主要是介绍从各个来源读取数据。包括MySql,HDF5,webpage,API等,范围还蛮广。因为工作和日常中没有直接到数据库拿数据的权限,所以暂时只是走马观花看了一遍,然后做quiz时再看一遍,留个概念即可。下面的笔记因为主要是我自己留着以后做备查的,所以可能有些地方有点泄题。强烈建议想要好好学习,认真学习...

发表了文章 • 2016-02-22 20:43 • 0 条评论

1
推荐
2424
阅读

Coursera-Getting and Cleaning Data-week1-课程笔记

课程概述Getting and Cleaning Data是Coursera数据科学专项的第三门课,有中文翻译。但是由于中文区讨论没有英文区热闹,以及资料积累,强烈建议各位同时选报中文项目和英文项目,可以互相匹配学习。Week1的课程概括下来,主要介绍了getting and cleaning data的目的,即从不同数据源里获得整洁数据集(Tidy Data),以及...

发表了文章 • 2016-02-22 20:40 • 0 条评论

1
推荐
2723
阅读

Coursera系列-R Programming-Final Week-Assignment3 & 总结

经过周末一个半天的努力,终于把这次的Assignment3做出来,然后做完Quiz4,顺利结束R Programming这门课程。对这门课的综合吐槽就是,Roger老师的github头像好帅,动态视频更帅,视频内容还算充足,但远远不足以应付assignment。Assignment设计一个比一个精巧,难度一个比一个大,没有足够的耐性以及一定的基础,还真的...

发表了文章 • 2016-02-22 20:37 • 0 条评论

1
推荐
2511
阅读

Coursera系列-R Programming第三周-词法作用域

完成R Programming第三周这周作业有点绕,更多地是通过一个缓存逆矩阵的案例,向我们示范【词法作用域 Lexical Scopping】的功效。但是作业里给出的函数有点绕口,花费了我们蛮多心思。Lexical Scopping:The value of free variables are searched for in the environment where the function was defined。因此make.pow...

发表了文章 • 2016-02-22 20:35 • 0 条评论