R语言文本挖掘(一)——我与rJava斗智斗勇的日子

浏览: 2229


最近真的蛮奇怪的,好多人找我帮忙要做一下文本挖掘,其实我是比较少研究文本挖掘的,基本的数据量不超过1G的那种我还能玩玩,过了就有点难度啦,所以就有了今天这篇分享——我才不会承认我是偷懒不想写文章的,哇咔咔。


其实文本挖掘的方法有很多,这里就给大家介绍一个常用的比较简单的思路,方便大家实操,文章大概会分两个部分:环境安装实际操作

小伙伴一定觉得我在偷懒,环境安装也能算一个吗!!!但是实际操作过的人就知道,环境安装可能要花掉一天甚至数天的时间,哈哈,现在就给大家介绍下,我与挖掘环境部署斗智斗勇的故事~~


首先我们先看一下,这次我们做挖掘所要用到的安装包

library(tm)library(rJava)library(Rwordseg)library(RColorBrewer)library(wordcloud)library(tmcn)

头晕了吗~咱们一步一步来吧!

如果是没有安装R的小伙伴可以到https://www.r-project.org/这个网站去安装R语言,选择一个离你最近的CRAN,这里我建议大家安装时大家选择默认安装,这样就是32位和64位都安装了。


R语言的原始界面并不是很友好,这里给大家介绍一个比较容易掌握一个基于R的第三方界面的RStudio:http://www.rstudio.com/products/rstudio/#Desk


这个是不是看起来就舒服多了,现在我们开始安装吧!


本案例中我们需要用到一个最主要的程序包“Rwordseg”,这个安装包需要依赖rJava包,rJava需要本机中有安装Java。

下载地址

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

或者你直接搜索JDK,注意是安装JDK,不是安装Java,技术人员应该都懂,非技术人员可能会搞错,我们需要安装32位的JDK,不然没办法使用Rwordseg


配置你的电脑Java环境:计算机右键属性——更改设置——选择环境变量


配置你的Path和JAVA_HOME:

Path就是你的java的安装路径:C:\Program Files (x86)\Java\jdk1.8.0_91\bin

JAVA_HOME:就是将bin去掉,这里需要注意的是,系统语言都是英文的,所以不要出现中文的标点,会报错的,这点跟R语言是一样的。


查看JAVA是否安装成功,win+R打开运行,运行cmd,输入javac,java–version(注意扩折号前面的空格),如果能正常显示你的Java版本则安装正确。如下图:



这个时候我们就可以打开RStudio开始安装包了,这里因为我的RStudio是64位的,而刚才我们安装的java是32位的,所以需要我们设置,设置方法是:工具栏Tools > Global Options > General,Rversion,改成32-bit。

如果按照这个步骤安装rJava包你还是报错,请将报错的图片发至后台或者直接联系我们的大管家(微信:cainiaoshuju01),我们会帮尽量帮你解决的。


OK,rJava包安装好了,下面就是安装Rwordseg包

网上一般的方法是运行这条命令,

install.packages("Rwordseg",repos = "http://R-Forge.R-project.org")

但是很多小伙伴发现会报错,没办法我们只能选择最传统的安装方式,就是下载.zip文件,然后安装,下载地址:http://pan.baidu.com/s/1hsloE00




(RStudio的使用就不给大家讲了,网上有很多教程,也非常的简单)

现在我们来试一下:使用函数segmentCN()



它支持的字典除了.dic格式之外,还有.scel(搜狗输入法的词库)。可以去搜狗输入法官网下载词库,选择合适的分类去尝试吧!

OK,明天我们会选择一个文本进行进一步的操作,明天见!!!

推荐 3
本文由 菜鸟数据岛 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

3 个评论

目前遇到了一个困难就是爬出的数据总是出现乱码,无论是字符编码设置为UTF-8还是GBK都没用,电脑自身字符编码为英语,不过设置为中文后去爬出的数据一样是乱码,很伤;感觉和爬虫无缘了
用R爬的么?
是呀

要回复文章请先登录注册