最近真的蛮奇怪的,好多人找我帮忙要做一下文本挖掘,其实我是比较少研究文本挖掘的,基本的数据量不超过1G的那种我还能玩玩,过了就有点难度啦,所以就有了今天这篇分享——我才不会承认我是偷懒不想写文章的,哇咔咔。
其实文本挖掘的方法有很多,这里就给大家介绍一个常用的比较简单的思路,方便大家实操,文章大概会分两个部分:环境安装和实际操作。
小伙伴一定觉得我在偷懒,环境安装也能算一个吗!!!但是实际操作过的人就知道,环境安装可能要花掉一天甚至数天的时间,哈哈,现在就给大家介绍下,我与挖掘环境部署斗智斗勇的故事~~
首先我们先看一下,这次我们做挖掘所要用到的安装包
library(tm)library(rJava)library(Rwordseg)library(RColorBrewer)library(wordcloud)library(tmcn)
头晕了吗~咱们一步一步来吧!
如果是没有安装R的小伙伴可以到https://www.r-project.org/这个网站去安装R语言,选择一个离你最近的CRAN,这里我建议大家安装时大家选择默认安装,这样就是32位和64位都安装了。
R语言的原始界面并不是很友好,这里给大家介绍一个比较容易掌握一个基于R的第三方界面的RStudio:http://www.rstudio.com/products/rstudio/#Desk
这个是不是看起来就舒服多了,现在我们开始安装吧!
本案例中我们需要用到一个最主要的程序包“Rwordseg”,这个安装包需要依赖rJava包,rJava需要本机中有安装Java。
下载地址
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
或者你直接搜索JDK,注意是安装JDK,不是安装Java,技术人员应该都懂,非技术人员可能会搞错,我们需要安装32位的JDK,不然没办法使用Rwordseg
配置你的电脑Java环境:计算机右键属性——更改设置——选择环境变量
配置你的Path和JAVA_HOME:
Path就是你的java的安装路径:C:\Program Files (x86)\Java\jdk1.8.0_91\bin
JAVA_HOME:就是将bin去掉,这里需要注意的是,系统语言都是英文的,所以不要出现中文的标点,会报错的,这点跟R语言是一样的。
查看JAVA是否安装成功,win+R打开运行,运行cmd,输入javac,java–version(注意扩折号前面的空格),如果能正常显示你的Java版本则安装正确。如下图:
这个时候我们就可以打开RStudio开始安装包了,这里因为我的RStudio是64位的,而刚才我们安装的java是32位的,所以需要我们设置,设置方法是:工具栏Tools > Global Options > General,Rversion,改成32-bit。
如果按照这个步骤安装rJava包你还是报错,请将报错的图片发至后台或者直接联系我们的大管家(微信:cainiaoshuju01),我们会帮尽量帮你解决的。
OK,rJava包安装好了,下面就是安装Rwordseg包了
网上一般的方法是运行这条命令,
install.packages("Rwordseg",repos = "http://R-Forge.R-project.org")
但是很多小伙伴发现会报错,没办法我们只能选择最传统的安装方式,就是下载.zip文件,然后安装,下载地址:http://pan.baidu.com/s/1hsloE00
(RStudio的使用就不给大家讲了,网上有很多教程,也非常的简单)
现在我们来试一下:使用函数segmentCN()
它支持的字典除了.dic格式之外,还有.scel(搜狗输入法的词库)。可以去搜狗输入法官网下载词库,选择合适的分类去尝试吧!
OK,明天我们会选择一个文本进行进一步的操作,明天见!!!