R语言数据挖掘利器:Rattle包

浏览: 1535

郑连虎,在数学学院取得理学学位的文科生,中国人民大学硕博连读生在读,山东大学管理学学士、理学学士

个人公众号:阿虎定量笔记

前言:这一期介绍数据挖掘可视化工具Rattle包,是一个用于数据挖掘的R语言图形交互界面,可以快速处理常见的数据挖掘问题。安装、载入Rattle包并调出Rattle界面的命令是:

install.packages("RGtk2")

install.packages("rattle")

library(rattle)

rattle()

可以看到Rattle提供的数据挖掘流程:导入数据Data-数据探索Explore-统计检验Test-预处理Transform-数据挖掘Cluster、Associate、Model-模型评估Evaluate:

1

导入数据Data

通过Data选项卡可导入R自带示例数据,txt、csv、Excel等格式的外部数据,通过ODBC连接SQL Server、MySQL等数据库等等。以导入Rattle自带的天气数据weather.csv文件为例:

2

数据探索与统计检验Explore/Test

通过Explore/Test选项卡可对数据进行汇总Summary,分布Distributions,相关分析Correlation,主成分分析Principal Components,t检验,F检验,K-S正态性检验,Wilcoxon检验等。以RainTomorrow为分组变量,画出MaxTemp变量的箱线图、直方图、累积分布图和benford图为例,并做weather数据的描述性统计:

3

预处理Transform

通过Transform选项卡可对数据进行标准化Rescale,数据插值Impute,数据重排列Recode,数据清理Cleanup操作。这里不再演示。

4

数据挖掘Cluster、Associate、Model

通过Cluster选项卡可实现数据聚类的K均值聚类法KMean,自适应的软子空间聚类算法 Ewkm,层次聚类法 Hierarchical,双聚类算法BiCluster;通过Associate选项可实现Apriori算法:默认最小支持度阈值min-sup是0.100,最小置信度阈值min-conf是0.100,每个项集所含项数的最小值是2,可根据实际情况进行调整参数设置;通过Model选项卡可评估数据模型的决策树模型Tree,随机森林模型Forest,自适应选择模型Boost,支持向量机分类模型SVM,普通线性回归模型Linear,单隐藏层人工神经网络模型Neural Net。以weather数据为例,分别建立K-Means聚类模型、随机森林模型:

5

模型评估Evaluate

通过Evaluate选项卡可以看到一系列模型评估标准:混淆矩阵Error Matrix,模型风险表Risk,模型ROC图像ROC,模型得分数据集Score。这里不再演示。

精彩回顾

R语言绘图:28个实用程序包

Stata绘图:简单好用的37条外部命令

技术贴│Stata回归图表美化

SPSS时间序列分析

R语言图形界面R commander

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册