0
推荐
1993
阅读

【译文】R语言中的缺失值处理

在处理一些真实数据时,样本中往往会包含缺失值(Missing values)。我们需要对缺失值进行适宜的处理,才能建立更为有效的模型,使得后续预测分析能有更小的偏差。本文将罗列不同的缺失值处理方法,并进行具体应用。数据准备和缺失模式设定本文使用mlbench包中的BostonHousing数据集作为示例来演示不同的缺失值处理方法。...

发表了文章 • 2017-03-27 11:52 • 0 条评论

0
推荐
2629
阅读

【译文】R语言中的离群值检测和处理

数据中的离群值往往会扭曲预测结果并影响模型精度,回归模型中离群值的影响尤其大,因此我们需要对其进行检测和处理。离群值检测的重要性处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。那么...

发表了文章 • 2017-03-24 11:08 • 0 条评论

1
推荐
1940
阅读

【译文】利用dplyr包进行数据操作

                            dplyr是R中用来进行数据操作的一个包,由Hadley Wickham(男神!)编写维护。它提供了一些功能强大,易于使用的函数,这些函数对于数据探索分析和数据操作而言非常实用。在本文中我将对这些常用函数做一个基本的...

发表了文章 • 2017-03-23 10:51 • 0 条评论

0
推荐
2167
阅读

译文】如何用R生成回归结果Word报告

通过本文我会展示一种将回归结果(或者输出)从R传输到Word的简单方法。 先前我曾写过一个文档,指导大家如何创建一个含有学习特征的表格并将其传输到Word上。而本文非常适合准备把手稿发表于同行评议期刊的研究人员。建立一个Cox模型我将计算一个生存分析模型作为例子来演示整个流程。生存分析是一种用来分析事件发生前...

发表了文章 • 2017-03-23 10:46 • 0 条评论

0
推荐
1348
阅读

【译文】如何在R语言中使用SQL命令

对于有SQL背景的R语言学习者而言,sqldf是一个非常有用的包,因为它使我们能在R中使用SQL命令。只要掌握了基本的SQL技术,我们就能利用它们在R中操作数据框。关于sqldf包的更多信息,可以参看cran。在这篇文章中,我们将展示如何在R中利用SQL命令来连接、检索、排序和筛选数据。我们也将展示怎么利用R语言的函数来实现这...

发表了文章 • 2017-03-22 11:16 • 0 条评论

0
推荐
2323
阅读

【译文】利用R语言处理数据库中的数据

R中的dplyr包是我最喜欢的包之一(译者注:也是我的最爱),可以用来处理存储在内存和数据库中的数据。本文我会分享自己使用dplyr包来处理数据的经验,基本还敢数据处理的方方面面。关于dplyr包的基本函数Teja在DataScience+上传了另一篇文章进行了介绍。如果需要处理的数据量很大,读入R中费时费力,这时使用dplyr包直...

发表了文章 • 2017-03-22 11:03 • 0 条评论

0
推荐
1642
阅读

【学习感悟】文科生如何入门R语言

作者 钱亦欣随着大数据时代的来临,掌握R语言几乎成了各个学科和多个工作岗位的必备技能。然而,不少朋友由于之前学的是偏向人文社科的专业,之前连Excel都玩不顺手,更别提接触过编程语言了。面对市面上一堆R语言的书籍,可能有些不知所措,一看一些专业性比较强的书,就直接懵逼了。因此,我以本文来记录一下我将近1年...

发表了文章 • 2017-03-21 15:28 • 0 条评论

0
推荐
2303
阅读

【译文】R语言非线性回归入门

作者 Lionel Hertzog  译者 钱亦欣      在一簇散点中拟合一条回归线(即线性回归)是数据分析的基本方法之一。有时,线性模型能很好地拟合数据,但在某些(很多)情形下,变量间的关系未必是线性的。这时,一般有三类方法解决这个问题: (1) 通过变换数据使得其关系线性化, (2) 用多项式或者比较复杂的样条来拟合...

发表了文章 • 2017-03-21 15:13 • 0 条评论

0
推荐
1221
阅读

【译文】R语言线性回归入门

基于最小二乘法的线性回归是你在学习数据科学和机器学习时最先遇到的模型之一,它不仅简单易懂,还能在很多问题中发挥作用,并且已经集成在了很多种编程语言之中。大部分用户对R语言中的lm()函数肯定不陌生,它让你能简易而快速地拟合一个线性回归模型。然而,这个函数并不现实参数估计和很多检验统计量的计算过程,所以...

发表了文章 • 2017-03-20 11:16 • 0 条评论

0
推荐
1754
阅读

【译文】用R语言做网页爬虫和文本分析-Part3

在第一部分 中,我们从goodreads网站爬取了评论数据. 并在第二部分完成了探索性数据分析,同时还生成了一些新变量. 现在可以上主菜了:机器学习!(此处应有BGM)准备工作先来加载包并读入数据library(data.table) library(dplyr) library(caret) library(RTextTools) library(xgboost) library(ROCR) setwd("C:/U...

发表了文章 • 2017-03-20 11:05 • 0 条评论

0
推荐
2292
阅读

【译文】用R语言做网页爬虫和文本分析-Part2

数据预处理我们先加载相关的包并把上次爬来的数据读入环境。library(data.table) library(dplyr) library(ggplot2) library(stringr) library(tm) library(magrittr) library(textcat) library(tidytext) library(RTextTools) data <- read.csv("GoodReadsData.csv", stringsAsFactors = FALSE) data <- data.tab...

发表了文章 • 2017-03-17 13:51 • 0 条评论

0
推荐
1946
阅读

【译文】用R语言做网页爬虫和文本分析-Part1

作者 Florent Buisson译者 钱亦欣受到这篇情感分析的文章和这篇网页爬虫指南的双重启发,我决定尝试抓取并分析Goodreads网站的书评数据。这个项目将会呈现一个从数据收集到机器学习建模分析的完整案例,我在中途犯下的错误也会一并呈现。本文将以5本流行的爱情故事书的评论为研究对象,我很自觉地选了同类型的书,使得评...

发表了文章 • 2017-03-16 17:26 • 0 条评论