R语言学习笔记(4)

浏览: 1432

第四章:基本数据管理

一 贯穿整章的示例

二 变量的创建、重编码和重命名

三 日期值与缺失值

四 数据类型和类型转换

五 数据集的排序、合并与取子集

 

一 贯穿整章的示例(leadership) 

代码4-1 
> manager<-c(1,2,3,4,5)
> date<-c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")
> country<-c("us","us","uk","uk","uk")
> gender<-c("m","f","f","m","f")
> age<-c(32,45,25,39,99)
> q1<-c(5,3,3,3,2)
> q2<-c(4,5,5,3,2)
> q3<-c(5,2,5,4,1)
> q4<-c(5,5,5,NA,2)
> q5<-c(5,5,2,NA,1)
> leadership<-data.frame(manager,date,country,gender,age,
+ q1,q2,q3,q4,q5,stringsAsFactors = FALSE)
> leadership
manager date country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f 99 2 2 1 2 1

二 变量的创建、重编码与重命名

变量的创建

假设有一个数据框mydata,其中有两变量x1和x2,现想创建一个新变量sumx存储这两变量的和,并创建一个新变量meanx存储这两变量的均值,若使用下面代码中的1与2会出错,原因是R不知道x1和x2是来自数据框data,而应用代码3和4

 >sum<-x1+x2
>meanx<-(x1+x2)/2


> meanx<-(mydata$x1+mydata$x2) #这样得到的是独立的变量
>meanx<-(mydata$x1+mydata$x2)/2
创建新变量
代码4-2
方法一:
> mydata<-data.frame(x1<-c(2,2,6,4),
+ x2<-c(3,4,2,8))
> sumx<-mydata$x1+mydata$x2
> meanx<-(mydata$x1+mydata$x2)/2
> sumx
[1] 5 6 8 12
> meanx
[1] 2.5 3.0 4.0 6.0
方法二:
> attach(mydata)
> mydata$sumx<-x1+x2
> mydata$meanx<-(x1+x2)/2
> mydata$sumx
[1] 5 6 8 12
> mydata$meanx
[1] 2.5 3.0 4.0 6.0
方法三
>mydata<-transform(mydata,
sumx<-x1+x2,
meanx<-(x1+x2)/2)

变量重编码

逻辑运算

小于(<)     小于或等于(<=)    大于(>)         大于或等于(>=)      严格等于(==)

不等于(!=)  非x  (!x)            x或y(x|y)      x和y(x&y)             测试x是否为TRUE(isTRUE(x))

语句variable[condition] <- expression将仅在condition的值为TRUE时执行赋值
> leadership$agecat[leadership$age<55]<-"Young"
> leadership$age[leadership$age=="99"] <- NA
> leadership$agecat[leadership$age>75]<-"Elder"
> leadership$agecat[leadership$age>=55 &
+ leadership$age<=75]<-"Middle Aged"
> leadership$agecat[leadership$age<55]<-"Young"
> leadership
manager date country gender age q1 q2 q3 q4 q5 agecat
1 1 10/24/08 us m 32 5 4 5 5 5 Young
2 2 10/28/08 us f 45 3 5 2 5 5 Young
3 3 10/1/08 uk f 25 3 5 5 5 2 Young
4 4 10/12/08 uk m 39 3 3 4 NA NA Young
5 5 5/1/09 uk f NA 2 2 1 2 1
> leadership<-within(leadership,{  
+ agecat<-NA # 每句后面不能有逗号
+ agecat[age>75] <-"Elder"
+ agecat[age>=55 & age <=75]<-"Middle Aged"
+ agecat[age<55] <-"Young"})
manager date country gender age q1 q2 q3 q4 q5 agecat
1 1 10/24/08 us m 32 5 4 5 5 5 Young
2 2 10/28/08 us f 45 3 5 2 5 5 Young
3 3 10/1/08 uk f 25 3 5 5 5 2 Young
4 4 10/12/08 uk m 39 3 3 4 NA NA Young
5 5 5/1/09 uk f 99 2 2 1 2 1 Elder

 函数within和函数with类似,不同的是它允许你修改数据框

 变量重命名

方法一:fix(leadership)

方法二:rename(dataframe,c(oldname=“newname”,oldname=“newname”,....)

方法三:names()

法一: 
> leaderhip
manager date country gender age q1 q2 q3 q4 q5
1 5 10/24/08 us m 32 5 4 5 5 5
2 4 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 2 10/12/08 uk m 39 3 3 4 NA NA
5 1 5/1/09 uk f 99 2 2 1 2 1
> fix(leaderhip) # 注意括号是英文括号,不是中文括号
> leaderhip
managerID date country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f 99 2 2 1 2 1

复制代码

法二: 
> leaderhip<-rename(leaderhip,
+ c(managerID="manager",date="testDate"))
> leaderhip
manager testDate country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f 99 2 2 1 2 1
法三: 
> names(leaderhip)
[1] "manager" "testDate" "country" "gender" "age" "q1"
[7] "q2" "q3" "q4" "q5"
> names(leaderhip)[1]<-"managerID"
> leaderhip
managerID testDate country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f 99 2 2 1 2 1

三 日期值与缺失值

日期值

日期通常以字符串的形式输入到R中,然后转化为数值形式存储的日期变量,函数as.Date()用于执行这种转化,其语法为as.Date(x, "input_format"),其中x字符型数据input_format则是读入日期的适当格式

%d 数字表示的日期(0~31) 例如01~31

%a 缩写的星期名 例如Mon

%A 非缩写的星期名 例如Monday

%m 月份(00~12) 例如00~12

%b 缩写的月份 例如Jan

%B 非缩写的月份 例如January

%y 两位数的年份 例如07

%Y 四位数的年份  例如2007

默认的日期格式为yyyy-mm-dd,语句为:

1 >mydates<-as.Date(c("2015-09-24","2015-09-25"))
2 >mydates
3 [1] "2015-09-24" "2015-09-25
格式转化
>strDates<-c("24/09/2015","25/09/2015")
>dates<-as.Date(strDates,"%d/%m/%Y")# 注意 输入的日期转化为对应的日期,其次这里的Y是大写的,
如果这里y小写的话,会出现输出结果时间不对。
注意要加斜杠
>dates
[1] "2015-09-24" "2015-09-25"
 例子:
>leadership
> manager date country gender age q1 q2 q3 q4 q5
1 10/24/08 us m 32 5 4 5 5 5
3 10/1/08 uk f 25 3 5 5 5 2
4 10/12/08 uk m 39 3 3 4 NA NA
5 5/1/09 uk f 99 2 2 1 2 1
>leadership$date
[1] "10/24/08" "10/28/08" "10/1/08" "10/12/08" "5/1/09"
>myformat<-"%m/%d/%y"
>leadership$date<-as.Date(leadership$date,myformat)# 为什么这个格式不用加斜杠也行,而上面那个要加 >leadership
manager date country gender age q1 q2 q3 q4 q5
1 2008-10-24 us m 32 5 4 5 5 5
2 2008-10-28 us f 45 3 5 2 5 5
3 2008-10-01 uk f 25 3 5 5 5 2
4 2008-10-12 uk m 39 3 3 4 NA NA
5 2009-05-01 uk f 99 2 2 1 2 1
当前日期
Sys.Date()--返回今天的日期
date()--返回当前日期和时间
>Sys.Date()
[1] "2015-09-23"
>date() # 他人:这种方法返回的是字符串类型
[1] "Wed Sep 23 22:55:26 2015"
>today<-Sys.Date()
>format(today,format="%B %d %Y") # 格式化当前日期
[1] "九月 24 2015"
>format(today,format="%A")
[1] "星期四"
两日期相减
>startdate<-as.Date("2014-09-24")
>enddate<-as.Date("2015-09-24")
>days<-enddate-startdate
>days
Time difference of 365 days
difftime()来计算时间间隔,并以星期(weeks),天(days),时(hours),分(minutes),秒(seconds)来表示。
> today<-Sys.Date()
> wujiadong<-as.Date("1991-10-07")
> difftime(today,wujiadong,units = "weeks")
Time difference of 1250.429 weeks

此外:利用函数 strDates<-character(date) 可已经两日期变量转成成字符型变量.

       help(as.Date) and help(strftime)查看与日期和时间相关的函数

       相关包:lubridate

缺失值

 识别缺失值is.na()
> y<-c(1,2,3,NA)
> is.na(y)
[1] FALSE FALSE FALSE TRUE
代码4-3
> is.na(leaderhip[,6:10])
q1 q2 q3 q4 q5
1 FALSE FALSE FALSE FALSE FALSE
2 FALSE FALSE FALSE FALSE FALSE
3 FALSE FALSE FALSE FALSE FALSE
4 FALSE FALSE FALSE TRUE TRUE
5 FALSE FALSE FALSE FALSE FALSE
 重编码某些值为缺失值
> leaderhip$age[leaderhip$age==99]<-NA
> leaderhip$age
[1] 32 45 25 39 NA
 在分析中去除缺失值
> x<-c(1,2,NA,3)
> y<-x[1]+x[2]+x[3]+x[4]
> sumx<-y
> sumx
[1] NA#因有缺失值
> x<-c(1,2,NA,3)
> y<-sum(x,na.rm=TRUE)#去除x中的缺失值 # na.rm()删除缺失值
> y
[1] 6
 > leaderhip
managerID testDate country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f NA 2 2 1 2 1
> newdata<-na.omit(leaderhip) # na.omit()删除带有缺失值的行
newdata
managerID testDate country gender age q1 q2 q3 q4 q5
1 1 10/24/08 us m 32 5 4 5 5 5
2 2 10/28/08 us f 45 3 5 2 5 5
3 3 10/1/08 uk f 25 3 5 5 5 2

四 数据类型与类型转换

ls.numerica() --as.numerica()

is.character()--as.character()

is.vector()--as.vector()

is.matrix()--as.matrix()

is.data.frame()--as.data.frame()

is.factor()--as.factor()

is.logical()--as.logical()

is.datatype()--返回结果是TRUE或FALSE


> a<-c(1,2,3)
> a
[1] 1 2 3
> is.numeric(a)
[1] TRUE
> is.vector(a)
[1] TRUE
> a<-as.character(a)
> a
[1] "1" "2" "3"
> is.numeric(a)
[1] FALSE
> is.vector(a)
[1] TRUE
> is.character(a)
[1] TRUE

五 数据集的排序、合并与取子集

数据集的排序

> newdata<-leadership[order(leadership$age),]
> newdata
manager date country gender age q1 q2 q3 q4 q5
3 3 2008-10-01 uk f 25 3 5 5 5 2
1 1 2008-10-24 us m 32 5 4 5 5 5
4 4 2008-10-12 uk m 39 3 3 4 NA NA
2 2 2008-10-28 us f 45 3 5 2 5 5
5 5 2009-05-01 uk f 99 2 2 1 2 1
attach(leadership)
> newdata<-leadership[order(gender,age),]
> newdata
manager date country gender age q1 q2 q3 q4 q5
3 3 2008-10-01 uk f 25 3 5 5 5 2
2 2 2008-10-28 us f 45 3 5 2 5 5
5 5 2009-05-01 uk f 99 2 2 1 2 1
1 1 2008-10-24 us m 32 5 4 5 5 5
4 4 2008-10-12 uk m 39 3 3 4 NA NA
> newdata<-leadership[order(gender,-age),]
> newdata
manager date country gender age q1 q2 q3 q4 q5
5 5 2009-05-01 uk f 99 2 2 1 2 1
2 2 2008-10-28 us f 45 3 5 2 5 5
3 3 2008-10-01 uk f 25 3 5 5 5 2
4 4 2008-10-12 uk m 39 3 3 4 NA NA
1 1 2008-10-24 us m 32 5 4 5 5 5

数据集的合并(向数据框中添加列(变量)和行(观测))

      添加列

要横向合并两个数据框(数据集),请使用merge()函数。在多数情况下,两个数据框是通过一个或多个共有变量进行联结的(即一种内联结,inner join),例如:

total<-merge(dataframeA,dataframeB,by="ID") 按照ID进行了合并

 or

total<-merge(dataframeA,dataframeB,by=c("ID","Country")) 按照ID和Country进行了合并

or

total<-cbind(A,B) #  直接横向合并两个矩阵或数据框,并且不需要指定一个公共索引

                            #   每个对象必须拥有相同的行数,且要有相同顺序排序。

       添加行

rbind()--纵向合并两个数据框

total<-rbind(dataframeA,dataframeB) # 两个数据框必须拥有相同的变量,不过它们的顺序不必一定相同。若dataframeA中有dataframeB中没有的变量,则做一下处理:

 删除dataframeA中的多余变量;

 在dataframeB中创建追加的变量并将其值设为NA(缺失)

 

数据集取子集

选入变量
>newdata<-leadership[,c(6:10)]
> newdata
q1 q2 q3 q4 q5
1 5 4 5 5 5
2 3 5 2 5 5
3 3 5 5 5 2
4 3 3 4 NA NA
5 2 2 1 2 1
剔除变量
方法一:
> myvars<-names(leadership)%in%c("q3","q4") 解释:(1) names(leadership)生成了一个包含所有变量名的字符型向量
> newdata<-leadership[!myvars] (2) names(leadership) %in% c("q3", "q4")返回了一个逻辑型向量,names(leadership)
> newdata 中每个 匹配q3或q4的元素的值为TRUE,反之为FALSE
manager date country gender age q1 q2 q5 (3) 运算符非(!)将逻辑值反转
1 1 2008-10-24 us m 32 5 4 5 (4) leadership[c(TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE,
2 2 2008-10-28 us f 45 3 5 5 TRUE)]选择了逻辑值为TRUE的列,于是q3和q4被剔除了
3 3 2008-10-01 uk f 25 3 5 2
4 4 2008-10-12 uk m 39 3 3 NA
5 5 2009-05-01 uk f 99 2 2 1
方法二:
>newdata<-leadership[c(-8,-9)]
> newdata
manager date country gender age q1 q2 q5
1 1 2008-10-24 us m 32 5 4 5
2 2 2008-10-28 us f 45 3 5 5
3 3 2008-10-01 uk f 25 3 5 2
4 4 2008-10-12 uk m 39 3 3 NA
5 5 2009-05-01 uk f 99 2 2 1
方法三:
leadership$q3<-leadership$q4<-NULL
> leadership
manager date country gender age q1 q2 q5
1 1 2008-10-24 us m 32 5 4 5
2 2 2008-10-28 us f 45 3 5 5
3 3 2008-10-01 uk f 25 3 5 2
4 4 2008-10-12 uk m 39 3 3 NA
5 5 2009-05-01 uk f 99 2 2 1
subset()函数
> newdata<-subset(leadership,age>=35|age<24,
+ select = c(q1,q2,q3,q4))
> newdata
q1 q2 q3 q4
2 3 5 2 5
4 3 3 4 NA
5 2 2 1 2
  > newdata<-subset(leadership,gender=="m" & age>25,
+ select = gender:q4)
> newdata
gender age q1 q2 q3 q4
1 m 32 5 4 5 5
4 m 39 3 3 4 NA
随机抽样
> mysample<-leadership[sample(1:nrow(leadership),3,
+ replace=FALSE),]
> mysample
manager date country gender age q1 q2 q3 q4 q5
4 4 10/12/08 uk m 39 3 3 4 NA NA
5 5 5/1/09 uk f 99 2 2 1 2 1
2 2 10/28/08 us f 45 3 5 2 5 5

使用sql语句操作数据框

推荐 1
本文由 邬家栋 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册