R语言-入门小练习

浏览: 2650

R语言实战上的题
一组学生参加了数学、科学和英语考试。为了给所有的学生确定一个单一的成绩衡量指标,需要将这些科目的成绩组合起来。另外,还想将前20%的学生评定为A,接下来20%的学生评定为B,以此类推。最后,希望按字母顺序对学生排序。

1、数据录入

>StuId <- c(1:10)
>StuName <- c('John Davis','Angela Williams','Bull >Jones','Cheryl Cushing','Reuven Ytzrhak','Joel Knox','Mary Rayburn','Greg England','Brad Tmac','Tracy Mcgrady')
>Math <- c(502,465,621,575,454,634,576,421,599,666)
>Science <- c(95,67,78,66,96,89,78,56,68,10)
>English <- c(25,12,22,18,15,30,37,12,22,38)
>mydata <- data.frame(StuId,StuName,Math,Science,English)
>mydata
Stuld StuName Math Science English
1 1 John Davis 502 95 25
2 2 Angela Williams 465 67 12
3 3 Bull Jones 621 78 22
4 4 Cheryl Cushing 575 66 18
5 5 Reuven Ytzrhak 454 96 15
6 6 Joel Knox 634 89 30
7 7 Mary Rayburn 576 78 37
8 8 Greg England 421 56 12
9 9 Brad Tmac 599 68 22
10 10 Tracy Mcgrady 666 10 38

2、数据预处理-数据中心化、标准化 

scale(data,center=T,scale=T) 
center=T 数据中心化 
scale=T 数据标准化 
数据的中心化:指数据集中的各项数据减去数据集的均值 
数据的标准化:值中心化后的数据在除以数据集的标准差 
数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响

>z <- scale(mydata[3:5])
>z
Math Science English
[1,] -0.5817963 0.98895866 0.2006619
[2,] -1.0184385 -0.13212808 -1.1722882
[3,] 0.8225395 0.30829885 -0.1161727
[4,] 0.2796870 -0.17216689 -0.5386189
[5,] -1.1482510 1.02899747 -0.8554535
[6,] 0.9759544 0.74872578 0.7287197
[7,] 0.2914882 0.30829885 1.4680005
[8,] -1.5376887 -0.57255501 -1.1722882
[9,] 0.5629144 -0.09208927 -0.1161727
[10,] 1.3535909 -2.41434036 1.5736120
attr(,"scaled:center")
Math Science English
551.3 70.3 23.1
attr(,"scaled:scale")
Math Science English
84.737569 24.975766 9.468662

3、计算每个学生成绩的均值 

apply(X,MARGIN,FUN,…) 
X:阵列包括矩阵 
MARGIN:1表示矩阵行,2表示矩阵列,也可以是c(1,2) 
FUN:表示具体的运算方式

>mydata$score <- apply(z,1,mean)
>mydata
Stuld StuName Math Science English score
1 1 John Davis 502 95 25 0.2026081
2 2 Angela Williams 465 67 12 -0.7742849
3 3 Bull Jones 621 78 22 0.3382219
4 4 Cheryl Cushing 575 66 18 -0.1436996
5 5 Reuven Ytzrhak 454 96 15 -0.3249024
6 6 Joel Knox 634 89 30 0.8177999
7 7 Mary Rayburn 576 78 37 0.6892625
8 8 Greg England 421 56 12 -1.0941773
9 9 Brad Tmac 599 68 22 0.1182175
10 10 Tracy Mcgrady 666 10 38 0.1709542

4、算出四分位数 

quantile(x,probs) 求分位数。 
x:待求分位数的数值型向量, 
pobs:一个由[0,1]之间的概率值组成的数值向量

>q<-quantile(mydata$score,c(.8,.6,.4,.2)) 
>
q
80% 60% 40% 20%
0.40843002 0.18361575 0.01345066 -0.41477887

5、根据四分位数给出分数等级

>mydata$level[score>=q[1]] <- "A"
>mydata$level[score>=q[2] & score<q[1]] <- "B"
>mydata$level[score>=q[3] & score<q[2]] <- "C"
>mydata$level[score>=q[4] & score<q[3]] <- "D"
>mydata$level[score<q[4]] <- "E"

6、拆分StuName列为FirName和LasName两列 

拆分这里有两个方法,方法一是我用的笨方法;方法二使用sapply()函数 
strsplit(x,split=”“) 
x 是向量 
split是以什么分隔 
方法一

>name<-strsplit(mydata$StuName,split=" ")--这句语句错误 x应为向量
--Error in strsplit(mydata$StuName, split = " ") : non-character argument
>name<-strsplit(StuName,split=" ")--以空格分隔,
>name --把strsplit()应用到一个字符串组成的向量上会返回一个列表
[[1]]
[1] "John" "Davis"

[[2]]
[1] "Angela" "Williams"

[[3]]
[1] "Bull" "Jones"

[[4]]
[1] "Cheryl" "Cushing"
...
>name<-unlist(strsplit(StuName,split=" "))--将list形式转化成向量格式
> name
[1] "John" "Davis" "Angela" "Williams" "Bull" "Jones" "Cheryl" "Cushing" "Reuven"
[10] "Ytzrhak" "Joel" "Knox" "Mary" "Rayburn" "Greg" "England" "Brad" "Tmac"
[19] "Tracy" "Mcgrady"
>name<-matrix(name,ncol=2,byrow=T)
>name
[,1] [,2]
[1,] "John" "Davis"
[2,] "Angela" "Williams"
[3,] "Bull" "Jones"
[4,] "Cheryl" "Cushing"
[5,] "Reuven" "Ytzrhak"
[6,] "Joel" "Knox"
[7,] "Mary" "Rayburn"
[8,] "Greg" "England"
[9,] "Brad" "Tmac"
[10,] "Tracy" "Mcgrady"
>mydata<-cbind(mydata,FirName,LasName)
>FirName<-name[,1]
>LasName<-name[,2]

方法二: 
sapply() 提取列表中每个成分的第一个元素, 
“[”是一个可以提取某个对象一部分的函数

>name<-strsplit((StuName)," ")
>lastname<-sapply(name,"[",2)
>lastname
[1] "Davis" "Williams" "Jones" "Cushing" "Ytzrhak" "Knox" "Rayburn" "England" "Tmac"
[10] "Mcgrady"
>firstname<-sapply(name,"[",1)
>firstname
[1] "John" "Angela" "Bull" "Cheryl" "Reuven" "Joel" "Mary" "Greg" "Brad" "Tracy"

7、合并&排序

>mydata<-cbind(mydata,FirName,LasName)
>mydata
Stuld Math Science English score FirName LasName level
4 4 575 66 18 -0.1436996 Cheryl Cushing D
1 1 502 95 25 0.2026081 John Davis B
8 8 421 56 12 -1.0941773 Greg England E
3 3 621 78 22 0.3382219 Bull Jones B
6 6 634 89 30 0.8177999 Joel Knox A
10 10 666 10 38 0.1709542 Tracy Mcgrady c
7 7 576 78 37 0.6892625 Mary Rayburn A
9 9 599 68 22 0.1182175 Brad Tmac c
2 2 465 67 12 -0.7742849 Angela Williams E
5 5 454 96 15 -0.3249024 Reuven Ytzrhak D
> options(digits=2)--保留小数点后两位
> mydata<-mydata[order(mydata$LasName,mydata$FirName),]--排序
> mydata
Stuld Math Science English score FirName LasName level
4 4 575 66 18 -0.14 Cheryl Cushing D
1 1 502 95 25 0.20 John Davis B
8 8 421 56 12 -1.09 Greg England E
3 3 621 78 22 0.34 Bull Jones B
6 6 634 89 30 0.82 Joel Knox A
10 10 666 10 38 0.17 Tracy Mcgrady c
7 7 576 78 37 0.69 Mary Rayburn A
9 9 599 68 22 0.12 Brad Tmac c
2 2 465 67 12 -0.77 Angela Williams E
5 5 454 96 15 -0.32 Reuven Ytzrhak D
推荐 2
本文由 liliwu 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

这个不错。
挺好

要回复文章请先登录注册