将若干向量组合为数据框
1 | > g <- c("a","b","c") |
从数据框中提取摘要信息
1 | > str(data) |
向数据框添加列
1 | > data$new <- data$x * 2 |
从数据框删除列
1 | > data <- subset(data,select = c(-x,-new)) |
重排序列
1 | > data2 <-data[c(1,3,2)] |
选取某几列
1 | > data3 <-data[c("x","new")] |
选取某几行
1 | > data3 <-data[c(1,2),] |
连续变量转换为分类变量
1 | > data$class <- cut(data$new,breaks=c(0,4,8,Inf)) |
宽数据《=》长数据
长数据有一列数据是变量的类型,有一列是变量的值,但不一定只有两列。ggplot2
需要长类型的数据,dplyr
也需要长类型的数据,大多数的模型(比如lm()
, glm()
以及gam()
)也需要长数据。
使用tidyr
包的gather()
函数转换到长数据:
1 | > library(tidyr) |
使用tidyr
包的spread()
函数转换到宽数据:
1 | > spread(data2,key='new_one',value='count') |
多列《=》一列
1 | > data |