This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Cmd+Shift+Enter.

plot(cars)

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Cmd+Option+I.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Cmd+Shift+K to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike Knit, Preview does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

** 4.1 Example **

manager <- c(1, 2, 3, 4, 5)
date <- c('10/24/08', '10/28/08', '10/1/08', '10/12/08', '5/1/09')
country <- c('US', 'US', 'UK' , 'UK', 'UK')
gender <-c('M', 'F', 'M', 'M', 'F')
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadship <- data.frame(
  manager, 
  date,
  country,
  gender,
  age,
  q1, q2, q3, q4, q5, stringsAsFactors = F
)

** 4.2 创建新变量的几种方式 **

*4.2.1

mydata <- data.frame(
  x1 = c(2, 2, 4, 5),
  x2 = c(3, 4, 2, 8)
)
mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2

*4.2.2

attach(mydata)
mydata$sumx = x1 + x2
mydata$meanx = (x1 + x2)/2
detach(mydata)

*4.2.3

mydata <- transform(
  mydata, sumx = x1 + x2,
  meanx = (x1 + x2)/2
)

** 4.3 变量的重编码 **

leadship$age[leadship$age == 99] <- NA
leadship$agecat[leadship$age > 75] <- 'Elder'
leadship$agecat[leadship$age <= 75 & leadship$age >= 55] <- 'Middle aged'
leadship$agecat[leadship$age < 55] <- 'Young'
#或者#

leadship <- within(leadship,{
  age[age == 99] <- NA
  agecat[age > 75] <- 'Elder'
  agecat[age <=75 & age >= 55] <- 'Middle aged'
  agecat[age < 55] <- 'Young'
})
#注意这里使用的是 within,允许修改数据框

若干程序包都提供了实用的变量重编码函数,特别地,car包中的recode()函数可以十分简便地重编码数值型、字符型向量和因子。
而doBy包提供了recodevar()。
R中也有cut(),可将数值型变量按值域分割为多个区间,并返回一个因子。 * recode() in car

library(car)
x <- c(10:100)
recode(x, "lo:20 = 'A'; 20:40 = 'B'; 40:hi = 'C'; else = 'NULL' " )
#lo minimum
#hi maximum

** 4.4 变量的重命名 **
* 交互式
fix()

fix(leadship)
names(leadship)[2] <- 'testDate'
library(plyr)
rename(dataframe, c(oldname = 'newname', oldname = 'newname', ....))
rename(leadship, c(manager = 'managerID', data = 'testDate'))

** 4.5 缺失值 ** 函数is.na()允许检测是否存在缺失值

y <- c(2, 5, 6, NA)
is.na(y)
is.na(leadship[,6:10])

缺失的地方返回值为TRUE。这里的leadership[,6:10]将数据框限定到第6列至第10列。 #需要注意的是,1)缺失值被认为是不可比较的,即便是与缺失值自身的比较,比如,不能使用myvar == NA,这个结果将不会返回TRUE;2)R并不把无限的或者不可能出现的数值标记成缺失值,正无穷和负无穷分别用Inf和-Inf标记,可用is.infinite()判断,不可能的值,如sin(Inf),用NaN符号标记,用is.nan()判断。 #请确保所有的缺失数据在分析之前被妥善地编码为缺失值,否则分析结果将失去意义。 *4.5.1 在分析中排除缺失值 含有缺失值的算术表达式和函数的计算结果也是缺失值。 好多的数值函数都拥有一个na.rm = TRUE的选项,可以在计算之前移除缺失值,并使用剩余值进行计算。

x <- c(1, 2, NA, 3)
y <- sum(x, na.rm = T)
y
[1] 6
y<- sum(x)
y
[1] NA

还可通过函数na.omit()删除所有含有缺失值的观测(行)。

leadship
newdata <- na.omit(leadship)
newdata

** 4.6 日期 ** 日期值通常以字符串的形式输入到R中,然后转化为以数值形式存储的日期变量。 as.Date() as.Date(x, “input_format”) * 日期格式 符号 含义 实例 %d 数字表示的日期(0~31) 01~31 %a 缩写的日期名 Mon %A 非缩写的日期名 Monday %m 月份 (00~12)
%b 缩写的月份 Jan %B 非缩写的月份 January %y 两位数的年份 07 %Y 四位数的年份 2007 日期值的默认输入格式为yyyy-mm-dd

mydates <- as.Date(c('2007-06-22', '2004-02-13'))
mydates
[1] "2007-06-22" "2004-02-13"
strDate <- c("01/05/1965", "08/16/1975")
dates <- as.Date(strDate, "%m/%d/%Y")
dates
[1] "1965-01-05" "1975-08-16"

在leadship数据集中,日期是以mm/dd/yy的格式编码为字符型变量。因此:

myformat <- "%m/%d/%y"
leadship$date <- as.Date(leadship$date, myformat)
leadship$date
[1] "2008-10-24" "2008-10-28" "2008-10-01" "2008-10-12" "2009-05-01"

使用指定格式读取字符型变量,并将其作为一个 日期变量 替换到数据框中。#这种转换一旦完成,就可以使用诸多分析方法对日期进行分析和绘图 * Sys.Date(),返回当天日期
* date(),返回当前日期和时间

Sys.Date()
[1] "2021-04-23"
date()
[1] "Fri Apr 23 15:57:53 2021"
today <- Sys.Date()
format(today, format = "%B %d %Y")
[1] "四月 23 2021"
format(today, format = "%A")
[1] "星期五"
startdate <- as.Date('2001-09-11')
enddate <- as.Date('2021-03-22')
days <- enddate -startdate
days
Time difference of 7132 days
difftime(startdate, enddate, units = 'weeks')
Time difference of -1018.857 weeks
strDates <- as.character(dates)

#要了解字符型数据转换为日期的更多细节,请查看: help(as.Date) help(strftime) help(ISodatatime) library(lubridate) library(timeDate) ** 4.7 类型转换 ** 判断 转换 is.numeric() as.numeric() is.character() as.character() is.vector() as.vector() is.matrix() as.matrix() is.data.frame() as.data.frame() is.factor() as.factor() is.logical() as.logical()

** 4.8 数据排序 ** order(), 默认升序,加-号得到降序的排序结果

newdata <- leadship[order(leadship$age),]
newdata
newdata <- leadship[order(leadship$age),]
newdata
leadship$gender <- factor(leadship$gender, ordered = T, levels = c('M', 'F') )
newdata <- leadship[order(leadship$gender, -age),]
newdata

** 4.9 数据集的合并 ** * 横向合并
merge(),通过一个或多个共有变量进行联结,inner join total <- merge(dataframeA, dataframeB, by = ‘ID’) total <- merge(dataframeA, dateframeB, by = c(‘ID’, ‘country’)) cbind(),直接横向合并,不需要指定一个公共索引。 total <- cbind(A,B), #但A与B必须有相同的函数,且1⃣已经过排序

** 4.10 ** * 选入(保留)变量(列)

newdata <- leadship[,c(6:10)]
newdata
newdata <- leadship[c('q1', 'q2', 'q3', 'q4', 'q5')]
newdata
myvar <- c(paste('q', 1:5, sep = ''))
newdata <- leadship[myvar]
newdata
myvars <- names(leadship) %in% c('q3', 'q4')
myvars
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE
newdata <- leadship[!myvars]
newdata

names(leadship) 生成了一个包含所有变量名的字符型向量 names(leadship) %in% c(‘q3’, ‘q4’) 返回了一个逻辑型向量 !myvars 将逻辑值反转

newdata <- leadship[c(-8, -9)]
newdata <- leadship[1:3, ]
newdata <- leadship[leadship$gender == 'F' & leadship$age > 45,]
leadship$date <- as.Date(leadship$date, "%m/%d/%y")
startdate <- as.Date("2009-01-01")
enddate <- as.Date("2009-10-31")
leadship
newdata <- leadship[leadship$date >= startdate & leadship$date <= enddate, ]
newdata
NA
newdata <- subset(leadship, age >= 35 | age < 24, select = c(q1, q2, q3, q4))
newdata <- subset(leadship, gender = 'M' & age > 25, select = gender:q4)
mysample <- leadship[(sample(1:nrow(leadship), 3, replace = FALSE)),]
mysample
leadship
#第一个参数是一个要从中臭氧的元素组成的向量,
#第二个参数是要抽取的元素数量
#第三个参数表示无放回抽样

#R拥有齐全的抽样工具 library(sampling) library(survey)

** 4.11 使用SQL语句操作数据框 **

#install.packages("sqldf")
#library(sqldf)
newdf <- sqldf("select * from mtcars where carb = 1 order by mpg", row.names = T)
newdf
---
title: "R in action - Chapter4"
output:
  html_notebook: default
  html_document:
    df_print: paged
  pdf_document: default
  word_document: default
---

This is an [R Markdown](http://rmarkdown.rstudio.com) Notebook. When you execute code within the notebook, the results appear beneath the code. 

Try executing this chunk by clicking the *Run* button within the chunk or by placing your cursor inside it and pressing *Cmd+Shift+Enter*. 

```{r}
plot(cars)
```

Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Cmd+Option+I*.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Cmd+Shift+K* to preview the HTML file). 

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike *Knit*, *Preview* does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

** 4.1 Example **
```{r}
manager <- c(1, 2, 3, 4, 5)
date <- c('10/24/08', '10/28/08', '10/1/08', '10/12/08', '5/1/09')
country <- c('US', 'US', 'UK' , 'UK', 'UK')
gender <-c('M', 'F', 'M', 'M', 'F')
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadship <- data.frame(
  manager, 
  date,
  country,
  gender,
  age,
  q1, q2, q3, q4, q5, stringsAsFactors = F
)
```
** 4.2 创建新变量的几种方式 **  

*4.2.1
```{r}
mydata <- data.frame(
  x1 = c(2, 2, 4, 5),
  x2 = c(3, 4, 2, 8)
)
mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2
```
*4.2.2
```{r}
attach(mydata)
mydata$sumx = x1 + x2
mydata$meanx = (x1 + x2)/2
detach(mydata)

```
*4.2.3
```{r}
mydata <- transform(
  mydata, sumx = x1 + x2,
  meanx = (x1 + x2)/2
)
```
** 4.3 变量的重编码 **  

* 逻辑运算符   
<, <=, >, >=, ==, !=, !x, x|y（x或y）, x&y（x和y）, isTRUE(x)（测试x是否为TRUE）  
* 连续型变量 转为 因子型   
语句variable[condition] <- expression, 仅在condition为T的时候执行赋值语句  
```{r}
leadship$age[leadship$age == 99] <- NA
leadship$agecat[leadship$age > 75] <- 'Elder'
leadship$agecat[leadship$age <= 75 & leadship$age >= 55] <- 'Middle aged'
leadship$agecat[leadship$age < 55] <- 'Young'
#或者#

leadship <- within(leadship,{
  age[age == 99] <- NA
  agecat[age > 75] <- 'Elder'
  agecat[age <=75 & age >= 55] <- 'Middle aged'
  agecat[age < 55] <- 'Young'
})
#注意这里使用的是 within，允许修改数据框
```
若干程序包都提供了实用的变量重编码函数，特别地，car包中的recode()函数可以十分简便地重编码数值型、字符型向量和因子。  
而doBy包提供了recodevar()。  
R中也有cut()，可将数值型变量按值域分割为多个区间，并返回一个因子。
* recode() in car  
```{r}
library(car)
x <- c(10:100)
recode(x, "lo:20 = 'A'; 20:40 = 'B'; 40:hi = 'C'; else = 'NULL' " )
#lo minimum
#hi maximum
```

** 4.4 变量的重命名 **  
* 交互式  
fix()
```{r}
fix(leadship)
```
* 编程式  
names()
```{r}
names(leadship)[2] <- 'testDate'
```
* plyr 函数包的 rename()  
```{r}
library(plyr)
rename(dataframe, c(oldname = 'newname', oldname = 'newname', ....))
rename(leadship, c(manager = 'managerID', data = 'testDate'))
```

** 4.5 缺失值 **
函数is.na()允许检测是否存在缺失值
```{r}
y <- c(2, 5, 6, NA)
is.na(y)
is.na(leadship[,6:10])
```
缺失的地方返回值为TRUE。这里的leadership[,6:10]将数据框限定到第6列至第10列。
#需要注意的是，1）缺失值被认为是不可比较的，即便是与缺失值自身的比较，比如，不能使用myvar == NA，这个结果将不会返回TRUE；2）R并不把无限的或者不可能出现的数值标记成缺失值，正无穷和负无穷分别用Inf和-Inf标记，可用is.infinite()判断，不可能的值，如sin(Inf),用NaN符号标记，用is.nan()判断。
#请确保所有的缺失数据在分析之前被妥善地编码为缺失值，否则分析结果将失去意义。
*4.5.1 在分析中排除缺失值
含有缺失值的算术表达式和函数的计算结果也是缺失值。
好多的数值函数都拥有一个na.rm = TRUE的选项，可以在计算之前移除缺失值，并使用剩余值进行计算。
```{r}
x <- c(1, 2, NA, 3)
y <- sum(x, na.rm = T)
y
y<- sum(x)
y
```
还可通过函数na.omit()删除所有含有缺失值的观测（行）。
```{r}
leadship
newdata <- na.omit(leadship)
newdata
```
** 4.6 日期 **
日期值通常以字符串的形式输入到R中，然后转化为以数值形式存储的日期变量。
as.Date()
as.Date(x, "input_format")
* 日期格式
符号                  含义                 实例
%d            数字表示的日期（0～31）     01～31
%a            缩写的日期名                  Mon
%A            非缩写的日期名                Monday
%m            月份                        （00～12）  
%b            缩写的月份                    Jan
%B            非缩写的月份                  January
%y            两位数的年份                  07
%Y            四位数的年份                  2007
日期值的默认输入格式为yyyy-mm-dd
```{r}
mydates <- as.Date(c('2007-06-22', '2004-02-13'))
mydates
strDate <- c("01/05/1965", "08/16/1975")
dates <- as.Date(strDate, "%m/%d/%Y")
dates
```
在leadship数据集中，日期是以mm/dd/yy的格式编码为字符型变量。因此：
```{r}
myformat <- "%m/%d/%y"
leadship$date <- as.Date(leadship$date, myformat)
leadship$date
```
使用指定格式读取字符型变量，并将其作为一个 日期变量 替换到数据框中。#这种转换一旦完成，就可以使用诸多分析方法对日期进行分析和绘图
* Sys.Date()，返回当天日期  
* date()，返回当前日期和时间  
```{r}
Sys.Date()
date()
```
* fotmat(x, format = "output_format")来输出指定格式的日期值，并且可以提取日期值中的某些部分：
```{r}
today <- Sys.Date()
format(today, format = "%B %d %Y")

format(today, format = "%A")

```

* 日期计算  
```{r}
startdate <- as.Date('2001-09-11')
enddate <- as.Date('2021-03-22')
days <- enddate -startdate
days

difftime(startdate, enddate, units = 'weeks') #计算时间间隔
```

* 日期变量转换为字符型变量
as.character(dates)
```{r}
strDates <- as.character(dates)

```
#要了解字符型数据转换为日期的更多细节，请查看:
help(as.Date)
help(strftime)
help(ISodatatime)
library(lubridate)
library(timeDate)
** 4.7 类型转换 **
判断                转换
is.numeric()        as.numeric()
is.character()      as.character()
is.vector()         as.vector()
is.matrix()         as.matrix()
is.data.frame()     as.data.frame()
is.factor()         as.factor()
is.logical()        as.logical()

** 4.8 数据排序 **
order(), 默认升序，加-号得到降序的排序结果
```{r}
newdata <- leadship[order(leadship$age),]
newdata
newdata <- leadship[order(leadship$age),]
newdata
leadship$gender <- factor(leadship$gender, ordered = T, levels = c('M', 'F') )
newdata <- leadship[order(leadship$gender, -age),] #先性别，后年龄
newdata
```
** 4.9 数据集的合并 **
* 横向合并  
merge()，通过一个或多个共有变量进行联结，inner join
total <- merge(dataframeA, dataframeB, by = 'ID')
total <- merge(dataframeA, dateframeB, by = c('ID', 'country'))
cbind()，直接横向合并，不需要指定一个公共索引。
total <- cbind(A,B), #但A与B必须有相同的函数，且1⃣已经过排序

* 纵向合并  
rbind(), A和B必须有相同的变量，顺序可以不必相同
total <- rbind(A, B)
如果A与B中变量不同：1）删除多余的变量；2）增加NA缺失观测

** 4.10 **
* 选入（保留）变量（列）
```{r}
newdata <- leadship[,c(6:10)]
newdata
newdata <- leadship[c('q1', 'q2', 'q3', 'q4', 'q5')]
newdata
myvar <- c(paste('q', 1:5, sep = ''))
newdata <- leadship[myvar]
newdata
```
* 剔除变量（列）    
```{r}
myvars <- names(leadship) %in% c('q3', 'q4')
myvars
newdata <- leadship[!myvars]
newdata
```
names(leadship) 生成了一个包含所有变量名的字符型向量
names(leadship) %in% c('q3', 'q4') 返回了一个逻辑型向量
!myvars 将逻辑值反转
```{r}
newdata <- leadship[c(-8, -9)]
#直接删除第8和9列
leadship$q3 <- leadship$q4 <- NULL
#设置为 未定义， 不同于NA
```
* 选入观测（行）  
```{r}
newdata <- leadship[1:3, ]
newdata <- leadship[leadship$gender == 'F' & leadship$age > 45,]
leadship$date <- as.Date(leadship$date, "%m/%d/%y")
startdate <- as.Date("2009-01-01")
enddate <- as.Date("2009-10-31")
leadship
newdata <- leadship[leadship$date >= startdate & leadship$date <= enddate, ]
newdata

```
* 使用subset()函数
使用subset()函数大概是选择变量和观测最简单的方法了。
```{r}
newdata <- subset(leadship, age >= 35 | age < 24, select = c(q1, q2, q3, q4))
newdata <- subset(leadship, gender = 'M' & age > 25, select = gender:q4) #选择所有25岁以上的男性，并保留变量gender到q4
```

* 使用sample()函数，有放回（或不放回）抽取大小为n的样本。
```{r}
mysample <- leadship[(sample(1:nrow(leadship), 3, replace = FALSE)),] ###！！！注意按行保留数据的时候，不要忘了 , 
mysample
#第一个参数是一个要从中抽样的元素组成的向量，
#第二个参数是要抽取的元素数量
#第三个参数表示无放回抽样
```
#R拥有齐全的抽样工具
library(sampling)
library(survey)

** 4.11 使用SQL语句操作数据框 **
```{r}
#install.packages("sqldf")
#library(sqldf)
newdf <- sqldf("select * from mtcars where carb = 1 order by mpg", row.names = T)
newdf
```





