# Đọc file CPS1988 và đặt tên CPS1988
CPS1 <- CPS1988[c(1, 3, 100),] # Trích xuất dữ liệu quan sát ở dòng 1, 3, 100.
CPS1 # Xem 6 giá trị đầu tiên của CPS1
## wage education experience ethnicity smsa region parttime
## 1 354.94 7 45 cauc yes northeast no
## 3 370.37 9 9 cauc yes northeast no
## 100 688.51 18 16 cauc no northeast no
CPS2 <- CPS1988[c(1:3, 10, 100),]
CPS2 # Xem 6 giá trị đầu tiên của CPS2
## wage education experience ethnicity smsa region parttime
## 1 354.94 7 45 cauc yes northeast no
## 2 123.46 12 1 cauc yes northeast yes
## 3 370.37 9 9 cauc yes northeast no
## 10 1643.83 14 18 cauc yes northeast no
## 100 688.51 18 16 cauc no northeast no
Trong một số trường hợp chúng ta chỉ quan tâm đến một số biến chứ không phải toàn bộ các biến. Để trích xuất dữ liệu theo cột ta thực hiện lệnh sau:
CPS1988 <- read.csv(“crab.csv”, header =TRUE): đọc file có tên CPS1988.csv trong thư mục D:/PhanmemR và đặt tên CPS1988.
CPS3<-CPS1988[c(2:4)]:lấy cột từ2 đến cột 4 của đối tượng CPS1988 và đặt tên CPS3 head(CPS3):xem 6 quan sát đầu tiên của đối tượng CPS3.
CPS3 <- CPS1988[c(2:4)] # Trích xuất từ cột 2 đến cột 4 và đặt tên CPS3
head(CPS3) # Xem 6 giá trị đầu tiên của CPS3
## education experience ethnicity
## 1 7 45 cauc
## 2 12 1 cauc
## 3 9 9 cauc
## 4 11 46 cauc
## 5 12 36 cauc
## 6 16 22 cauc
Đểtrích xuất dữliệu theo hàng và cột ta thực hiện câu lệnh:
CPS1988<-read.csv(“crab.csv”, header =TRUE): câu lệnh đọc file có tên CPS1988.csv trong thư mụcD:/PhanmemR và đặt tên CPS1988.
CPS4 <-CPS1988[c(1, 3, 5, 7), c(2:4)]:câu lệnh trích xuất dữ liệu từ cột 2 đến cột 4, dòng 2 đến dòng 4 của đối tượng CPS1988 và đặt tên CPS4.
head(CPS4):câu lệnh xem 6 quan sát đầu tiên của CPS4
CPS4 <- CPS1988[c(1, 3, 5, 7), c(2:4)]
head(CPS4) # Xem 6 giá trị đầu tiên của CPS4
## education experience ethnicity
## 1 7 45 cauc
## 3 9 9 cauc
## 5 12 36 cauc
## 7 8 51 cauc
Kết quả câu lệnh trên tạo ra một dataframe gồm các dòng 1, 3, 5, 7 và chỉlấy các biến ởcột 2, 3, 4 từ dataframe gốc ban đầu.
Trong nhiều tình huống, chúng ta cần trích xuất dữ liệu cho các quan sát theo mộttiêu chí nào đó. Chẳng hạn, từ tập dữ liệu CPS1988.csv chúng ta muốn trích xuất tất cả các quan sát ứng với parttime = yes mà thôi với tên gọi CPS5 chẳng hạn, ta thực hiện câu lệnh sau:
CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tênCPS1988.csv trong thư mục D:/PhanmemR và đặt tên
CPS1988.CPS5 <-subset(CPS1988, parttime == “yes”): trích xuất các quan sát của biến parttime = yes trong đối tượng CPS1988 và đặt tên CPS5.
CPS5 <- subset(CPS1988, parttime == 'yes')
dim(CPS5) # Số quan sát của biến parttime = yes
## [1] 2524 7
head(CPS5) # Xem 6 giá trị đầu tiên của CPS4
## wage education experience ethnicity smsa region parttime
## 2 123.46 12 1 cauc yes northeast yes
## 38 166.67 12 51 cauc no northeast yes
## 41 222.93 11 41 cauc no northeast yes
## 43 277.78 11 40 cauc yes northeast yes
## 55 284.90 16 2 cauc yes northeast yes
## 64 109.04 12 1 cauc yes northeast yes
Kết quả câu lệnh cho thấy, có 2524 quan sát có làm bán thời gian được trích xuất.
Tương tự, chúng ta cũng có thể trích xuất dữ liệu theo một số tiêu chí nào đó.
Ví dụ, cũng từ dữ liệu CPS1988 ta trích xuất dữ liệu cho các quan sát các tiêu chí mà: (1) ứng với parttime =yes, và (2) có education ≥ 3 với đặt tên CPS6, ta thực hiện câu lệnh sau:
CPS6 <-subset(CPS1988, parttime == “yes” & education == 5):trích xuất các quan sát của biến parttime = yes và các quan sát của biến education = 5 trong đối tượng CPS1988 với tên CPS6.
head(CPS6): câu lệnh xem 6 quan sát đầu tiên của CPS6.
CPS6 <- subset(CPS1988, parttime == 'yes' & education ==5)
head(CPS6) # Xem 6 giá trị đầu tiên của CPS6
## wage education experience ethnicity smsa region parttime
## 8024 118.71 5 56 afam yes midwest yes
## 15108 98.24 5 46 afam yes south yes
## 16841 130.58 5 56 afam no south yes
## 17806 178.33 5 13 cauc yes south yes
## 20135 74.07 5 56 cauc yes south yes
## 21488 115.74 5 53 cauc yes south yes
Hoặc chúng ta cũng có thể trích xuất dữ liệu cho các quan sát trong CPS1988 theo các tiêu chí (1) ứng với education <2 hoặc (2) experience >50 và đặt tên CPS7, ta thực hiện câu lệnh:
CPS7 <-subset(CPS1988, parttime == “yes” | experience > 50):câu lệnh trích xuất các quan sát của biến parttime = yes hoặc các quan sát của biến experience > 50 trong đối tượng CPS1988 và đặt tên CPS7.
head(CPS7): câu lệnh xem 6 quan sát đầu tiên của CPS7
CPS7 <- subset(CPS1988, parttime == 'yes'| experience > 50)
head(CPS7) # Xem 6 giá trị đầu tiên của CPS7
## wage education experience ethnicity smsa region parttime
## 2 123.46 12 1 cauc yes northeast yes
## 7 284.90 8 51 cauc yes northeast no
## 38 166.67 12 51 cauc no northeast yes
## 41 222.93 11 41 cauc no northeast yes
## 43 277.78 11 40 cauc yes northeast yes
## 55 284.90 16 2 cauc yes northeast yes
Trong mục này chúng ta sửdụng dữliệu của file afterlife.xlsx trong thư mục D:/PhanmemRđểlàm ví dụminh họa.
Trước tiên chúng ta mô tảsơ bộvềfile dữliệu afterlife.xlsx bằng câu lệnh sau:
af<-read.xlsx(“afterlife.xlsx”, sheetIndex =1, header =TRUE):đọc file afterlife.xlsx và đặt tên af.
af: câu lệnh cho biết chi tiết đối tượng af.