Đọc file CPS1988 và đặt tên CPS1988

# Đọc file CPS1988 và đặt tên CPS1988
CPS1 <- CPS1988[c(1, 3, 100),] # Trích xuất dữ liệu quan sát ở dòng 1, 3, 100.
CPS1    # Xem 6 giá trị đầu tiên của CPS1
##       wage education experience ethnicity smsa    region parttime
## 1   354.94         7         45      cauc  yes northeast       no
## 3   370.37         9          9      cauc  yes northeast       no
## 100 688.51        18         16      cauc   no northeast       no

Trích xuất quan sát từ dòng 1 đến 3, dòng 10, dòng 100

CPS2 <- CPS1988[c(1:3, 10, 100),]
CPS2 # Xem 6 giá trị đầu tiên của CPS2
##        wage education experience ethnicity smsa    region parttime
## 1    354.94         7         45      cauc  yes northeast       no
## 2    123.46        12          1      cauc  yes northeast      yes
## 3    370.37         9          9      cauc  yes northeast       no
## 10  1643.83        14         18      cauc  yes northeast       no
## 100  688.51        18         16      cauc   no northeast       no

Trích xuất dữ liệu theo cột

Trong một số trường hợp chúng ta chỉ quan tâm đến một số biến chứ không phải toàn bộ các biến. Để trích xuất dữ liệu theo cột ta thực hiện lệnh sau:

CPS1988 <- read.csv(“crab.csv”, header =TRUE): đọc file có tên CPS1988.csv trong thư mục D:/PhanmemR và đặt tên CPS1988.

CPS3<-CPS1988[c(2:4)]:lấy cột từ2 đến cột 4 của đối tượng CPS1988 và đặt tên CPS3 head(CPS3):xem 6 quan sát đầu tiên của đối tượng CPS3.

CPS3 <- CPS1988[c(2:4)] # Trích xuất từ cột 2 đến cột 4 và đặt tên CPS3
head(CPS3) # Xem 6 giá trị đầu tiên của CPS3
##   education experience ethnicity
## 1         7         45      cauc
## 2        12          1      cauc
## 3         9          9      cauc
## 4        11         46      cauc
## 5        12         36      cauc
## 6        16         22      cauc

Trích xuất dữ liệu theo hàng và cột

Đểtrích xuất dữliệu theo hàng và cột ta thực hiện câu lệnh:

CPS1988<-read.csv(“crab.csv”, header =TRUE): câu lệnh đọc file có tên CPS1988.csv trong thư mụcD:/PhanmemR và đặt tên CPS1988.

CPS4 <-CPS1988[c(1, 3, 5, 7), c(2:4)]:câu lệnh trích xuất dữ liệu từ cột 2 đến cột 4, dòng 2 đến dòng 4 của đối tượng CPS1988 và đặt tên CPS4.

head(CPS4):câu lệnh xem 6 quan sát đầu tiên của CPS4

CPS4 <- CPS1988[c(1, 3, 5, 7), c(2:4)]
head(CPS4) # Xem 6 giá trị đầu tiên của CPS4
##   education experience ethnicity
## 1         7         45      cauc
## 3         9          9      cauc
## 5        12         36      cauc
## 7         8         51      cauc

Kết quả câu lệnh trên tạo ra một dataframe gồm các dòng 1, 3, 5, 7 và chỉlấy các biến ởcột 2, 3, 4 từ dataframe gốc ban đầu.

Trích xuất dữ liệu từ ột dataframe có sẵn bằng lệnh subset

Trong nhiều tình huống, chúng ta cần trích xuất dữ liệu cho các quan sát theo mộttiêu chí nào đó. Chẳng hạn, từ tập dữ liệu CPS1988.csv chúng ta muốn trích xuất tất cả các quan sát ứng với parttime = yes mà thôi với tên gọi CPS5 chẳng hạn, ta thực hiện câu lệnh sau:

CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tênCPS1988.csv trong thư mục D:/PhanmemR và đặt tên

CPS1988.CPS5 <-subset(CPS1988, parttime == “yes”): trích xuất các quan sát của biến parttime = yes trong đối tượng CPS1988 và đặt tên CPS5.

CPS5 <-  subset(CPS1988, parttime == 'yes')
dim(CPS5) # Số quan sát của biến parttime = yes
## [1] 2524    7
head(CPS5)  # Xem 6 giá trị đầu tiên của CPS4
##      wage education experience ethnicity smsa    region parttime
## 2  123.46        12          1      cauc  yes northeast      yes
## 38 166.67        12         51      cauc   no northeast      yes
## 41 222.93        11         41      cauc   no northeast      yes
## 43 277.78        11         40      cauc  yes northeast      yes
## 55 284.90        16          2      cauc  yes northeast      yes
## 64 109.04        12          1      cauc  yes northeast      yes

Kết quả câu lệnh cho thấy, có 2524 quan sát có làm bán thời gian được trích xuất.

Tương tự, chúng ta cũng có thể trích xuất dữ liệu theo một số tiêu chí nào đó.

Ví dụ, cũng từ dữ liệu CPS1988 ta trích xuất dữ liệu cho các quan sát các tiêu chí mà: (1) ứng với parttime =yes, và (2) có education ≥ 3 với đặt tên CPS6, ta thực hiện câu lệnh sau:

CPS6 <-subset(CPS1988, parttime == “yes” & education == 5):trích xuất các quan sát của biến parttime = yes và các quan sát của biến education = 5 trong đối tượng CPS1988 với tên CPS6.

head(CPS6): câu lệnh xem 6 quan sát đầu tiên của CPS6.

CPS6 <- subset(CPS1988, parttime == 'yes' & education ==5)
head(CPS6) # Xem 6 giá trị đầu tiên của CPS6
##         wage education experience ethnicity smsa  region parttime
## 8024  118.71         5         56      afam  yes midwest      yes
## 15108  98.24         5         46      afam  yes   south      yes
## 16841 130.58         5         56      afam   no   south      yes
## 17806 178.33         5         13      cauc  yes   south      yes
## 20135  74.07         5         56      cauc  yes   south      yes
## 21488 115.74         5         53      cauc  yes   south      yes

Hoặc chúng ta cũng có thể trích xuất dữ liệu cho các quan sát trong CPS1988 theo các tiêu chí (1) ứng với education <2 hoặc (2) experience >50 và đặt tên CPS7, ta thực hiện câu lệnh:

CPS7 <-subset(CPS1988, parttime == “yes” | experience > 50):câu lệnh trích xuất các quan sát của biến parttime = yes hoặc các quan sát của biến experience > 50 trong đối tượng CPS1988 và đặt tên CPS7.

head(CPS7): câu lệnh xem 6 quan sát đầu tiên của CPS7

CPS7 <- subset(CPS1988, parttime == 'yes'| experience > 50)
head(CPS7) # Xem 6 giá trị đầu tiên của CPS7
##      wage education experience ethnicity smsa    region parttime
## 2  123.46        12          1      cauc  yes northeast      yes
## 7  284.90         8         51      cauc  yes northeast       no
## 38 166.67        12         51      cauc   no northeast      yes
## 41 222.93        11         41      cauc   no northeast      yes
## 43 277.78        11         40      cauc  yes northeast      yes
## 55 284.90        16          2      cauc  yes northeast      yes

Mã hóa dữ liệu

Trong mục này chúng ta sửdụng dữliệu của file afterlife.xlsx trong thư mục D:/PhanmemRđểlàm ví dụminh họa.

Trước tiên chúng ta mô tảsơ bộvềfile dữliệu afterlife.xlsx bằng câu lệnh sau:

af<-read.xlsx(“afterlife.xlsx”, sheetIndex =1, header =TRUE):đọc file afterlife.xlsx và đặt tên af.

af: câu lệnh cho biết chi tiết đối tượng af.