Yêu cầu đọc dữ liệu birthwt.csv vào R
bw = read.csv("E:\\Bài tập R\\DỮ LIỆU THỰC HÀNH (TS Thạch gửi)\\birthwt.csv")
##Việc 4. Thông tin về dữ liệu bw này ####4.1 Có bao nhiêu biến số (variable) và quan sát (observation)
dim(bw)
## [1] 189 11
####4.2 Liệt kê 6 dòng đầu và 7 dòng cuối
head(bw)
## id low age lwt race smoke ptl ht ui ftv bwt
## 1 85 0 19 182 2 0 0 0 1 0 2523
## 2 86 0 33 155 3 0 0 0 0 3 2551
## 3 87 0 20 105 1 1 0 0 0 1 2557
## 4 88 0 21 108 1 1 0 0 1 2 2594
## 5 89 0 18 107 1 1 0 0 1 0 2600
## 6 91 0 21 124 3 0 0 0 0 0 2622
7 dòng cuối
tail(bw,7)
## id low age lwt race smoke ptl ht ui ftv bwt
## 183 77 1 26 190 1 1 0 0 0 0 2466
## 184 78 1 14 101 3 1 1 0 0 0 2466
## 185 79 1 28 95 1 1 0 0 0 2 2466
## 186 81 1 14 100 3 0 0 0 0 2 2495
## 187 82 1 23 94 3 1 0 0 0 0 2495
## 188 83 1 17 142 2 0 0 1 0 0 2495
## 189 84 1 21 130 1 1 0 1 0 3 2495
####4.3 Sử dụng ChatGPT viết lệnh để liệt kê 6 quan sát cuối cùng của dữ liệu
tail(bw)
## id low age lwt race smoke ptl ht ui ftv bwt
## 184 78 1 14 101 3 1 1 0 0 0 2466
## 185 79 1 28 95 1 1 0 0 0 2 2466
## 186 81 1 14 100 3 0 0 0 0 2 2495
## 187 82 1 23 94 3 1 0 0 0 0 2495
## 188 83 1 17 142 2 0 0 1 0 0 2495
## 189 84 1 21 130 1 1 0 1 0 3 2495
###Việc 5. Biên tập dữ liệu ####5.1 Tạo biến số mới mwt là cân nặng của mẹ tính bằng kg
bw$mwt = bw$lwt*0.453592
####5.2 Tạo biến số mới ethnicity là biến factor với điều kiện sau: Nếu race = 1 thì ethnicity = “White” Nếu race = 2 thì ethnicity = “Black” Nếu race = 3 thì ethnicity = “Other”
bw$ethnicity[bw$race==1]="white"
bw$ethnicity[bw$race==2]="black"
bw$ethnicity[bw$race==3]="other"
table(bw$ethnicity, bw$race)
##
## 1 2 3
## black 0 26 0
## other 0 0 67
## white 96 0 0
####5.3 Tạo 1 tập dữ liệu bw1 chỉ gồm 3 biến số id, low và bwt. Dữ liệu này có bao nhiêu biến số và quan sát?
bw1=bw[,c("id","low","bwt")]
5.4 Tạo 1 tập dữ liệu bw3 chỉ gồm những thai phụ có cân nặng thấp (low = 1). Dữ liệu này có bao nhiêu biến số và quan sát?
bw3 = subset(bw, low==1)
5.5 Tạo 1 tập dữ liệu bw4 chỉ gồm những thai phụ có cân nặng thấp (low = 1) và có hút thuốc trong lúc mang thai (smoke = 1). Dữ liệu này có bao nhiêu biến số và quan sát?
bw4= subset(bw, low ==1 & smoke ==1)