Khóa học R - Ngày 1

Việc 3: đọc dữ liệu

Yêu cầu đọc dữ liệu birthwt.csv vào R

bw= read.csv("F:\\NCS\\BaiGiang_PTTK\\Lop_R_VienPN\\DLTH\\birthwt.csv", header=T)

Việc 4: Thông tin về dữ liệu bw

4.1 Có bao nhiêu biến số (variable) và quan sát (observation)

dim(bw)
## [1] 189  11

4.2 Liệt kê 6 quan sát đầu tiên của dữ liệu

head (bw)
##   id low age lwt race smoke ptl ht ui ftv  bwt
## 1 85   0  19 182    2     0   0  0  1   0 2523
## 2 86   0  33 155    3     0   0  0  0   3 2551
## 3 87   0  20 105    1     1   0  0  0   1 2557
## 4 88   0  21 108    1     1   0  0  1   2 2594
## 5 89   0  18 107    1     1   0  0  1   0 2600
## 6 91   0  21 124    3     0   0  0  0   0 2622

4.3 Sử dụng ChatGPT viết lệnh để liệt kê 10 quan sát cuối cùng của dữ liệu

promt: viết lệnh trong R để đọc 10 quan sát cuối của dữ liệu bw

tail(bw,10)
##     id low age lwt race smoke ptl ht ui ftv  bwt
## 180 71   1  17 120    2     0   0  0  0   2 2438
## 181 75   1  26 154    3     0   1  1  0   1 2442
## 182 76   1  20 105    3     0   0  0  0   3 2450
## 183 77   1  26 190    1     1   0  0  0   0 2466
## 184 78   1  14 101    3     1   1  0  0   0 2466
## 185 79   1  28  95    1     1   0  0  0   2 2466
## 186 81   1  14 100    3     0   0  0  0   2 2495
## 187 82   1  23  94    3     1   0  0  0   0 2495
## 188 83   1  17 142    2     0   0  1  0   0 2495
## 189 84   1  21 130    1     1   0  1  0   3 2495

Việc 5. Biên tập dữ liệu

5.1 Tạo biến số mới mwt là cân nặng của mẹ tính bằng kg

bw$lwt2=bw$lwt*0.45

5.2 Tạo biến số mới ethnicity là biến factor

bw$ethnicity[bw$race==1]= "white"
bw$ethnicity[bw$race==2]= "black"
bw$ethnicity[bw$race==3]= "other"

5.3 Tạo 1 tập dữ liệu bw1 chỉ gồm 3 biến số id, low và bwt. Dữ liệu này có bao nhiêu biến số và quan sát?

bw1=bw [,c("id","low","bwt")]
dim(bw)
## [1] 189  13

5.4 Tạo 1 tập dữ liệu bw3 chỉ gồm những thai phụ có cân nặng thấp (low = 1). Dữ liệu này có bao nhiêu biến số và quan sát?

bw3=subset(bw, low == 1)
dim (bw3)
## [1] 59 13

5.5 Tạo 1 tập dữ liệu bw4 chỉ gồm những thai phụ có cân nặng thấp (low = 1) và có hút thuốc trong lúc mang thai (smoke = 1). Dữ liệu này có bao nhiêu biến số và quan sát?

bw4=subset(bw, low == 1 & smoke == 1)