Đây là bài test 2 cho lớp Phân tích dữ liệu với R - Ngày 1

Đọc dữ liệu

Yêu cầu đọc dữ liệu birthwt.csv vào R

bw = read.csv("E:\\My Drive\\Chuyên môn\\Sinh viên\\Đi học\\20250510-15 Phương pháp phân tích dữ liệu với R\\DỮ LIỆU THỰC HÀNH (TS Thạch gửi)\\birthwt.csv")

Tìm kích cỡ dữ liệu

dim(bw)
## [1] 189  11

Liệt kê số dòng của dữ liệu

head <mặc định 6 dòng đầu>

head(bw)
##   id low age lwt race smoke ptl ht ui ftv  bwt
## 1 85   0  19 182    2     0   0  0  1   0 2523
## 2 86   0  33 155    3     0   0  0  0   3 2551
## 3 87   0  20 105    1     1   0  0  0   1 2557
## 4 88   0  21 108    1     1   0  0  1   2 2594
## 5 89   0  18 107    1     1   0  0  1   0 2600
## 6 91   0  21 124    3     0   0  0  0   0 2622

tail <mặc định 6 dòng cuối>

tail(bw)
##     id low age lwt race smoke ptl ht ui ftv  bwt
## 184 78   1  14 101    3     1   1  0  0   0 2466
## 185 79   1  28  95    1     1   0  0  0   2 2466
## 186 81   1  14 100    3     0   0  0  0   2 2495
## 187 82   1  23  94    3     1   0  0  0   0 2495
## 188 83   1  17 142    2     0   0  1  0   0 2495
## 189 84   1  21 130    1     1   0  1  0   3 2495

Đọc một số dòng nhất định

Trên xuống head<bw, 10>

head(bw, 10)
##    id low age lwt race smoke ptl ht ui ftv  bwt
## 1  85   0  19 182    2     0   0  0  1   0 2523
## 2  86   0  33 155    3     0   0  0  0   3 2551
## 3  87   0  20 105    1     1   0  0  0   1 2557
## 4  88   0  21 108    1     1   0  0  1   2 2594
## 5  89   0  18 107    1     1   0  0  1   0 2600
## 6  91   0  21 124    3     0   0  0  0   0 2622
## 7  92   0  22 118    1     0   0  0  0   1 2637
## 8  93   0  17 103    3     0   0  0  0   1 2637
## 9  94   0  29 123    1     1   0  0  0   1 2663
## 10 95   0  26 113    1     1   0  0  0   0 2665

Dưới lên tail<bw, 10>

tail(bw, 10)
##     id low age lwt race smoke ptl ht ui ftv  bwt
## 180 71   1  17 120    2     0   0  0  0   2 2438
## 181 75   1  26 154    3     0   1  1  0   1 2442
## 182 76   1  20 105    3     0   0  0  0   3 2450
## 183 77   1  26 190    1     1   0  0  0   0 2466
## 184 78   1  14 101    3     1   1  0  0   0 2466
## 185 79   1  28  95    1     1   0  0  0   2 2466
## 186 81   1  14 100    3     0   0  0  0   2 2495
## 187 82   1  23  94    3     1   0  0  0   0 2495
## 188 83   1  17 142    2     0   0  1  0   0 2495
## 189 84   1  21 130    1     1   0  1  0   3 2495

Việc 5. Tạo biến số

5.1 Tạo biến mwt (kg)

bw$mwt = bw$lwt*0.453592
head(bw)
##   id low age lwt race smoke ptl ht ui ftv  bwt      mwt
## 1 85   0  19 182    2     0   0  0  1   0 2523 82.55374
## 2 86   0  33 155    3     0   0  0  0   3 2551 70.30676
## 3 87   0  20 105    1     1   0  0  0   1 2557 47.62716
## 4 88   0  21 108    1     1   0  0  1   2 2594 48.98794
## 5 89   0  18 107    1     1   0  0  1   0 2600 48.53434
## 6 91   0  21 124    3     0   0  0  0   0 2622 56.24541

##5.2 Tạo biến số mới ethnicity

bw$ethnicity[bw$race == 1] = "White"
bw$ethnicity[bw$race == 2] = "Black"
bw$ethnicity[bw$race == 3] = "Other"
table(bw$ethnicity, bw$race)
##        
##          1  2  3
##   Black  0 26  0
##   Other  0  0 67
##   White 96  0  0

##5.3 Tạo tập dữ liệu bw1

bw1 = bw[, c("id", "low", "bwt")]

5.4 Tạo tập dữ liệu bw3 bé cân nặng thấp

bw3 = subset(bw, low == 1)

5.5 Tạo tập tin bé nhẹ cân và mẹ hút thuốc

bw4 = subset(bw, low == 1 & smoke == 1)
bw4 = subset(bw, low == 1 & smoke == 1 & race == 1)

5.6 Tạo tập tin ethnicity

bw$ethnicity2 <- factor(ifelse(bw$race == 1, "White",
                             ifelse(bw$race == 2, "Black", "Other")))