library(readr)

Khóa học sử dụng R- ngày 1

Việc 3: Đọc dữ liệu

Yêu cầu đọc dữ liệu birth

birthwt <- read_csv("G:/My Drive/6. NGHIÊN CỨU KHOA HỌC/Học NCKH 1 tuần với Thầy Tuấn/Khóa Phân tích dữ liệu với R tháng 5-25/DỮ LIỆU THỰC HÀNH (TS Thạch gửi)/birthwt.csv")
## Rows: 189 Columns: 11
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (11): id, low, age, lwt, race, smoke, ptl, ht, ui, ftv, bwt
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Sau đó mình sẽ đặt tên dữ liệu bằng kí tự viết tắt cho dễ, trong tình huống này gọi là “bw”

bw = read.csv("G:/My Drive/6. NGHIÊN CỨU KHOA HỌC/Học NCKH 1 tuần với Thầy Tuấn/Khóa Phân tích dữ liệu với R tháng 5-25/DỮ LIỆU THỰC HÀNH (TS Thạch gửi)/birthwt.csv")

Việc 4: phân tích dữ liệu

4.1 Có bao nhiêu biến số (variable) và quan sát (observation)

dim(bw)
## [1] 189  11

–> 189 11 –> 189 quan sát của 11 biến số 4.2 Liệt kê 6 quan sát đầu tiên của dữ liệu.

head(bw)
##   id low age lwt race smoke ptl ht ui ftv  bwt
## 1 85   0  19 182    2     0   0  0  1   0 2523
## 2 86   0  33 155    3     0   0  0  0   3 2551
## 3 87   0  20 105    1     1   0  0  0   1 2557
## 4 88   0  21 108    1     1   0  0  1   2 2594
## 5 89   0  18 107    1     1   0  0  1   0 2600
## 6 91   0  21 124    3     0   0  0  0   0 2622

4.3 Sử dụng ChatGPT viết lệnh để liệt kê 6 quan sát cuối cùng của dữ liệu

Cách 1: Dùng hàm tail() (tiện lợi, phổ biến) tail(data, 6)

tail(bw,6)
##     id low age lwt race smoke ptl ht ui ftv  bwt
## 184 78   1  14 101    3     1   1  0  0   0 2466
## 185 79   1  28  95    1     1   0  0  0   2 2466
## 186 81   1  14 100    3     0   0  0  0   2 2495
## 187 82   1  23  94    3     1   0  0  0   0 2495
## 188 83   1  17 142    2     0   0  1  0   0 2495
## 189 84   1  21 130    1     1   0  1  0   3 2495

Việc 5: Tạo biến mwt (kg)

5.1 Tạo biến mới mwt (kg) từ biến cũ lwt (pound)

bw$mwt = bw$lwt*0.453592

5.2 Tạo biến số mới ethnicity là biến factor với điều kiện sau: Nếu race = 1 thì ethnicity = “White” Nếu race = 2 thì ethnicity = “Black” Nếu race = 3 thì ethnicity = “Other”

bw$ethnicity[bw$race==1]<-"white"
bw$ethnicity[bw$race==2]<-"black"
bw$ethnicity[bw$race==3]<-"Other"

5.3 Tạo 1 tập dữ liệu bw1 chỉ gồm 3 biến số id, low và bwt. Dữ liệu này có bao nhiêu biến số và quan sát?

bw1 <- bw[, c("id", "low", "bwt")]

5.4 Tạo 1 tập dữ liệu bw3 chỉ gồm những thai phụ có cân nặng thấp (low = 1). Dữ liệu này có bao nhiêu biến số và quan sát?

bw3 <- bw[bw$race == 1, ]
dim(bw3)
## [1] 96 13

Ngoài ra cũng có thể dùng lệnh subset, ví dụ: bw3 = subset(bw, low == 1) 5.5 Tạo 1 tập dữ liệu bw4 chỉ gồm những thai phụ có cân nặng thấp (low = 1) và có hút thuốc trong lúc mang thai (smoke = 1).

bw4 = subset(bw,low==1&smoke==1)
dim(bw4)
## [1] 30 13