1 BÀI TẬP VỀ NHÀ 6 (TUẦN 7)

1.1 DỮ LIỆU FERTILITY TRONG PACKAGE AER

1.1.1 Dữ liệu Fertility _ Mức sinh và nguồn cung lao động nữ

  • Mô tả dữ liệu: Fertility là dữ liệu chéo từ Điều tra dân số Hoa Kỳ năm 1980 về phụ nữ đã kết hôn ở độ tuổi 21-35 có hai con trở lên. Bảng dữ liệu gồm 254,654 quan sát và 8 biến:

    • morekids: mẹ có nhiều hơn 2 con không (yes/no)

    • gender1: giới tính của đứa con đầu tien (male/female)

    • gender2: giới tính của đứa con thứ 2 (male/female)

    • age: tuổi của người mẹ (numberic)

    • afam: Người mẹ có là người Mỹ gốc Phi (yes/no)

    • hispanic: Người mẹ có là người gốc Tây Ban Nha(yes/no)

    • other: Người mẹ không phải là người Mỹ gốc Phi, người gốc Tây Ban Nha hay người da trắng (yes/no)

    • work: số tuần mà người mẹ làm việc trong 1 năm

1.1.2 Nhập dữ liệu Fertility từ package AER

##    morekids gender1 gender2 age afam hispanic other work
## 1        no    male  female  27   no       no    no    0
## 2        no  female    male  30   no       no    no   30
## 3        no    male  female  27   no       no    no    0
## 4        no    male  female  35  yes       no    no    0
## 5        no  female  female  30   no       no    no   22
## 6        no    male  female  26   no       no    no   40
## 7        no  female    male  29   no       no    no    0
## 8        no    male    male  33   no       no    no   52
## 9        no  female    male  29   no       no    no    0
## 10       no    male  female  27   no       no    no    0

1.2 XUẤT VÀ NHẬP DỮ LIỆU FERTILITY VỚI FILE EXCEL

1.2.1 Xuất file từ dataset trong RStudio thành file excel .xlsx

   Tôi có thể xuất dataset Fertility sang file .csv bằng hàm write.csv() như sau:

write.csv(Fertility, file="fertilitydata.csv")

   Sau đó, file .csv ấy được tôi đổi thành file Excel .xlsx như với thông tin như sau:

1.2.2 Nhập dataset Fertility vào R từ file excel

   Đầu tiên, dataset được lưu dưới dạng file excel được tôi xuất như bên trên đã được tôi lưu vào dữ liệu trực tuyến Google Drive.

   Sau khi tải file excel Fertility_data_nkan.xlsx về máy, bạn có thể dùng package readxl và dùng hàm read_excel để nhập đường dẫn file excel được tải về vào R như sau:

library("readxl")
y <- read_excel("/Users/84896/Downloads/data_Fertility.xlsx", sheet="Fertility")
print(head(y,10))
## # A tibble: 10 × 9
##     ...1 morekids gender1 gender2   age afam  hispanic other  work
##    <dbl> <chr>    <chr>   <chr>   <dbl> <chr> <chr>    <chr> <dbl>
##  1     1 no       male    female     27 no    no       no        0
##  2     2 no       female  male       30 no    no       no       30
##  3     3 no       male    female     27 no    no       no        0
##  4     4 no       male    female     35 yes   no       no        0
##  5     5 no       female  female     30 no    no       no       22
##  6     6 no       male    female     26 no    no       no       40
##  7     7 no       female  male       29 no    no       no        0
##  8     8 no       male    male       33 no    no       no       52
##  9     9 no       female  male       29 no    no       no        0
## 10    10 no       male    female     27 no    no       no        0

2 Phân tích dữ liệu data_Fertility

2.1 THAO TÁC CƠ BẢN TRÊN DỮ LIỆU

2.1.1 Truy vấn dữ liệu con

NhieuHonHai <- y$morekids
GioiTinhCon1 <- y$gender1
GioiTinhCon2 <- y$gender2
TuoiCuaMe <- y$age
SoTuanLd <- y$work
MyGocPhi <- y$afam
MyGocTBN <- y$hispanic
xyz <- data.frame(NhieuHonHai,GioiTinhCon1,GioiTinhCon2,TuoiCuaMe,SoTuanLd,MyGocPhi,MyGocTBN)
head(xyz,5)
##   NhieuHonHai GioiTinhCon1 GioiTinhCon2 TuoiCuaMe SoTuanLd MyGocPhi MyGocTBN
## 1          no         male       female        27        0       no       no
## 2          no       female         male        30       30       no       no
## 3          no         male       female        27        0       no       no
## 4          no         male       female        35        0      yes       no
## 5          no       female       female        30       22       no       no

2.2 LẬP BẢNG TẦN SỐ ĐƠN BIẾN

2.2.1 Biến Nhiều hơn 2 con

2.2.1.1 Bảng tần số

table(NhieuHonHai)
## NhieuHonHai
##     no    yes 
## 157742  96912

2.2.1.2 Nhận xét:

  • Phần lớn người mẹ được khảo sát thuộc nhóm có ít hơn 2 con vì tỉ lệ khoảng 62,2%.

2.2.2 Biến Giới tính của con

2.2.2.1 Bảng tần số:

print(table(GioiTinhCon1))
## GioiTinhCon1
## female   male 
## 123670 130984
print(table(GioiTinhCon2))
## GioiTinhCon2
## female   male 
## 124131 130523

2.2.2.2 Nhận xét:

  • Nhóm đứa con được sinh ra trong gia đình mang giới tính nữ chiếm 51,4% nhiều hơn so với nam là 48,6%.

2.2.3 Biến Tuổi của mẹ

2.2.3.1 Bảng tần số

BangTuoiCuaMe <- cut(TuoiCuaMe, breaks = c(20, 25, 30, 35), labels = c("20-25", "25-30", "30-35"), right = TRUE)
tabTuoi=table(BangTuoiCuaMe)
tabTuoi
## BangTuoiCuaMe
##  20-25  25-30  30-35 
##  26118  89055 139481

2.2.3.2 Nhận xét:

  • Nhóm người mẹ có độ tuổi từ 30 đến 35 tuổi chiếm tỉ trọng cao nhất với tỉ lệ gần 55%, cao hơn rất nhiều so với 2 nhóm tuổi còn ### Biến số Tuần Lao động của mẹ
BangSoTuanLd <- cut(SoTuanLd, breaks = c(0, 20, 40, 52), labels = c("0-20", "20-40", "40-52"), right = TRUE)
tabLd=table(BangSoTuanLd)
tabLd
## BangSoTuanLd
##  0-20 20-40 40-52 
## 35239 32269 67005

2.3 VỄ ĐỒ THỊ ĐƠN BIẾN

2.3.1 Biến Nhiều Hơn 2 con

barplot(table(NhieuHonHai), xlab = "", ylab = "tần số",  main = "Biểu đồ thể hiện dữ liệu của biến Nhiều hơn Hai con", col = c("red", "green"))

=> Nhận xét:

2.3.2 Biến Tuổi của Mẹ

barplot(tabTuoi, xlab = "", ylab = "Thu Nhập",  main = "Biểu đồ thể hiện dữ liệu của biến Tuổi Của Mẹ", col = c("red", "green", "blue", "pink", "white"))

=> Nhận xét:

2.3.3 Biến số tuần Lao động của mẹ trong năm

barplot(table(SoTuanLd), xlab = "", ylab = "số tuần",  main = "Biểu đồ thể hiện dữ liệu của biến Số Tuần Lao Động của người mẹ ")

2.4 LẬP BẢNG TẦN SỐ 2 BIẾN

2.4.1 Biến Nhièu hơn 2 con và Tuổi của mẹ

2.4.2 Biến Số tuần lao động của mẹ và Tuổi của mẹ