BÀI TẬP VỀ NHÀ 1

Gỉai thích dữ liệu

Tập dữ liệu PhDPublications được thu thập vào năm 1997 nói về số bài báo cáo của các nghiên cứu sinh trong lĩnh vực hóa sinh.

Dữ liệu gồm 915 quan sát và có 6 biến:

- articles: số bài báo cáo được đăng trong 3 năm gần đây

- gender: giới tính của nghiên cứu sinh

- married: tình trạng hôn nhân của nghiên cứu sinh

- kids: số con dưới 6 tuổi của nghiên cứu sinh

- prestige: chất lượng của chương trình đào tạo

- mentor: số bài báo cáo được đăng của người hướng dẫn nghiên cứu sinh

Lấy dữ liệu từ package

library(AER)
## Loading required package: car
## Loading required package: carData
## Loading required package: lmtest
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
data("PhDPublications")

Gán dữ liệu vào p

p <- PhDPublications

Xem cấu trúc dữ liệu

str(p)
## 'data.frame':    915 obs. of  6 variables:
##  $ articles: int  0 0 0 0 0 0 0 0 0 0 ...
##  $ gender  : Factor w/ 2 levels "male","female": 1 2 2 1 2 2 2 1 1 2 ...
##  $ married : Factor w/ 2 levels "no","yes": 2 1 1 2 1 2 1 2 1 2 ...
##  $ kids    : int  0 0 0 1 0 2 0 2 0 0 ...
##  $ prestige: num  2.52 2.05 3.75 1.18 3.75 ...
##  $ mentor  : int  7 6 6 3 26 2 3 4 6 0 ...
##  - attr(*, "datalabel")= chr "Academic Biochemists / S Long"
##  - attr(*, "time.stamp")= chr "30 Jan 2001 10:49"
##  - attr(*, "formats")= chr [1:6] "%9.0g" "%9.0g" "%9.0g" "%9.0g" ...
##  - attr(*, "types")= int [1:6] 98 98 98 98 102 98
##  - attr(*, "val.labels")= chr [1:6] "" "sexlbl" "marlbl" "" ...
##  - attr(*, "var.labels")= chr [1:6] "Articles in last 3 yrs of PhD" "Gender: 1=female 0=male" "Married: 1=yes 0=no" "Number of children < 6" ...
##  - attr(*, "version")= int 6
##  - attr(*, "label.table")=List of 6
##   ..$ marlbl: Named num [1:2] 0 1
##   .. ..- attr(*, "names")= chr [1:2] "Single" "Married"
##   ..$ sexlbl: Named num [1:2] 0 1
##   .. ..- attr(*, "names")= chr [1:2] "Men" "Women"
##   ..$       : NULL
##   ..$       : NULL
##   ..$       : NULL
##   ..$       : NULL

Xem các quan sát đầu của tập dữ liệu

head(p)
##   articles gender married kids prestige mentor
## 1        0   male     yes    0     2.52      7
## 2        0 female      no    0     2.05      6
## 3        0 female      no    0     3.75      6
## 4        0   male     yes    1     1.18      3
## 5        0 female      no    0     3.75     26
## 6        0 female     yes    2     3.59      2

Xem các quan sát cuối của tập dữ liệu

tail(p)
##     articles gender married kids prestige mentor
## 910       10 female     yes    0     3.59     18
## 911       11   male     yes    2     2.86      7
## 912       12   male     yes    1     4.29     35
## 913       12   male     yes    1     1.86      5
## 914       16   male     yes    0     1.74     21
## 915       19   male     yes    0     1.86     42

Đặt tên các biến

names(p) <- c('a','g','m','k','pr','m')

Gán biến a vào sobaibc

Lọc số nghiên cứu sinh có số bài báo cáo từ 5 đến 10 bài

- Từ kết quả, ta thấy có 32 nghiên cứu sinh có số bài báo nằm trong khoảng này (chiếm 3.5%)

sobaibc <- p$a
sobaibc510 <- sobaibc[sobaibc>5 & sobaibc<10]
sobaibc510
##  [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 8 9 9

Lọc số nghiên cứu sinh có số bài báo cáo nhiều hơn 1 và có hơn 1 con

- Từ kết quả cho thấy có khá ít người (48 người) có số bài báo cáo nhiều hơn 1 và có hơn 1 con (chiếm 5,24%)

sobaibcs <- p[p$a>1&p$k>1,]
sobaibcs
##      a      g   m k   pr  m
## 533  2   male yes 2 2.96  8
## 546  2   male yes 2 2.96 46
## 550  2   male yes 2 4.29  8
## 558  2   male yes 2 1.80  6
## 568  2   male yes 2 4.54  2
## 569  2 female yes 2 3.85 47
## 570  2   male yes 2 2.96 21
## 579  2 female yes 2 1.22  4
## 582  2   male yes 2 2.87 20
## 588  2   male yes 2 4.29 10
## 597  2   male yes 2 1.97  0
## 602  2   male yes 3 4.34  7
## 610  2   male yes 2 2.21 12
## 620  2   male yes 2 4.34 17
## 625  2   male yes 2 3.32 27
## 627  2 female yes 2 2.58  3
## 628  2   male yes 2 3.54 16
## 634  2   male yes 2 2.50  5
## 635  2   male yes 3 2.00  8
## 668  2 female yes 2 3.59 11
## 676  2   male yes 2 1.86  6
## 678  2 female yes 2 4.54 48
## 689  2 female yes 2 3.21  2
## 694  2   male yes 2 4.29 30
## 703  3   male yes 2 4.54 31
## 717  3   male yes 2 1.80  6
## 723  3   male yes 2 4.29  0
## 725  3   male yes 2 4.29 25
## 732  3   male yes 2 1.95  3
## 737  3   male yes 2 2.83  7
## 749  3 female yes 2 1.89 16
## 773  3   male yes 2 2.58  2
## 778  3   male yes 2 2.10  4
## 779  3   male yes 2 1.38  8
## 781  3   male yes 3 2.86  3
## 801  4   male yes 2 1.72  2
## 802  4   male yes 2 2.86 15
## 803  4   male yes 2 4.54 66
## 805  4   male yes 2 1.86 15
## 809  4   male yes 2 2.05 13
## 814  4   male yes 2 3.54  2
## 821  4   male yes 2 4.54 21
## 846  4   male yes 2 3.69 16
## 849  4   male yes 2 2.58  6
## 853  5   male yes 2 3.85 15
## 880  6 female yes 2 1.86 38
## 883  6   male yes 2 2.51 11
## 911 11   male yes 2 2.86  7

Chia biến a thành 4 tổ và lập bảng tần số

- Số lượng bài báo cáo dưới 5 bài chiếm số lượng nhiều nhất với 850 nghiên cứu sinh (chiếm 93%)

- Tổ từ 5 đến 10 bài báo cáo có 59 nghiên cứu sinh( chiếm 6.4%)

- Tổ từ 10 đến 15 bài báo cáo có 4 nghiên cứu sinh (chiếm 0.4%)

- Số lượng nghiên cứu sinh có từ 15 đến 19 bài báo cáo chiếm số lượng ít nhất với 2 người (chiếm 0.2%)

table(cut(p$a,4))
## 
## (-0.019,4.75]    (4.75,9.5]    (9.5,14.2]     (14.2,19] 
##           850            59             4             2

Lập bảng tần số của số bài báo cáo theo giới tính

- Ta thấy trong 915 nghiên cứu sinh thì nam chiếm nhiều hơn với 494 người (chiếm 54%) tuy nghiên không có sự cách biệt quá lớn so với nữ (chiếm 46%).

- Số lượng bài báo cáo dưới 5 chiếm nhiều nhất (93%) với 450 bài là của nam nghiên cứu sinh và 400 bài của nữ nghiên cứu sinh.

table(cut(p$a,4),p$g)
##                
##                 male female
##   (-0.019,4.75]  450    400
##   (4.75,9.5]      39     20
##   (9.5,14.2]       3      1
##   (14.2,19]        2      0

Lập bảng tần số của số bài báo cáo theo số con

- Từ kết quả cho thấy, số nghiên cứu sinh không có con chiếm số lượng nhiều nhất, 599 người (65%) và số nghiên cứu sinh có 3 con chiếm thấp nhất, chỉ có 16 người (khoảng 1,7%). Như vậy, ta thấy những nghiên cứu sinh càng có nhiều bài báo cáo thì số con họ có càng ít.

table(cut(p$a,4),p$k)
##                
##                   0   1   2   3
##   (-0.019,4.75] 556 177 101  16
##   (4.75,9.5]     40  16   3   0
##   (9.5,14.2]      1   2   1   0
##   (14.2,19]       2   0   0   0