BÀI TẬP VỀ NHÀ 1
Gỉai thích dữ liệu
Tập dữ liệu PhDPublications được thu thập vào năm 1997 nói về số bài
báo cáo của các nghiên cứu sinh trong lĩnh vực hóa sinh.
Dữ liệu gồm 915 quan sát và có 6 biến:
- articles: số bài báo cáo được đăng trong 3 năm gần đây
- gender: giới tính của nghiên cứu sinh
- married: tình trạng hôn nhân của nghiên cứu sinh
- kids: số con dưới 6 tuổi của nghiên cứu sinh
- prestige: chất lượng của chương trình đào tạo
- mentor: số bài báo cáo được đăng của người hướng dẫn nghiên cứu
sinh
Lấy dữ liệu từ package
library(AER)
## Loading required package: car
## Loading required package: carData
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
data("PhDPublications")
Gán dữ liệu vào p
p <- PhDPublications
Xem cấu trúc dữ liệu
str(p)
## 'data.frame': 915 obs. of 6 variables:
## $ articles: int 0 0 0 0 0 0 0 0 0 0 ...
## $ gender : Factor w/ 2 levels "male","female": 1 2 2 1 2 2 2 1 1 2 ...
## $ married : Factor w/ 2 levels "no","yes": 2 1 1 2 1 2 1 2 1 2 ...
## $ kids : int 0 0 0 1 0 2 0 2 0 0 ...
## $ prestige: num 2.52 2.05 3.75 1.18 3.75 ...
## $ mentor : int 7 6 6 3 26 2 3 4 6 0 ...
## - attr(*, "datalabel")= chr "Academic Biochemists / S Long"
## - attr(*, "time.stamp")= chr "30 Jan 2001 10:49"
## - attr(*, "formats")= chr [1:6] "%9.0g" "%9.0g" "%9.0g" "%9.0g" ...
## - attr(*, "types")= int [1:6] 98 98 98 98 102 98
## - attr(*, "val.labels")= chr [1:6] "" "sexlbl" "marlbl" "" ...
## - attr(*, "var.labels")= chr [1:6] "Articles in last 3 yrs of PhD" "Gender: 1=female 0=male" "Married: 1=yes 0=no" "Number of children < 6" ...
## - attr(*, "version")= int 6
## - attr(*, "label.table")=List of 6
## ..$ marlbl: Named num [1:2] 0 1
## .. ..- attr(*, "names")= chr [1:2] "Single" "Married"
## ..$ sexlbl: Named num [1:2] 0 1
## .. ..- attr(*, "names")= chr [1:2] "Men" "Women"
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
## ..$ : NULL
Xem các quan sát đầu của tập dữ liệu
head(p)
## articles gender married kids prestige mentor
## 1 0 male yes 0 2.52 7
## 2 0 female no 0 2.05 6
## 3 0 female no 0 3.75 6
## 4 0 male yes 1 1.18 3
## 5 0 female no 0 3.75 26
## 6 0 female yes 2 3.59 2
Xem các quan sát cuối của tập dữ liệu
tail(p)
## articles gender married kids prestige mentor
## 910 10 female yes 0 3.59 18
## 911 11 male yes 2 2.86 7
## 912 12 male yes 1 4.29 35
## 913 12 male yes 1 1.86 5
## 914 16 male yes 0 1.74 21
## 915 19 male yes 0 1.86 42
Đặt tên các biến
names(p) <- c('a','g','m','k','pr','m')
Gán biến a vào sobaibc
Lọc số nghiên cứu sinh có số bài báo cáo từ 5 đến 10 bài
- Từ kết quả, ta thấy có 32 nghiên cứu sinh có số bài báo nằm trong
khoảng này (chiếm 3.5%)
sobaibc <- p$a
sobaibc510 <- sobaibc[sobaibc>5 & sobaibc<10]
sobaibc510
## [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 8 9 9
Lọc số nghiên cứu sinh có số bài báo cáo nhiều hơn 1 và có hơn 1
con
- Từ kết quả cho thấy có khá ít người (48 người) có số bài báo cáo
nhiều hơn 1 và có hơn 1 con (chiếm 5,24%)
sobaibcs <- p[p$a>1&p$k>1,]
sobaibcs
## a g m k pr m
## 533 2 male yes 2 2.96 8
## 546 2 male yes 2 2.96 46
## 550 2 male yes 2 4.29 8
## 558 2 male yes 2 1.80 6
## 568 2 male yes 2 4.54 2
## 569 2 female yes 2 3.85 47
## 570 2 male yes 2 2.96 21
## 579 2 female yes 2 1.22 4
## 582 2 male yes 2 2.87 20
## 588 2 male yes 2 4.29 10
## 597 2 male yes 2 1.97 0
## 602 2 male yes 3 4.34 7
## 610 2 male yes 2 2.21 12
## 620 2 male yes 2 4.34 17
## 625 2 male yes 2 3.32 27
## 627 2 female yes 2 2.58 3
## 628 2 male yes 2 3.54 16
## 634 2 male yes 2 2.50 5
## 635 2 male yes 3 2.00 8
## 668 2 female yes 2 3.59 11
## 676 2 male yes 2 1.86 6
## 678 2 female yes 2 4.54 48
## 689 2 female yes 2 3.21 2
## 694 2 male yes 2 4.29 30
## 703 3 male yes 2 4.54 31
## 717 3 male yes 2 1.80 6
## 723 3 male yes 2 4.29 0
## 725 3 male yes 2 4.29 25
## 732 3 male yes 2 1.95 3
## 737 3 male yes 2 2.83 7
## 749 3 female yes 2 1.89 16
## 773 3 male yes 2 2.58 2
## 778 3 male yes 2 2.10 4
## 779 3 male yes 2 1.38 8
## 781 3 male yes 3 2.86 3
## 801 4 male yes 2 1.72 2
## 802 4 male yes 2 2.86 15
## 803 4 male yes 2 4.54 66
## 805 4 male yes 2 1.86 15
## 809 4 male yes 2 2.05 13
## 814 4 male yes 2 3.54 2
## 821 4 male yes 2 4.54 21
## 846 4 male yes 2 3.69 16
## 849 4 male yes 2 2.58 6
## 853 5 male yes 2 3.85 15
## 880 6 female yes 2 1.86 38
## 883 6 male yes 2 2.51 11
## 911 11 male yes 2 2.86 7
Chia biến a thành 4 tổ và lập bảng tần số
- Số lượng bài báo cáo dưới 5 bài chiếm số lượng nhiều nhất với 850
nghiên cứu sinh (chiếm 93%)
- Tổ từ 5 đến 10 bài báo cáo có 59 nghiên cứu sinh( chiếm 6.4%)
- Tổ từ 10 đến 15 bài báo cáo có 4 nghiên cứu sinh (chiếm 0.4%)
- Số lượng nghiên cứu sinh có từ 15 đến 19 bài báo cáo chiếm số
lượng ít nhất với 2 người (chiếm 0.2%)
table(cut(p$a,4))
##
## (-0.019,4.75] (4.75,9.5] (9.5,14.2] (14.2,19]
## 850 59 4 2
Lập bảng tần số của số bài báo cáo theo giới tính
- Ta thấy trong 915 nghiên cứu sinh thì nam chiếm nhiều hơn với 494
người (chiếm 54%) tuy nghiên không có sự cách biệt quá lớn so với nữ
(chiếm 46%).
- Số lượng bài báo cáo dưới 5 chiếm nhiều nhất (93%) với 450 bài là
của nam nghiên cứu sinh và 400 bài của nữ nghiên cứu sinh.
table(cut(p$a,4),p$g)
##
## male female
## (-0.019,4.75] 450 400
## (4.75,9.5] 39 20
## (9.5,14.2] 3 1
## (14.2,19] 2 0
Lập bảng tần số của số bài báo cáo theo số con
- Từ kết quả cho thấy, số nghiên cứu sinh không có con chiếm số
lượng nhiều nhất, 599 người (65%) và số nghiên cứu sinh có 3 con chiếm
thấp nhất, chỉ có 16 người (khoảng 1,7%). Như vậy, ta thấy những nghiên
cứu sinh càng có nhiều bài báo cáo thì số con họ có càng ít.
table(cut(p$a,4),p$k)
##
## 0 1 2 3
## (-0.019,4.75] 556 177 101 16
## (4.75,9.5] 40 16 3 0
## (9.5,14.2] 1 2 1 0
## (14.2,19] 2 0 0 0