Package: AER - Dataset: PSID1982
Mô tả dữ liệu Đây là dữ khảo sát 595 người ở Hoa Kỳ năm 1982 nghiên cứu về các yếu tố tác động đến động lực tạo ra thu nhập của người tham gia khảo sát.
Số quan sát: 595 Số biến: 12
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 292 800 1080 1148 1350 5100
## [1] 531.0814
Trong cuộc khảo sát, người có mức lương thấp nhất là 292 và người có mức lương cao nhất là 5100.
Mức lương trung bình là 1148.
Mức lương có độ lệch chuẩn là 531,0814
##
## thấp trung bình cao
## 252 307 36
Trong số 595 người tham gia khảo sát thì có 252 người có mức thu nhập thấp, 307 người có mức thu nhập trung bình và 36 người có mức thu nhập cao.
##
## thấp trung bình cao
## 42.35294 51.59664 6.05042
p |> ggplot(aes( x = wa, y = after_stat(count))) +
geom_bar(fill = 'gray') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'white', vjust = 2) +
theme_classic() +
labs(x = 'Mức lương', y = 'Số người')bdt <- p %>% group_by(wa) %>% summarise(n = n()) %>%
mutate(percent = n/sum(n))
bdt |> ggplot(aes(x = "", y = percent, fill = wa)) +
geom_bar(stat = "identity", width = 1) +
geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("skyblue", "lightpink", "yellow"), name = "Mức lương") +
labs(title = "BIỂU ĐỒ PHÂN BỐ MỨC LƯƠNG") +
theme_minimal() +
theme(legend.position = "bottom")Nhìn đồ thị ta thấy: Có 42,4% là người có mức lương thấp, 51,6% là người có mức lương trung bình và 6.1% là người có mức lương cao.
##
## white blue
## 290 305
Trong số 290 nguời tham gia khảo sát thì có 290 người làm nhân viên văn phòng và 305 người làm lao động tay chân.
p |> ggplot(aes( x = occupation, y = after_stat(count))) +
geom_bar(fill = 'skyblue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 2) +
theme_classic() +
labs(x = 'Hình thức lao động', y = 'Số người')oc <- p %>% group_by(occupation) %>% summarise( n=n()) %>% mutate( percent=n/sum(n))
oc |> ggplot(aes(x='', y=percent, fill= occupation)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("yellow", "pink"), name = "Hình thức lao động") +
labs(title = "BIỂU ĐỒ PHÂN BỐ HÌNH THỨC LAO ĐỘNG") +
theme_minimal()Nhìn biểu đồ ta thấy: Có 49% là nhân viên văn phòng và 51% là người làm nghề lao động tay chân.
##
## white blue
## thấp 92 160
## trung bình 163 144
## cao 35 1
Trong số 252 người có thu nhập thấp ( dưới 1000$ ), có 92 người làm việc văn phòng và 160 người làm lao động tay chân.
Trong số 307 người có mức thu nhập trung bình ( từ 1000-2000$ ), có 163 người làm việc văn phòng và 144 người làm lao động tay chân.
Trong số 36 người có mức tu nhập cao (trên 2000$) có 35 người làm việc văn phòng và 1 người làm lao động tay chân.
## Group.1 x
## 1 white 1349.6345
## 2 blue 956.3574
Đối với những người làm việc văn phòng thì mức lương trung bình là 1349,63$.
Đối với những người làm việc lao động tay chân thì mức lương trung bình là 956,36$.
p |> count(wa, occupation) |>
group_by(wa) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = wa, y = n, fill = occupation)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5)) +
ylab('Số Người') +
xlab('Mức lương')Đọc đồ thị ta thấy:
Trong số những người có thu nhập thấp có 63,49% là người làm việc lao động tay chân và 36,51% là người làm việc văn phòng. Trong mức người có thu nhập thấp thì số người làm lao động tay chân nhiều hơn 74% so với số người làm việc văn phòng.
Trong số những người có mức thu nhập trung bình có 46,91% là người làm việc lao động tay chân và 53,09% là người làm việc văn phòng,
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test
##
## data: httn
## X-squared = 51.291, df = 2, p-value = 7.284e-12
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Nên ta chưa đủ cơ sở bác bỏ giả thiết H0. Vậy hình thức lao động và mức lương là 2 biến không độc lập với nhau.
##
## 4 5 6 7 8 9 10 11 12 13 14 15 16 17
## 2 3 4 11 25 23 33 30 214 26 49 12 91 72
##
## 4 5 6 7 8 9 10
## 0.3361345 0.5042017 0.6722689 1.8487395 4.2016807 3.8655462 5.5462185
## 11 12 13 14 15 16 17
## 5.0420168 35.9663866 4.3697479 8.2352941 2.0168067 15.2941176 12.1008403
Số người có số năm đi học là 4 chiếm 0,34%.
Số người có số năm đi học là 5 chiếm 0,5%
Số người có số năm đi học là 6 chiếm 0,67%
Số người có số năm đi học là 7 chiếm 1,85%
Số người có số năm đi học là 8 chiếm 4,2%
Số người có số năm đi học là 9 chiếm 3,87%
Số người có số năm đi học là 10 chiếm 5,55%
Số người có số năm đi học là 11 chiếm 5,04%
Số người có số năm đi học là 12 chiếm 35,97%
Số người có số năm đi học là 13 chiếm 4,36%
Số người có số năm đi học là 14 chiếm 8,24%
Số người có số năm đi học là 15 chiếm 2,02%
Số người có số năm đi học là 16 chiếm 15,29%
Số người có số năm đi học là 17 chiếm 12,1%
p |> ggplot(aes( x=education, y=after_stat(count))) + geom_bar(fill='lightpink') + xlab('Học vấn') + ylab('Số người')p$hv <- as.factor(p$education)
p |> ggplot(aes(fct_infreq(hv))) + geom_bar( fill='lightpink') + xlab('Học vấn') + ylab('Số người')Nhìn đồ thị ta thấy trong cuộc khảo sát:
## Group.1 x
## 1 4 577.0000
## 2 5 830.0000
## 3 6 818.2500
## 4 7 739.2727
## 5 8 892.5600
## 6 9 936.0435
## 7 10 912.6970
## 8 11 976.2333
## 9 12 1010.4299
## 10 13 1046.6923
## 11 14 1174.4490
## 12 15 1361.5000
## 13 16 1460.6484
## 14 17 1590.7500
Đối với người có số năm học vấn là 4 thì mức lương trung bình của họ là 577$
Đối với người có số năm học vấn là 5 thì mức lương trung bình của họ là 830$
Đối với người có số năm học vấn là 6 thì mức lương trung bình của họ là 818,25$
Đối với người có số năm học vấn là 7 thì mức lương trung bình của họ là 793,27$
Đối với người có số năm học vấn là 8 thì mức lương trung bình của họ là 829,56$
Đối với người có số năm học vấn là 9 thì mức lương trung bình của họ là 936,04$
Đối với người có số năm học vấn là 10 thì mức lương trung bình của họ là 912,697$
Đối với người có số năm học vấn là 11 thì mức lương trung bình của họ là 976,23$
Đối với người có số năm học vấn là 12 thì mức lương trung bình của họ là 1010,43$
Đối với người có số năm học vấn là 13 thì mức lương trung bình của họ là 1046,69$
Đối với người có số năm học vấn là 14 thì mức lương trung bình của họ là 1174,45$
Đối với người có số năm học vấn là 15 thì mức lương trung bình của họ là 1361,5$
Đối với người có số năm học vấn là 16 thì mức lương trung bình của họ là 1460,65$
Đối với người có số năm học vấn là 17 thì mức lương trung bình của họ là 1590,75$
p |> ggplot(aes(x= education, y= wage)) + geom_point( color = 'skyblue') + xlab('Trình độ học vấn') + ylab('Mức lương')p |> ggplot(aes(x= education, y= wage)) + geom_point(color = 'lightpink') + geom_point( data=p |> filter (wage>= 3000), color = 'black') + xlab('Trình độ học vấn') + ylab('Mức lương')Có 6 người trong cuộc khảo sát có mức lương lớn hơn 3000.
## [1] 292
p |> ggplot(aes(x= education, y= wage)) + geom_point(color = 'lightpink') + geom_point( data=p |> filter (wage==292), color = 'black') + xlab('Trình độ học vấn') + ylab('Mức lương')## [1] 5100
p |> ggplot(aes(x= education, y= wage)) + geom_point(color = 'plum') + geom_point( data=p |> filter (wage==5100), color = 'black') + xlab('Trình độ học vấn') + ylab('Mức lương')Người có Mức lương thấp nhất trong cuộc khảo sát là 292$ với số năm đi học là 8.
Người có mức lương cao nhất trong cuộc khảo sát là 5100$ với số năm đi học là 17.
Đặt giả thuyết
H0: Hai biến độc lập
H1: Hai biến không độc lập với nhau
## hv
## thấp cao
## thấp 185 67
## trung bình 158 149
## cao 2 34
##
## Pearson's Chi-squared test
##
## data: hl
## X-squared = 70.594, df = 2, p-value = 4.685e-16
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0. Vậy hai biến Mức lương và Trình độ học vấn không độc lập với nhau.
## 4 5 6 7 8 9 10 11 12 13 14 15 16 17
##
## thấp white 0 0 0 1 0 3 0 4 27 6 12 4 22 13
## blue 2 2 3 8 14 9 19 13 80 6 2 0 2 0
## trung bình white 0 0 0 0 1 2 2 2 33 5 19 8 47 44
## blue 0 1 1 2 10 9 12 10 73 7 15 0 3 1
## cao white 0 0 0 0 0 0 0 1 0 2 1 0 17 14
## blue 0 0 0 0 0 0 0 0 1 0 0 0 0 0
Ở mức thu nhập thấp có:
1 người là nhân viên văn phòng với trình độ học vấn là 7.
3 người là nhân viên văn phòng với trình độ học vấn là 9.
4 người là nhân viên văn phòng với trình độ học vấn là 11.
27 người là nhân viên văn phòng với trình độ học vấn là 12.
6 người là nhân viên văn phòng với trình độ học vấn là 13.
12 người là nhân viên văn phòng với trình độ học vấn là 14.
4 người là nhân viên văn phòng với trình độ học vấn là 15.
22 người là nhân viên văn phòng với trình độ học vấn là 16.
13 người là nhân viên văn phòng với trình độ học vấn là 17.
2 người làm công việc lao động tay chân với trình độ học vấn là 4.
2 người làm công việc lao động tay chân với trình độ học vấn là 5.
3 người làm công việc lao động tay chân với trình độ học vấn là 6.
8 người làm công việc lao động tay chân với trình độ học vấn là 7.
14 người làm công việc lao động tay chân với trình độ học vấn là 8.
9 người làm công việc lao động tay chân với trình độ học vấn là 9.
19 người làm công việc lao động tay chân với trình độ học vấn là 10.
13 người làm công việc lao động tay chân với trình độ học vấn là 11.
80 người làm công việc lao động tay chân với trình độ học vấn là 12.
6 người làm công việc lao động tay chân với trình độ học vấn là 13.
2 người làm công việc lao động tay chân với trình độ học vấn là 14.
2 người làm công việc lao động tay chân với trình độ học vấn là 16.
Ở mức thu nhập trung bình có:
1 người là nhân viên văn phòng với trình độ học vấn là 8.
2 người là nhân viên văn phòng với trình độ học vấn là 9.
2 người là nhân viên văn phòng với trình độ học vấn là 10.
2 người là nhân viên văn phòng với trình độ học vấn là 11.
33 người là nhân viên văn phòng với trình độ học vấn là 12.
5 người là nhân viên văn phòng với trình độ học vấn là 13.
19 người là nhân viên văn phòng với trình độ học vấn là 14.
8 người là nhân viên văn phòng với trình độ học vấn là 15.
47 người là nhân viên văn phòng với trình độ học vấn là 16.
44 người là nhân viên văn phòng với trình độ học vấn là 17.
1 người làm công việc lao động tay chân với trình độ học vấn là 5.
1 người làm công việc lao động tay chân với trình độ học vấn là 6.
2 người làm công việc lao động tay chân với trình độ học vấn là 7.
10 người làm công việc lao động tay chân với trình độ học vấn là 8.
9 người làm công việc lao động tay chân với trình độ học vấn là 9.
12 người làm công việc lao động tay chân với trình độ học vấn là 10.
10 người làm công việc lao động tay chân với trình độ học vấn là 11.
73 người làm công việc lao động tay chân với trình độ học vấn là 12.
7 người làm công việc lao động tay chân với trình độ học vấn là 13.
15 người làm công việc lao động tay chân với trình độ học vấn là 14.
3 người làm công việc lao động tay chân với trình độ học vấn là 16.
1 người làm công việc lao động tay chân với trình độ học vấn là 17.
Ở mức thu nhập cao có:
1 người là nhân viên văn phòng với trình độ học vấn là 11.
2 người là nhân viên văn phòng với trình độ học vấn là 13.
1 người là nhân viên văn phòng với trình độ học vấn là 14.
17 người là nhân viên văn phòng với trình độ học vấn là 16.
14 người là nhân viên văn phòng với trình độ học vấn là 17.
1 người làm công việc lao động tay chân với trình độ học vấn là 12.
p |> ggplot(aes(x= education, y= wage)) + geom_point(aes(color= occupation)) + geom_smooth(formula = y ~ x, method = 'lm', color = 'yellow') + xlab('Số năm đi học') + ylab('Mức lương')Đọc đồ thị ta thấy:
Số năm đi học dưới 12 đa số là người lao động tay chân và có mức thu nhập dưới 2000$
Số năm đi học trên 12 đa số là người làm việc văn phòng và có mức lương trung bình từ 500-3000$.
Người có mức lương cao nhất là 5100$ là người có số năm đi học là 17, đang làm nhân viên văn phòng.
Ta thấy đường hồi quy tuyến tính là đường dốc lên, thể hiện 2 biến số năm đi học và mức lương tỷ lệ thuận với nhau. Có nhiều điểm nằm trên và xung quanh đường hồi quy vì vậy ta có thể kết luận số năm đi học và mức lương có mối quan hệ tuyến tính với nhau. Điều này cho thấy số năm đi học có ảnh hưởng đến mức lương. Số năm đi học càng cao thì mức lương càng cao.
## experience weeks occupation industry south smsa married gender union
## 479 27 47 blue no yes yes yes male no
## education ethnicity wage wa hv
## 479 12 other 2036 cao 12
p |> ggplot(aes(x= education, y= wage)) + geom_point(aes(color= occupation)) + geom_point(data=p |> filter (education==12 & wa=='cao'), color = 'black') + geom_smooth(formula = y ~ x, method = 'lm', color = 'yellow') + xlab('Số năm đi học') + ylab('Mức lương')Có 1 người làm công việc lao động tay chân với trình độ học vấn là 12 có mức thu nhập cao.
d |> ggplot( map = aes(x=education, y=wage))+ geom_point( color='yellow') + xlab('Học vấn') + ylab('Mức lương')d |> ggplot( map = aes(x=education, y=wage))+ geom_point( color='pink') + xlab('Học vấn') + ylab('Mức lương') + geom_line(color = 'yellow')Nhận xét: Hai đồ thị phân tán (scatter) trên đều thể hiện mối quan hệ giữa học vấn và mức lương của người tham gia khảo sát. Từ đồ thị ta thấy Mức lương dao động trong khoảng từ 292 đến 5100. Trong mức trình độ học vấn từ 1 đến 15 năm thì mức lương trung bình dưới 2000. Trong mức trình độ học vấn cao hơn 15 năm thì mức lương có sự dao động lớn hơn. Và mức lương cao nhất là 5100.
d |> ggplot( map = aes(x=education, y=wage))+ geom_point( color='pink') + geom_line(color = 'yellow') + geom_smooth(formula = y ~ x, method = 'lm', color = 'green') + xlab('Học vấn') + ylab('Mức Lương')Ta thấy đường hồi quy tuyến tính là đường dốc lên, thể hiện 2 biến học vấn và mức lương tỷ lệ thuận với nhau. Có nhiều điểm nằm trên và xung quanh đường hồi quy vì vậy ta có thể kết luận học vấn và mức lương có mối quan hệ tuyến tính với nhau. Điều này cho thấy học vấn có ảnh hưởng đến mức lương. Học vấn càng cao thì mức lương càng cao.
d |> ggplot( map = aes(x=experience, y=wage, color=occupation))+ geom_point() + geom_smooth(formula = y ~ x, method = 'lm', color = 'yellow') + xlab('Kinh nghiệm') + ylab('Mức Lương')Đồ thị cho thấy mối quan hệ giữa 2 biến kinh nghiệm và mức lương. Ta thấy các điểm có sự phân bố đều nhau giữa các giá trị. Đường thẳng hồi quy (đường màu vàng) rất thoải, thể hiện 2 biến này không có sự tương quan hoặc tương quan rất yếu tới nhau. Vì vậy, kinh nghiệm không ảnh hưởng hay có ảnh hưởng rất ít đến mức lương. Nhìn vào đồ thị trên ta có thể thấy thêm rằng với cùng số năm kinh nghiệm thì người làm việc văn phòng sẽ có mức ương cao hơn người lao động tay chân.
d |> ggplot(aes(x=gender)) + geom_bar(aes(y= after_stat(100*count/sum(count))), fill="pink")+ labs(x='Giới tính', y='Tỷ lệ %')
Nhận xét: Trong cuộc khảo sát, có xấp xỉ 87,5% là nam giới và xấp xỉ
12,5% là nữ giới.
d |> ggplot(aes(x = married, y = after_stat(count),fill = occupation)) +
geom_bar(position = 'dodge') +
ylab('Số Người') +
xlab('Tình trạng hôn nhân')d |> count(married, occupation) |>
mutate(pCH = prop.table(n)) |>
ggplot(aes(x = married, y = n, fill = occupation)) +
geom_col(position = 'dodge') +
geom_text(aes(label = percent(pCH, accuracy = .01)), position = position_dodge(1), vjust = -.5) +
ylab('Số Người') +
xlab('Tình trạng hôn nhân')Từ hai biểu đồ trên ta thấy được: Có 10.08% người làm việc văn phòng chưa lập gia đình và 9.41% người làm việc lao động tay chân chưa lập gia đình. Có 38.66% người làm việc văn phòng đã lập gia đình và 41.85% người làm việc lao động tay chân đã lập gia đình.
d |> count(married, occupation) |>
mutate(pCH = prop.table(n)) |>
ggplot(aes(x = married, y = n, fill = occupation)) +
geom_col(position = 'dodge') +
geom_text(aes(label = percent(pCH, accuracy = .01)), position = position_dodge(1), vjust = -.5) +
ylab('Số Người') +
xlab('Tình trạng hôn nhân') + coord_flip()Ta có thể chuyển biểu đồ trên từ biểu đồ dọc thành biểu đồ ngang.
d$wa <- cut(d$wage, breaks=c(291.9,1000,2000,5100.1), labels= c('thấp','trung bình','cao'))
d |> ggplot(aes(x = wa, y = after_stat(count),fill = married)) +
geom_bar(position = 'dodge') +
ylab('Số Người') +
xlab('Mức lương')Đọc đồ thị tôi thấy được đa số mọi người đều có mức lương trung bình, thấp. Ở mọi mức thu nhập tỷ lệ người đã kết hôn đều cao hơn người chưa kết hôn. Từ đó cho thấy tình trạng hôn nhân (đã kết hôn hay chưa kết hôn) không làm ảnh hưởng đến mức lương của người tham gia khảo sát.
d |> count(wa, married) |>
mutate(pCH = prop.table(n)) |>
ggplot(aes(x = wa, y = n, fill = married)) +
geom_col(position = 'dodge') +
geom_text(aes(label = percent(pCH, accuracy = .01)), position = position_dodge(1), vjust = -.5) +
ylab('Số Người') +
xlab('Mức lương')Đọc đồ thị tôi thấy có 13.61% số người có mức thu nhập thấp chưa kết hôn, 28.74% số người có mức thu nhập thấp đã kết hôn. 5.55% số người có mức thu nhập trung bình chưa kết hôn, 46.05% số người có mức thu nhập trung bình đã kết hôn. 0.34% số người có mức nhập cao chưa kết hôn, 5.71% số người có mức thu nhập cao đã kết hôn.
d |> count(wa, married) |>
group_by(wa) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = wa, y = n, fill = married)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5)) +
ylab('Số Người') +
xlab('Mức lương')Đọc đồ thị tôi thấy, trong mức thu thấp có 67.86% là người đã kết hôn và 32.14% là người chưa kết hôn. Trong mức thu nhập trung bình, có 89.25% là người đã kết hôn và 10.75% là người chưa kết hôn. Trong mức thu nhập cao, có 94.44% là người đã kết hôn và 5.56% là người chưa kết hôn.
Package: tidyr - Datasets: who đây là bộ dữ liệu ghi nhận số ca mắc bệnh lao của tổ chức y tế thế giới
Gồm 7240 quan sát và 60 biến
## tibble [7,240 × 60] (S3: tbl_df/tbl/data.frame)
## $ country : chr [1:7240] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ iso2 : chr [1:7240] "AF" "AF" "AF" "AF" ...
## $ iso3 : chr [1:7240] "AFG" "AFG" "AFG" "AFG" ...
## $ year : num [1:7240] 1980 1981 1982 1983 1984 ...
## $ new_sp_m014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_m65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sp_f65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_m65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_sn_f65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_m65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ new_ep_f65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_m65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f014 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f1524: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f2534: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f3544: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f4554: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f5564: num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
## $ newrel_f65 : num [1:7240] NA NA NA NA NA NA NA NA NA NA ...
tt0 <- who %>% pivot_longer(cols= new_sp_m014:newrel_f65, names_to = c('chẩn đoán','giới tính', 'tuổi'), names_pattern = 'new_?(.*)_(.)(.*)' ,values_to = 'count')
str(tt0)## tibble [405,440 × 8] (S3: tbl_df/tbl/data.frame)
## $ country : chr [1:405440] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ iso2 : chr [1:405440] "AF" "AF" "AF" "AF" ...
## $ iso3 : chr [1:405440] "AFG" "AFG" "AFG" "AFG" ...
## $ year : num [1:405440] 1980 1980 1980 1980 1980 1980 1980 1980 1980 1980 ...
## $ chẩn đoán: chr [1:405440] "sp" "sp" "sp" "sp" ...
## $ giới tính: chr [1:405440] "m" "m" "m" "m" ...
## $ tuổi : chr [1:405440] "014" "1524" "2534" "3544" ...
## $ count : num [1:405440] NA NA NA NA NA NA NA NA NA NA ...
tt1 <- who %>% pivot_longer(cols=new_sp_m014:newrel_f65, names_to = c('chẩn đoán','giới tính', 'tuổi'), names_pattern = 'new_?(.*)_(.)(.*)' ,values_to = 'count', values_drop_na = T)
str(tt1)## tibble [76,046 × 8] (S3: tbl_df/tbl/data.frame)
## $ country : chr [1:76046] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ iso2 : chr [1:76046] "AF" "AF" "AF" "AF" ...
## $ iso3 : chr [1:76046] "AFG" "AFG" "AFG" "AFG" ...
## $ year : num [1:76046] 1997 1997 1997 1997 1997 ...
## $ chẩn đoán: chr [1:76046] "sp" "sp" "sp" "sp" ...
## $ giới tính: chr [1:76046] "m" "m" "m" "m" ...
## $ tuổi : chr [1:76046] "014" "1524" "2534" "3544" ...
## $ count : num [1:76046] 0 10 6 3 5 2 0 5 38 36 ...
## # A tibble: 6 × 8
## country iso2 iso3 year `chẩn đoán` `giới tính` tuổi count
## <chr> <chr> <chr> <dbl> <chr> <chr> <chr> <dbl>
## 1 Afghanistan AF AFG 1997 sp m 014 0
## 2 Afghanistan AF AFG 1997 sp m 1524 10
## 3 Afghanistan AF AFG 1997 sp m 2534 6
## 4 Afghanistan AF AFG 1997 sp m 3544 3
## 5 Afghanistan AF AFG 1997 sp m 4554 5
## 6 Afghanistan AF AFG 1997 sp m 5564 2
## # A tibble: 6 × 8
## country iso2 iso3 year `chẩn đoán` `giới tính` tuổi count
## <chr> <chr> <chr> <dbl> <chr> <chr> <chr> <dbl>
## 1 Zimbabwe ZW ZWE 2013 rel f 1524 2069
## 2 Zimbabwe ZW ZWE 2013 rel f 2534 4649
## 3 Zimbabwe ZW ZWE 2013 rel f 3544 3526
## 4 Zimbabwe ZW ZWE 2013 rel f 4554 1453
## 5 Zimbabwe ZW ZWE 2013 rel f 5564 811
## 6 Zimbabwe ZW ZWE 2013 rel f 65 725
## [1] 570.6746
Trong số 76046 số ca mắc bệnh lao được tổ chức y tế thế giới ghi nhận thì có 38098 trường hợp người mắc bệnh là nam và 37948 trường hợp mắc bệnh là nữ.
Package: tidyr - Datasets: fish_encounters (dữ liệu về thông tin số lần cá bơi qua trạm đo lường được ghi nhận )
Gồm 114 quan sát và 3 biến
Gọi dataset fish_encounters. Gán dataset vào bộ dữ liệu mới có tên là f.
## tibble [114 × 3] (S3: tbl_df/tbl/data.frame)
## $ fish : Factor w/ 19 levels "4842","4843",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ station: Factor w/ 11 levels "Release","I80_1",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ seen : int [1:114] 1 1 1 1 1 1 1 1 1 1 ...
## tibble [19 × 12] (S3: tbl_df/tbl/data.frame)
## $ fish : Factor w/ 19 levels "4842","4843",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ Release: int [1:19] 1 1 1 1 1 1 1 1 1 1 ...
## $ I80_1 : int [1:19] 1 1 1 1 1 1 1 1 1 1 ...
## $ Lisbon : int [1:19] 1 1 1 1 1 1 0 0 0 0 ...
## $ Rstr : int [1:19] 1 1 1 1 0 1 0 1 0 0 ...
## $ Base_TD: int [1:19] 1 1 1 1 0 0 0 1 0 0 ...
## $ BCE : int [1:19] 1 1 1 0 0 0 0 1 0 0 ...
## $ BCW : int [1:19] 1 1 1 0 0 0 0 1 0 0 ...
## $ BCE2 : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ BCW2 : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ MAE : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ MAW : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## tibble [19 × 13] (S3: tbl_df/tbl/data.frame)
## $ fish : Factor w/ 19 levels "4842","4843",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ Release: int [1:19] 1 1 1 1 1 1 1 1 1 1 ...
## $ I80_1 : int [1:19] 1 1 1 1 1 1 1 1 1 1 ...
## $ Lisbon : int [1:19] 1 1 1 1 1 1 0 0 0 0 ...
## $ Rstr : int [1:19] 1 1 1 1 0 1 0 1 0 0 ...
## $ Base_TD: int [1:19] 1 1 1 1 0 0 0 1 0 0 ...
## $ BCE : int [1:19] 1 1 1 0 0 0 0 1 0 0 ...
## $ BCW : int [1:19] 1 1 1 0 0 0 0 1 0 0 ...
## $ BCE2 : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ BCW2 : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ MAE : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ MAW : int [1:19] 1 1 1 0 0 0 0 0 0 0 ...
## $ cactram: int [1:19] 11 11 11 5 3 4 2 6 2 2 ...
data('PSID1982', package='AER')
d <- PSID1982
luong <-cut(d$wage, breaks=c(0,1000,2000,5100), labels=c('thấp', 'trung bình', 'cao'))
table(luong)## luong
## thấp trung bình cao
## 252 307 36
wg <- d[d$wage >2000 & d$gender == 'male',]
wg1 <- d[d$wage >1000 & d$wage <= 2000 & d$gender == 'male',]
wg2 <- d[d$wage >1000 & d$wage <= 2000 & d$gender == 'female',]
wg3<- d[d$wage <= 1000 & d$gender == 'male',]
wg4<- d[d$wage <= 1000 & d$gender == 'female',]wo <- d[d$occupation == 'white' & d$wage > 2000,]
wo1 <- d[d$occupation =='blue' & d$wage > 2000,]
wo2 <- d[d$wage >1000 & d$wage <= 2000 & d$occupation == 'white',]
wo3 <- d[d$wage >1000 & d$wage <= 2000 & d$occupation == 'blue',]
wo4<- d[d$wage <= 1000 & d$occupation == 'white',]
wo5<- d[d$wage <= 1000 & d$occupation == 'blue',]wm <- d[d$married == 'yes' & d$wage > 2000,]
wm1 <- d[d$married =='no' & d$wage > 2000,]
wm2 <- d[d$wage >1000 & d$wage <= 2000 & d$married == 'yes',]
wm3 <- d[d$wage >1000 & d$wage <= 2000 & d$married == 'no',]
wm4<- d[d$wage <= 1000 & d$married == 'yes',]
wm5<- d[d$wage <= 1000 & d$married == 'no',]## Group.1 x
## 1 4 577.0000
## 2 5 830.0000
## 3 6 818.2500
## 4 7 739.2727
## 5 8 892.5600
## 6 9 936.0435
## 7 10 912.6970
## 8 11 976.2333
## 9 12 1010.4299
## 10 13 1046.6923
## 11 14 1174.4490
## 12 15 1361.5000
## 13 16 1460.6484
## 14 17 1590.7500
## # A tibble: 2 × 2
## `d$gender` m
## <fct> <dbl>
## 1 male 22.9
## 2 female 22.9
## 'data.frame': 595 obs. of 12 variables:
## $ experience: int 9 36 12 37 16 32 21 29 9 9 ...
## $ weeks : int 32 30 46 46 49 47 48 51 48 40 ...
## $ occupation: Factor w/ 2 levels "white","blue": 1 2 2 2 1 2 2 2 1 1 ...
## $ industry : Factor w/ 2 levels "no","yes": 2 2 2 1 1 2 1 2 1 1 ...
## $ south : Factor w/ 2 levels "no","yes": 2 1 1 1 1 1 1 1 2 2 ...
## $ smsa : Factor w/ 2 levels "no","yes": 1 1 1 2 1 2 1 2 2 2 ...
## $ married : Factor w/ 2 levels "no","yes": 2 2 1 1 2 2 2 2 2 2 ...
## $ gender : Factor w/ 2 levels "male","female": 1 1 1 2 1 1 1 1 1 1 ...
## $ union : Factor w/ 2 levels "no","yes": 1 1 2 1 1 1 2 2 1 1 ...
## $ education : int 9 11 12 10 16 12 12 10 16 16 ...
## $ ethnicity : Factor w/ 2 levels "other","afam": 1 1 1 2 1 1 1 1 1 1 ...
## $ wage : num 515 912 954 751 1474 ...
## experience weeks occupation industry south smsa married gender union
## 1 9 32 white yes yes no yes male no
## 2 36 30 blue yes no no yes male no
## 3 12 46 blue yes no no no male yes
## 4 37 46 blue no no yes no female no
## 5 16 49 white no no no yes male no
## 6 32 47 blue yes no yes yes male no
## education ethnicity wage
## 1 9 other 515
## 2 11 other 912
## 3 12 other 954
## 4 10 afam 751
## 5 16 other 1474
## 6 12 other 1539
## experience weeks occupation industry south smsa married gender union
## 590 9 44 blue yes no yes yes male yes
## 591 40 46 blue yes no yes yes male yes
## 592 12 47 blue yes no yes yes male yes
## 593 16 40 blue no yes no no male no
## 594 13 47 blue yes no yes yes male yes
## 595 7 50 white no no yes no female no
## education ethnicity wage
## 590 12 other 963
## 591 8 other 950
## 592 13 other 1166
## 593 8 afam 292
## 594 12 other 1150
## 595 12 other 585
## Length Class Mode
## 0 NULL NULL
##
## (287,1.49e+03] (1.49e+03,2.7e+03] (2.7e+03,3.9e+03] (3.9e+03,5.1e+03]
## 487 97 9 2
## [1] 2450 2680 2025 2300 2310 2492 2750 2100 2100 2400 2335 5100 2100 2096 4057
## [16] 2200 2625 2750 3125 3150 2200 2553 2500 2750 2708 2150 2167 3042 2931 2600
## [31] 2100 2050 2036 2417 2455 3125
## exper we o i s smsa m g u edu eth wa
## 18 31 47 white yes yes yes yes male no 16 other 2450
## 23 17 50 white no no yes yes male no 16 other 2680
## 29 37 49 white no no yes yes male no 14 other 1920
## 31 28 45 white yes no yes yes male no 17 other 2025
## 32 36 47 white yes no yes yes male no 16 other 2300
## 41 26 47 white no yes yes yes male no 16 other 2310
## 44 13 46 white yes no yes yes male no 17 other 2000
## 49 37 48 white yes no no yes male no 16 other 2492
## 51 37 44 white yes no yes yes male no 17 other 2750
## 52 31 49 white no no yes yes male yes 16 other 2100
## 59 32 46 white yes no yes yes male no 17 other 2100
## 96 35 49 white yes no yes yes male no 16 other 2400
## 113 33 39 white no no yes yes male no 17 other 2335
## 119 22 50 white no no yes yes male no 17 other 5100
## 121 19 49 white yes no no no male no 16 other 2100
## 132 27 50 white no yes no yes male no 17 other 1895
## 136 26 48 white yes no yes yes male no 13 other 2096
## 168 9 50 white no no yes yes male no 17 other 4057
## 169 31 50 white no yes no yes male no 17 other 1950
## 173 34 43 white yes no yes yes male no 16 other 2200
## 206 18 47 white no no yes yes male no 13 other 2625
## 207 19 51 white no no yes yes male no 17 other 2750
## 212 13 49 white yes no yes yes male no 17 other 2000
## 216 23 48 white no yes yes yes male no 17 other 1900
## 231 29 48 white yes no yes yes male no 16 other 3125
## 239 33 49 white no no no yes male no 16 other 3150
## 240 40 48 blue no no yes yes male yes 12 other 1915
## 252 31 47 white no no yes yes male no 17 afam 2200
## 270 27 47 white no yes yes yes male no 16 other 2553
## 275 7 49 white no no yes yes male no 17 other 2500
## 289 34 48 white no no yes yes male no 16 other 2750
## 316 36 50 white yes no no yes male no 17 other 2708
## 341 13 49 white yes no yes yes male no 17 other 2150
## 344 25 48 white yes no yes yes male no 17 other 2167
## 348 33 25 white yes yes yes no male no 16 other 3042
## 353 36 47 white yes no yes yes male no 17 other 2931
## 368 15 48 white no yes yes yes male no 16 other 1900
## 386 23 49 white no yes no yes male no 14 other 2600
## 389 27 50 blue no no yes no male yes 14 other 1984
## 405 11 47 white no yes yes yes male no 16 other 2100
## 427 33 48 white no no yes yes male no 17 other 2050
## 479 27 47 blue no yes yes yes male no 12 other 2036
## 505 29 47 white no no no yes male no 16 other 2417
## 531 8 46 white no no yes yes male no 16 other 2000
## 539 9 48 white no no yes yes male no 17 other 2000
## 540 31 45 white yes no yes yes male no 16 other 2455