NMES1988 là một bộ dữ liệu chéo, trích từ kết quả của cuộc khảo sát Dịch vụ chăm sóc sức khỏe tại Hoa Kỳ (NMES). NMES là cuộc khảo sát những người đã không được khám, chữa bệnh tại các cơ sở chăm sóc sức khỏe trong một thời gian dài trong suốt năm 1987 và 1988.
Bộ dữ liệu NMES1988 chỉ lấy kết quả khảo sát của những người trên 66 tuổi và vào năm 1988.
Tập dữ liệu NMES1988 bao gồm 4406 quan sát với 19 biến:
visit : số lần khám bệnh với bác sĩ tại bệnh viện.
nvisit : số lần khám bệnh với nhân viên y tế như y tá, điều dưỡng (không phải bác sĩ) tại bệnh viện.
ovisits : số lần khám bệnh với bác sĩ tại phòng khám ngoại trú.
novisits : số lần thăm khám với nhân viên y tế tại phòng khám ngoại trú.
emergency : số lần cấp cứu.
hospital : số lần nhập viện.
health: trạng thái sức khỏe. “poor” là không khỏe, “average” là bình thường, “excellent” là rất khỏe.
chronic : số bệnh mãn tính mà người được khảo sát mắc phải.
adl : người được khảo sát có gặp khó khăn trong việc thực hiện các hoạt động hàng ngày như vệ sinh cá nhân, di chuyển, ăn uống… hay không? “limited” là có gặp khó khăn trong việc thực hiện các hoạt động hàng ngày, “normal” là không có.
region : nói về vùng miền của người thực hiện khảo sát. “northeast” là miền đông bắc, “midwest” là miền trung tây Hoa Kỳ, “west” là miền tây, “orther” là vùng miền khác.
age : độ tuổi (độ tuổi chia 10).
afam : người được khảo sát có phải người gốc Mỹ gôc Phi hay không? “yes” là phải, “no” là không.
gender : giới tính, “male” là nam, “female” là nữ.
married : đã kết hôn chưa? “yes” là kết hôn rồi, “no” là chưa kết hôn.
school : là số năm đi học.
income : thu nhập gia đình (đơn vị : 10ngàn đô).
employed : người được khảo sát có đang đi làm không? “yes” là có, “no” là không.
insurance : người được khảo sát có tự mua bảo hiểm cá nhân hay không? “yes” là có, “no” là không. Bảo hiểm cá nhân hay còn gọi là bảo hiểm tư nhân là cách gọi chung cho các loại sản phẩm bảo hiểm khác nhau như bảo hiểm nhân thọ, bảo hiểm sức khỏe, bảo hiểm y tế,… Bảo hiểm cá nhân bắt buộc người được bảo hiểm cần phải bỏ tiền ra mua bảo hiểm.
medicaid : người được khảo sát có được bảo hiểm bởi tổ chức bảo hiểm Medicaid không? “yes” là có, “no” là không. Medicaid là chương trình bảo hiểm chăm sóc sức khỏe, mà người được bảo hiểm không cần phải chi tiền để mua bảo hiểm. Medicaid bảo hiểm cho công dân Mỹ, thỏa mãn một hoặc nhiều điều kiện về thu nhập, độ tuổi cũng như giá trị tài sản mà người đó sở hữu.
Trong bài phân tích này, nhóm tác giả sẽ phân tích các yếu tố ảnh hưởng đến việc mua bảo hiểm cá nhân.
Nhóm đã chọn 6 biến để nghiên cứu bao gồm:
Biến định tính : insurance, employed, medicaid
Biến định lượng : income, hospital, chronic
Nghiên cứu này sẽ phân tích các yếu tố như thu nhập, tìm trạng việc làm, số lần nhập viện, bệnh mãn tính, được Medicaid bảo hiểm ảnh hưởng như thế nào đến việc một cá nhân ra quyết định mua bảo hiểm cá nhân.
Biến phụ thuộc : insurance
Biến độc lập : income, hospital, chronic, employed, medicaid
library(tidyverse)
library(ggplot2)
library(AER)
library(DT)
library(dplyr)
library(DescTools)
library(epitools)
library(scales)
library(VGAM)
data("NMES1988")
t <- NMES1988
datatable(t)
Để tránh nhầm sự nhầm lẫn trong quá trình phân tích, ta đổi tên các biểu hiện “yes”, “no” của 3 biến định tính insurance, employed, medicaid
Đối với biến insurance : “yes” đổi thành “coBHCN”, nghĩa là Người khảo sát có mua bảo hiểm cá nhân. “no” đổi thành “khongBHCN”, nghĩa là Người khảo sát không mua bảo hiểm cá nhân.
Đối với biến employed : “yes” đổi thành “covieclam”, nghĩa là Người khảo sát đang có việc làm. “no” đổi thành “khongvieclam”, nghĩa là Người khảo sát đang không có việc làm.
Đối với biến medicaid : “yes” đổi thành “coBHMedi”, nghĩa là Người khảo sát được bảo hiểm bởi tổ chức Medicaid. “no” đổi thành “khongBHMedi”, nghĩa là Người khảo sát không được bảo hiểm bởi tổ chức Medicaid.
t$insurance <- factor(t$insurance, levels = c('yes', 'no'), labels = c('coBHCN','khongBHCN'))
t$employed <- factor(t$employed, levels = c('yes', 'no'), labels = c('covieclam', 'khongvieclam' ))
t$medicaid <- factor(t$medicaid, levels = c('yes','no'), labels = c('coBHMedi','khongBHMedi' ))
table(t$insurance)
##
## coBHCN khongBHCN
## 3421 985
prop.table(table(t$insurance))
##
## coBHCN khongBHCN
## 0.7764412 0.2235588
ggplot(t, aes(x = insurance, y= after_stat(count)))+
geom_bar(fill = 'pink')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.1)+
labs(title= 'Số lượng người mua bảo hiểm cá nhân')
Có thể thấy có sự chênh lệch lớn giữa số lượng người có bảo hiểm cá nhân và số lượng người không có. Trong tổng số người tham gia khảo sát có 3421 người có mua bảo hiểm cá nhân (chiếm 77.64%), còn lại là 985 người không sở hữu bảo hiểm cá nhân (chiếm 22.35%).
addmargins(table(t$employed))
##
## covieclam khongvieclam Sum
## 455 3951 4406
ggplot(t, aes(x = employed, y= after_stat(count)))+
geom_bar(fill = 'black')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.5)+
labs(title= 'Tình trạng việc làm')
Dựa vào biểu đồ, ta thấy được trong số những người tham gia khảo sát thì phần lớn là người không có việc. Biểu hiện không có việc làm có sự chênh lệch rõ ràng so với biểu hiện có việc làm. Cụ thể, trong tổng số 4406 người, thì có 455 người đang có việc (chỉ chiếm 10%) và 3951 người còn lại là không có việc làm (chiếm tận 90%).
addmargins(table(t$medicaid))
##
## coBHMedi khongBHMedi Sum
## 402 4004 4406
ggplot(t, aes(x = medicaid, y= after_stat(count)))+
geom_bar(fill = 'lightblue')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.5)+
labs(title= 'Có được tổ chức Medicaid bảo hiểm không?')
Biến medicaid cũng có sự chênh lệch lớn giữa hai biểu hiện. Tại thời điểm khảo sát, chỉ có 402 người là được tổ chức Medicaid bảo hiểm (chiếm phần nhỏ 9%), 4004 người còn lại không được tổ chức Medicaid tài trợ bảo hiểm (chiếm 91%).
Chuyển đổi từ biến định lượng sang biến định tính bằng cách chia khoảng trong dữ liệu.
Đầu tiên, ta nhìn tổng quan các biến income.
summary(t$income)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.0125 0.9122 1.6982 2.5271 3.1728 54.8351
Trung bình thu nhập của nhúng người được khảo sát nằm ở 2.5271.
Mức thu nhập thấp nhất là -1.0125, cao nhất là 54.8351.
Trong đó ở mức thu nhập 0.9122 thì có 25% dữ liệu thấp hơn lượng thu nhập này Ở mức 1.6982 thì có 50% dữ liệu có thu nhập thấp hơn và 50% dữ liệu cao hơn mức này. Còn ở mức 3.1728 thì có 75% dữ liệu có lượng thu nhập thấp hơn mức này.
Tiếp theo, ta tạo một biến mới tên là income1. Biến này sẽ chứa dữ liệu về thu nhập của người tham gia khảo sát và cho biết ở mức thu nhập nào là thấp, mức nào là cao.
Khoảng từ -1.1 đến 2.5 sẽ có tên là ‘thap’ , được xem mức thu nhập thấp.
Khoảng từ 2.5 đến 55 tên là ‘cao’, được xem như mức thu nhập cao.
t$incomed <- cut(t$income, breaks = c(-1.1 ,2.5,55), labels = c("thap","cao"))
table(t$incomed)
##
## thap cao
## 2932 1474
ggplot(t, aes(x = incomed, y= after_stat(count)))+
geom_bar(fill = 'pink')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.5)+
labs(title= 'Thu nhập của những người khảo sát')
Dựa trên biểu đồ, ta có thể thấy những người có thu nhập thấp chiếm số lượng nhiều hơn rất nhiều so với người có thu nhập cao. Cụ thể, có 2943 người trong tổng số 4406 người có thu thập thấp (chiếm 67%), còn lại là 1463 người có thu nhập cao (chiếm 33%).
Tương tự cho các biến hospital
summary (t$hospital)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 0.000 0.296 0.000 8.000
Trung bình những người khảo sát không nhập viện lần nào, (giá trị trung bình là 0.296)
Số lần thấp nhất là 0, cao nhất là 8 lần.
Có thể thấy ở tứ phân vị thứ nhất, thứ hai và thứ ba, thì số lần nhập viện đều là 0 lần. Điều này cho thấy số lần nhập viện của những người được khảo sát rất ít thậm chí là không có.
Tiếp theo, ta tạo một biến mới tên là hospital1. Biến này sẽ chứa dữ liệu về số lần nhập viện của người tham gia khảo sát và cho biết ở mấy lần nào là thấp, mấy lần là cao.
Khoảng từ -0.5 đến 2.5 sẽ có tên là ‘it’ , được xem là không nhập viện.
Khoảng từ 2.5 đến 9 tên là ‘nhieu’, được xem như nhập viện nhiều.
t$hospital1 <- cut(t$hospital, breaks = c(-0.5,2.5,9), labels = c("it","nhieu"))
addmargins(table(t$hospital1))
##
## it nhieu Sum
## 4316 90 4406
ggplot(t, aes(x = hospital1, y= after_stat(count)))+
geom_bar(fill = 'blue')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.5)+
labs(title= 'Số lần nhập viện của những người khảo sát')
Dựa trên biểu đồ, ta có thể thấy có khoảng chênh lệch rất lớn giữa giữa người nhập viện ít và người nhập viện nhiều. Cụ thể, số người không nhập viện chiếm tận 3541 người (80%), trong khi nhóm người có nhập viện chiếm số lượng rất ít, chỉ có 865 người(20%).
Đối với biến chronic:
summary (t$chronic)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 1.000 1.542 2.000 8.000
Trung bình số bệnh mãn tính mà những người được khảo sát mắc phải là 1.542
Số bệnh thấp nhất là 0, cao nhất là 8.
Trong đó ở mức bị 1 bệnh mãn tính thì có 25% dữ liệu thấp hơn mức này. Ở mức 1 bệnh thì có 50% dữ liệu có số lượng bệnh thấp hơn và 50% dữ liệu cao hơn mức này. Còn ở mức bị 2 bệnh mãn tính thì có 75% dữ liệu thấp hơn mức này.
Tiếp theo, ta tạo một biến mới tên là chronic1. Biến này sẽ chứa dữ liệu về số lượng bệnh mãn tính mà người tham gia khảo sát mắc phải.
Khoảng từ -0.5 đến 0.5 sẽ có tên là ‘khongbenh’ , được hiểu là người khảo sát không mắc bệnh mãn tính.
Khoảng từ 0.5 đến 9 tên là ‘cobenh’, được hiểu là người khảo sát mắc 1 hoặc nhiều hơn 1 bệnh mãn tính.
t$chronic1 <- cut(t$chronic, breaks = c(-0.5,0.5,9), labels = c("khongbenh","cobenh"))
addmargins(table(t$chronic1))
##
## khongbenh cobenh Sum
## 1025 3381 4406
ggplot(t, aes(x = chronic1, y= after_stat(count)))+
geom_bar(fill = 'pink')+
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = -.5)+
labs(title= 'Số người mắc bệnh mãn tính')
Có thể thấy, có sự chênh lệch lớn giữa những người không có bệnh mãn tính và nhóm người có bệnh mãn tính.
Số người không mắc bệnh mãn tính là 1025 người (chiếm 23%), còn lại là những người mắc nhiều bệnh mãn tính, có 3381 người (chiếm 77%).
addmargins(table(t$incomed,t$insurance))
##
## coBHCN khongBHCN Sum
## thap 2137 795 2932
## cao 1284 190 1474
## Sum 3421 985 4406
addmargins(prop.table(table(t$incomed,t$insurance)))
##
## coBHCN khongBHCN Sum
## thap 0.48502043 0.18043577 0.66545620
## cao 0.29142079 0.04312301 0.33454380
## Sum 0.77644122 0.22355878 1.00000000
t %>% ggplot(aes(x = incomed, y = after_stat(count), fill = insurance)) +
geom_bar(position = "dodge", color = "black") +
geom_text(aes(label = after_stat(count)), stat = 'count', color = 'black', vjust = -0.25, position = position_dodge(width = 0.9)) +
theme_classic() +
labs(x = "Thu nhập",
y = "Số lượng",
title = "Thu nhập và bảo hiểm") +
scale_fill_manual(values = c("khongBHCN" = "dodgerblue", "coBHCN" = "blue"))
Bảng tần suất và biểu đồ về việc sở hữu bảo hiểm và thu nhập cho thấy:
Có 190 người không có bảo hiểm cá nhân chiếm tỷ lệ là 4.31% tổng số người trong bộ dữ liệu
Có 1284 người có bảo hiểm cá nhân chiếm 29.14% tổng số người trong bộ dữ liệu
có 795 người không có bảo hiểm cá nhân chiếm 18.04% tổng số người trong bộ dữ liệu
có 2137 người có bảo hiểm cá nhân chiếm 48.50% tổng số người trong dữ liệu
Có thể thấy những người có thu nhập thấp thường có xu hướng mua bảo hiểm y tế nhiều hơn những người có thu nhập cao
th8 <- table(t$incomed,t$insurance)
addmargins(th8)
##
## coBHCN khongBHCN Sum
## thap 2137 795 2932
## cao 1284 190 1474
## Sum 3421 985 4406
RelRisk(th8)
## [1] 0.8367063
Nhận xét:
Tỷ lệ sở hữu bảo hiểm cá nhân ở nhóm thu nhập thấp bằng 0.8367063 so với tỷ lệ sở hữu bảo hiểm của người thu nhập cao.
OddsRatio(th8)
## [1] 0.3977645
Kết quả Odd Ratio là 0.3977645 cho thấy rằng tỉ lệ người thu nhập thấp có khả năng sở hữu bảo hiểm cá nhân thấp hơn người thu nhập cao.
Vì sự chênh lệch giữa nhóm có BHCN và không có BHCN của “người thu nhập thấp” thấp hơn sự chênh lệch giữa nhóm có BHCN và không có BHCN của người thu nhập cao.
addmargins(table(t$employed,t$insurance))
##
## coBHCN khongBHCN Sum
## covieclam 391 64 455
## khongvieclam 3030 921 3951
## Sum 3421 985 4406
round((table(t$employed,t$insurance)/sum(table(t$employed,t$insurance)))*100, 2)
##
## coBHCN khongBHCN
## covieclam 8.87 1.45
## khongvieclam 68.77 20.90
t %>% ggplot(aes(x = employed, y = after_stat(count), fill = insurance)) +
geom_bar(position = "dodge", color = "black") +
geom_text(aes(label = after_stat(count)), stat = 'count', color = 'black', vjust = -0.25, position = position_dodge(width = 0.9)) +
theme_classic() +
labs(x = "Việc làm",
y = "Số lượng",
title = "Việc làm và bảo hiểm") +
scale_fill_manual(values = c("khongBHCN" = "darkorange", "coBHCN" = "red"))
Nhận xét:
Bảng tần suất và biểu đồ về việc sở hữu bảo hiểm và có việc làm cho thấy:
Có 921 người không có bảo hiểm cá nhân chiếm tỷ lệ là 20.9% tổng số người trong bộ dữ liệu
Có 3030 người có bảo hiểm cá nhân chiếm tỷ lệ là 68.77% tổng số người trong bộ dữ liệu.
Có 64 người không có bảo hiểm cá nhân chiếm tỷ lệ là 1.45% tổng số người trong bộ dữ liệu
Có 331 người có bảo hiểm cá nhân chiếm 8.87% tổng số người trong bộ dữ liệu
Tổng cộng có 985 người không có bảo hiểm y tế cá nhân, chiếm 22.35% tổng số người trong tập dữ liệu.
Tổng cộng có 3421 người có bảo hiểm y tế cá nhân, chiếm 77.65% tổng số người trong tập dữ liệu.
Tỷ lệ người không có việc làm có bảo hiểm cá nhân chiếm số lượng lớn hơn những người có việc làm. Cho thấy những người không có việc làm có xu hướng mua bảo hiểm nhiều hơn
t3 <- table(t$employed,t$insurance)
t3
##
## coBHCN khongBHCN
## covieclam 391 64
## khongvieclam 3030 921
RelRisk(t3)
## [1] 1.120546
Nhận xét:
Tỷ lệ Relative Risk được tính là 1.120546 cho biết rằng khả năng của những người có việc làm và sở hữu bảo hiểm cá nhân cao hơn khoảng 12% so với những người có việc làm.
OddsRatio(t3)
## [1] 1.857008
Nhận xét:
Kết quả Odd Ratio của người có việc làm và không có việc làm khoảng 1.857008 điều này có nghĩa là odd của nhóm người sở hữu bảo hiểm, có việc làm cao hơn 1.857008 lần so với odd người không có việc làm.
Có sự khác biệt trong kết quả giữa Relative risk, odd ratios và bảng tần suất. Điều này có thể giải thích rằng do tỷ lệ sở hữu BHCN trong nhóm người có việc làm cao hơn tỷ lệ sở hữu BHCN của nhóm người không việc làm.
addmargins(table(t$medicaid,t$insurance))
##
## coBHCN khongBHCN Sum
## coBHMedi 61 341 402
## khongBHMedi 3360 644 4004
## Sum 3421 985 4406
round((table(t$medicaid,t$insurance)/sum(table(t$medicaid,t$insurance)))*100, 2)
##
## coBHCN khongBHCN
## coBHMedi 1.38 7.74
## khongBHMedi 76.26 14.62
t %>% ggplot(aes(x = medicaid, y = after_stat(count), fill = insurance)) +
geom_bar(position = "dodge", color = "black") +
geom_text(aes(label = after_stat(count)), stat = 'count', color = 'black', vjust = -0.25, position = position_dodge(width = 0.9)) +
theme_classic() +
labs(x = "Bảo hiểm medicaid",
y = "Số lượng",
title = "Bảo hiểm medicaid và bảo hiểm cá nhân") +
scale_fill_manual(values = c("khongBHCN" = "tomato", "coBHCN" = "orange"))
Bảng tần suất và biểu đồ về việc sở hữu bảo hiểm và bảo hiểm medicaid cho thấy:
Có 644 người không có bảo hiểm cá nhân chiếm tỷ lệ là 14.62% tổng số người trong bộ dữ liệu
Có 3360 người có bảo hiểm cá nhân chiếm tỷ lệ là 76.26% tổng số người trong bộ dữ liệu.
Có 341 người không có bảo hiểm cá nhân chiếm tỷ lệ là 7.74% tổng số người trong bộ dữ liệu
Có 61 người có bảo hiểm cá nhân chiếm 1.38% tổng số người trong bộ dữ liệu
Tổng cộng có 985 người không có bảo hiểm y tế cá nhân, chiếm 22.35% tổng số người trong tập dữ liệu.
Tổng cộng có 3421 người có bảo hiểm y tế cá nhân, chiếm 77.65% tổng số người trong tập dữ liệu.
Điều này phản ánh rằng những người có bảo hiểm cá nhân ít khi có bảo hiểm Medicaid, trong khi ngược lại, những người không có bảo hiểm cá nhân có xu hướng có bảo hiểm Medicaid nhiều hơn.
t4 <- table(t$medicaid,t$insurance)
t4
##
## coBHCN khongBHCN
## coBHMedi 61 341
## khongBHMedi 3360 644
RelRisk(t4)
## [1] 0.180825
Nhận xét:
Tỷ lệ Relative Risk được tính là 0.180825, cho biết rằng khả năng sở hữu bảo hiểm cá nhân của người có bảo hiểm medicaid bằng 0.180825 lần so với người không có bảo hiểm Medicaid.
OddsRatio(t4)
## [1] 0.03428641
Kết quả Odd Ratio của những người không có bảo hiểm medicaid so với người không có bảo hiểm medicaid khoảng 0.03428641 . Tỷ lệ sở hữu BHCN của người được tài trợ thấp hơn tỷ lệ sở hữu BHCN của người không được tài trợ.
Mục đích: Dùng biến hospital và insurance để nghiên cứu sự tương tác hoặc mối quan hệ giữa việc sử dụng dịch vụ y tế (đo bằng số lần nhập viện) và tình trạng bảo hiểm y tế của người dân vào năm 1988.
Phân tích: Có thể phân tích xem những người có bảo hiểm có xu hướng sử dụng dịch vụ y tế (nhập viện) như thế nào so với những người không có bảo hiểm.
# Bảng tần suất của hospital và insurance:
addmargins(table(t$hospital1,t$insurance))
##
## coBHCN khongBHCN Sum
## it 3352 964 4316
## nhieu 69 21 90
## Sum 3421 985 4406
# Tỉ lệ phần trăm của bảng tần suất:
addmargins(round((table(t$hospital1,t$insurance)/sum(table(t$hospital,t$insurance)))*100, 2))
##
## coBHCN khongBHCN Sum
## it 76.08 21.88 97.96
## nhieu 1.57 0.48 2.05
## Sum 77.65 22.36 100.01
# Trực quan hóa dữ liệu
t %>% ggplot(aes(x = hospital1, y = after_stat(count), fill = insurance)) +
geom_bar(position = "dodge", color = "black") +
geom_text(aes(label = after_stat(count)), stat = 'count', color = 'black', vjust = -0.25, position = position_dodge(width = 0.9)) +
theme_classic() +
labs(x = "tần suất nhập viện",
y = "Số lượng",
title = "tần suất nhập viện với bảo hiểm Medicaid") +
scale_fill_manual(values = c("khongBHCN" = "lightblue", "coBHCN" = "lightgreen"))
Nhận xét:
Nhận xét về sự phân tích mối quan hệ giữa biến sở hữu bảo hiểm cá nhân(insurance) và số lần nhập viện (hospital) Phân bố số lần nhập viện theo tình trạng bảo hiểm:
Nhóm ít lần nhập viện (“it”):
Có 964 người không có bảo hiểm y tế tư nhân, chiếm 21.88% tổng số người trong tập dữ liệu.
Có 3352 người có bảo hiểm y tế tư nhân, chiếm 76.08% tổng số người trong tập dữ liệu.
Nhóm nhiều lần nhập viện (“nhieu”):
Có 21 người không có bảo hiểm y tế tư nhân, chiếm 0.48% tổng số người trong tập dữ liệu.
Có 69 người có bảo hiểm y tế tư nhân, chiếm 1.57% tổng số người trong tập dữ liệu.
Tổng cộng có 985 người không có bảo hiểm y tế tư nhân, chiếm 22.36% tổng số người trong tập dữ liệu.
Tổng cộng có 3421 người có bảo hiểm y tế tư nhân, chiếm 77.65% tổng số người trong tập dữ liệu.
\(\to\) Kết luận:
Bảo hiểm y tế tư nhân và số lần nhập viện:
Tỷ lệ người có bảo hiểm y tế tư nhân nhập viện nhiều lần (nhóm “nhieu”) là 69 người, trong khi tỷ lệ người không có bảo hiểm cá nhânnhập viện nhiều lần là 21 người.
Điều này cho thấy rằng những người có bảo hiểm y tế tư nhân có xu hướng sử dụng dịch vụ y tế nhiều hơn so với những người không có bảo hiểm.
Sự chênh lệch rõ ràng:
Số lượng người có bảo hiểm y tế tư nhân nhiều hơn hẳn so với số người không có bảo hiểm, chiếm gần 78% tổng số mẫu.
Chênh lệch này có thể phản ánh một phần sự phổ biến của bảo hiểm y tế tư nhân vào năm 1988, hoặc có thể liên quan đến các yếu tố kinh tế-xã hội khác chưa được phân tích ở đây.
# Tính chỉ số liên quan đến rủi ro (Relative Risk và Risk Ratio)
th2 <- table(t$hospital1,t$insurance)
th2
##
## coBHCN khongBHCN
## it 3352 964
## nhieu 69 21
RelRisk(th2)
## [1] 1.013015
Tỷ lệ Relative Risk được tính là 1.013015, cho biết rằng khả năng sở hữu bảo hiểm cá nhân của người ít nhập viện cao hơn 1.013015 lần so với người nhập viện nhiều.
OddsRatio(th2)
## [1] 1.058272
Kết quả Odd Ratio 1.058272 (OR > 1 ) cho thấy rằng tỷ lệ sở hữu BHCN của người ít nhập viện cao hơn người nhập viện nhiều.
addmargins(table(t$chronic1,t$insurance ))
##
## coBHCN khongBHCN Sum
## khongbenh 800 225 1025
## cobenh 2621 760 3381
## Sum 3421 985 4406
addmargins(round((table(t$chronic1,t$insurance)/sum(table(t$chronic1,t$insurance)))*100, 2))
##
## coBHCN khongBHCN Sum
## khongbenh 18.16 5.11 23.27
## cobenh 59.49 17.25 76.74
## Sum 77.65 22.36 100.01
# Trực quan hóa dữ liệu
t %>% ggplot(aes(x = chronic1, y = after_stat(count), fill = insurance)) +
geom_bar(position = "dodge", color = "black") +
geom_text(aes(label = after_stat(count)), stat = 'count', color = 'black', vjust = -0.25, position = position_dodge(width = 0.9)) +
theme_classic() +
labs(x = "Số bệnh mãn tính",
y = "Số lượng",
title = "Số bệnh mãn tính với Bảo hiểm cá nhân") +
scale_fill_manual(values = c("khongBHCN"= "lightblue", "coBHCN" = "lightgreen"))
Nhận xét:
Có bảo hiểm: 800 người (18.16% trong tổng số người)
Không có bảo hiểm: 225 người (5.11% trong tổng số người)
Có bảo hiểm: 2621 người ( 59.49% trong tổng số người)
Không có bảo hiểm: 760 người (17.25% trong tổng số người)
th3 <- table(t$chronic1,t$insurance)
th3
##
## coBHCN khongBHCN
## khongbenh 800 225
## cobenh 2621 760
RelRisk(th3)
## [1] 1.006802
Nhận xét:
Nhận xét:
Tỷ lệ Relative Risk được tính là 1.006802. Gía trị này cho biết khả năng sở hữu bảo hiểm cá nhân của những người không có bệnh mãn tính bằng 1.006802 lần so với những người có bệnh mãn tính.
OddsRatio(th3)
## [1] 1.030989
Nhận xét:
Đối với nhóm không có bảo hiểm cá nhân, odds = 1.030989. Điều này nghĩa là đối với việc sở hữu bảo hiểm cá nhân, thì tỷ lệ chênh của những người có bệnh mãn tính và không bệnh mãn tính là 1.030989.
Giả thuyết \(H_0\) : biến insurance (sở hữu bảo hiểm cá nhân) và biến incomed (thu nhập) độc lập. Giả thuyết \(H_1\): biến insurance (sở hữu bảo hiểm cá nhân) và biến incomed (thu nhập) không độc lập
chisq.test(th8)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: th8
## X-squared = 113.52, df = 1, p-value < 2.2e-16
Nhận xét:
Bác bỏ giả thuyết \(H_0\), chấp nhận giả thuyết \(H_1\), insurance(sở hữu bảo hiểm cá nhân) và thu nhập không độc lập.
Giả thuyết \(H_0\) : biến insurance (sở hữu bảo hiểm cá nhân) và biến employed (việc làm) độc lập. Giả thuyết \(H_1\): biến insurance (sở hữu bảo hiểm cá nhân) và biến incomed (thu nhập) không độc lập
chisq.test(t3)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: t3
## X-squared = 19.56, df = 1, p-value = 9.751e-06
Nhận xét Bác bỏ giả thuyết \(H_0\), chấp nhận giả thuyết \(H_1\),biến insurance (sở hữu bảo hiểm cá nhân) và biếnemployed (việc làm) không độc lập
chisq.test(t4)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: t4
## X-squared = 990.58, df = 1, p-value < 2.2e-16
Nhận xét Bác bỏ giả thuyết \(H_0\), chấp nhận giả thuyết \(H_1\), biến insurance (sở hữu bảo hiểm cá nhân) và biến medicaid không độc lập
Giả thuyết \(H_0\) : biến insurance (sở hữu bảo hiểm cá nhân) và biến hospital (số lần nhập viện ) độc lập. Giả thuyết \(H_1\): biến insurance (sở hữu bảo hiểm cá nhân) và biến hospital (số lần nhập viện ) không độc lập.
t5 <- table(t$hospital1, t$insurance)
chisq.test(t5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: t5
## X-squared = 0.0094216, df = 1, p-value = 0.9227
Ta có p_value = 0.9227 > \(\alpha\). Bác bỏ giả thuyết \(H_1\), chấp nhận giả thuyết \(H_0\), biến insurance (sở hữu bảo hiểm cá nhân) và biến hospital (số lần nhập viện ) độc lập với nhau
Giả thuyết \(H_0\) : biến insurance (sở hữu bảo hiểm cá nhân) và biến chronic (số bệnh mãn tính mà người được khảo sát mắc phải) độc lập. Giả thuyết \(H_1\): biến insurance (sở hữu bảo hiểm cá nhân) và biến chronic (số bệnh mãn tính mà người được khảo sát mắc phải) không độc lập.
th5 <- table(t$chronic1,t$insurance)
chisq.test(th5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: th5
## X-squared = 0.09746, df = 1, p-value = 0.7549
Ta có p_value = 0.7549 > \(\alpha\). Bác bỏ giả thuyết \(H_1\), chấp nhận giả thuyết \(H_0\), biến insurance (sở hữu bảo hiểm cá nhân) và biến chronic (số bệnh mãn tính mà người được khảo sát mắc phải) độc lập với nhau.
p <- t[t$insurance == 'coBHCN',]
prop.test(length(p$insurance), length(t$insurance))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$insurance) out of length(t$insurance), null probability 0.5
## X-squared = 1345.7, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7637858 0.7886106
## sample estimates:
## p
## 0.7764412
t10 <- t[t$insurance == 'khongBHCN',]
prop.test(length(t10$insurance), length(t$insurance))
##
## 1-sample proportions test with continuity correction
##
## data: length(t10$insurance) out of length(t$insurance), null probability 0.5
## X-squared = 1345.7, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2113894 0.2362142
## sample estimates:
## p
## 0.2235588
Với độ tin cậy 95%, ta có tỷ lệ người có bảo hiểm tư nhân so với tổng thể nằm trong khoảng từ 76.38% và 78.86%. Hay nói cách khác, tỉ lệ người không có bảo hiểm cá nhân nhân sẽ chiếm khoảng từ 21.11% đến 23.62%
e <- t[t$employed == 'covieclam',]
prop.test(length(e$employed == 'covieclam'), length(t$employed))
##
## 1-sample proportions test with continuity correction
##
## data: length(e$employed == "covieclam") out of length(t$employed), null probability 0.5
## X-squared = 2772.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.09451665 0.11271981
## sample estimates:
## p
## 0.1032683
e1 <- t[t$insurance == 'khongvieclam',]
prop.test(length(e1$employed == 'khongvieclam'), length(t$employed))
##
## 1-sample proportions test with continuity correction
##
## data: length(e1$employed == "khongvieclam") out of length(t$employed), null probability 0.5
## X-squared = 4404, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.000000000 0.001086028
## sample estimates:
## p
## 0
Với độ tin cậy 95%, ta có tỷ lệ người có việc làm so với tổng thể nằm trong khoảng từ 9.45% đến 11.27%. Hay nói cách khác, tỉ lệ người không có việc làm sẽ chiếm khoảng từ 0% đến 0.1086028%.
e3 <- t[t$medicaid == 'coBHMedi',]
prop.test(length(e3$medicaid == 'coBHMedi'), length(t$medicaid))
##
## 1-sample proportions test with continuity correction
##
## data: length(e3$medicaid == "coBHMedi") out of length(t$medicaid), null probability 0.5
## X-squared = 2943.1, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.08298051 0.10021957
## sample estimates:
## p
## 0.09123922
e4 <- t[t$medicaid == 'khongBHMedi',]
prop.test(length(e4$medicaid == 'khongBHMedi'), length(t$medicaid))
##
## 1-sample proportions test with continuity correction
##
## data: length(e4$medicaid == "khongBHMedi") out of length(t$medicaid), null probability 0.5
## X-squared = 2943.1, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.8997804 0.9170195
## sample estimates:
## p
## 0.9087608
Với độ tin cậy 95%, ta có tỷ lệ người có bảo hiểm medicaid với tổng thể nằm trong khoảng từ 8.3% và 10.02%. Hay nói cách khác, tỉ lệ người không có bảo hiểm medicaid sẽ chiếm khoảng từ 89.97% đến 91.70%
i <- t[t$income == 2.5 | t$income < 2.5,]
prop.test(length(i$income == 30 | i$income <30), length(t$income))
##
## 1-sample proportions test with continuity correction
##
## data: length(i$income == 30 | i$income < 30) out of length(t$income), null probability 0.5
## X-squared = 481.81, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.6512709 0.6793509
## sample estimates:
## p
## 0.6654562
Với độ tin cậy 95%, ta có tỷ lệ người có thu nhập dưới 2.5 ngàn đô chiếm từ 65.13% đến 67.94%.
i3 <- t[t$chronic == 1 | t$chronic < 1,]
prop.test(length(i3$chronic == 1 | i3$chronic <1), length( t$chronic))
##
## 1-sample proportions test with continuity correction
##
## data: length(i3$chronic == 1 | i3$chronic < 1) out of length(t$chronic), null probability 0.5
## X-squared = 92.674, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5578502 0.5872788
## sample estimates:
## p
## 0.5726282
Với độ tin cậy 95%, ta có tỷ lệ người có dưới một bệnh mãn tính là 55.79% đến 58.73%
i8 <- t[t$hospital == 2 | t$hospital < 2,]
prop.test(length(i8$hospital == 2 | i8$hospital <2), length( t$hospital))
##
## 1-sample proportions test with continuity correction
##
## data: length(i8$hospital == 2 | i8$hospital < 2) out of length(t$hospital), null probability 0.5
## X-squared = 4051.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.9748351 0.9834535
## sample estimates:
## p
## 0.9795733
Với độ tin cậy 95%, ta có tỷ lệ người có dưới 2 lần nhập viện là 97.48% đến 98.35%
t <- t %>% mutate(insurance1 = if_else(insurance == "khongBHCN", 0, 1))
levels(factor(t$insurance1))
## [1] "0" "1"
lm.insc <- glm(insurance1 ~ income, data = t)
summary(lm.insc)
##
## Call:
## glm(formula = insurance1 ~ income, data = t)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.719351 0.008193 87.81 <2e-16 ***
## income 0.022591 0.002120 10.66 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.1692928)
##
## Null deviance: 764.79 on 4405 degrees of freedom
## Residual deviance: 745.57 on 4404 degrees of freedom
## AIC: 4682.1
##
## Number of Fisher Scoring iterations: 2
Mô hình xác suất tuyến tính của biến insurance và incomed có dạng:
\(\hat\pi = 0.719351 + 0.022591 \times income\)
Có thể thấy, cả hai hệ số trong mô hình đều có ý nghĩa thống kê rất cao (p-value < 0.01), cho thấy thu nhập ảnh hưởng đến việc mua bảo hiểm cá nhân hay không.
Hệ số chặn là 0.719351 cho biết nếu như không có sự ảnh hưởng của thu nhập thì xác suất sở hữu bảo hiểm cá nhân khá thấp (0.271146).
Hệ số của biểu hiện thu nhập cao là 0.022591. Cho biết thu nhập tăng 1 đơn vị thì khả năng sở hữu bảo hiểm cá nhân tăng 0.022591 lần.
t$employed <- factor (t$employed)
lm.insem <- glm(insurance1 ~ employed, data = t)
summary(lm.insem)
##
## Call:
## glm(formula = insurance1 ~ employed, data = t)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.85934 0.01949 44.087 < 2e-16 ***
## employedkhongvieclam -0.09245 0.02058 -4.491 7.26e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.1728673)
##
## Null deviance: 764.79 on 4405 degrees of freedom
## Residual deviance: 761.31 on 4404 degrees of freedom
## AIC: 4774.1
##
## Number of Fisher Scoring iterations: 2
Mô hình xác suất tuyến tính của biến insurance và employed có dạng:
\(\hat\pi = 0.85934 - 0.09245\times employedkhongvieclam\)
Có thể thấy, cả hai hệ số trong mô hình đều có ý nghĩa thống kê rất cao (p-value < 0.01), cho thấy tình trạng việc làm có ảnh hưởng đến việc mua bảo hiểm cá nhân hay không. Cụ thể:
Hệ số chặn là 0.85934, cho biết nếu như không có sự ảnh hưởng của tình trạng việc làm thì xác suất sở hữu bảo hiểm cá nhân là 0.85934
Hệ số của tình trạng không có việc làm là - 0.09245, cho biết xác suất để sở hữu bảo hiểm cá nhân của người không có việc làm thấp hơn 0.09245 lần so với người có việc làm.
t$medicaid <- factor (t$medicaid)
lm.insm <- glm(insurance1 ~ medicaid, data = t)
summary(lm.insm)
##
## Call:
## glm(formula = insurance1 ~ medicaid, data = t)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.15174 0.01829 8.297 <2e-16 ***
## medicaidkhongBHMedi 0.68742 0.01918 35.831 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.1344603)
##
## Null deviance: 764.79 on 4405 degrees of freedom
## Residual deviance: 592.16 on 4404 degrees of freedom
## AIC: 3667.1
##
## Number of Fisher Scoring iterations: 2
Mô hình xác suất tuyến tính của biến insurance và medicaid có dạng:
\(\hat\pi = 0.15174 + 0.68742 \times khongBHMedi\)
Có thể thấy, cả hai hệ số trong mô hình đều có ý nghĩa thống kê rất cao (p-value < \(\alpha\) = 0.001), cho thấy việc có sở hữu bảo hiểm Medicaid có ảnh hưởng đến việc mua bảo hiểm cá nhân. Cụ thể:
Hệ số chặn là 0.15174, cho biết nếu như không có sự ảnh hưởng của bảo hiểm Medicaid thì xác suất sở hữu bảo hiểm cá nhân là khá thấp, khoảng 0.15174
Hệ số của biểu hiện không có BH Medicaid là 0.68742, cho biết khi không sở hữu bảo hiểm của Medicaid thì xác suất để sở hữu bảo hiểm cá nhân là khá cao, khoảng 0.68742
lm.in <- glm(insurance1 ~ income + employed + medicaid, data = t)
summary(lm.in)
##
## Call:
## glm(formula = insurance1 ~ income + employed + medicaid, data = t)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.153295 0.025964 5.904 3.81e-09 ***
## income 0.012417 0.001926 6.448 1.25e-10 ***
## employedkhongvieclam -0.015943 0.018366 -0.868 0.385
## medicaidkhongBHMedi 0.666913 0.019354 34.459 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.1331537)
##
## Null deviance: 764.79 on 4405 degrees of freedom
## Residual deviance: 586.14 on 4402 degrees of freedom
## AIC: 3626.1
##
## Number of Fisher Scoring iterations: 2
\(\hat\pi = 0.153295 + 0.012417\times income + 0.666913 \times medicaidkhongBHMedi\)
Biến employed không có ý nghĩa do p-value = 0.315 lớn hơn mức ý nghĩa.
Hệ số chặn 0.153295 có nghĩa là nếu như không có tác động của các yếu tố thu nhập, bảo hiểm Medicaid thì xác suất sở hữu bảo hiểm cá nhân là 0.153295
Hệ số của biến thu nhập là 0.012417, cho biết khi thu nhập tăng 1 đơn vị thì xác suất sở hữu BHCN tăng 0.012417.
Hệ số của biểu hiện không có bảo hiểm Medicaid là 0.666913, cho biết người không có bảo hiểm Medicaid có xác suất mua bảo hiểm cá nhân cao hơn 0.666913 so với người có bảo hiểm Medicaid.
t$insurance <- factor(t$insurance, levels = c('khongBHCN','coBHCN'))
logit.insc <- glm(insurance ~ income, family = binomial(link = 'logit'), data = t)
summary(logit.insc)
##
## Call:
## glm(formula = insurance ~ income, family = binomial(link = "logit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.63699 0.05828 10.93 <2e-16 ***
## income 0.29325 0.02550 11.50 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 4490.3 on 4404 degrees of freedom
## AIC: 4494.3
##
## Number of Fisher Scoring iterations: 5
Mô hình hồi quy logit của insurance và incomed là:
\(ln(\frac{\hat\pi}{1-\hat\pi})= 0.63699 + 0.29325\times income\)
Hệ số chặn là 0.63699, có nghĩa là \(ln(\frac{\hat\pi}{1-\hat\pi})\) khi không có tác động của thu nhập thì xác suất sở hữu BHCN là 0.63699
Hệ số của biến thu nhập là 0.29325 . Hệ số này nghĩa là, đối với việc mua bảo hiểm cá nhân thì \(ln(\frac{\hat\pi}{1-\hat\pi})\) của thu nhập tăng thì khả năng sở hữu BHCN tăng.
logit.insem <- glm(insurance ~ employed, family = binomial(link = 'logit'), data = t)
summary(logit.insem)
##
## Call:
## glm(formula = insurance ~ employed, family = binomial(link = "logit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.8098 0.1348 13.422 < 2e-16 ***
## employedkhongvieclam -0.6190 0.1400 -4.421 9.81e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 4660.4 on 4404 degrees of freedom
## AIC: 4664.4
##
## Number of Fisher Scoring iterations: 4
Mô hình hồi quy logit của insurance và employ là:
\(ln(\frac{\hat\pi}{1-\hat\pi})= 1.8098 - 0.6190\times employedkhongvieclam\)
Hệ số chặn là 1.8098. Hệ số này có nghĩa là nếu không có sự ảnh hưởng của biểu hiện khác thì \(ln(\frac{\hat\pi}{1-\hat\pi})\) của người có việc làm, sở hữu bảo hiểm cá nhân là 1.8098
Hệ số của biểu hiện không có việc làm bằng - 0.6190. Hệ số này nghĩa là, đối với việc mua bảo hiểm cá nhân thì chênh lệch \(ln(\frac{\hat\pi}{1-\hat\pi})\) của người có không có việc làm và người có việc làm là -0.6190
logit.insm <- glm(insurance ~ medicaid , family = binomial(link = 'logit'), data = t)
summary(logit.insm)
##
## Call:
## glm(formula = insurance ~ medicaid, family = binomial(link = "logit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.7210 0.1390 -12.38 <2e-16 ***
## medicaidkhongBHMedi 3.3730 0.1455 23.18 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 3874.3 on 4404 degrees of freedom
## AIC: 3878.3
##
## Number of Fisher Scoring iterations: 3
Mô hình hồi quy logit của insurance và medicaid là:
\(ln(\frac{\hat\pi}{1-\hat\pi})= -1.7210 + 3.3730\times khongBHMedi\)
Hệ số chặn là - 1.7210 và có ý nghĩa thống kê. Hệ số này cho biết nếu không có sự ảnh hưởng của biểu hiện khác thì \(ln(\frac{\hat\pi}{1-\hat\pi})\) của người vừa có bảo hiểm Medi, vừa có bảo hiểm cá nhân là -1.7210
Hệ số của biểu hiện không có bảo hiểm Medicaid bằng 3.3730. Hệ số này nghĩa là, đối với việc mua bảo hiểm cá nhân thì chênh lệch \(ln(\frac{\hat\pi}{1-\hat\pi})\) của người không có bảo hiểm Medicaid so với người có bảo hiểm Medicaid là 3.3730
logit.in <- glm(insurance ~ income + employed + medicaid , family = binomial(link = 'logit'), data = t)
summary(logit.in)
##
## Call:
## glm(formula = insurance ~ income + employed + medicaid, family = binomial(link = "logit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.84778 0.20766 -8.898 < 2e-16 ***
## income 0.17004 0.02432 6.993 2.7e-12 ***
## employedkhongvieclam -0.08793 0.14853 -0.592 0.554
## medicaidkhongBHMedi 3.18680 0.14779 21.564 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 3807.2 on 4402 degrees of freedom
## AIC: 3815.2
##
## Number of Fisher Scoring iterations: 5
\(ln(\frac{\hat\pi}{1-\hat\pi})= -1.84778 + 0.17004 \times income + 3.18680\times medicaidkhongBHMedi\)
Hệ số của biến thu nhập là 0.17004 cho thấy khi thu nhập càng cao thì xác suất sở hữu bảo hiểm cá nhân càng cao.
Hệ số của biểu hiện không có bảo hiểm Medicaid là 3.18680 cho thấy xác suất sở hữu bảo hiểm cá nhân của người không có bảo hiểm Medicaid chênh lệch \(ln(\frac{\hat\pi}{1-\hat\pi})\) = 3.18680 so với người có bảo hiểm Meidcaid.
probit.insc <- glm(insurance ~ income, family = binomial(link = 'probit'), data = t)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(probit.insc)
##
## Call:
## glm(formula = insurance ~ income, family = binomial(link = "probit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.45580 0.03317 13.74 <2e-16 ***
## income 0.13983 0.01280 10.93 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 4508.5 on 4404 degrees of freedom
## AIC: 4512.5
##
## Number of Fisher Scoring iterations: 6
Mô hình hồi quy như sau:
\(\hat\pi = \Phi(0.45580 + 0.13983\times income)\)
Hệ số chặn là 0.45580 và có ý nghĩa thống kê. Trong trường hợp thu nhập bằng 0, thì xác suất sở hữu bảo hiểm cá nhân là \(\Phi(0.45580)\)
Hệ số của biến income là 0.13983 và có ý nghĩa thống kê. khi thu nhập tăng thì xác suất sở hữu bao hiểm cá nhân tăng \(\Phi(0.13983)\).
probit.insem <- glm(insurance ~ employed, family = binomial(link = 'probit'), data = t)
summary(probit.insem)
##
## Call:
## glm(formula = insurance ~ employed, family = binomial(link = "probit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.07736 0.07300 14.759 < 2e-16 ***
## employedkhongvieclam -0.34870 0.07624 -4.574 4.78e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 4660.4 on 4404 degrees of freedom
## AIC: 4664.4
##
## Number of Fisher Scoring iterations: 4
Mô hình hồi quy như sau: \(\hat\pi = \Phi(1.07736 - 0.34870 \times employedkhongvieclam)\)
Hệ số chặn là 1.07736, khi các yếu tố khác không đổi thì xác suất của một người có việc làm và có mua bảo hiểm cá nhân là \(\Phi(1.07736)\)
Đối với người có không có việc làm thì xác suất sở hữu bảo hiểm cá nhân là \(\Phi(-0.34870)\)
probit.insm <- glm(insurance ~ medicaid, family = binomial(link = 'probit'), data = t)
summary(probit.insm)
##
## Call:
## glm(formula = insurance ~ medicaid, family = binomial(link = "probit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.02899 0.07616 -13.51 <2e-16 ***
## medicaidkhongBHMedi 2.02001 0.07978 25.32 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 3874.3 on 4404 degrees of freedom
## AIC: 3878.3
##
## Number of Fisher Scoring iterations: 3
Mô hình hồi quy như sau:
\(\hat\pi = \Phi(-1.02899 + 2.02001 \times khongBHMedi)\)
Hệ số chặn là - 1.02899 và có ý nghĩa thống kê (p-value < \(\alpha\)). Hệ số này có nghĩa là với người có bảo hiểm Medicaid, xác suất để người đó mua thêm bảo hiểm cá nhân là \(\Phi(-1.02899)\)
Hệ số của biểu hiện không có bảo hiểm Medicaid là 2.02001 và có ý nghĩa thống kê. Hệ số cho biết nếu không có bảo hiểm của Medicaid thì xác suất để người đó sở hữu bảo hiểm cá nhân là \(\Phi(2.02001)\)
probit.in <- glm(insurance ~ income + employed + medicaid, family = binomial(link = 'probit'), data = t)
summary(probit.in)
##
## Call:
## glm(formula = insurance ~ income + employed + medicaid, family = binomial(link = "probit"),
## data = t)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.07661 0.11238 -9.580 < 2e-16 ***
## income 0.08466 0.01236 6.851 7.35e-12 ***
## employedkhongvieclam -0.05205 0.08037 -0.648 0.517
## medicaidkhongBHMedi 1.91434 0.08104 23.623 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 4682.5 on 4405 degrees of freedom
## Residual deviance: 3810.3 on 4402 degrees of freedom
## AIC: 3818.3
##
## Number of Fisher Scoring iterations: 5
\(\hat\pi = \Phi(-1.07661 + 0.08466 \times income - 1.91434 \times medicaidkhongBHMedi)\)
Hệ số chặn là \(\Phi(-1.07661)\) và có ý nghĩa thống kê. Điều này có nghĩa là nếu không có yếu tố tác động thì xác suất sở hữu bảo hiểm cá nhân là \(\Phi(-1.07661)\)
Xác suất sở hữu bảo hiểm cá nhân của người có thu nhập càng cao là \(\Phi(0.08466)\).
Xác suất sở hữu bảo hiểm cá nhân của người không có bảo hiểm Medicaid là \(\Phi(-1.91434)\).
AIC(lm.insc)
## [1] 4682.078
AIC(logit.insc)
## [1] 4494.283
AIC(probit.insc)
## [1] 4512.45
Đối với mô hình hồi quy biến insurance theo biến incomed thì mô hình logit là tốt nhất vì chỉ số AIC của mô hình này nhỏ nhất.
AIC(lm.insem)
## [1] 4774.138
AIC(logit.insem)
## [1] 4664.403
AIC(probit.insem)
## [1] 4664.403
Trong việc giải thích mối quan hệ giữa tình trạng việc làm và sở hữu bảo hiểm cá nhân thì mô hình logit và probit có hiệu suất tốt hơn. Logit và Probit có hiệu suất tương đương nhau trong việc giải thích mối quan hệ giữa tình trạng việc làm và sở hữu bảo hiểm cá nhân vì chỉ số AIC bằng nhau.
AIC(lm.insm)
## [1] 3667.109
AIC(logit.insm)
## [1] 3878.276
AIC(probit.insm)
## [1] 3878.276
Trong việc giải thích mối quan hệ giữa việc sở hữu bảo hiểm Medicaid và sở hữu bảo hiểm cá nhân thì mô hình xác suất tuyến tính có hiệu suất tốt hơn.
AIC(lm.in)
## [1] 3626.083
AIC(logit.in)
## [1] 3815.234
AIC(probit.in)
## [1] 3818.286
Mô hình xác suất tuyến tính giải thích mối quan hệ giữa biến phụ thuộc insurance và các biến độc lập incomed, employed, medicaid tốt hơn mô hình logit, probit.
Sau quá trình, phân tính và chạy các tính toán liên quan cho biến phụ thuộc ‘insurance’ – bảo hiểm cá nhân, theo các biến độc lập: employed, medicaid, income, hospital và chronic. Ta thấy được rằng, trong 5 biến độc lập nghiên cứu thì chỉ có 3 biến employed – có đi làm hay không, medicaid – được tổ chức BH Medicaid hay không, income – thu nhập mang lại ý nghĩa thống kê, và cho thấy rằng chúng thật sự ảnh hưởng đến việc sở hữu bảo hiểm cá nhân.
Theo quan sát, cho thấy cá nhân có sở hữu bảo hiểm cá nhân nhiều hơn cá nhân không sở hữu bảo hiểm cá nhân. Trong đó, số người đang có việc làm chiếm tỷ lệ khá thấp so với cá nhân không có việc làm. Điều này khá đúng vì người được quan sát ở đây là người trên 66 tuổi. Họ được chính phủ cung cấp một loại bảo hiểm khác là Mediciad.
Đo lường thu nhập của cá nhân được khảo sát rơi vào khoảng 2.5271 ngàn đô là chủ yếu. Kết quả phân tích hồi quy, cũng cho thấy rằng việc thu nhập tỷ lệ thuận với việc họ có mua bảo hiểm cá nhân. Khi đó người có việc làm, mang lại nguồn thu nhập thấp có xu hướng sở hữu bảo hiểm cá nhân cao hơn là những người có việc làm nhưng lại có thu nhập cao. Mà những cá nhân đã sở hữu bảo hiểm Medicaid có xác suất sở hữu bảo hiểm cá nhân thấp hơn những cá nhân không sở hữu lại bảo hiểm do chính phủ cấp (Medicaid). Kết quả hồi quy, cho ta cái nhìn khẳng định rằng việc sở hũu bảo hiểm cá nhân có mối quan hệ cùng chiều với biểu hiện cá nhân không được tổ chức cung cấp bảo hiểm Mediciad.
Tuy nhiên, mối quan hệ của các biến này khi hồi quy đa biến lại cho thấy biến có việc làm hay không lại không có ý nghĩa thông kê. Chỉ có yếu tố thu nhập và bảo hiểm Medicaid (biểu hiện không có bảo hiểm Medicaid) tác động cùng chiều. Mặc khác, mô hình hồi quy logit, probit cho kết quả cho mối quan hệ giữa việc sỡ hữu bảo hiểm theo biến thu nhập tốt hơn. Trong việc giải thích mối quan hệ giữa việc sở hữu bảo hiểm Medicaid và sở hữu bảo hiểm cá nhân thì mô hình xác suất tuyến tính có hiệu suất tốt hơn.