https://drive.google.com/drive/folders/18Tw92HEvluxC8koAhcrPI1eA6KsvWLzA?hl=vi
Lời nói đầu tiên tôi xin gửi lời cảm ơn đến Trường Đại học Tài chính – Marketing, đặc biệt là các thầy cô khoa Kinh tế - Luật đã đưa học phần Phân tích dữ liệu định tính vào chương trình đào tạo để tôi có kiến thức mới để chuẩn bị hành trang sau này. Hơn thế nữa, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất khi được giảng viên hướng dẫn là thầy ThS.Trần Mạnh Tường đã chỉ dẫn hỗ trợ để tôi có thể hoàn thành bài kết thúc học phần được chỉnh chu nhất. Tuy nhiên, do thời gian tiểu luận còn hạn chế và khả năng tiếp cận thực tế còn ít nên dù đã cố gắng nhưng bài cũng không tránh khỏi những sai sót, những điểm không chính xác. Tôi kính mong giảng viên xem xét và góp ý để bài được hoàn thiện tốt hơn.
Tôi xin chân thành cảm ơn!
Sức khỏe tốt là nền tảng cơ bản của một cuộc sống vui vẻ, hạnh phúc, là cơ sở quan trọng để mỗi người thực hiện ý tưởng, ước mơ, nguyện vọng của cuộc đời mình.Bởi nếu bệnh tật, ốm đau, chúng ta thường sẽ không còn đủ sức khỏe, tâm trí nào mà lo lắng, suy nghĩ đến những việc khác. Đó là chưa nói đến chuyện bệnh tật còn khiến con người tiêu hao tiền bạc, của cải, ảnh hưởng đến những người thân trong gia đình, xã hội mất đi một người khỏe mạnh. Do đó, sức khỏe chính là chiếc chìa khóa quan trọng nhất mở ra cánh cửa hạnh phúc cho mỗi người. Xã hội ngày càng phát triển, tình trạng ô nhiễm môi trường từ giao thông đi lại hay khi thải của các nhà máy đã phần nào làm ảnh hưởng đến sức khỏe của con người. Thời đại công nghiệp hóa, hiện đại hóa không thể nào thiếu đi bảo hiểm y tế để chăm sóc sức khỏe của mình. Nó như một phao cứu sinh trước những bệnh tật và sự ảnh hưởng từ lo lắng chi phí chữa bệnh. Bởi tính cấp thiết của nó, tôi chọn đề tài cho bài nghiên cứu đó là ” Các yếu tố ảnh hưởng đến việc chi trả chi phí bảo hiểm y tế”.
Phân tích các yếu tố ảnh hưởng đến chi phí bảo hiểm y tế
Yếu tố cốt lõi ảnh hưởng đến chi phí bảo hiểm y tế
Các yếu tố ảnh hưởng đến chi phí bảo hiểm y tế
Khu vực northeast, southeast, southwest, northwest của nước Mỹ
Sử dụng các mô hình hồi quy của phương pháp dữ liệu định tính
PHẦN MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN LÝ THUYẾT
CHƯƠNG 2: THIẾT KẾ NGHIÊN CỨU
CHƯƠNG 3: KẾT LUẬN
TÀI LIỆU THAM KHẢO
Bảo hiểm y tế (BHYT) là chính sách an sinh xã hội ưu việt của Đảng và Nhà nước, mang ý nghĩa nhân văn, nhân đạo và có tính chia sẻ cộng đồng sâu sắc. BHYT do Nhà nước tổ chức thực hiện không vì mục đích lợi nhuận, nhằm huy động sự đóng góp của cộng đồng, chia sẻ rủi ro bệnh tật và giảm bớt gánh nặng tài chính của mỗi người dân khi ốm đau, bệnh tật, tai nạn…thực hiện công bằng và nhân đạo trong lĩnh vực bảo vệ và chăm sóc sức khỏe nhân dân. Thẻ BHYT thật sự là phao cứu sinh. Nhờ tham gia và có thẻ BHYT, nhiều trường hợp không may bị tai nạn, ốm đau đã vượt qua được giai đoạn khó khăn khi đó quỹ BHYT chi trả các chi phí khám và điều trị bệnh, thậm chí có những người bệnh có chi phí khám chữa bệnh KCB) lên tới hàng tỷ đồng/đợt điều trị.
Quyền lợi khi tham gia bảo hiểm y tế
Được chọn nơi đăng ký khám bệnh, chữa bệnh (KCB) ban đầu tại tuyến xã, huyện và theo hướng dẫn của cơ quan BHXH (Trạm Y tế, Trung tâm Y tế học đường hoặc Phòng khám đa khoa…).
Được chăm sóc sức khỏe ban đầu.
Được khám chữa bệnh, sơ cứu, cấp cứu khi bị tai nạn, ốm đau tại nơi đăng ký KCB ban đầu và được chuyển lên KCB ở các tuyến chuyên môn kỹ thuật cao hơn khi bệnh vượt quá khả năng của tuyến dưới.
Trường hợp cấp cứu, tai nạn người có thẻ BHYT được khám, điều trị tại bất kỳ cơ sở y tế nào có hợp đồng KCB BHYT.
Phân phối Poisson là một phân phối xác suất trong thống kê được sử dụng để mô hình hóa số sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định khi tỷ lệ xảy ra sự kiện là không đổi. Trong R, có thể sử dụng các hàm tính toán và mô phỏng phân phối Poisson. Phân phối Poisson được mô tả bởi hai tham số:
λ: là trung bình số lần xảy ra của sự kiện trong mỗi khoảng thời gian.
k: là số lần xảy ra của sự kiện trong khoảng thời gian.
Biến ngẫu nhiên X có phân phối Poisson là biến ngẫu nhiên dùng để mô tả cho số lần xảy ra của một sự việc/biến cố mà chúng ta quan tâm xảy ra trong một khoảng thời gian hoặc không gian cho trước. Xác suất để biến ngẫu nhiên này nhận một giá trị cụ thể được tính bằng công thức:
\[P(X=k)=\frac{e^-λλ^k}{k!}\] với k=0,1,2,3,…
Khi đó ta viết \(X~P(λ)\) để chỉ rằng X là biến ngẫu nhiên có phân phối Poisson với tham số λ
Phân phối nhị thức là một phân phối xác suất cho số lần xảy ra của một sự kiện thành công trong một số lần thử cố định, khi mỗi lần thử là độc lập và xác suất thành công là như nhau và bằng p trong mỗi lần thử.
Khi đó xác suất để X nhận một giá trị cụ thể là
\[P(X=k)= C_n^kp^k(1-p) ^ (n-k) \]
Phân phối nhị thức được mô tả bởi ba tham số:
n: là số lần thử cố định.
p: là xác suất thành công trong mỗi lần thử.
k: là số lần thành công.
Tung đồng xu 10 lần, xác suất 3 lần mặt ngửa
Số cuộc gọi điện thoại đến trong 30 ngày
Số mail gửi tự động trong 50 mail nhận được
Cho một tần số biến cố x ghi nhận từ n đối tượng, chúng ta có thể tính xác suất của biến cố đó là:
\[p=\frac{x}{n}\] p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách thể hiện nguy cơ khác là odds (Tạm dịch : Khả năng). Khả năng của một biến cố được định nghĩa đơn giản bằng tỉ số xácsuất biến cố xảy ra trên xác suất biến cố không xảy ra:
\[odds=\frac{p}{1-p}\]
Hàm logit của odds được định nghĩa như sau:
\[logit(p)=log\frac{p}{1-p}\]
Hồi quy Probit hay còn được gọi là mô hình Probit, được sử dụng để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy Probit, xem hàm xác suất \(\pi(x)\) hoặc $ 1-(x)$ là hàm phân phối xác suất của một biến ngẫu nhiên X có phân phối chuẩn tức là xác suất thành công có dạng
\[\pi(x)=\phi(\alpha+\beta(x))\]
Trong đó : \[\phi(x)=(\frac1{\sqrt2\phi}\int_\infty^x \mathrm{e}^{-1/2}\,t^2\]
Kí hiệu:
\[Probit(\pi(x))=\phi^-1(\pi(x))\]
Mô hình Probit được viết dưới dạng
\[Probit(\pi(x))=\alpha + betax\]
AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:
\[AIC= -2ln(L) + 2k\]
Với L là giá trị cực đại của hàm hợp lý (likelihood function)
k là số tham số của mô hình.
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:
\[B=\frac{1}{n}\sum_{t=1}^{n}(Y_{t}-\pi_t)^{2}\]
Trong đó \(\pi_t\) là giá trị ước lượng của \(\pi(x_{i})=E(Y|X=x_{i})\)
Chỉ số Brier thực chất là trung bỉnh của tổng bình phương các độ lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó. Vì vậy chỉ số B càng bé thì mô hình cho ước lượng càng chính xác, tức là càng phù hợp với dữ liệu quan sát.
Bảng tần số hay còn gọi là bảng tần suất là một cách thống kê số lần xuất hiện của các giá trị khác nhau trong một tập dữ liệu. Bảng này giúp ta có cái nhìn tổng quan về sự phân bố của dữ liệu và tiện lợi cho việc tính toán sau này.
Bảng tần số có thể được lập theo dạng ngang hoặc dọc, và có thể bao gồm các thông tin như tần số tuyệt đối, tần số tương đối, tần số tích lũy, phần trăm,…
Bảng tần số có nhiều công dụng trong thống kê mô tả và phân tích dữ liệu. Bảng tần số giúp người điều tra dễ có những nhận xét chung về sự phân phối của các giá trị của dấu hiệu, như giá trị lớn nhất, giá trị nhỏ nhất, giá trị có tần số cao nhất. Bảng tần số cũng tiện lợi cho việc tính toán các chỉ số thống kê khác, như trung bình, độ lệch chuẩn,phương sai. Bảng tần số cũng là cơ sở để vẽ các biểu đồ thống kê, như biểu đồ cột, biểu đồ hình quạt, biểu đồ hình bánh,…
Độ nhạy và độ đặc hiệu là hai chỉ số được sử dụng để đánh giá hiệu suất của một xét nghiệm y tế. Độ nhạy là khả năng của xét nghiệm phát hiện những người thực sự mắc bệnh, trong khi độ đặc hiệu là khả năng của xét nghiệm loại trừ những người không mắc bệnh.
Độ nhạy (sensitivity) của một thí nghiệm: Là tỷ lệ (%) của số ca bị bệnh thực sự khi xét nghiệm và cho kết quả dương tính với tổng số ca bị bệnh. Công thức để tính độ nhạy:
Độ nhạy = số dương tính thật/(số đương tính thật + số âm tính giả)
Độ đặc hiệu (specificity) của một thí nghiệm: Là tỷ lệ (%) của số ca không bị bệnh và kết quả xét nghiệm không bị bệnh với tổng số người không bị bệnh. Công thức tính độ đặc hiệu:
Độ đặc hiệu = Số trường hợp âm tính thật/ (số trường hợp âm tính thật + số trường hợp dương tính giả)
Độ nhạy và độ đặc hiệu là hai chỉ số quan trọng để đánh giá hiệu suất của một xét nghiệm y tế. Tuy nhiên, cần lưu ý rằng độ nhạy và độ đặc hiệu có thể thay đổi tùy thuộc vào từng xét nghiệm. Ngoài ra, độ nhạy và độ đặc hiệu không phải lúc nào cũng là những chỉ số quan trọng nhất để đánh giá hiệu suất của một xét nghiệm. Trong một số trường hợp, các yếu tố khác, chẳng hạn như giá trị tiên đoán âm tính (NPV) và giá trị tiên đoán dương tính (PPV), có thể quan trọng hơn.
Sự khác biệt giữa hai tỷ lệ \(\pi_{1}\) và \(\pi_{2}\) được đánh giá qua sai số tuyệt đối \((\pi_{1}-\pi_{2})\) chỉ dựa vào khoảng cách giữa hai tỷ lệ này mà bỏ qua độ lớn và ý nghĩa của chúng, nghĩa là khoảng cách như nhau thì đánh giá sai lệch như nhau. Chẳng hạn khi \(\pi_{1} = 0.01\) và \(\pi_{2} = 0.001\) và khi \(\pi_{1} =0.410\) và \(\pi_{2}=0.401\) đều được đánh giá là có sai lệch như nhau cùng mức sai lệch 0.009). Tuy nhiên nếu chỉ dựa vào khoảng cách này để đánh giá, so sánh hai tương quan giữa hai tỷ lệ thì không đủ, thậm chí sẽ bỏ qua những ý nghĩa quan trọng của sự tương quan giữa chúng, đặc biệt là khi hai tỷ lệ này cùng gần 0 hoặc cùng gần 1 hoặc cùng gần 0.5.
Tỷ lệ chênh là một chỉ số được sử dụng để đo cường độ của mối quan hệ giữa hai biến phân loại. OR được tính bằng cách chia tỷ lệ chênh dương cho tỷ lệ chênh âm.
OR thường được sử dụng trong các nghiên cứu quan sát, trong đó các nhà nghiên cứu quan sát các biến số mà không cố gắng kiểm soát chúng. OR không phải là một ước lượng chính xác của nguy cơ tuyệt đối, nhưng nó có thể được sử dụng để đánh giá nguy cơ tương đối của các kết quả khác nhau. OR được biểu thị dưới dạng số. Nếu OR lớn hơn 1, điều đó có nghĩa là biến phân loại đầu tiên có liên quan đến kết quả. Nếu OR bằng 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu OR nhỏ hơn 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là \(\pi_i\) thì chúng ta kí hiệu Tỷ lệ cược (odd) của biểu hiện này là \(odd_i\) và được định nghĩa như sau:
\[odd_i=\frac{\pi_i}{1-\pi_i}\]
Nghĩa là chúng ta tính tỷ lệ thành công theo từng hàng trong bảng ngẫu nhiên.Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được kí hiệu là \(\theta_ij\)
và được định nghĩa
\[\theta_ij=\frac{\frac{\pi_i}{1-\pi_i}}{\frac{\pi_i}{1-\pi_i}}\]
OR là một chỉ số quan trọng để đánh giá mối quan hệ giữa hai biến phân loại. Tuy nhiên, cần lưu ý rằng OR không phải lúc nào cũng là chỉ số duy nhất cần xem xét. Trong một số trường hợp, các chỉ số khác, chẳng hạn như nguy cơ tuyệt đối, có thể quan trọng hơn.
Dữ liệu được lấy từ website: kaggle.com, bộ số liệu liên quan đến việc chi trả bảo hiểm y tế cho con người ở bốn khu vực như sau northeast, southeast, southwest, northwest có tổng số quan sát là 2772 gồm bảy cột: Age, Sex, BMI, Children, Smoker, Region và Charges.
library(readxl)
## Warning: package 'readxl' was built under R version 4.3.1
PTĐT <- read_excel("D:/PTĐT.xlsx")
View(PTĐT)
Mã hóa biến định lượng charges thành biến định tính. Nếu giá trị chi phí y tế nhỏ hơn hoặc bằng 15000 ta quy ước là 0. Nếu giá trị chi phí y tế lớn hơn 15000 ta quy ước là 1.
PTĐTmahoa<-subset(PTĐT, charges < 70000)
dim(PTĐTmahoa)
## [1] 2772 7
PTĐTmahoa$charges[PTĐTmahoa$charges <=15000]<-0
PTĐTmahoa$charges[PTĐTmahoa$charges >15000]<-1
head(PTĐTmahoa)
## # A tibble: 6 × 7
## age sex bmi children smoker region charges
## <dbl> <chr> <dbl> <dbl> <chr> <chr> <dbl>
## 1 19 female 27.9 0 yes southwest 1
## 2 18 male 33.8 1 no southeast 0
## 3 28 male 33 3 no southeast 0
## 4 33 male 22.7 0 no northwest 1
## 5 32 male 28.9 0 no northwest 0
## 6 31 female 25.7 0 no southeast 0
View(PTĐTmahoa)
Bộ dữ liệu gồm 2772 quan sát với 7 biến trong đó có 3 biến định tính và 4 biến định lượng
age: Tuổi của người thụ hưởng
sex: Giới tính của người tham gia (Male/ Female)
bmi: Chỉ số khối cơ thể (BMI - Body mass index) là một phép tính dựa trên chiều cao và cân nặng, giúp xác định xem một người có cân nặng chuẩn, nhẹ cân, thừa cân hay béo phì. BMI không đo trực tiếp lượng chất béo trong cơ thể, nhưng BMI có thể đánh giá tương đối về lượng chất béo trong cơ thể. Hơn nữa, BMI còn có liên quan đến nguy cơ mắc bệnh chuyển hóa hoặc nhiều bệnh lý khác nhau do tình trạng nhẹ cân hoặc béo phì. BMI người bình thường dao động khoảng 18.5-24.9
children: Số con tham gia bảo hiểm/ Người phụ thuộc
smoker: Hút thuốc ( Yes/No)
region: Khu vực cư trú của người thụ hưởng ở Mỹ, đông bắc, đông nam, tây nam, tây bắc.
charges: Chi phí y tế cá nhân do bảo hiểm y tế thanh toán
Với mục đích phân tích các yếu tố ảnh hưởng đến chi phí bảo hiểm y tế, sử dụng các biến định lượng và định tính như sau :
Chọn biến Age, BMI, Children làm biến định lượng để nghiên cứu rằng có phải các biến ảnh hưởng trực tiếp
đến chi phí y tế hay không?
Chọn biến Charges làm biến định tính phụ thuộc để nghiên cứu xem chi phí bảo hiểm bị ảnh hưởng như thế nào?
summary(PTĐTmahoa)
## age sex bmi children
## Min. :18.00 Length:2772 Min. :15.96 Min. :0.000
## 1st Qu.:26.00 Class :character 1st Qu.:26.22 1st Qu.:0.000
## Median :39.00 Mode :character Median :30.45 Median :1.000
## Mean :39.11 Mean :30.70 Mean :1.102
## 3rd Qu.:51.00 3rd Qu.:34.77 3rd Qu.:2.000
## Max. :64.00 Max. :53.13 Max. :5.000
## smoker region charges
## Length:2772 Length:2772 Min. :0.0000
## Class :character Class :character 1st Qu.:0.0000
## Mode :character Mode :character Median :0.0000
## Mean :0.2662
## 3rd Qu.:1.0000
## Max. :1.0000
table(PTĐTmahoa$children)
##
## 0 1 2 3 4 5
## 1186 672 496 324 52 42
Kết quả cho thấy, gia đình không có con tham gia bảo hiểm là 1178 người, gia đình có một con tham gia bảo hiểm y tế là 668 người, gia đình có hai con tham gia bảo hiểm y tế là 496 người, gia đình có ba con tham gia bảo hiểm y tế là 322 người, gia đình có bốn con tham gia bảo hiểm y tế là 52 người, gia đình có năm con tham gia bảo hiểm y tế là 42 người.
table(PTĐTmahoa$children)/sum(table(PTĐTmahoa$children))
##
## 0 1 2 3 4 5
## 0.42784993 0.24242424 0.17893218 0.11688312 0.01875902 0.01515152
Kết quả cho thấy, gia đình có con không tham gia bảo hiểm chiếm gần bằng 42.71%, gia đình có một con tham gia bảo hiểm y tế chiếm gần bằng 24.22%, gia đình có hai con tham gia bảo hiểm y tế chiếm 17.98%, gia đình có ba con tham gia bảo hiểm y tế chiếm gần bằng 11.68%, gia đình có bốn con tham gia bảo hiểm y tế chiếm gần bằng 1.88% , gia đình có năm con tham gia bảo hiểm y tế chiếm gần bằng 1.52%.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.1
PTĐTmahoa |> ggplot( aes( x = children, y= after_stat(count))) + geom_bar(fill='lightpink') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số con') + ylab('Tỷ lệ')
table(PTĐTmahoa$age)
##
## 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
## 148 142 58 60 60 62 56 58 60 58 60 54 56 54 56 54 52 50 50 52
## 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
## 50 54 54 56 54 54 56 62 60 62 58 56 58 60 62 58 60 52 56 54
## 58 59 60 61 62 63 64
## 52 52 46 46 48 46 46
Kết quả cho thấy, độ tuổi tham gia bảo hiểm y tế từ 18 đến 64 tuổi, ở độ tuổi 18 tuổi có 148 người tham gia, ở độ tuổi 19 tuổi có 142 người tham gia, ở độ tuổi 20 tuổi có 58 người tham gia, ở độ tuổi 21 tuổi có 60 người tham gia, ở độ tuổi 22 tuổi có 60 người tham gia, ở độ tuổi 23 tuổi có 62 người tham gia, ở độ tuổi 24 tuổi có 56 người tham gia, ở độ tuổi 25 tuổi có 58 người tham gia, ở độ tuổi 26tuổi có 60 người tham gia, ở độ tuổi 27 tuổi có 58 người tham gia ở độ tuổi 28 tuổi có 60 người tham gia, ở độ tuổi 29 tuổi có 54 người tham gia, ở độ tuổi 30 tuổi có 56 người tham, ở độ tuổi 31 tuổi có 54 người tham gia, ở độ tuổi 32 tuổi có 56 người tham gia, ở độ tuổi 33 tuổi có 54 người tham gia, ở độ tuổi 34 tuổi có 52 người tham gia, ở độ tuổi 35 tuổi có 50 người tham gia, ở độ tuổi 36 tuổi có 50 người tham gia, ở độ tuổi 37 tuổi có 52 người tham gia, ở độ tuổi 38 tuổi có 50 người tham gia,ở độ tuổi 39 tuổi có 54 người tham gia, ở độ tuổi 40 tuổi có 54 người tham gia, ở độ tuổi 41 tuổi có 56 người tham gia, ở độ tuổi 42 tuổi có 54 người tham gia, ở độ tuổi 43 tuổi có 54 người tham gia, ở độ tuổi 44 tuổi có 56 người tham gia, ở độ tuổi 45 tuổi có 62 người tham gia, ở độ tuổi 46 tuổi có 60 người tham gia, ở độ tuổi 47 tuổi có 62 người tham gia, ở độ tuổi 48 tuổi có 58 người tham gia, ở độ tuổi 49 tuổi có 56 người tham gia, ở độ tuổi 50 tuổi có 58 người tham gia, ở độ tuổi 51 tuổi có 60 người tham gia, ở độ tuổi 52 tuổi có 62 người tham gia, ở độ tuổi 53 tuổi có 58 người tham gia, ở độ tuổi 54 tuổi có 60 người tham gia, ở độ tuổi 55 tuổi có 52 người tham gia, ở độ tuổi 56 tuổi có 56 người tham gia, ở độ tuổi 57 tuổi có 58 người tham gia, ở độ tuổi 58 tuổi có 52 người tham gia, ở độ tuổi 59 tuổi có 52 người tham gia, ở độ tuổi 60 tuổi có 46 người tham gia, ở độ tuổi 61 tuổi có 46 người tham gia, ở độ tuổi 62 tuổi có 48 người tham gia, ở độ tuổi 63 tuổi có 46 người tham gia, ở độ tuổi 64 tuổi có 46 người tham gia.
table(PTĐTmahoa$age)/sum(table(PTĐTmahoa$age))
##
## 18 19 20 21 22 23 24
## 0.05339105 0.05122655 0.02092352 0.02164502 0.02164502 0.02236652 0.02020202
## 25 26 27 28 29 30 31
## 0.02092352 0.02164502 0.02092352 0.02164502 0.01948052 0.02020202 0.01948052
## 32 33 34 35 36 37 38
## 0.02020202 0.01948052 0.01875902 0.01803752 0.01803752 0.01875902 0.01803752
## 39 40 41 42 43 44 45
## 0.01948052 0.01948052 0.02020202 0.01948052 0.01948052 0.02020202 0.02236652
## 46 47 48 49 50 51 52
## 0.02164502 0.02236652 0.02092352 0.02020202 0.02092352 0.02164502 0.02236652
## 53 54 55 56 57 58 59
## 0.02092352 0.02164502 0.01875902 0.02020202 0.01948052 0.01875902 0.01875902
## 60 61 62 63 64
## 0.01659452 0.01659452 0.01731602 0.01659452 0.01659452
Kết quả được tính từ bảng tần số chuyển sang tỷ lệ phần trăm cho biến age
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = age, y= after_stat(count))) + geom_bar(fill='lightblue') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số tuổi') + ylab('Tỷ lệ')
table(PTĐTmahoa$sex)
##
## female male
## 1366 1406
Kết quả cho thấy, giới tính nữ tham gia bảo hiểm y tế là 1360 người, giới tính nam tham gia bảo hiểm y tế là 1398 người.
table(PTĐTmahoa$sex)/sum(table(PTĐTmahoa$sex))
##
## female male
## 0.492785 0.507215
Kết quả cho thấy, giới tính nữ tham gia bảo hiểm y tế chiếm 49.31%, giới tính nam tham gia bảo hiểm y tế chiếm 50.69%
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = sex, y= after_stat(count))) + geom_bar(fill='lightgreen') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Giới tính') + ylab('Tỷ lệ')
table(PTĐTmahoa$bmi)
##
## 15.96 16.815 17.195 17.29 17.385 17.4 17.48 17.67 17.765 17.8 17.86
## 2 4 2 6 2 2 2 2 2 2 2
## 17.955 18.05 18.3 18.335 18.5 18.6 18.715 18.905 19 19.095 19.19
## 2 2 2 6 2 2 4 2 2 2 2
## 19.3 19.475 19.57 19.8 19.855 19.95 20.045 20.1 20.13 20.235 20.3
## 2 2 2 6 4 12 4 4 2 8 2
## 20.35 20.4 20.425 20.52 20.6 20.615 20.7 20.79 20.8 20.9 21.01
## 2 2 2 4 4 2 2 2 4 4 2
## 21.09 21.12 21.28 21.3 21.375 21.4 21.47 21.5 21.56 21.565 21.66
## 2 2 4 2 4 4 6 2 2 2 6
## 21.7 21.755 21.78 21.8 21.85 21.89 21.945 22 22.04 22.1 22.135
## 2 8 4 2 8 2 2 2 2 2 8
## 22.22 22.23 22.3 22.42 22.515 22.6 22.61 22.705 22.77 22.8 22.88
## 2 4 4 6 10 4 8 8 2 4 2
## 22.895 22.99 23 23.085 23.1 23.18 23.2 23.21 23.275 23.3 23.32
## 8 6 2 4 2 10 2 12 2 2 4
## 23.37 23.4 23.465 23.54 23.56 23.6 23.65 23.655 23.7 23.75 23.76
## 6 6 4 2 4 4 2 10 4 6 2
## 23.8 23.845 23.87 23.9 23.94 23.98 24.035 24.09 24.1 24.13 24.225
## 2 8 2 2 2 6 6 2 4 8 8
## 24.3 24.31 24.32 24.4 24.415 24.42 24.51 24.53 24.6 24.605 24.64
## 8 4 14 2 2 6 6 2 8 8 2
## 24.7 24.75 24.795 24.86 24.89 24.97 24.985 25 25.08 25.1 25.175
## 8 2 8 4 2 2 4 4 10 2 12
## 25.2 25.27 25.3 25.365 25.4 25.41 25.46 25.52 25.555 25.6 25.65
## 2 6 10 6 2 2 14 2 6 8 2
## 25.7 25.74 25.745 25.8 25.84 25.85 25.9 25.935 26.03 26.07 26.125
## 6 8 6 16 10 2 6 6 12 2 8
## 26.18 26.2 26.22 26.29 26.315 26.4 26.41 26.505 26.51 26.6 26.62
## 6 2 8 2 10 8 12 2 4 12 4
## 26.695 26.7 26.73 26.79 26.8 26.84 26.885 26.9 26.98 27 27.06
## 10 4 4 4 4 4 8 2 6 2 2
## 27.075 27.1 27.17 27.2 27.265 27.28 27.3 27.36 27.4 27.455 27.5
## 2 8 4 4 8 2 2 14 4 4 14
## 27.55 27.6 27.61 27.645 27.7 27.72 27.74 27.8 27.83 27.835 27.9
## 8 10 2 14 6 8 12 2 8 10 2
## 27.93 27.94 28 28.025 28.05 28.1 28.12 28.16 28.2 28.215 28.27
## 8 6 6 10 6 4 8 2 2 10 4
## 28.3 28.31 28.38 28.4 28.405 28.49 28.5 28.595 28.6 28.69 28.7
## 4 18 2 4 4 2 10 12 6 6 10
## 28.785 28.8 28.82 28.88 28.9 28.93 28.975 29 29.04 29.07 29.1
## 10 2 2 16 10 6 10 4 2 4 2
## 29.15 29.165 29.2 29.26 29.3 29.355 29.37 29.4 29.45 29.48 29.5
## 4 2 2 8 4 4 4 4 2 8 2
## 29.545 29.59 29.6 29.64 29.7 29.735 29.8 29.81 29.83 29.9 29.92
## 2 4 8 10 10 10 8 8 12 6 12
## 29.925 30 30.02 30.03 30.1 30.115 30.14 30.2 30.21 30.25 30.3
## 6 4 8 6 4 12 4 12 8 4 6
## 30.305 30.36 30.4 30.495 30.5 30.59 30.685 30.69 30.78 30.8 30.875
## 4 2 10 16 8 14 6 4 12 16 16
## 30.9 30.97 31 31.02 31.065 31.1 31.13 31.16 31.2 31.24 31.255
## 6 2 4 8 8 2 8 8 2 2 6
## 31.3 31.35 31.4 31.445 31.46 31.5 31.54 31.57 31.6 31.635 31.68
## 2 16 6 4 4 4 4 4 8 4 4
## 31.73 31.79 31.8 31.825 31.9 31.92 32 32.01 32.015 32.1 32.11
## 12 8 2 10 6 10 2 4 4 2 14
## 32.12 32.2 32.205 32.23 32.3 32.34 32.395 32.4 32.45 32.49 32.5
## 2 6 4 4 26 4 10 2 2 4 4
## 32.56 32.585 32.6 32.67 32.68 32.7 32.775 32.78 32.8 32.87 32.9
## 4 2 4 4 10 4 14 2 6 2 6
## 32.965 33 33.06 33.1 33.11 33.155 33.2 33.25 33.3 33.33 33.345
## 8 12 2 8 10 10 2 6 4 16 10
## 33.4 33.44 33.5 33.535 33.55 33.63 33.66 33.7 33.725 33.77 33.8
## 6 8 2 6 2 14 10 6 4 4 2
## 33.82 33.88 33.915 33.99 34.01 34.1 34.105 34.2 34.21 34.295 34.3
## 8 6 8 4 2 16 8 12 10 2 2
## 34.32 34.39 34.4 34.43 34.485 34.5 34.58 34.6 34.675 34.7 34.77
## 6 4 10 8 4 2 4 6 2 4 6
## 34.8 34.865 34.87 34.9 34.96 35.09 35.1 35.15 35.2 35.245 35.3
## 14 4 2 2 6 2 2 2 14 4 12
## 35.31 35.4 35.42 35.435 35.5 35.53 35.6 35.625 35.64 35.7 35.72
## 4 2 2 2 2 12 2 8 2 2 4
## 35.75 35.8 35.815 35.86 35.9 35.91 35.97 36 36.005 36.08 36.1
## 6 4 10 8 2 4 8 4 2 10 6
## 36.19 36.195 36.2 36.29 36.3 36.385 36.4 36.48 36.52 36.575 36.6
## 6 2 4 2 8 4 2 6 2 4 2
## 36.63 36.67 36.7 36.765 36.85 36.86 36.955 36.96 37 37.05 37.07
## 6 8 2 6 10 6 8 4 6 6 6
## 37.1 37.145 37.18 37.29 37.3 37.335 37.4 37.43 37.51 37.525 37.62
## 12 2 6 8 2 4 6 6 4 2 4
## 37.7 37.715 37.73 37.8 37.9 37.905 38 38.06 38.095 38.17 38.19
## 2 2 4 2 2 2 6 14 6 6 2
## 38.28 38.285 38.38 38.39 38.6 38.665 38.83 38.9 38.94 38.95 39.05
## 6 2 4 6 4 2 6 2 4 2 6
## 39.1 39.14 39.16 39.2 39.27 39.33 39.4 39.425 39.49 39.5 39.52
## 2 2 8 2 2 2 2 2 6 4 2
## 39.6 39.615 39.7 39.71 39.8 39.805 39.82 39.9 39.93 39.995 40.15
## 6 2 4 2 2 4 10 2 2 2 6
## 40.185 40.26 40.28 40.3 40.37 40.375 40.47 40.48 40.5 40.565 40.66
## 4 4 4 4 4 2 2 2 2 6 2
## 40.81 40.92 40.945 41.1 41.14 41.23 41.325 41.42 41.47 41.69 41.8
## 2 2 2 2 4 4 6 2 6 2 6
## 41.895 41.91 42.13 42.24 42.35 42.4 42.46 42.655 42.68 42.75 42.9
## 2 6 12 2 2 4 2 2 2 2 4
## 42.94 43.01 43.12 43.34 43.4 43.7 43.89 44 44.22 44.7 44.745
## 2 2 2 2 2 2 4 2 4 2 2
## 44.77 44.88 45.32 45.43 45.54 45.9 46.09 46.2 46.53 46.7 46.75
## 2 2 4 2 2 2 2 2 8 2 2
## 47.41 47.52 47.6 47.74 48.07 49.06 50.38 52.58 53.13
## 2 2 2 2 2 2 2 2 2
table(PTĐTmahoa$bmi)/sum(table(PTĐTmahoa$bmi))
##
## 15.96 16.815 17.195 17.29 17.385 17.4
## 0.0007215007 0.0014430014 0.0007215007 0.0021645022 0.0007215007 0.0007215007
## 17.48 17.67 17.765 17.8 17.86 17.955
## 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 18.05 18.3 18.335 18.5 18.6 18.715
## 0.0007215007 0.0007215007 0.0021645022 0.0007215007 0.0007215007 0.0014430014
## 18.905 19 19.095 19.19 19.3 19.475
## 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 19.57 19.8 19.855 19.95 20.045 20.1
## 0.0007215007 0.0021645022 0.0014430014 0.0043290043 0.0014430014 0.0014430014
## 20.13 20.235 20.3 20.35 20.4 20.425
## 0.0007215007 0.0028860029 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 20.52 20.6 20.615 20.7 20.79 20.8
## 0.0014430014 0.0014430014 0.0007215007 0.0007215007 0.0007215007 0.0014430014
## 20.9 21.01 21.09 21.12 21.28 21.3
## 0.0014430014 0.0007215007 0.0007215007 0.0007215007 0.0014430014 0.0007215007
## 21.375 21.4 21.47 21.5 21.56 21.565
## 0.0014430014 0.0014430014 0.0021645022 0.0007215007 0.0007215007 0.0007215007
## 21.66 21.7 21.755 21.78 21.8 21.85
## 0.0021645022 0.0007215007 0.0028860029 0.0014430014 0.0007215007 0.0028860029
## 21.89 21.945 22 22.04 22.1 22.135
## 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0028860029
## 22.22 22.23 22.3 22.42 22.515 22.6
## 0.0007215007 0.0014430014 0.0014430014 0.0021645022 0.0036075036 0.0014430014
## 22.61 22.705 22.77 22.8 22.88 22.895
## 0.0028860029 0.0028860029 0.0007215007 0.0014430014 0.0007215007 0.0028860029
## 22.99 23 23.085 23.1 23.18 23.2
## 0.0021645022 0.0007215007 0.0014430014 0.0007215007 0.0036075036 0.0007215007
## 23.21 23.275 23.3 23.32 23.37 23.4
## 0.0043290043 0.0007215007 0.0007215007 0.0014430014 0.0021645022 0.0021645022
## 23.465 23.54 23.56 23.6 23.65 23.655
## 0.0014430014 0.0007215007 0.0014430014 0.0014430014 0.0007215007 0.0036075036
## 23.7 23.75 23.76 23.8 23.845 23.87
## 0.0014430014 0.0021645022 0.0007215007 0.0007215007 0.0028860029 0.0007215007
## 23.9 23.94 23.98 24.035 24.09 24.1
## 0.0007215007 0.0007215007 0.0021645022 0.0021645022 0.0007215007 0.0014430014
## 24.13 24.225 24.3 24.31 24.32 24.4
## 0.0028860029 0.0028860029 0.0028860029 0.0014430014 0.0050505051 0.0007215007
## 24.415 24.42 24.51 24.53 24.6 24.605
## 0.0007215007 0.0021645022 0.0021645022 0.0007215007 0.0028860029 0.0028860029
## 24.64 24.7 24.75 24.795 24.86 24.89
## 0.0007215007 0.0028860029 0.0007215007 0.0028860029 0.0014430014 0.0007215007
## 24.97 24.985 25 25.08 25.1 25.175
## 0.0007215007 0.0014430014 0.0014430014 0.0036075036 0.0007215007 0.0043290043
## 25.2 25.27 25.3 25.365 25.4 25.41
## 0.0007215007 0.0021645022 0.0036075036 0.0021645022 0.0007215007 0.0007215007
## 25.46 25.52 25.555 25.6 25.65 25.7
## 0.0050505051 0.0007215007 0.0021645022 0.0028860029 0.0007215007 0.0021645022
## 25.74 25.745 25.8 25.84 25.85 25.9
## 0.0028860029 0.0021645022 0.0057720058 0.0036075036 0.0007215007 0.0021645022
## 25.935 26.03 26.07 26.125 26.18 26.2
## 0.0021645022 0.0043290043 0.0007215007 0.0028860029 0.0021645022 0.0007215007
## 26.22 26.29 26.315 26.4 26.41 26.505
## 0.0028860029 0.0007215007 0.0036075036 0.0028860029 0.0043290043 0.0007215007
## 26.51 26.6 26.62 26.695 26.7 26.73
## 0.0014430014 0.0043290043 0.0014430014 0.0036075036 0.0014430014 0.0014430014
## 26.79 26.8 26.84 26.885 26.9 26.98
## 0.0014430014 0.0014430014 0.0014430014 0.0028860029 0.0007215007 0.0021645022
## 27 27.06 27.075 27.1 27.17 27.2
## 0.0007215007 0.0007215007 0.0007215007 0.0028860029 0.0014430014 0.0014430014
## 27.265 27.28 27.3 27.36 27.4 27.455
## 0.0028860029 0.0007215007 0.0007215007 0.0050505051 0.0014430014 0.0014430014
## 27.5 27.55 27.6 27.61 27.645 27.7
## 0.0050505051 0.0028860029 0.0036075036 0.0007215007 0.0050505051 0.0021645022
## 27.72 27.74 27.8 27.83 27.835 27.9
## 0.0028860029 0.0043290043 0.0007215007 0.0028860029 0.0036075036 0.0007215007
## 27.93 27.94 28 28.025 28.05 28.1
## 0.0028860029 0.0021645022 0.0021645022 0.0036075036 0.0021645022 0.0014430014
## 28.12 28.16 28.2 28.215 28.27 28.3
## 0.0028860029 0.0007215007 0.0007215007 0.0036075036 0.0014430014 0.0014430014
## 28.31 28.38 28.4 28.405 28.49 28.5
## 0.0064935065 0.0007215007 0.0014430014 0.0014430014 0.0007215007 0.0036075036
## 28.595 28.6 28.69 28.7 28.785 28.8
## 0.0043290043 0.0021645022 0.0021645022 0.0036075036 0.0036075036 0.0007215007
## 28.82 28.88 28.9 28.93 28.975 29
## 0.0007215007 0.0057720058 0.0036075036 0.0021645022 0.0036075036 0.0014430014
## 29.04 29.07 29.1 29.15 29.165 29.2
## 0.0007215007 0.0014430014 0.0007215007 0.0014430014 0.0007215007 0.0007215007
## 29.26 29.3 29.355 29.37 29.4 29.45
## 0.0028860029 0.0014430014 0.0014430014 0.0014430014 0.0014430014 0.0007215007
## 29.48 29.5 29.545 29.59 29.6 29.64
## 0.0028860029 0.0007215007 0.0007215007 0.0014430014 0.0028860029 0.0036075036
## 29.7 29.735 29.8 29.81 29.83 29.9
## 0.0036075036 0.0036075036 0.0028860029 0.0028860029 0.0043290043 0.0021645022
## 29.92 29.925 30 30.02 30.03 30.1
## 0.0043290043 0.0021645022 0.0014430014 0.0028860029 0.0021645022 0.0014430014
## 30.115 30.14 30.2 30.21 30.25 30.3
## 0.0043290043 0.0014430014 0.0043290043 0.0028860029 0.0014430014 0.0021645022
## 30.305 30.36 30.4 30.495 30.5 30.59
## 0.0014430014 0.0007215007 0.0036075036 0.0057720058 0.0028860029 0.0050505051
## 30.685 30.69 30.78 30.8 30.875 30.9
## 0.0021645022 0.0014430014 0.0043290043 0.0057720058 0.0057720058 0.0021645022
## 30.97 31 31.02 31.065 31.1 31.13
## 0.0007215007 0.0014430014 0.0028860029 0.0028860029 0.0007215007 0.0028860029
## 31.16 31.2 31.24 31.255 31.3 31.35
## 0.0028860029 0.0007215007 0.0007215007 0.0021645022 0.0007215007 0.0057720058
## 31.4 31.445 31.46 31.5 31.54 31.57
## 0.0021645022 0.0014430014 0.0014430014 0.0014430014 0.0014430014 0.0014430014
## 31.6 31.635 31.68 31.73 31.79 31.8
## 0.0028860029 0.0014430014 0.0014430014 0.0043290043 0.0028860029 0.0007215007
## 31.825 31.9 31.92 32 32.01 32.015
## 0.0036075036 0.0021645022 0.0036075036 0.0007215007 0.0014430014 0.0014430014
## 32.1 32.11 32.12 32.2 32.205 32.23
## 0.0007215007 0.0050505051 0.0007215007 0.0021645022 0.0014430014 0.0014430014
## 32.3 32.34 32.395 32.4 32.45 32.49
## 0.0093795094 0.0014430014 0.0036075036 0.0007215007 0.0007215007 0.0014430014
## 32.5 32.56 32.585 32.6 32.67 32.68
## 0.0014430014 0.0014430014 0.0007215007 0.0014430014 0.0014430014 0.0036075036
## 32.7 32.775 32.78 32.8 32.87 32.9
## 0.0014430014 0.0050505051 0.0007215007 0.0021645022 0.0007215007 0.0021645022
## 32.965 33 33.06 33.1 33.11 33.155
## 0.0028860029 0.0043290043 0.0007215007 0.0028860029 0.0036075036 0.0036075036
## 33.2 33.25 33.3 33.33 33.345 33.4
## 0.0007215007 0.0021645022 0.0014430014 0.0057720058 0.0036075036 0.0021645022
## 33.44 33.5 33.535 33.55 33.63 33.66
## 0.0028860029 0.0007215007 0.0021645022 0.0007215007 0.0050505051 0.0036075036
## 33.7 33.725 33.77 33.8 33.82 33.88
## 0.0021645022 0.0014430014 0.0014430014 0.0007215007 0.0028860029 0.0021645022
## 33.915 33.99 34.01 34.1 34.105 34.2
## 0.0028860029 0.0014430014 0.0007215007 0.0057720058 0.0028860029 0.0043290043
## 34.21 34.295 34.3 34.32 34.39 34.4
## 0.0036075036 0.0007215007 0.0007215007 0.0021645022 0.0014430014 0.0036075036
## 34.43 34.485 34.5 34.58 34.6 34.675
## 0.0028860029 0.0014430014 0.0007215007 0.0014430014 0.0021645022 0.0007215007
## 34.7 34.77 34.8 34.865 34.87 34.9
## 0.0014430014 0.0021645022 0.0050505051 0.0014430014 0.0007215007 0.0007215007
## 34.96 35.09 35.1 35.15 35.2 35.245
## 0.0021645022 0.0007215007 0.0007215007 0.0007215007 0.0050505051 0.0014430014
## 35.3 35.31 35.4 35.42 35.435 35.5
## 0.0043290043 0.0014430014 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 35.53 35.6 35.625 35.64 35.7 35.72
## 0.0043290043 0.0007215007 0.0028860029 0.0007215007 0.0007215007 0.0014430014
## 35.75 35.8 35.815 35.86 35.9 35.91
## 0.0021645022 0.0014430014 0.0036075036 0.0028860029 0.0007215007 0.0014430014
## 35.97 36 36.005 36.08 36.1 36.19
## 0.0028860029 0.0014430014 0.0007215007 0.0036075036 0.0021645022 0.0021645022
## 36.195 36.2 36.29 36.3 36.385 36.4
## 0.0007215007 0.0014430014 0.0007215007 0.0028860029 0.0014430014 0.0007215007
## 36.48 36.52 36.575 36.6 36.63 36.67
## 0.0021645022 0.0007215007 0.0014430014 0.0007215007 0.0021645022 0.0028860029
## 36.7 36.765 36.85 36.86 36.955 36.96
## 0.0007215007 0.0021645022 0.0036075036 0.0021645022 0.0028860029 0.0014430014
## 37 37.05 37.07 37.1 37.145 37.18
## 0.0021645022 0.0021645022 0.0021645022 0.0043290043 0.0007215007 0.0021645022
## 37.29 37.3 37.335 37.4 37.43 37.51
## 0.0028860029 0.0007215007 0.0014430014 0.0021645022 0.0021645022 0.0014430014
## 37.525 37.62 37.7 37.715 37.73 37.8
## 0.0007215007 0.0014430014 0.0007215007 0.0007215007 0.0014430014 0.0007215007
## 37.9 37.905 38 38.06 38.095 38.17
## 0.0007215007 0.0007215007 0.0021645022 0.0050505051 0.0021645022 0.0021645022
## 38.19 38.28 38.285 38.38 38.39 38.6
## 0.0007215007 0.0021645022 0.0007215007 0.0014430014 0.0021645022 0.0014430014
## 38.665 38.83 38.9 38.94 38.95 39.05
## 0.0007215007 0.0021645022 0.0007215007 0.0014430014 0.0007215007 0.0021645022
## 39.1 39.14 39.16 39.2 39.27 39.33
## 0.0007215007 0.0007215007 0.0028860029 0.0007215007 0.0007215007 0.0007215007
## 39.4 39.425 39.49 39.5 39.52 39.6
## 0.0007215007 0.0007215007 0.0021645022 0.0014430014 0.0007215007 0.0021645022
## 39.615 39.7 39.71 39.8 39.805 39.82
## 0.0007215007 0.0014430014 0.0007215007 0.0007215007 0.0014430014 0.0036075036
## 39.9 39.93 39.995 40.15 40.185 40.26
## 0.0007215007 0.0007215007 0.0007215007 0.0021645022 0.0014430014 0.0014430014
## 40.28 40.3 40.37 40.375 40.47 40.48
## 0.0014430014 0.0014430014 0.0014430014 0.0007215007 0.0007215007 0.0007215007
## 40.5 40.565 40.66 40.81 40.92 40.945
## 0.0007215007 0.0021645022 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 41.1 41.14 41.23 41.325 41.42 41.47
## 0.0007215007 0.0014430014 0.0014430014 0.0021645022 0.0007215007 0.0021645022
## 41.69 41.8 41.895 41.91 42.13 42.24
## 0.0007215007 0.0021645022 0.0007215007 0.0021645022 0.0043290043 0.0007215007
## 42.35 42.4 42.46 42.655 42.68 42.75
## 0.0007215007 0.0014430014 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 42.9 42.94 43.01 43.12 43.34 43.4
## 0.0014430014 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 43.7 43.89 44 44.22 44.7 44.745
## 0.0007215007 0.0014430014 0.0007215007 0.0014430014 0.0007215007 0.0007215007
## 44.77 44.88 45.32 45.43 45.54 45.9
## 0.0007215007 0.0007215007 0.0014430014 0.0007215007 0.0007215007 0.0007215007
## 46.09 46.2 46.53 46.7 46.75 47.41
## 0.0007215007 0.0007215007 0.0028860029 0.0007215007 0.0007215007 0.0007215007
## 47.52 47.6 47.74 48.07 49.06 50.38
## 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007 0.0007215007
## 52.58 53.13
## 0.0007215007 0.0007215007
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = bmi, y= after_stat(count))) + geom_bar(fill='lightyellow') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('BMI') + ylab('Tỷ lệ')
table(PTĐTmahoa$smoker)
##
## no yes
## 2208 564
Kết quả cho thấy, số lượng người không hút thuốc là 2208 người, số lượng người hút thuốc là 550
người.
table(PTĐTmahoa$smoker)/sum(table(PTĐTmahoa$smoker))
##
## no yes
## 0.7965368 0.2034632
Kết quả cho thấy, số lượng người không hút thuốc chiếm 80.06%, số lượng người hút thuốc là 19.94%
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = smoker, y= after_stat(count))) + geom_bar(fill='purple') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Smoker') + ylab('Tỷ lệ')
table(PTĐTmahoa$region)
##
## northeast northwest southeast southwest
## 658 664 766 684
Kết quả cho thấy, số lượng người tham gia bảo hiểm y tế ở khu vực Northeast là 656 người, số lượng người tham gia bảo hiểm y tế ở khu vực Northwest là 660 người, số lượng người tham gia bảo hiểm y tế ở khu vực Southeast là 762 người, số lượng người tham gia bảo hiểm y tế ở khu vực Southwest là 680 người.
table(PTĐTmahoa$region)/sum(table(PTĐTmahoa$region))
##
## northeast northwest southeast southwest
## 0.2373737 0.2395382 0.2763348 0.2467532
Kết quả cho thấy, số lượng người tham gia bảo hiểm y tế ở khu vực Northeast chiếm 23.79% , số lượng người tham gia bảo hiểm y tế ở khu vực Northwest chiếm 23.93%, số lượng người tham gia bảo hiểm y tế ở khu vực Southeast chiếm 27.63%, số lượng người tham gia bảo hiểm y tế ở khu vực Southwest chiếm 24.66%.
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = region, y= after_stat(count))) + geom_bar(fill='Brown') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Region') + ylab('Tỷ lệ')
table(PTĐTmahoa$charges)
##
## 0 1
## 2034 738
Kết quả cho thấy, số người nhận chi phí y tế lớn hơn 15000 là 724 người, số người nhận chi phí y tế nhỏ hơn hoặc 15000 là 2034 người.
table(PTĐTmahoa$charges)/sum(table(PTĐTmahoa$charges))
##
## 0 1
## 0.7337662 0.2662338
Kết quả cho thấy tỷ lệ người nhận chi phí y tế lớn hơn 15000 là 26.25%, số người nhận chi phí y tế nhỏ hơn hoặc 15000 là 73.75%
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = charges, y= after_stat(count))) + geom_bar(fill='greenyellow') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('charges') + ylab('Tỷ lệ')
a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
a1
##
## 0 1
## female 1044 322
## male 990 416
Kết quả cho thấy, nữ giới nhận chi phí y tế lớn hơn 15000 là 316 người, số người nhận chi phí y tế nhỏ hơn hoặc bằng 15000 là 1044 người. Nam giới nhận chi phí y tế lớn hơn 15000 là 408 người, số người nhận chi phí y tế nhỏ hơn hoặc 15000 là 990 người.
aa1 <- prop.table(a1)
addmargins(aa1)
##
## 0 1 Sum
## female 0.3766234 0.1161616 0.4927850
## male 0.3571429 0.1500722 0.5072150
## Sum 0.7337662 0.2662338 1.0000000
Kết quả cho thấy, nữ giới nhận chi phí y tế lớn hơn 15000 chiếm 11.46%, số người nhận chi phí y tế nhỏ hơn hoặc bằng 15000 chiếm 37.85%. Nam giới nhận chi phí y tế lớn hơn 15000 chiếm 14.79%, số người nhận chi phí y tế nhỏ hơn hoặc bằng 15000 là 35.90%
ggplot(PTĐTmahoa, aes(sex, fill = charges)) + geom_bar(position = 'dodge', fill = "red")
a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
a2
##
## 0 1
## no 2020 188
## yes 14 550
aa2 <- prop.table(a2)
addmargins(aa2)
##
## 0 1 Sum
## no 0.728715729 0.067821068 0.796536797
## yes 0.005050505 0.198412698 0.203463203
## Sum 0.733766234 0.266233766 1.000000000
library(ggplot2)
ggplot(PTĐTmahoa, aes(smoker, fill = charges)) + geom_bar(position = 'dodge', fill = "blue")
a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
a3
##
## 0 1
## northeast 476 182
## northwest 496 168
## southeast 524 242
## southwest 538 146
aa3 <- prop.table(a3)
addmargins(aa3)
##
## 0 1 Sum
## northeast 0.17171717 0.06565657 0.23737374
## northwest 0.17893218 0.06060606 0.23953824
## southeast 0.18903319 0.08730159 0.27633478
## southwest 0.19408369 0.05266955 0.24675325
## Sum 0.73376623 0.26623377 1.00000000
ggplot(PTĐTmahoa, aes(region, fill = charges)) + geom_bar(position = 'dodge', fill="green")
Giả thuyết - Đối thuyết:
H0: charges và sex độc lập với nhau
H1: charges và sex không độc lập với nhau
a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
chisq.test(a1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a1
## X-squared = 12.526, df = 1, p-value = 0.0004013
Vì p_value = 0.0004535 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận H1, nghĩa là charges và sex không độc lập với nhau.
Giả thuyết - Đối thuyết:
H0: charges và smoker độc lập với nhau
H1: charges và smoker không độc lập với nhau
a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
chisq.test(a2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a2
## X-squared = 1817.1, df = 1, p-value < 2.2e-16
Vì p_value = 2.2e-16 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận H1, nghĩa là charges và smoker không độc lập với nhau.
Giả thuyết - Đối thuyết:
H0: charges và region độc lập với nhau
H1: charges và region không độc lập với nhau
a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
chisq.test(a3)
##
## Pearson's Chi-squared test
##
## data: a3
## X-squared = 20.394, df = 3, p-value = 0.0001407
Vì p_value = 0.0001031 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận H1, nghĩa là charges và region không độc lập với nhau
a <- PTĐTmahoa[PTĐTmahoa$charges == '1',]
prop.test(length(a$charges), length(PTĐTmahoa$charges))
##
## 1-sample proportions test with continuity correction
##
## data: length(a$charges) out of length(PTĐTmahoa$charges), null probability 0.5
## X-squared = 604.99, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2499353 0.2831864
## sample estimates:
## p
## 0.2662338
b <- PTĐTmahoa[PTĐTmahoa$charges == '0',]
prop.test(length(b$charges), length(PTĐTmahoa$charges))
##
## 1-sample proportions test with continuity correction
##
## data: length(b$charges) out of length(PTĐTmahoa$charges), null probability 0.5
## X-squared = 604.99, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7168136 0.7500647
## sample estimates:
## p
## 0.7337662
Với độ tin cậy 95%, ta có tỷ lệ người được chi trả bảo hiểm y tế lớn hơn 15000 so với tổng thể nằm trong khoảng từ 24.99% đến 28.32%. Nói cách khác, tỷ lệ người được chi trả bảo hiểm y tế nhỏ hơn hoặc bằng 15000 so với tổng thể nằm trong khoảng từ 71.68% đến 75.01%.
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.1
library(epitools)
a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
riskratio(a1)
## $data
##
## 0 1 Total
## female 1044 322 1366
## male 990 416 1406
## Total 2034 738 2772
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## female 1.000000 NA NA
## male 1.255171 1.107707 1.422266
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## female NA NA NA
## male 0.0003400241 0.0003590528 0.0003407414
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Theo kết quả trên ta thấy tỷ lệ rủi ro tương đối của những người có chi phí bảo hiểm lớn hơn 15000 theo giới tính là 1.2552 tức là tỷ lệ rủi ro nam giới có chi phí bảo hiểm bằng 1.2552 lần tỷ lệ rủi ro nữ giới có chi phí bảo hiểm lớn hơn 15000
OddsRatio(a1)
## [1] 1.362394
Tỷ lệ nam giới có chi phí bảo hiểm 1 gấp 1.36 lần nữ giới có chi phí bảo hiểm 1
a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
riskratio(a2)
## $data
##
## 0 1 Total
## no 2020 188 2208
## yes 14 550 564
## Total 2034 738 2772
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 11.45315 9.98324 13.13948
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người có hút thuốc có mức chi phí bảo hiểm lớn hơn 15000 bằng 11.45 lần tỷ lệ người không hút thuốc có mức chi phí bảo hiểm lớn hơn 15000
OddsRatio(a2)
## [1] 422.1125
Tỷ lệ có hút thuốc có mức chi phí bảo hiểm lớn hơn 15000 cao hơn 422.1125 lần tỷ lệ không hút thuốc có mức chi phí bảo hiểm lớn hơn 15000
a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
riskratio(a3)
## $data
##
## 0 1 Total
## northeast 476 182 658
## northwest 496 168 664
## southeast 524 242 766
## southwest 538 146 684
## Total 2034 738 2772
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## northeast 1.0000000 NA NA
## northwest 0.9147359 0.7641592 1.0949835
## southeast 1.1421972 0.9717208 1.3425816
## southwest 0.7717049 0.6383970 0.9328497
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## northeast NA NA NA
## northwest 0.332113043 0.349917879 0.331171721
## southeast 0.105939062 0.116552244 0.105616431
## southwest 0.007215525 0.007618665 0.007125178
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Theo kết quả trên ta thấy tỷ lệ rủi ro tương đối của những người có chi phí bảo hiểm theo khu vực northwest là 0.9147359 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm bằng 0.9147359 lần tỷ lệ rủi ro ở khu vực khác.
Theo khu vực southeast là 1.1421972 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm cao hơn 1.1421972 lần tỷ lệ rủi ro ở khu vực khác.
Theo khu vực southwest là 0.7717049 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm bằng 0.7717049 lần tỷ lệ rủi ro ở khu vực khác.
Ta tiến hành ước lượng hàm hồi quy cho biến Charges phụ thuộc vào các biến độc lập. Đối với hàm hồi quy biến Charges phạm trù thứ hai của biến nhị phân thê hiện cho ” chi phí bảo hiểm y tế lớn hơn 15000” ở đây là “1”
charges<-PTĐTmahoa$charges
age<-PTĐTmahoa$age
sex<-PTĐTmahoa$sex
bmi<-PTĐTmahoa$bmi
children<-PTĐTmahoa$children
smoker<-PTĐTmahoa$smoker
region<-PTĐTmahoa$region
# Xác định thứ tự phạm trù của biến Charges
levels(factor(charges))
## [1] "0" "1"
PTĐTmahoa$charges<-as.factor(PTĐTmahoa$charges)
Nghĩa là kết quả của các mô hình sau đây giải thích kết quả về chi phí chi trả bảo hiểm y tế cho bệnh nhân ở mức 1 ( mức có giá trị chi trả là lớn hơn 15000 )
MH1 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'logit'), data = PTĐTmahoa)
summary(MH1)
##
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children +
## smoker + region, family = binomial(link = "logit"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.864960 0.479588 -10.144 < 2e-16 ***
## age 0.027466 0.005657 4.855 1.2e-06 ***
## sexmale 0.030496 0.149071 0.205 0.83790
## bmi 0.038807 0.012853 3.019 0.00253 **
## children 0.233203 0.056531 4.125 3.7e-05 ***
## smokeryes 6.357347 0.294742 21.569 < 2e-16 ***
## regionnorthwest 0.017936 0.205538 0.087 0.93046
## regionsoutheast -0.148468 0.210172 -0.706 0.47993
## regionsouthwest -0.634808 0.226649 -2.801 0.00510 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1353.9 on 2763 degrees of freedom
## AIC: 1371.9
##
## Number of Fisher Scoring iterations: 6
Dữ liệu gồm bảy biến, sau khi chạy mô hình logit nhận sáu biến: age, bmi, children, smoker, region
Mô hình tổng quát
\(logit(\pi) = log\frac{\pi}{1-\pi}= β0 + β1X1 + β2X2 + ⋯ + \βkXk\)
Sau khi chạy mô hình ta có mô hình sau
\(logit(\pi) = log\frac{\pi}{1-\pi}= -4.854365 + 0.027416age + 0.038549bmi + 0.233395children + 6.336254smoker - 0.635770region\)
Biến sex không có ý nghĩa nên loại khỏi mô hình ta chạy lại như sau
MH1a <- glm(factor(charges) ~ age + bmi + children + smoker + region , family = binomial(link = 'logit'), data = PTĐTmahoa)
summary(MH1a)
##
## Call:
## glm(formula = factor(charges) ~ age + bmi + children + smoker +
## region, family = binomial(link = "logit"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.849907 0.473878 -10.235 < 2e-16 ***
## age 0.027423 0.005652 4.852 1.22e-06 ***
## bmi 0.038868 0.012849 3.025 0.00249 **
## children 0.233099 0.056539 4.123 3.74e-05 ***
## smokeryes 6.359324 0.294567 21.589 < 2e-16 ***
## regionnorthwest 0.017309 0.205537 0.084 0.93289
## regionsoutheast -0.148455 0.210128 -0.706 0.47988
## regionsouthwest -0.634743 0.226621 -2.801 0.00510 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1353.9 on 2764 degrees of freedom
## AIC: 1369.9
##
## Number of Fisher Scoring iterations: 6
$ logit() = log= -4.854365 + 0.027423age + 0.038868bmi + 0.233099children + 6.359324smoker - 0.634743region $
MH2 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'probit'), data = PTĐTmahoa)
summary(MH2)
##
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children +
## smoker + region, family = binomial(link = "probit"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.592596 0.234145 -11.073 < 2e-16 ***
## age 0.013089 0.002751 4.758 1.95e-06 ***
## sexmale 0.019656 0.074320 0.264 0.79142
## bmi 0.019649 0.006425 3.058 0.00222 **
## children 0.113600 0.029005 3.917 8.98e-05 ***
## smokeryes 3.506260 0.130238 26.922 < 2e-16 ***
## regionnorthwest 0.023529 0.104220 0.226 0.82138
## regionsoutheast -0.055880 0.106055 -0.527 0.59827
## regionsouthwest -0.293474 0.110321 -2.660 0.00781 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1353.5 on 2763 degrees of freedom
## AIC: 1371.5
##
## Number of Fisher Scoring iterations: 7
Dữ liệu gồm bảy biến, sau khi chạy mô hình logit nhận sáu biến: age, bmi, children, smoker, region
Mô hình tổng quát Probit:
\(Probit(\pi) = \phi^(-1)(\pi) = β0 + β1X1 + β2X2 + ⋯ + βkXk\)
Sau khi chạy mô hình Probit ta có hàm hồi quy sau:
\(Probit(\pi) = \phi^(-1)(\pi) = -2.586361 + 0.013064age + 0.019491bmi + 0.113764children + 3.497167smoker - 0.294326region\)
Biến sex không có ý nghĩa nên loại khỏi mô hình
MH2a <- glm(factor(charges) ~ age + bmi + children + smoker + region , family = binomial(link = 'probit'), data = PTĐTmahoa)
summary(MH2a)
##
## Call:
## glm(formula = factor(charges) ~ age + bmi + children + smoker +
## region, family = binomial(link = "probit"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.584346 0.231583 -11.159 < 2e-16 ***
## age 0.013069 0.002749 4.754 1.99e-06 ***
## bmi 0.019714 0.006422 3.070 0.00214 **
## children 0.113507 0.029009 3.913 9.12e-05 ***
## smokeryes 3.507150 0.130056 26.967 < 2e-16 ***
## regionnorthwest 0.023731 0.104223 0.228 0.81988
## regionsoutheast -0.055670 0.106037 -0.525 0.59958
## regionsouthwest -0.293075 0.110301 -2.657 0.00788 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1353.5 on 2764 degrees of freedom
## AIC: 1369.5
##
## Number of Fisher Scoring iterations: 7
Mô hình viết lại sau khi loại biến sex như sau:
\(Probit(\pi) = \phi^(-1)(\pi) = -2.584346 + 0.013069age + 0.019714bmi + 0.113507children + 3.507150smoker - -0.293075region\)
MH3 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'cloglog'), data = PTĐTmahoa)
summary(MH3)
##
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children +
## smoker + region, family = binomial(link = "cloglog"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.241488 0.413559 -12.674 < 2e-16 ***
## age 0.025999 0.004857 5.353 8.63e-08 ***
## sexmale 0.072507 0.118168 0.614 0.5395
## bmi 0.047088 0.010547 4.465 8.02e-06 ***
## children 0.192840 0.048406 3.984 6.78e-05 ***
## smokeryes 4.328233 0.161702 26.767 < 2e-16 ***
## regionnorthwest 0.165172 0.170969 0.966 0.3340
## regionsoutheast 0.001916 0.170776 0.011 0.9910
## regionsouthwest -0.294411 0.170603 -1.726 0.0844 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1327.9 on 2763 degrees of freedom
## AIC: 1345.9
##
## Number of Fisher Scoring iterations: 9
Mô hình tổng quát của Cloglog:
\(Cloglog(\pi)=log(−log(1−\pi)) = β0 + β1X1 + β2X2 + ⋯ + βkXk\)
Sau khi chạy mô hình Cloglog có hàm hồi quy như sau:
\(Cloglog(\pi)=log(−log(1−\pi)) = -5.234095 + 0.025971age + 0.046919bmi + 0.192786children + 4.324558smoker\)
Biến sex và region không có ý nghĩa nên loại khỏi mô hình
MH3a <- glm(factor(charges) ~ age + bmi + children + smoker , family = binomial(link = 'cloglog'), data = PTĐTmahoa)
summary(MH3a)
##
## Call:
## glm(formula = factor(charges) ~ age + bmi + children + smoker,
## family = binomial(link = "cloglog"), data = PTĐTmahoa)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.145024 0.398619 -12.907 < 2e-16 ***
## age 0.025638 0.004797 5.345 9.06e-08 ***
## bmi 0.044969 0.009951 4.519 6.21e-06 ***
## children 0.190492 0.048488 3.929 8.54e-05 ***
## smokeryes 4.296481 0.157793 27.229 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 3212.6 on 2771 degrees of freedom
## Residual deviance: 1335.3 on 2767 degrees of freedom
## AIC: 1345.3
##
## Number of Fisher Scoring iterations: 8
\(Cloglog(\pi)=log(−log(1−\pi)) = -5.145024 + 0.025638age + 0.044969bmi + 0.190492children + 4.296481smoker\)
AIC và Deviance
Từ kết quả 3 mô hình hồi quy, ta có:
logit: AIC = 1369.9, Deviance = 1353.9
probit: AIC = 1369.5, Deviance = 1353.5
cloglog: AIC = 1345.3, Deviance = 1335.3
BrierScore
BrierScore(MH1a)
## [1] 0.06508482
BrierScore(MH2a)
## [1] 0.0651908
BrierScore(MH3a)
## [1] 0.06492114
Kết quả cho thấy giá trị các chỉ số AIC, Deviance, BrierScore của mô hình Cloglog là nhỏ nhất. Vậy mô hình Cloglog là phù hợp nhất.
library(caret)
## Warning: package 'caret' was built under R version 4.3.1
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following objects are masked from 'package:DescTools':
##
## MAE, RMSE
predictions <- predict(MH1a, newdata = PTĐTmahoa, type = "response")
predicted_classes <- ifelse(predictions > 0.5, "1", "0")
predictions1<-factor(predicted_classes, levels = c("0","1"))
actual<- factor(PTĐTmahoa$charges, labels = c("0","1"))
confusionMatrix(table(predictions1, actual))
## Confusion Matrix and Statistics
##
## actual
## predictions1 0 1
## 0 2020 188
## 1 14 550
##
## Accuracy : 0.9271
## 95% CI : (0.9168, 0.9365)
## No Information Rate : 0.7338
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.7983
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9931
## Specificity : 0.7453
## Pos Pred Value : 0.9149
## Neg Pred Value : 0.9752
## Prevalence : 0.7338
## Detection Rate : 0.7287
## Detection Prevalence : 0.7965
## Balanced Accuracy : 0.8692
##
## 'Positive' Class : 0
##
predictions <- predict(MH2a, newdata = PTĐTmahoa, type = "response")
predicted_classes <- ifelse(predictions > 0.5, "1", "0")
predictions1<-factor(predicted_classes, levels = c("0","1"))
actual<- factor(PTĐTmahoa$charges, labels = c("0","1"))
confusionMatrix(table(predictions1, actual))
## Confusion Matrix and Statistics
##
## actual
## predictions1 0 1
## 0 2020 188
## 1 14 550
##
## Accuracy : 0.9271
## 95% CI : (0.9168, 0.9365)
## No Information Rate : 0.7338
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.7983
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9931
## Specificity : 0.7453
## Pos Pred Value : 0.9149
## Neg Pred Value : 0.9752
## Prevalence : 0.7338
## Detection Rate : 0.7287
## Detection Prevalence : 0.7965
## Balanced Accuracy : 0.8692
##
## 'Positive' Class : 0
##
library(caret)
predictions <- predict(MH3a, newdata = PTĐTmahoa, type = "response")
predicted_classes <- ifelse(predictions > 0.5, "1", "0")
predictions1<-factor(predicted_classes, levels = c("0","1"))
actual<- factor(PTĐTmahoa$charges, labels = c("0","1"))
confusionMatrix(table(predictions1, actual))
## Confusion Matrix and Statistics
##
## actual
## predictions1 0 1
## 0 2020 188
## 1 14 550
##
## Accuracy : 0.9271
## 95% CI : (0.9168, 0.9365)
## No Information Rate : 0.7338
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.7983
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9931
## Specificity : 0.7453
## Pos Pred Value : 0.9149
## Neg Pred Value : 0.9752
## Prevalence : 0.7338
## Detection Rate : 0.7287
## Detection Prevalence : 0.7965
## Balanced Accuracy : 0.8692
##
## 'Positive' Class : 0
##
Cả ba mô hình giải thích được 92.68%, độ nhạy 99.31%, độ hiệu quả 74.03%. Và giá trị các chỉ số AIC, Deviance, BrierScore của mô hình Cloglog là nhỏ nhất. Vậy mô hình Cloglog là phù hợp nhất.
Chi phí bảo hiểm y tế là một trong những vấn đề quan tâm của nhiều người khi tham gia bảo hiểm sức khỏe. Qua nghiên cứu, tôi đã phát hiện ra có bốn yếu tố chính ảnh hưởng đến chi phí bảo hiểm y tế, đó là: độ tuổi, giới tính, số con trong gia đình,những người hút thuốc. Các yếu tố này có thể làm tăng hoặc giảm chi phí bảo hiểm y tế của cá nhân hoặc hộ gia đình. Hút thuốc lá là nguyên nhân gây tử vong hàng đầu có thể ngăn ngừa được ở Hoa Kỳ. Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) ước tính rằng hút thuốc lá giết chết khoảng 419.000 người ở Hoa Kỳ mỗi năm. Hút thuốc lá là nguyên nhân gây tử vong sớm của quốc gia và chịu trách nhiệm cho một phần ba số ca tử vong ở người Mỹ trong độ tuổi lao động. Hút thuốc lá gây nghiện cả về tâm lý và sinh lý. Nó là một yếu tố nguy cơ quan trọng đối với các bệnh tim mạch, đặc biệt là bệnh động mạch vành, đột quỵ, ung thư biểu mô phổi, viêm phế quản mãn tính, bệnh phổi tắc nghẽn mãn tính và khí thũng. Ngoài ra, tăng nguy cơ mắc bệnh mạch máu ngoại biên và có liên quan đến ung thư thanh quản, khoang miệng, thực quản, tụy và bàng quang. Phụ nữ mang thai hút thuốc có thể gây ra những ảnh hưởng xấu đến sức khỏe của trẻ sơ sinh như nhẹ cân và sinh non; tăng nguy cơ sảy thai; và cũng được phát hiện là một nguyên nhân quan trọng gây ra hội chứng đột tử ở trẻ sơ sinh. Hút thuốc bất cẩn cũng có thể gây bỏng nặng và tử vong. Nhiều tác dụng phụ của việc hút thuốc xảy ra ở những người hút thuốc “thứ cấp” (Nair, A K Nair ,Jr E N Brandt(2000)). Ở Hoa Kỳ đương đại, nam giới có tỷ lệ tử vong cao hơn 60% so với nữ giới. 40 phần trăm của sự khác biệt về tỷ lệ tử vong theo giới tính này là do tỷ lệ mắc bệnh tim do xơ cứng động mạch ở nam giới tăng gấp đôi. Nguyên nhân chính của tỷ lệ mắc bệnh tim do xơ cứng động mạch cao hơn ở nam giới bao gồm hút thuốc lá nhiều hơn ở nam giới; tỷ lệ phổ biến cao hơn của Mô hình hành vi dễ bị mạch vành cạnh tranh, hung hăng ở nam giới; và có thể là vai trò bảo vệ của nội tiết tố nữ. Ngoài ra, nam giới có tỷ lệ tử vong do ung thư phổi và khí thũng cao hơn, đặc biệt là do có nhiều nam giới hút thuốc lá hơn. Ngoài ra, tỷ lệ nam giới có tuổi thọ thấp hơn nữ giới vì một số nguyên nhân như : tai nạn, tự tử và xơ gan. Mỗi hành vi này đều liên quan đến những hành vi được khuyến khích hoặc chấp nhận ở nam giới nhiều hơn ở nữ giới trong xã hội của chúng ta — ví dụ: sử dụng súng, thích phiêu lưu và hành động không sợ hãi, làm những công việc nguy hiểm và uống rượu. Tôi kết luận với các đề xuất để giảm tỷ lệ tử vong ở nam giới; ví dụ, bằng cách thay đổi các điều kiện xã hội thúc đẩy ở nam giới những hành vi làm tăng tỷ lệ tử vong của họ (I Waldron, & S Johnston (1976)). Do đó, người tham gia bảo hiểm cần cân nhắc kỹ các yếu tố này khi lựa chọn gói bảo hiểm phù hợp với nhu cầu và khả năng của mình. Bằng cách này, họ có thể tiết kiệm chi phí và được bảo vệ sức khỏe một cách hiệu quả.
Bộ dữ liệu được thu thập từ nước ngoài được đăng tải trên internet và lấy từ cuộc khảo sát google form nên tỷ lệ chính xác sẽ không tuyệt đối. Đó cũng chính là nguyên nhân dẫn trong quá trình nghiên cứu, làm xuất hiện các biến NA không xác định. Hơn nữa kinh nghiệm của sinh viên còn hạn chế nên khi thực hiện nghiên cứu bằng phần mềm R còn nhiều thiếu sót và có chỗ chưa chính xác.
[1] A K Nair ,Jr E N Brandt(2000). Effects of smoking on health care costs. The Journal of the Oklahoma State Medical Association, 93(6), 245-250.
[2] I Waldron, & S Johnston (1976). Why do women live longer than men?. Journal of human stress, 2(2), 19-30.