1 LỜI CẢM ƠN

Lời nói đầu tiên em xin gửi lời cảm ơn đến Trường Đại học Tài chính – Marketing, đặc biệt là các thầy cô khoa

Kinh tế - Luật đã đưa học phần Phân tích dữ liệu định tính vào chương trình đào tạo để em có kiến thức mới để chuẩn bị hành trang sau này. Hơn thế nữa, em xin gửi lời cảm ơn chân thành và sâu sắc nhất khi được giảng viên hướng dẫn

là thầy ThS.Trần Mạnh Tường đã chỉ dẫn hỗ trợ để em có thể hoàn thành bài kết thúc học phần được chỉnh chu nhất.

Tuy nhiên, do thời gian tiểu luận còn hạn chế và khả năng tiếp cận thực tế còn ít nên dù đã cố gắng nhưng bài

cũng không tránh khỏi những sai sót, những điểm không chính xác. Em kính mong giảng viên xem xét và góp ý để bài

được hoàn thiện tốt hơn.

Em xin chân thành cảm ơn!

2 LỜI MỞ ĐẦU

2.1 Lý do chọn đề tài

Sức khỏe tốt là nền tảng cơ bản của một cuộc sống vui vẻ, hạnh phúc, là cơ sở quan trọng để mỗi người thực hiện ý tưởng, ước mơ, nguyện vọng của cuộc đời mình.Bởi nếu bệnh tật, ốm đau, chúng ta thường sẽ không còn đủ sức khỏe,

tâm trí nào mà lo lắng, suy nghĩ đến những việc khác. Đó là chưa nói đến chuyện bệnh tật còn khiến con người tiêu

hao tiền bạc, của cải, ảnh hưởng đến những người thân trong gia đình, xã hội mất đi một người khỏe mạnh. Do đó, sức khỏe chính là chiếc chìa khóa quan trọng nhất mở ra cánh cửa hạnh phúc cho mỗi người. Xã hội ngày càng phát triển,

tình trạng ô nhiễm môi trường từ giao thông đi lại hay khi thải của các nhà máy đã phần nào làm ảnh hưởng đến sức

khỏe của con người. Thời đại công nghiệp hóa, hiện đại hóa không thể nào thiếu đi bảo hiểm y tế để chăm sóc sức

khỏe của mình. Nó như một phao cứu sinh trước những bệnh tật và sự ảnh hưởng từ lo lắng chi phí chữa bệnh. Bởi tính cấp thiết của nó, em chọn đề tài cho bài nghiên cứu đó là ” Các yếu tố ảnh hưởng đến việc chi trả chi phí bảo hiểm

y tế”.

2.2 Mục tiêu nghiên cứu

Phân tích các yếu tố ảnh hưởng đến chi phí bảo hiểm y tế

Yếu tố cốt lõi ảnh hưởng đến chi phí bảo hiểm y tế

2.3 Đối tượng và phạm vi nghiên cứu

2.3.1 Đối tượng nghiên cứu

2.3.2 Phạm vi nghiên cứu

2.4 Phương pháp nghiên cứu

2.5 Kết cấu nghiên cứu

3 CHƯƠNG 1 TỔNG QUAN LÝ THUYẾT

3.1 Cơ sở lý thuyết

3.1.1 Bảo hiểm y tế

  • Bảo hiểm y tế (BHYT) là chính sách an sinh xã hội ưu việt của Đảng và Nhà nước, mang ý nghĩa nhân văn, nhân đạo và có tính chia sẻ cộng đồng sâu sắc. BHYT do Nhà nước tổ chức thực hiện không vì mục đích lợi nhuận, nhằm huy động sự đóng góp của cộng đồng, chia sẻ rủi ro bệnh tật và giảm bớt gánh nặng tài chính của mỗi người dân khi ốm đau, bệnh tật, tai nạn…thực hiện công bằng và nhân đạo trong lĩnh vực bảo vệ và chăm sóc sức khỏe nhân dân. Thẻ BHYT thật sự là phao cứu sinh. Nhờ tham gia và có thẻ BHYT, nhiều trường hợp không may bị tai nạn, ốm đau đã vượt qua được giai đoạn khó khăn khi đó quỹ BHYT chi trả các chi phí khám và điều trị bệnh, thậm chí có những người bệnh có chi phí khám chữa bệnh KCB) lên tới hàng tỷ đồng/đợt điều trị.

  • Quyền lợi khi tham gia bảo hiểm y tế

Được chọn nơi đăng ký khám bệnh, chữa bệnh (KCB) ban đầu tại tuyến xã, huyện và theo hướng dẫn của cơ quan BHXH (Trạm Y tế, Trung tâm Y tế học đường hoặc Phòng khám đa khoa…).

Được chăm sóc sức khỏe ban đầu.

Được khám chữa bệnh, sơ cứu, cấp cứu khi bị tai nạn, ốm đau tại nơi đăng ký KCB ban đầu và được chuyển lên KCB ở các tuyến chuyên môn kỹ thuật cao hơn khi bệnh vượt quá khả năng của tuyến dưới.

Trường hợp cấp cứu, tai nạn người có thẻ BHYT được khám, điều trị tại bất kỳ cơ sở y tế nào có hợp đồng KCB BHYT.

3.1.2 Phân phối Poison - Poisson Distribution

Phân phối Poisson là một phân phối xác suất trong thống kê được sử dụng để mô hình hóa số sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định khi tỷ lệ xảy ra sự kiện là không đổi.

Trong R, có thể sử dụng các hàm tính toán và mô phỏng phân phối Poisson.

Phân phối Poisson được mô tả bởi hai tham số:

λ: là trung bình số lần xảy ra của sự kiện trong mỗi khoảng thời gian.

k: là số lần xảy ra của sự kiện trong khoảng thời gian.

Biến ngẫu nhiên X có phân phối Poisson là biến ngẫu nhiên dùng để mô tả cho số lần xảy ra của một sự việc/biến cố mà chúng ta quan tâm xảy ra trong một khoảng thời gian hoặc không gian cho trước. Xác suất để biến ngẫu nhiên này nhận một giá trị cụ thể được tính bằng công thức:

\(P(X=k)=\frac{e^-λλ^k}{k!}\) với k=0,1,2,3,…

Khi đó ta viết \(X\~P(λ)\) để chỉ rằng X là biến ngẫu nhiên có phân phối Poisson với tham số λ

3.1.3 Phân phối nhị thức - Binomial distribution

  • Định nghĩa

Phân phối nhị thức là một phân phối xác suất cho số lần xảy ra của một sự kiện thành công trong một số lần thử cố định, khi mỗi lần thử là độc lập và xác suất thành công là như nhau và bằng p trong mỗi lần thử.

Khi đó xác suất để X nhận một giá trị cụ thể là

$P(X=k)= C_nkpk(1-p) ^ (n-k) $

Phân phối nhị thức được mô tả bởi ba tham số:

n: là số lần thử cố định.

p: là xác suất thành công trong mỗi lần thử.

k: là số lần thành công.

  • Ứng dụng

Tung đồng xu 10 lần, xác suất 3 lần mặt ngửa

Số cuộc gọi điện thoại đến trong 30 ngày

Số mail gửi tự động trong 50 mail nhận được

3.1.4 Mô hình hồi quy Logistic

Cho một tần số biến cố x ghi nhận từ n đối tượng, chúng ta có thể tính xác suất của biến cố đó là:

\(p=\frac{x}{n}\)

p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách thể hiện nguy cơ khác là odds(Tạm dịch : Khả năng). Khả năng của một biến cố được định nghĩa đơn giản bằng tỉ số xácsuất biến cố xảy ra trên xác suất biến cố không xảy ra:

\(odds=\frac{p}{1-p}\)

Hàm logit của odds được định nghĩa như sau:

\(logit(p)=log\frac{p}{1-p}\)

3.1.5 Mô hình hồi quy Probit

Hồi quy Probit hay còn được gọi là mô hình Probit, được sử dụng để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy Probit, xem hàm xác suất \(\pi(x)\) hoặc $ 1-(x)$ là hàm phân phối xác suất của một biến ngẫu nhiên X có phân phối chuẩn tức là xác suất Thành công có dạng

\(\pi(x)=\phi(\alpha+\beta(x))\)

Trong đó : \(\phi(x)=(\frac1{\sqrt2\phi}\int_\infty^x \mathrm{e}^{-1/2}\,t^2\)

Kí hiệu:

\(Probit(\pi(x))=\phi^-1(\pi(x))\) và mô hình Probit được viết dưới dạng

\(Probit(\pi(x))=\alpha + betax\)

3.1.6 Mô hình hồi quy Cloglog

3.1.7 Bảng tần số - Bảng tần suất

  • Bảng tần số hay còn gọi là bảng tần suất là một cách thống kê số lần xuất hiện của các giá trị khác nhau trong một tập dữ liệu. Bảng này giúp ta có cái nhìn tổng quan về sự phân bố của dữ liệu và tiện lợi cho việc tính toán sau này.

  • Bảng tần số có thể được lập theo dạng ngang hoặc dọc, và có thể bao gồm các thông tin như tần số tuyệt đối, tần số tương đối, tần số tích lũy, phần trăm,…

  • Bảng tần số có nhiều công dụng trong thống kê mô tả và phân tích dữ liệu. Bảng tần số giúp người điều tra dễ có những nhận xét chung về sự phân phối của các giá trị của dấu hiệu, như giá trị lớn nhất, giá trị nhỏ nhất, giá trị có tần số cao nhất. Bảng tần số cũng tiện lợi cho việc tính toán các chỉ số thống kê khác, như trung bình, độ lệch chuẩn,mphương sai. Bảng tần số cũng là cơ sở để vẽ các biểu đồ thống kê, như biểu đồ cột, biểu đồ hình quạt, biểu đồ hình bánh,…

3.1.8 Độ nhạy & độ đặc hiệu

Độ nhạy và độ đặc hiệu là hai chỉ số được sử dụng để đánh giá hiệu suất của một xét nghiệm y tế. Độ nhạy là khả năng của xét nghiệm phát hiện những người thực sự mắc bệnh, trong khi độ đặc hiệu là khả năng của xét nghiệm loại trừ những người không mắc bệnh. Độ nhạy (sensitivity) của một thí nghiệm: Là tỷ lệ (%) của số ca bị bệnh thực sự khi xét nghiệm và cho kết quả dương tính với tổng số ca bị bệnh. Công thức để tính độ nhạy:

Độ nhạy = số dương tính thật/(số đương tính thật + số âm tính giả)

Độ đặc hiệu (specificity) của một thí nghiệm: Là tỷ lệ (%) của số ca không bị bệnh và kết quả xét nghiệm không bị bệnh với tổng số người không bị bệnh. Công thức tính độ đặc hiệu:

Độ đặc hiệu = Số trường hợp âm tính thật/ (số trường hợp âm tính thật + số trường hợp dương tính giả)

Độ nhạy và độ đặc hiệu là hai chỉ số quan trọng để đánh giá hiệu suất của một xét nghiệm y tế. Tuy nhiên, cần lưu ý rằng độ nhạy và độ đặc hiệu có thể thay đổi tùy thuộc vào từng xét nghiệm. Ngoài ra, độ nhạy và độ đặc hiệu không phải lúc nào cũng là những chỉ số quan trọng nhất để đánh giá hiệu suất của một xét nghiệm. Trong một số trường hợp, các yếu tố khác, chẳng hạn như giá trị tiên đoán âm tính (NPV) và giá trị tiên đoán dương tính (PPV), có thể quan trọng hơn.

3.1.9 Rủi ro tương đối (relative risk)

Sự khác biệt giữa hai tỷ lệ \(\pi_{1}\)\(\pi_{2}\) được đánh giá qua sai số tuyệt đối (-) chỉ dựa vào khoảng cách giwuax hai tỷ lệ này mà bỏ qua độ lớn và ý nghĩa của chúng, nghĩa là khoảng cách như nhau thì đánh giá sai lệch như nhau. Chẳng hạn khi \(\pi_{1} = 0.01\)\(\pi_{2} = 0.001\) và khi \(\pi_{1} =0.410\)\(\pi_{2}=0.401\) đều được đánh giá là có sai lệch như nhau cùng mức sai lệch 0.009). Tuy nhiên nếu chỉ dựa vào khoảng cách này để đánh giá, so sánh hai tương quan giữa hai tỷ lệ thì không đủ, thậm chí sẽ bỏ qua những ý nghĩa quan trọng của sự tương quan giữa chúng, đặc biệt là khi hai tỷ lệ này cùng gần 0 hoặc cùng gần 1 hoặc cùng gần 0.5.

3.1.10 Tỷ lệ chênh (Odd Ratio)

Tỷ lệ chênh là một chỉ số được sử dụng để đo cường độ của mối quan hệ giữa hai biến phân loại. OR được tính bằng cách chia tỷ lệ chênh dương cho tỷ lệ chênh âm. OR thường được sử dụng trong các nghiên cứu quan sát, trong đó các nhà nghiên cứu quan sát các biến số mà không cố gắng kiểm soát chúng. OR không phải là một ước lượng chính xác của nguy cơ tuyệt đối, nhưng nó có thể được sử dụng để đánh giá nguy cơ tương đối của các kết quả khác nhau. OR được biểu thị dưới dạng số. Nếu OR lớn hơn 1, điều đó có nghĩa là biến phân loại đầu tiên có liên quan đến kết quả. Nếu OR bằng 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu OR nhỏ hơn 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là \(\pi_i\) thì chúng ta kí hiệu Tỷ lệ cược (odd) của biểu hiện này là \(odd_i\) và được định nghĩa như sau:

\(odd_i=\frac{\pi_i}{1-\pi_i}\)

Nghĩa là chúng ta tính tỷ lệ thành công theo từng hàng trong bảng ngẫu nhiên.Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được kí hiệu là

\(\theta_ij\)

và được định nghĩa

\(\theta_ij=\frac{\frac{\pi_i}{1-\pi_i}}{\frac{\pi_i}{1-\pi_i}}\)

OR là một chỉ số quan trọng để đánh giá mối quan hệ giữa hai biến phân loại. Tuy nhiên, cần lưu ý rằng OR không phải lúc nào cũng là chỉ số duy nhất cần xem xét. Trong một số trường hợp, các chỉ số khác, chẳng hạn như nguy cơ tuyệt đối, có thể quan trọng hơn.

4 CHƯƠNG 2 THIẾT KẾ NGHIÊN CỨU

4.1 Dữ liệu nghiên cứu

Dữ liệu được lấy từ website: kaggle.com, bộ số liệu liên quan đến việc chi trả bảo hiểm y tế cho con người ở bốn khu vực như sau northeast, southeast, southwest, northwest có tổng số quan sát là 2758 gồm bảy cột: Age, Sex, BMI, Children, Smoker, Region và Charges.

4.1.1 Bộ dữ liệu

library(readxl)
## Warning: package 'readxl' was built under R version 4.3.1
PTĐT <- read_excel("D:/PTĐT.xlsx")
View(PTĐT)

4.1.2 Bộ dữ liệu sau khi mã hóa

Mã hóa biến định lượng charges thành biến định tính. Nếu giá trị chi phí y tế nhỏ hơn hoặc bằng 15000 ta quy ước là 0.

Nếu giá trị chi phí y tế lớn hơn 15000 ta quy ước là 1.

PTĐTmahoa<-subset(PTĐT, charges < 50000)
dim(PTĐTmahoa)
## [1] 2758    7
PTĐTmahoa$charges[PTĐTmahoa$charges <=15000]<-0
PTĐTmahoa$charges[PTĐTmahoa$charges >15000]<-1
head(PTĐTmahoa)
## # A tibble: 6 × 7
##     age sex      bmi children smoker region    charges
##   <dbl> <chr>  <dbl>    <dbl> <chr>  <chr>       <dbl>
## 1    19 female  27.9        0 yes    southwest       1
## 2    18 male    33.8        1 no     southeast       0
## 3    28 male    33          3 no     southeast       0
## 4    33 male    22.7        0 no     northwest       1
## 5    32 male    28.9        0 no     northwest       0
## 6    31 female  25.7        0 no     southeast       0
View(PTĐTmahoa)

4.1.3 Mô tả dữ liệu

Bộ dữ liệu gồm 2772 quan sát với 7 biến trong đó có 3 biến định tính và 4 biến định lượng

  • age: Tuổi của người thụ hưởng

  • sex: Giới tính của người tham gia (Male/ Female)

  • bmi: Chỉ số khối cơ thể (BMI - Body mass index) là một phép tính dựa trên chiều cao và cân nặng, giúp xác định xem một người có cân nặng chuẩn, nhẹ cân, thừa cân hay béo phì. BMI không đo trực tiếp lượng chất béo trong cơ thể, nhưng BMI có thể đánh giá tương đối về lượng chất béo trong cơ thể. Hơn nữa, BMI còn có liên quan đến nguy cơ mắc bệnh chuyển hóa hoặc nhiều bệnh lý khác nhau do tình trạng nhẹ cân hoặc béo phì. BMI người bình thường dao động khoảng 18.5-24.9

  • children: Số con tham gia bảo hiểm/ Người phụ thuộc

  • smoker: Hút thuốc ( Yes/No)

  • region: Khu vực cư trú của người thụ hưởng ở Mỹ, đông bắc, đông nam, tây nam, tây bắc.

  • charges: Chi phí y tế cá nhân do bảo hiểm y tế thanh toán

4.1.4 Xác định biến phụ thuộc

Với mục đích phân tích các yếu tố ảnh hưởng đến chi phí bảo hiểm y tế, sử dụng các biến định lượng và định tính như sau :

4.1.4.1 Biến định lượng

Chọn biến Age, BMI, Children làm biến định lượng để nghiên cứu rằng có phải các biến ảnh hưởng trực tiếp đến chi phí y tế hay không?

4.1.4.2 Biến định tính

Chọn biến Charges làm biến định tính để nghiên cứu xem chi phí bảo hiểm dựa vào yếu tố nào?

5 Thống kê mô tả và thống kê suy diễn

summary(PTĐTmahoa)
##       age            sex                 bmi           children    
##  Min.   :18.00   Length:2758        Min.   :15.96   Min.   :0.000  
##  1st Qu.:26.00   Class :character   1st Qu.:26.20   1st Qu.:0.000  
##  Median :39.00   Mode  :character   Median :30.40   Median :1.000  
##  Mean   :39.09                      Mean   :30.67   Mean   :1.104  
##  3rd Qu.:51.00                      3rd Qu.:34.75   3rd Qu.:2.000  
##  Max.   :64.00                      Max.   :53.13   Max.   :5.000  
##     smoker             region             charges      
##  Length:2758        Length:2758        Min.   :0.0000  
##  Class :character   Class :character   1st Qu.:0.0000  
##  Mode  :character   Mode  :character   Median :0.0000  
##                                        Mean   :0.2625  
##                                        3rd Qu.:1.0000  
##                                        Max.   :1.0000

5.1 Thống kê mô tả

5.1.1 Thống kê mô tả cho một biến

5.1.1.1 Biến Children

  • Bảng tần số
table(PTĐTmahoa$children)
## 
##    0    1    2    3    4    5 
## 1178  668  496  322   52   42

Kết quả cho thấy, gia đình không có con tham gia bảo hiểm là 1178 người, gia đình có một con tham gia bảo hiểm y tế là 668 người, gia đình có hai con tham gia bảo hiểm y tế là 496 người, gia đình có ba con tham gia bảo hiểm y tế là 322 người, gia đình có bốn con tham gia bảo hiểm y tế là 52 người, gia đình có năm con tham gia bảo hiểm y tế là 42 người.

  • Bảng tần suất
table(PTĐTmahoa$children)/sum(table(PTĐTmahoa$children))
## 
##          0          1          2          3          4          5 
## 0.42712110 0.24220450 0.17984046 0.11675127 0.01885424 0.01522843

Kết quả cho thấy, gia đình có con không tham gia bảo hiểm chiếm gần bằng 42.71%, gia đình có một con tham gia bảo hiểm y tế chiếm gần bằng 24.22%, gia đình có hai con tham gia bảo hiểm y tế chiếm 17.98%, gia đình có ba con tham gia bảo hiểm y tế chiếm gần bằng 11.68%, gia đình có bốn con tham gia bảo hiểm y tế chiếm gần bằng 1.88% , gia đình có năm con tham gia bảo hiểm y tế chiếm gần bằng 1.52%.

  • Đồ thị
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.1
PTĐTmahoa |> ggplot( aes( x = children, y= after_stat(count))) + geom_bar(fill='lightpink') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số con') + ylab('Tỷ lệ')

5.1.1.2 Biến Age

  • Bảng tần số
table(PTĐTmahoa$age)
## 
##  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37 
## 148 142  58  60  60  62  56  58  60  58  58  54  56  52  56  52  52  50  50  52 
##  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57 
##  50  54  54  56  54  54  56  60  60  62  58  56  58  60  60  58  58  52  56  54 
##  58  59  60  61  62  63  64 
##  52  52  44  46  48  46  46
Kết quả cho thấy, độ tuổi tham gia bảo hiểm y tế từ 18 đến 64 tuổi, ở độ tuổi 18 tuổi có 148 người 

tham gia, ở độ tuổi 19 tuổi có 142 người tham gia, ở độ tuổi 20 tuổi có 58 người tham gia, ở độ tuổi

21 tuổi có 60 người tham gia, ở độ tuổi 22 tuổi có 60 người tham gia, ở độ tuổi 23 tuổi có 62 người

tham gia, ở độ tuổi 24 tuổi có 56 người tham gia, ở độ tuổi 25 tuổi có 58 người tham gia, ở độ tuổi 26 tuổi có 60 người tham gia, ở độ tuổi 27 tuổi có 58 người tham gia ở độ tuổi 28 tuổi có 60 người tham

gia, ở độ tuổi 29 tuổi có 54 người tham gia, ở độ tuổi 30 tuổi có 56 người tham, ở độ tuổi 31 tuổi có

54 người tham gia, ở độ tuổi 32 tuổi có 56 người tham gia, ở độ tuổi 33 tuổi có 54 người tham gia, ở

độ tuổi 34 tuổi có 52 người tham gia, ở độ tuổi 35 tuổi có 50 người tham gia, ở độ tuổi 36 tuổi có 50

người tham gia, ở độ tuổi 37 tuổi có 52 người tham gia, ở độ tuổi 38 tuổi có 50 người tham gia,ở độ

tuổi 39 tuổi có 54 người tham gia, ở độ tuổi 40 tuổi có 54 người tham gia, ở độ tuổi 41 tuổi có 56

người tham gia, ở độ tuổi 42 tuổi có 54 người tham gia, ở độ tuổi 43 tuổi có 54 người tham gia, ở độ

tuổi 44 tuổi có 56 người tham gia, ở độ tuổi 45 tuổi có 62 người tham gia, ở độ tuổi 46 tuổi có 60

người tham gia, ở độ tuổi 47 tuổi có 62 người tham gia, ở độ tuổi 48 tuổi có 58 người tham gia, ở độ

tuổi 49 tuổi có 56 người tham gia, ở độ tuổi 50 tuổi có 58 người tham gia, ở độ tuổi 51 tuổi có 60

người tham gia, ở độ tuổi 52 tuổi có 62 người tham gia, ở độ tuổi 53 tuổi có 58 người tham gia, ở độ

tuổi 54 tuổi có 60 người tham gia, ở độ tuổi 55 tuổi có 52 người tham gia, ở độ tuổi 56 tuổi có 56

người tham gia, ở độ tuổi 57 tuổi có 58 người tham gia, ở độ tuổi 58 tuổi có 52 người tham gia, ở độ

tuổi 59 tuổi có 52 người tham gia, ở độ tuổi 60 tuổi có 46 người tham gia, ở độ tuổi 61 tuổi có 46

người tham gia, ở độ tuổi 62 tuổi có 48 người tham gia, ở độ tuổi 63 tuổi có 46 người tham gia, ở độ

tuổi 64 tuổi có 46 người tham gia.

  • Bảng tần suất
table(PTĐTmahoa$age)/sum(table(PTĐTmahoa$age))
## 
##         18         19         20         21         22         23         24 
## 0.05366207 0.05148658 0.02102973 0.02175489 0.02175489 0.02248006 0.02030457 
##         25         26         27         28         29         30         31 
## 0.02102973 0.02175489 0.02102973 0.02102973 0.01957941 0.02030457 0.01885424 
##         32         33         34         35         36         37         38 
## 0.02030457 0.01885424 0.01885424 0.01812908 0.01812908 0.01885424 0.01812908 
##         39         40         41         42         43         44         45 
## 0.01957941 0.01957941 0.02030457 0.01957941 0.01957941 0.02030457 0.02175489 
##         46         47         48         49         50         51         52 
## 0.02175489 0.02248006 0.02102973 0.02030457 0.02102973 0.02175489 0.02175489 
##         53         54         55         56         57         58         59 
## 0.02102973 0.02102973 0.01885424 0.02030457 0.01957941 0.01885424 0.01885424 
##         60         61         62         63         64 
## 0.01595359 0.01667875 0.01740392 0.01667875 0.01667875

Kết quả được tính từ bảng tần số chuyển sang tỷ lệ phần trăm cho biến age

  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = age, y= after_stat(count))) + geom_bar(fill='lightblue') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số tuổi') + ylab('Tỷ lệ')

5.1.1.3 Biến sex

  • Bảng tần số
table(PTĐTmahoa$sex)
## 
## female   male 
##   1360   1398

Kết quả cho thấy, giới tính nữ tham gia bảo hiểm y tế là 1360 người, giới tính nam tham gia bảo hiểm y tế là 1398 người.

  • Bảng tần suất
table(PTĐTmahoa$sex)/sum(table(PTĐTmahoa$sex))
## 
##    female      male 
## 0.4931109 0.5068891

Kết quả cho thấy, giới tính nữ tham gia bảo hiểm y tế chiếm 49.31%, giới tính nam tham gia bảo hiểm y

tế chiếm 50.69%

  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = sex, y= after_stat(count))) + geom_bar(fill='lightgreen') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Giới tính') + ylab('Tỷ lệ')

5.1.2 Biến BMI

  • Bảng tần số
table(PTĐTmahoa$bmi)
## 
##  15.96 16.815 17.195  17.29 17.385   17.4  17.48  17.67 17.765   17.8  17.86 
##      2      4      2      6      2      2      2      2      2      2      2 
## 17.955  18.05   18.3 18.335   18.5   18.6 18.715 18.905     19 19.095  19.19 
##      2      2      2      6      2      2      4      2      2      2      2 
##   19.3 19.475  19.57   19.8 19.855  19.95 20.045   20.1  20.13 20.235   20.3 
##      2      2      2      6      4     12      4      4      2      8      2 
##  20.35   20.4 20.425  20.52   20.6 20.615   20.7  20.79   20.8   20.9  21.01 
##      2      2      2      4      4      2      2      2      4      4      2 
##  21.09  21.12  21.28   21.3 21.375   21.4  21.47   21.5  21.56 21.565  21.66 
##      2      2      4      2      4      4      6      2      2      2      6 
##   21.7 21.755  21.78   21.8  21.85  21.89 21.945     22  22.04   22.1 22.135 
##      2      8      4      2      8      2      2      2      2      2      8 
##  22.22  22.23   22.3  22.42 22.515   22.6  22.61 22.705  22.77   22.8  22.88 
##      2      4      4      6     10      4      8      8      2      4      2 
## 22.895  22.99     23 23.085   23.1  23.18   23.2  23.21 23.275   23.3  23.32 
##      8      6      2      4      2     10      2     12      2      2      4 
##  23.37   23.4 23.465  23.54  23.56   23.6  23.65 23.655   23.7  23.75  23.76 
##      6      6      4      2      4      4      2     10      4      6      2 
##   23.8 23.845  23.87   23.9  23.94  23.98 24.035  24.09   24.1  24.13 24.225 
##      2      8      2      2      2      6      6      2      4      8      8 
##   24.3  24.31  24.32   24.4 24.415  24.42  24.51  24.53   24.6 24.605  24.64 
##      8      4     14      2      2      6      6      2      8      8      2 
##   24.7  24.75 24.795  24.86  24.89  24.97 24.985     25  25.08   25.1 25.175 
##      8      2      8      4      2      2      4      4     10      2     12 
##   25.2  25.27   25.3 25.365   25.4  25.41  25.46  25.52 25.555   25.6  25.65 
##      2      6     10      6      2      2     14      2      6      8      2 
##   25.7  25.74 25.745   25.8  25.84  25.85   25.9 25.935  26.03  26.07 26.125 
##      6      8      6     16     10      2      6      6     12      2      8 
##  26.18   26.2  26.22  26.29 26.315   26.4  26.41 26.505  26.51   26.6  26.62 
##      6      2      8      2     10      8     12      2      4     12      4 
## 26.695   26.7  26.73  26.79   26.8  26.84 26.885   26.9  26.98     27  27.06 
##     10      4      4      4      4      4      8      2      6      2      2 
## 27.075   27.1  27.17   27.2 27.265  27.28   27.3  27.36   27.4 27.455   27.5 
##      2      8      4      4      8      2      2     14      4      4     14 
##  27.55   27.6  27.61 27.645   27.7  27.72  27.74   27.8  27.83 27.835   27.9 
##      8     10      2     14      6      8     12      2      8     10      2 
##  27.93  27.94     28 28.025  28.05   28.1  28.12  28.16   28.2 28.215  28.27 
##      8      6      6     10      6      4      8      2      2     10      4 
##   28.3  28.31  28.38   28.4 28.405  28.49   28.5 28.595   28.6  28.69   28.7 
##      4     18      2      4      4      2     10     12      6      6     10 
## 28.785   28.8  28.82  28.88   28.9  28.93 28.975     29  29.04  29.07   29.1 
##     10      2      2     16     10      6     10      4      2      4      2 
##  29.15 29.165   29.2  29.26   29.3 29.355  29.37   29.4  29.45  29.48   29.5 
##      4      2      2      8      4      4      4      4      2      8      2 
## 29.545  29.59   29.6  29.64   29.7 29.735   29.8  29.81  29.83   29.9  29.92 
##      2      4      8     10     10     10      8      8     12      6     12 
## 29.925     30  30.02  30.03   30.1 30.115  30.14   30.2  30.21  30.25   30.3 
##      6      4      8      6      4     12      4     12      8      4      6 
## 30.305   30.4 30.495   30.5  30.59 30.685  30.69  30.78   30.8 30.875   30.9 
##      4     10     16      8     14      6      4     12     16     16      6 
##  30.97     31  31.02 31.065   31.1  31.13  31.16   31.2  31.24 31.255   31.3 
##      2      4      8      8      2      8      8      2      2      6      2 
##  31.35   31.4 31.445  31.46   31.5  31.54  31.57   31.6 31.635  31.68  31.73 
##     16      6      4      4      4      4      4      8      4      4     12 
##  31.79   31.8 31.825   31.9  31.92     32  32.01 32.015   32.1  32.11  32.12 
##      8      2     10      6     10      2      4      4      2     14      2 
##   32.2 32.205  32.23   32.3  32.34 32.395   32.4  32.45  32.49   32.5  32.56 
##      6      4      4     26      4     10      2      2      4      4      4 
## 32.585   32.6  32.67  32.68   32.7 32.775  32.78   32.8  32.87   32.9 32.965 
##      2      4      4     10      4     14      2      4      2      6      8 
##     33  33.06   33.1  33.11 33.155   33.2  33.25   33.3  33.33 33.345   33.4 
##     12      2      8     10     10      2      6      4     16     10      6 
##  33.44   33.5 33.535  33.55  33.63  33.66   33.7 33.725  33.77   33.8  33.82 
##      8      2      6      2     14     10      6      4      4      2      8 
##  33.88 33.915  33.99  34.01   34.1 34.105   34.2  34.21 34.295   34.3  34.32 
##      6      8      4      2     16      8     12     10      2      2      6 
##  34.39   34.4  34.43 34.485   34.5  34.58   34.6 34.675   34.7  34.77   34.8 
##      4     10      8      2      2      4      6      2      4      6     14 
## 34.865  34.87   34.9  34.96  35.09   35.1  35.15   35.2 35.245   35.3  35.31 
##      4      2      2      6      2      2      2     14      4     12      4 
##   35.4  35.42 35.435   35.5  35.53   35.6 35.625  35.64   35.7  35.72  35.75 
##      2      2      2      2     10      2      8      2      2      4      6 
##   35.8 35.815  35.86   35.9  35.91  35.97     36 36.005  36.08   36.1  36.19 
##      4     10      8      2      4      8      4      2     10      6      6 
## 36.195   36.2  36.29   36.3 36.385  36.48  36.52 36.575   36.6  36.63  36.67 
##      2      4      2      8      4      6      2      4      2      6      8 
##   36.7 36.765  36.85  36.86 36.955  36.96     37  37.05  37.07   37.1 37.145 
##      2      6     10      6      8      4      6      6      6     12      2 
##  37.18  37.29   37.3 37.335   37.4  37.43  37.51 37.525  37.62   37.7 37.715 
##      6      8      2      4      6      6      4      2      4      2      2 
##  37.73   37.8   37.9 37.905     38  38.06 38.095  38.17  38.19  38.28 38.285 
##      4      2      2      2      6     14      4      6      2      6      2 
##  38.38  38.39   38.6 38.665  38.83   38.9  38.94  38.95  39.05   39.1  39.14 
##      4      6      4      2      6      2      4      2      6      2      2 
##  39.16   39.2  39.27  39.33   39.4 39.425  39.49   39.5  39.52   39.6 39.615 
##      8      2      2      2      2      2      6      4      2      6      2 
##   39.7  39.71   39.8 39.805  39.82   39.9  39.93 39.995  40.15 40.185  40.26 
##      4      2      2      4     10      2      2      2      6      4      4 
##  40.28   40.3  40.37 40.375  40.47  40.48   40.5 40.565  40.66  40.81  40.92 
##      4      4      4      2      2      2      2      6      2      2      2 
## 40.945   41.1  41.14  41.23 41.325  41.42  41.47  41.69   41.8 41.895  41.91 
##      2      2      4      4      6      2      6      2      6      2      6 
##  42.13  42.24  42.35   42.4  42.46 42.655  42.68  42.75   42.9  42.94  43.01 
##     12      2      2      4      2      2      2      2      4      2      2 
##  43.12  43.34   43.4   43.7  43.89     44  44.22   44.7 44.745  44.77  44.88 
##      2      2      2      2      4      2      4      2      2      2      2 
##  45.32  45.43  45.54   45.9  46.09   46.2  46.53   46.7  46.75  47.52   47.6 
##      4      2      2      2      2      2      8      2      2      2      2 
##  47.74  48.07  49.06  50.38  52.58  53.13 
##      2      2      2      2      2      2
  • Bảng tần suất
table(PTĐTmahoa$bmi)/sum(table(PTĐTmahoa$bmi))
## 
##        15.96       16.815       17.195        17.29       17.385         17.4 
## 0.0007251632 0.0014503263 0.0007251632 0.0021754895 0.0007251632 0.0007251632 
##        17.48        17.67       17.765         17.8        17.86       17.955 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        18.05         18.3       18.335         18.5         18.6       18.715 
## 0.0007251632 0.0007251632 0.0021754895 0.0007251632 0.0007251632 0.0014503263 
##       18.905           19       19.095        19.19         19.3       19.475 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        19.57         19.8       19.855        19.95       20.045         20.1 
## 0.0007251632 0.0021754895 0.0014503263 0.0043509790 0.0014503263 0.0014503263 
##        20.13       20.235         20.3        20.35         20.4       20.425 
## 0.0007251632 0.0029006526 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        20.52         20.6       20.615         20.7        20.79         20.8 
## 0.0014503263 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0014503263 
##         20.9        21.01        21.09        21.12        21.28         21.3 
## 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0014503263 0.0007251632 
##       21.375         21.4        21.47         21.5        21.56       21.565 
## 0.0014503263 0.0014503263 0.0021754895 0.0007251632 0.0007251632 0.0007251632 
##        21.66         21.7       21.755        21.78         21.8        21.85 
## 0.0021754895 0.0007251632 0.0029006526 0.0014503263 0.0007251632 0.0029006526 
##        21.89       21.945           22        22.04         22.1       22.135 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0029006526 
##        22.22        22.23         22.3        22.42       22.515         22.6 
## 0.0007251632 0.0014503263 0.0014503263 0.0021754895 0.0036258158 0.0014503263 
##        22.61       22.705        22.77         22.8        22.88       22.895 
## 0.0029006526 0.0029006526 0.0007251632 0.0014503263 0.0007251632 0.0029006526 
##        22.99           23       23.085         23.1        23.18         23.2 
## 0.0021754895 0.0007251632 0.0014503263 0.0007251632 0.0036258158 0.0007251632 
##        23.21       23.275         23.3        23.32        23.37         23.4 
## 0.0043509790 0.0007251632 0.0007251632 0.0014503263 0.0021754895 0.0021754895 
##       23.465        23.54        23.56         23.6        23.65       23.655 
## 0.0014503263 0.0007251632 0.0014503263 0.0014503263 0.0007251632 0.0036258158 
##         23.7        23.75        23.76         23.8       23.845        23.87 
## 0.0014503263 0.0021754895 0.0007251632 0.0007251632 0.0029006526 0.0007251632 
##         23.9        23.94        23.98       24.035        24.09         24.1 
## 0.0007251632 0.0007251632 0.0021754895 0.0021754895 0.0007251632 0.0014503263 
##        24.13       24.225         24.3        24.31        24.32         24.4 
## 0.0029006526 0.0029006526 0.0029006526 0.0014503263 0.0050761421 0.0007251632 
##       24.415        24.42        24.51        24.53         24.6       24.605 
## 0.0007251632 0.0021754895 0.0021754895 0.0007251632 0.0029006526 0.0029006526 
##        24.64         24.7        24.75       24.795        24.86        24.89 
## 0.0007251632 0.0029006526 0.0007251632 0.0029006526 0.0014503263 0.0007251632 
##        24.97       24.985           25        25.08         25.1       25.175 
## 0.0007251632 0.0014503263 0.0014503263 0.0036258158 0.0007251632 0.0043509790 
##         25.2        25.27         25.3       25.365         25.4        25.41 
## 0.0007251632 0.0021754895 0.0036258158 0.0021754895 0.0007251632 0.0007251632 
##        25.46        25.52       25.555         25.6        25.65         25.7 
## 0.0050761421 0.0007251632 0.0021754895 0.0029006526 0.0007251632 0.0021754895 
##        25.74       25.745         25.8        25.84        25.85         25.9 
## 0.0029006526 0.0021754895 0.0058013053 0.0036258158 0.0007251632 0.0021754895 
##       25.935        26.03        26.07       26.125        26.18         26.2 
## 0.0021754895 0.0043509790 0.0007251632 0.0029006526 0.0021754895 0.0007251632 
##        26.22        26.29       26.315         26.4        26.41       26.505 
## 0.0029006526 0.0007251632 0.0036258158 0.0029006526 0.0043509790 0.0007251632 
##        26.51         26.6        26.62       26.695         26.7        26.73 
## 0.0014503263 0.0043509790 0.0014503263 0.0036258158 0.0014503263 0.0014503263 
##        26.79         26.8        26.84       26.885         26.9        26.98 
## 0.0014503263 0.0014503263 0.0014503263 0.0029006526 0.0007251632 0.0021754895 
##           27        27.06       27.075         27.1        27.17         27.2 
## 0.0007251632 0.0007251632 0.0007251632 0.0029006526 0.0014503263 0.0014503263 
##       27.265        27.28         27.3        27.36         27.4       27.455 
## 0.0029006526 0.0007251632 0.0007251632 0.0050761421 0.0014503263 0.0014503263 
##         27.5        27.55         27.6        27.61       27.645         27.7 
## 0.0050761421 0.0029006526 0.0036258158 0.0007251632 0.0050761421 0.0021754895 
##        27.72        27.74         27.8        27.83       27.835         27.9 
## 0.0029006526 0.0043509790 0.0007251632 0.0029006526 0.0036258158 0.0007251632 
##        27.93        27.94           28       28.025        28.05         28.1 
## 0.0029006526 0.0021754895 0.0021754895 0.0036258158 0.0021754895 0.0014503263 
##        28.12        28.16         28.2       28.215        28.27         28.3 
## 0.0029006526 0.0007251632 0.0007251632 0.0036258158 0.0014503263 0.0014503263 
##        28.31        28.38         28.4       28.405        28.49         28.5 
## 0.0065264685 0.0007251632 0.0014503263 0.0014503263 0.0007251632 0.0036258158 
##       28.595         28.6        28.69         28.7       28.785         28.8 
## 0.0043509790 0.0021754895 0.0021754895 0.0036258158 0.0036258158 0.0007251632 
##        28.82        28.88         28.9        28.93       28.975           29 
## 0.0007251632 0.0058013053 0.0036258158 0.0021754895 0.0036258158 0.0014503263 
##        29.04        29.07         29.1        29.15       29.165         29.2 
## 0.0007251632 0.0014503263 0.0007251632 0.0014503263 0.0007251632 0.0007251632 
##        29.26         29.3       29.355        29.37         29.4        29.45 
## 0.0029006526 0.0014503263 0.0014503263 0.0014503263 0.0014503263 0.0007251632 
##        29.48         29.5       29.545        29.59         29.6        29.64 
## 0.0029006526 0.0007251632 0.0007251632 0.0014503263 0.0029006526 0.0036258158 
##         29.7       29.735         29.8        29.81        29.83         29.9 
## 0.0036258158 0.0036258158 0.0029006526 0.0029006526 0.0043509790 0.0021754895 
##        29.92       29.925           30        30.02        30.03         30.1 
## 0.0043509790 0.0021754895 0.0014503263 0.0029006526 0.0021754895 0.0014503263 
##       30.115        30.14         30.2        30.21        30.25         30.3 
## 0.0043509790 0.0014503263 0.0043509790 0.0029006526 0.0014503263 0.0021754895 
##       30.305         30.4       30.495         30.5        30.59       30.685 
## 0.0014503263 0.0036258158 0.0058013053 0.0029006526 0.0050761421 0.0021754895 
##        30.69        30.78         30.8       30.875         30.9        30.97 
## 0.0014503263 0.0043509790 0.0058013053 0.0058013053 0.0021754895 0.0007251632 
##           31        31.02       31.065         31.1        31.13        31.16 
## 0.0014503263 0.0029006526 0.0029006526 0.0007251632 0.0029006526 0.0029006526 
##         31.2        31.24       31.255         31.3        31.35         31.4 
## 0.0007251632 0.0007251632 0.0021754895 0.0007251632 0.0058013053 0.0021754895 
##       31.445        31.46         31.5        31.54        31.57         31.6 
## 0.0014503263 0.0014503263 0.0014503263 0.0014503263 0.0014503263 0.0029006526 
##       31.635        31.68        31.73        31.79         31.8       31.825 
## 0.0014503263 0.0014503263 0.0043509790 0.0029006526 0.0007251632 0.0036258158 
##         31.9        31.92           32        32.01       32.015         32.1 
## 0.0021754895 0.0036258158 0.0007251632 0.0014503263 0.0014503263 0.0007251632 
##        32.11        32.12         32.2       32.205        32.23         32.3 
## 0.0050761421 0.0007251632 0.0021754895 0.0014503263 0.0014503263 0.0094271211 
##        32.34       32.395         32.4        32.45        32.49         32.5 
## 0.0014503263 0.0036258158 0.0007251632 0.0007251632 0.0014503263 0.0014503263 
##        32.56       32.585         32.6        32.67        32.68         32.7 
## 0.0014503263 0.0007251632 0.0014503263 0.0014503263 0.0036258158 0.0014503263 
##       32.775        32.78         32.8        32.87         32.9       32.965 
## 0.0050761421 0.0007251632 0.0014503263 0.0007251632 0.0021754895 0.0029006526 
##           33        33.06         33.1        33.11       33.155         33.2 
## 0.0043509790 0.0007251632 0.0029006526 0.0036258158 0.0036258158 0.0007251632 
##        33.25         33.3        33.33       33.345         33.4        33.44 
## 0.0021754895 0.0014503263 0.0058013053 0.0036258158 0.0021754895 0.0029006526 
##         33.5       33.535        33.55        33.63        33.66         33.7 
## 0.0007251632 0.0021754895 0.0007251632 0.0050761421 0.0036258158 0.0021754895 
##       33.725        33.77         33.8        33.82        33.88       33.915 
## 0.0014503263 0.0014503263 0.0007251632 0.0029006526 0.0021754895 0.0029006526 
##        33.99        34.01         34.1       34.105         34.2        34.21 
## 0.0014503263 0.0007251632 0.0058013053 0.0029006526 0.0043509790 0.0036258158 
##       34.295         34.3        34.32        34.39         34.4        34.43 
## 0.0007251632 0.0007251632 0.0021754895 0.0014503263 0.0036258158 0.0029006526 
##       34.485         34.5        34.58         34.6       34.675         34.7 
## 0.0007251632 0.0007251632 0.0014503263 0.0021754895 0.0007251632 0.0014503263 
##        34.77         34.8       34.865        34.87         34.9        34.96 
## 0.0021754895 0.0050761421 0.0014503263 0.0007251632 0.0007251632 0.0021754895 
##        35.09         35.1        35.15         35.2       35.245         35.3 
## 0.0007251632 0.0007251632 0.0007251632 0.0050761421 0.0014503263 0.0043509790 
##        35.31         35.4        35.42       35.435         35.5        35.53 
## 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0036258158 
##         35.6       35.625        35.64         35.7        35.72        35.75 
## 0.0007251632 0.0029006526 0.0007251632 0.0007251632 0.0014503263 0.0021754895 
##         35.8       35.815        35.86         35.9        35.91        35.97 
## 0.0014503263 0.0036258158 0.0029006526 0.0007251632 0.0014503263 0.0029006526 
##           36       36.005        36.08         36.1        36.19       36.195 
## 0.0014503263 0.0007251632 0.0036258158 0.0021754895 0.0021754895 0.0007251632 
##         36.2        36.29         36.3       36.385        36.48        36.52 
## 0.0014503263 0.0007251632 0.0029006526 0.0014503263 0.0021754895 0.0007251632 
##       36.575         36.6        36.63        36.67         36.7       36.765 
## 0.0014503263 0.0007251632 0.0021754895 0.0029006526 0.0007251632 0.0021754895 
##        36.85        36.86       36.955        36.96           37        37.05 
## 0.0036258158 0.0021754895 0.0029006526 0.0014503263 0.0021754895 0.0021754895 
##        37.07         37.1       37.145        37.18        37.29         37.3 
## 0.0021754895 0.0043509790 0.0007251632 0.0021754895 0.0029006526 0.0007251632 
##       37.335         37.4        37.43        37.51       37.525        37.62 
## 0.0014503263 0.0021754895 0.0021754895 0.0014503263 0.0007251632 0.0014503263 
##         37.7       37.715        37.73         37.8         37.9       37.905 
## 0.0007251632 0.0007251632 0.0014503263 0.0007251632 0.0007251632 0.0007251632 
##           38        38.06       38.095        38.17        38.19        38.28 
## 0.0021754895 0.0050761421 0.0014503263 0.0021754895 0.0007251632 0.0021754895 
##       38.285        38.38        38.39         38.6       38.665        38.83 
## 0.0007251632 0.0014503263 0.0021754895 0.0014503263 0.0007251632 0.0021754895 
##         38.9        38.94        38.95        39.05         39.1        39.14 
## 0.0007251632 0.0014503263 0.0007251632 0.0021754895 0.0007251632 0.0007251632 
##        39.16         39.2        39.27        39.33         39.4       39.425 
## 0.0029006526 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        39.49         39.5        39.52         39.6       39.615         39.7 
## 0.0021754895 0.0014503263 0.0007251632 0.0021754895 0.0007251632 0.0014503263 
##        39.71         39.8       39.805        39.82         39.9        39.93 
## 0.0007251632 0.0007251632 0.0014503263 0.0036258158 0.0007251632 0.0007251632 
##       39.995        40.15       40.185        40.26        40.28         40.3 
## 0.0007251632 0.0021754895 0.0014503263 0.0014503263 0.0014503263 0.0014503263 
##        40.37       40.375        40.47        40.48         40.5       40.565 
## 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0021754895 
##        40.66        40.81        40.92       40.945         41.1        41.14 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0014503263 
##        41.23       41.325        41.42        41.47        41.69         41.8 
## 0.0014503263 0.0021754895 0.0007251632 0.0021754895 0.0007251632 0.0021754895 
##       41.895        41.91        42.13        42.24        42.35         42.4 
## 0.0007251632 0.0021754895 0.0043509790 0.0007251632 0.0007251632 0.0014503263 
##        42.46       42.655        42.68        42.75         42.9        42.94 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0014503263 0.0007251632 
##        43.01        43.12        43.34         43.4         43.7        43.89 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0014503263 
##           44        44.22         44.7       44.745        44.77        44.88 
## 0.0007251632 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        45.32        45.43        45.54         45.9        46.09         46.2 
## 0.0014503263 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        46.53         46.7        46.75        47.52         47.6        47.74 
## 0.0029006526 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632 
##        48.07        49.06        50.38        52.58        53.13 
## 0.0007251632 0.0007251632 0.0007251632 0.0007251632 0.0007251632
  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = bmi, y= after_stat(count))) + geom_bar(fill='lightyellow') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('BMI') + ylab('Tỷ lệ')

5.1.3 Biến smoker

  • Bảng tần số
table(PTĐTmahoa$smoker)
## 
##   no  yes 
## 2208  550

Kết quả cho thấy, số lượng người không hút thuốc là 2208 người, số lượng người hút thuốc là 550

người.

  • Bảng tần suất
table(PTĐTmahoa$smoker)/sum(table(PTĐTmahoa$smoker))
## 
##        no       yes 
## 0.8005801 0.1994199

Kết quả cho thấy, số lượng người không hút thuốc chiếm 80.06%, số lượng người hút thuốc là 19.94%

  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = smoker, y= after_stat(count))) + geom_bar(fill='purple') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Smoker') + ylab('Tỷ lệ')

5.1.4 Biến region

  • Bảng tần số
table(PTĐTmahoa$region)
## 
## northeast northwest southeast southwest 
##       656       660       762       680

Kết quả cho thấy, số lượng người tham gia bảo hiểm y tế ở khu vực Northeast là 656 người, số lượng

người tham gia bảo hiểm y tế ở khu vực Northwest là 660 người, số lượng người tham gia bảo hiểm y tế ở khu vực Southeast là 762 người, số lượng người tham gia bảo hiểm y tế ở khu vực Southwest là 680

người.

  • Bảng tần suất
table(PTĐTmahoa$region)/sum(table(PTĐTmahoa$region))
## 
## northeast northwest southeast southwest 
## 0.2378535 0.2393038 0.2762872 0.2465555

Kết quả cho thấy, số lượng người tham gia bảo hiểm y tế ở khu vực Northeast chiếm 23.79% , số lượng

người tham gia bảo hiểm y tế ở khu vực Northwest chiếm 23.93%, số lượng người tham gia bảo hiểm y tế ở khu vực Southeast chiếm 27.63%, số lượng người tham gia bảo hiểm y tế ở khu vực Southwest chiếm

24.66%.

  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = region, y= after_stat(count))) + geom_bar(fill='Brown') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Region') + ylab('Tỷ lệ')

### Biến charges

  • Bảng tần số
table(PTĐTmahoa$charges)
## 
##    0    1 
## 2034  724

Kết quả cho thấy, số người nhận chi phí y tế lớn hơn 15000 là 724 người, số người nhận chi phí y tế

nhỏ hơn hoặc 15000 là 2034 người.

  • Bảng tần suất
table(PTĐTmahoa$charges)/sum(table(PTĐTmahoa$charges))
## 
##         0         1 
## 0.7374909 0.2625091

Kết quả cho thấy tỷ lệ người nhận chi phí y tế lớn hơn 15000 là 26.25%, số người nhận chi phí y tế

nhỏ hơn hoặc 15000 là 73.75%

  • Đồ thị
install.packages("ggplot2")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
PTĐTmahoa |> ggplot( aes( x = charges, y= after_stat(count))) + geom_bar(fill='greenyellow') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('charges') + ylab('Tỷ lệ')

5.1.5 Thống kê mô tả 2 biến

5.1.5.1 Biến sex và biến charges

  • Bảng tần số
a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
a1
##         
##             0    1
##   female 1044  316
##   male    990  408

Kết quả cho thấy, nữ giới nhận chi phí y tế lớn hơn 15000 là 316 người, số người nhận chi phí y tế

nhỏ hơn hoặc bằng 15000 là 1044 người. Nam giới nhận chi phí y tế lớn hơn 15000 là 408 người, số người nhận chi phí y tế nhỏ hơn hoặc 15000 là 990 người.

  • Bảng tần suất
aa1 <- prop.table(a1)
addmargins(aa1)
##         
##                  0         1       Sum
##   female 0.3785352 0.1145758 0.4931109
##   male   0.3589558 0.1479333 0.5068891
##   Sum    0.7374909 0.2625091 1.0000000

Kết quả cho thấy, nữ giới nhận chi phí y tế lớn hơn 15000 chiếm 11.46%, số người nhận chi phí y tế

nhỏ hơn hoặc bằng 15000 chiếm 37.85%. Nam giới nhận chi phí y tế lớn hơn 15000 chiếm 14.79%, số người

nhận chi phí y tế nhỏ hơn hoặc bằng 15000 là 35.90%

  • Đồ thị
ggplot(PTĐTmahoa, aes(sex, fill = charges)) + geom_bar(position = 'dodge', fill = "red")

5.1.5.2 Biến smoker và biến charges

  • Bảng tần số
a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
a2
##      
##          0    1
##   no  2020  188
##   yes   14  536
  • Bảng tần suất
aa2 <- prop.table(a2)
addmargins(aa2)
##      
##                 0           1         Sum
##   no  0.732414793 0.068165337 0.800580131
##   yes 0.005076142 0.194343727 0.199419869
##   Sum 0.737490935 0.262509065 1.000000000
  • Đồ thị
library(ggplot2)
ggplot(PTĐTmahoa, aes(smoker, fill = charges)) + geom_bar(position = 'dodge', fill = "blue")

#### Biến region và biến charges

  • Bảng tần số
a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
a3
##            
##               0   1
##   northeast 476 180
##   northwest 496 164
##   southeast 524 238
##   southwest 538 142
  • Bảng tần suất
aa3 <- prop.table(a3)
addmargins(aa3)
##            
##                      0          1        Sum
##   northeast 0.17258883 0.06526468 0.23785352
##   northwest 0.17984046 0.05946338 0.23930384
##   southeast 0.18999275 0.08629442 0.27628716
##   southwest 0.19506889 0.05148658 0.24655547
##   Sum       0.73749094 0.26250906 1.00000000
  • Đồ thị
ggplot(PTĐTmahoa, aes(region, fill = charges)) + geom_bar(position = 'dodge', fill="green")

## Thống kê suy diễn cho dữ liệu định tính

5.1.6 Kiểm định tính độc lập cho hai biến

5.1.6.1 Biến sex và biến charges

Giả thuyết - Đối thuyết:

H0: sex và charges độc lập với nhau

H1: sex và charges không độc lập với nhau

a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
chisq.test(a1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  a1
## X-squared = 12.298, df = 1, p-value = 0.0004535

Vì p_value = 0.0004535 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận HO, nghĩa là sex và charges độc lập với nhau.

5.1.6.2 Biến smoker và biến charges

Giả thuyết - Đối thuyết:

H0: smoker và charges độc lập với nhau

H1: smoker và charges không độc lập với nhau

a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
chisq.test(a2)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  a2
## X-squared = 1794.5, df = 1, p-value < 2.2e-16

Vì p_value = 2.2e-16 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận HO, nghĩa là smoker và charges độc lập với nhau.

5.1.6.3 Biến region và biến charges

Giả thuyết - Đối thuyết:

H0: region và charges độc lập với nhau

H1: region và charges không độc lập với nhau

a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
chisq.test(a3)
## 
##  Pearson's Chi-squared test
## 
## data:  a3
## X-squared = 21.044, df = 3, p-value = 0.0001031

Vì p_value = 0.0001031 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận HO, nghĩa là region và charges độc lập với nhau

5.1.7 Khoảng ước lượng tỷ lệ

  • Ước lượng số người có hút thuốc, chi phí bảo hiểm là 1 có phải lớn hơn 5% hay không?

Đặt giả thuyết

HO: Số người có hút thuốc và chi phí bảo hiểm là 1

H1: Số người không hút thuốc và chi phí bảo hiểm là 1

charges <- PTĐTmahoa[PTĐTmahoa$charges > 1,]
prop.test(length(PTĐTmahoa$charges), length(PTĐTmahoa$charges), p = 0.05)
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(PTĐTmahoa$charges) out of length(PTĐTmahoa$charges), null probability 0.05
## X-squared = 52382, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.05
## 95 percent confidence interval:
##  0.9982659 1.0000000
## sample estimates:
## p 
## 1

Vì p_value = 2.2e-16 < 0.05 chưa đủ cơ sở bác bỏ H0, thừa nhận HO, nghĩa là số người có hút thuốc và chi

phí bảo hiểm là 1

  • Ước lượng sự chênh lệch số người có hút thuốc, chi phí bảo hiểm là 1 với người có hút thuốc chi phí

bảo hiểm là 0

charges1 <- PTĐTmahoa[PTĐTmahoa$charges == '1',]
charges2 <- PTĐTmahoa[PTĐTmahoa$charges == '0',]

chargesa <- PTĐTmahoa[PTĐTmahoa$smoker == 'yes',]
chargesb <- PTĐTmahoa[PTĐTmahoa$smoker == 'yes',]

a <- c(nrow(charges1), nrow(charges2))
b <- c(nrow(chargesb), nrow(chargesb))

prop.test(b,a)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  b out of a
## X-squared = 531.05, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.4517051 0.5268256
## sample estimates:
##    prop 1    prop 2 
## 0.7596685 0.2704031

5.2 Rủi ro tương đối và tỷ lệ chênh

5.2.1 Biến sex và biến charges

library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.1
library(epitools)
a1 <- table(PTĐTmahoa$sex, PTĐTmahoa$charges)
riskratio(a1)
## $data
##         
##             0   1 Total
##   female 1044 316  1360
##   male    990 408  1398
##   Total  2034 724  2758
## 
## $measure
##         risk ratio with 95% C.I.
##          estimate    lower    upper
##   female 1.000000       NA       NA
##   male   1.256044 1.106806 1.425405
## 
## $p.value
##         two-sided
##            midp.exact fisher.exact   chi.square
##   female           NA           NA           NA
##   male   0.0003844138 0.0003871578 0.0003851156
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Theo kết quả trên ta thấy tỷ lệ rủi ro tương đối của những người có chi phí bảo hiểm 1 theo giới tính là 1.2560 tức là tỷ lệ rủi ro nam giới có chi phí bảo hiểm gấp 1.2560 lần tỷ lệ rủi ro nữ giới có chi phí bảo hiểm 1

OddsRatio(a1)
## [1] 1.361565

Tỷ lệ nam giới có chi phí bảo hiểm 1 gấp 1.36 lần nữ giới ó chi phí bảo hiểm 1

5.2.2 Biến smock và biến charges

a2 <- table(PTĐTmahoa$smoker, PTĐTmahoa$charges)
riskratio(a2)
## $data
##        
##            0   1 Total
##   no    2020 188  2208
##   yes     14 536   550
##   Total 2034 724  2758
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate    lower   upper
##   no   1.00000       NA      NA
##   yes 11.44573 9.976443 13.1314
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact chi.square
##   no          NA           NA         NA
##   yes          0            0          0
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Tỷ lệ người có hút thuốc có mức chi phí bảo hiểm 1 gấp 11.44 lần tỷ lệ người không hút thuốc có mức chi phí bảo hiểm 1

OddsRatio(a2)
## [1] 411.3678

Tỷ lệ có hút thuốc có mức chi phí bảo hiểm 1 cao hơn 411.3678 lần tỷ lệ không hút thuốc có mức chi phí bảo hiểm 1

5.2.3 Biến region và biến charges

a3 <- table(PTĐTmahoa$region, PTĐTmahoa$charges)
riskratio(a3)
## $data
##            
##                0   1 Total
##   northeast  476 180   656
##   northwest  496 164   660
##   southeast  524 238   762
##   southwest  538 142   680
##   Total     2034 724  2758
## 
## $measure
##            risk ratio with 95% C.I.
##              estimate     lower     upper
##   northeast 1.0000000        NA        NA
##   northwest 0.9055892 0.7549736 1.0862523
##   southeast 1.1382910 0.9670350 1.3398755
##   southwest 0.7610458 0.6280556 0.9221964
## 
## $p.value
##            two-sided
##             midp.exact fisher.exact  chi.square
##   northeast         NA           NA          NA
##   northwest 0.28584097  0.287044150 0.284901086
##   southeast 0.11851987  0.128853943 0.118151544
##   southwest 0.00515654  0.005895714 0.005091092
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Theo kết quả trên ta thấy tỷ lệ rủi ro tương đối của những người có chi phí bảo hiểm theo khu vực northwest là 0.9055892 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm bằng 0.9055892 lần tỷ lệ rủi ro ở khu vực khác.

Theo khu vực southeast là 1.1382910 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm cao hơn 1.1382910 lần tỷ lệ rủi ro ở khu vực khác.

Theo khu vực southwest là 0.7610458 tức là tỷ lệ rủi ro ở khu vực này có chi phí bảo hiểm bằng 0.7610458 lần tỷ lệ rủi ro ở khu vực khác. # Ước lượng mô hình hồi quy

5.3 Mô hình hồi quy logit

MH1 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'logit'), data =  PTĐTmahoa)
summary(MH1)
## 
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children + 
##     smoker + region, family = binomial(link = "logit"), data = PTĐTmahoa)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -4.854365   0.479633 -10.121  < 2e-16 ***
## age              0.027416   0.005657   4.847 1.26e-06 ***
## sexmale          0.030038   0.149070   0.202  0.84031    
## bmi              0.038549   0.012859   2.998  0.00272 ** 
## children         0.233395   0.056511   4.130 3.63e-05 ***
## smokeryes        6.336254   0.295054  21.475  < 2e-16 ***
## regionnorthwest  0.017070   0.205511   0.083  0.93380    
## regionsoutheast -0.147669   0.210128  -0.703  0.48221    
## regionsouthwest -0.635770   0.226675  -2.805  0.00504 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3175.4  on 2757  degrees of freedom
## Residual deviance: 1353.4  on 2749  degrees of freedom
## AIC: 1371.4
## 
## Number of Fisher Scoring iterations: 6

Dữ liệu gồm bảy biến, sau khi chạy mô hình logit nhận sáu biến: age, bmi, children, smoker, region

Mô hình tổng quát

\(logit(\pi) = log\frac{\pi}{1-\pi}= β0 + β1X1 + β2X2 + ⋯ + \βkXk\)

Sau khi chạy mô hình ta có mô hình sau

\(logit(\pi) = log\frac{\pi}{1-\pi}= -4.854365 + 0.027416age + 0.038549bmi + 0.233395children + 6.336254smoker - 0.635770region\) ## Mô hình hồi quy probit

MH2 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'probit'), data =  PTĐTmahoa)
summary(MH2)
## 
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children + 
##     smoker + region, family = binomial(link = "probit"), data = PTĐTmahoa)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -2.586361   0.234237 -11.042  < 2e-16 ***
## age              0.013064   0.002751   4.748 2.05e-06 ***
## sexmale          0.019362   0.074340   0.260  0.79451    
## bmi              0.019491   0.006430   3.031  0.00244 ** 
## children         0.113764   0.028998   3.923 8.74e-05 ***
## smokeryes        3.497167   0.130661  26.765  < 2e-16 ***
## regionnorthwest  0.022872   0.104221   0.219  0.82630    
## regionsoutheast -0.055661   0.106057  -0.525  0.59971    
## regionsouthwest -0.294326   0.110367  -2.667  0.00766 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3175.4  on 2757  degrees of freedom
## Residual deviance: 1353.0  on 2749  degrees of freedom
## AIC: 1371
## 
## Number of Fisher Scoring iterations: 7

Dữ liệu gồm bảy biến, sau khi chạy mô hình logit nhận sáu biến: age, bmi, children, smoker, region

Mô hình tổng quát Probit:

\(Probit(\pi) = \phi^(-1)(\pi) = β0 + β1X1 + β2X2 + ⋯ + βkXk\)

Sau khi chạy mô hình Probit ta có hàm hồi quy sau:

\(Probit(\pi) = \phi^(-1)(\pi) = -2.586361 + 0.013064age + 0.019491bmi + 0.113764children + 3.497167smoker - 0.294326region\)

5.4 Mô hình hồi quy cloglog

MH3 <- glm(factor(charges) ~ age + sex + bmi + children + smoker + region , family = binomial(link = 'cloglog'), data =  PTĐTmahoa)
summary(MH3)
## 
## Call:
## glm(formula = factor(charges) ~ age + sex + bmi + children + 
##     smoker + region, family = binomial(link = "cloglog"), data = PTĐTmahoa)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -5.234095   0.414614 -12.624  < 2e-16 ***
## age              0.025971   0.004860   5.344 9.12e-08 ***
## sexmale          0.071910   0.118271   0.608   0.5432    
## bmi              0.046919   0.010577   4.436 9.17e-06 ***
## children         0.192786   0.048391   3.984 6.78e-05 ***
## smokeryes        4.324558   0.162213  26.660  < 2e-16 ***
## regionnorthwest  0.164603   0.171051   0.962   0.3359    
## regionsoutheast  0.002216   0.170905   0.013   0.9897    
## regionsouthwest -0.295467   0.170788  -1.730   0.0836 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3175.4  on 2757  degrees of freedom
## Residual deviance: 1327.8  on 2749  degrees of freedom
## AIC: 1345.8
## 
## Number of Fisher Scoring iterations: 9

Mô hình tổng quát của Cloglog:

\(Cloglog(\pi)=log(−log(1−\pi)) = β0 + β1X1 + β2X2 + ⋯ + βkXk\)

Sau khi chạy mô hình Cloglog có hàm hồi quy như sau:

\(Cloglog(\pi)=log(−log(1−\pi)) = -5.234095 + 0.025971age + 0.046919bmi + 0.192786children + 4.324558smoker\)

5.5 Chọn mô hình phù hợp

AIC và Deviance

Từ kết quả 3 mô hình hồi quy, ta có:

logit: AIC= 1371.4, Deviance=1353.4

probit: AIC=1371, Deviance=1353

cloglog: AIC=1345.8, Deviance=1327.8

BrierScore

BrierScore(MH1)
## [1] 0.06541252
BrierScore(MH2)
## [1] 0.06552034
BrierScore(MH3)
## [1] 0.06498517

Kết quả cho thấy giá trị các chỉ số AIC, Deviance, BrierScore của mô hình Cloglog là nhỏ nhất. Vậy

mô hình Cloglog là phù hợp nhất.

5.6 Mô hình nhầm lẫn

library(caret)
## Warning: package 'caret' was built under R version 4.3.1
## Loading required package: lattice
## 
## Attaching package: 'caret'
## The following objects are masked from 'package:DescTools':
## 
##     MAE, RMSE
  • Mô hình Cloglog
library(caret)
predictions <- predict(MH3, newdata = PTĐTmahoa, type = "response")
predicted_classes <- ifelse(predictions > 0.5, "1", "0")
predictions1<-factor(predicted_classes, levels = c("0","1"))
actual<- factor(PTĐTmahoa$charges, labels = c("0","1"))
confusionMatrix(table(predictions1, actual))
## Confusion Matrix and Statistics
## 
##             actual
## predictions1    0    1
##            0 2020  188
##            1   14  536
##                                           
##                Accuracy : 0.9268          
##                  95% CI : (0.9164, 0.9362)
##     No Information Rate : 0.7375          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.795           
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.9931          
##             Specificity : 0.7403          
##          Pos Pred Value : 0.9149          
##          Neg Pred Value : 0.9745          
##              Prevalence : 0.7375          
##          Detection Rate : 0.7324          
##    Detection Prevalence : 0.8006          
##       Balanced Accuracy : 0.8667          
##                                           
##        'Positive' Class : 0               
## 

Mô hình giải thích được 92.68%, độ nhạy 99.31%, độ hiệu quả 74.03%. Kết quả cho thấy mô hình dự báo

tốt.

6 CHƯƠNG 3 KẾT LUẬN

6.1 Kết luận

Chi phí bảo hiểm y tế là một trong những vấn đề quan tâm của nhiều người khi tham gia bảo hiểm sức khỏe.

Qua nghiên cứu, tôi đã phát hiện ra có bốn yếu tố chính ảnh hưởng đến chi phí bảo hiểm y tế, đó là: độ

tuổi, giới tính, số con trong gia đình,những người hút thuốc. Các yếu tố này có thể làm tăng hoặc giảm chi phí bảo hiểm y tế của cá nhân hoặc hộ gia đình. Hút thuốc lá là nguyên nhân gây tử vong hàng đầu có thể

ngăn ngừa được ở Hoa Kỳ. Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) ước tính rằng hút thuốc

lá giết chết khoảng 419.000 người ở Hoa Kỳ mỗi năm. Hút thuốc lá là nguyên nhân gây tử vong sớm của quốc

gia và chịu trách nhiệm cho một phần ba số ca tử vong ở người Mỹ trong độ tuổi lao động.

Hút thuốc lá gây nghiện cả về tâm lý và sinh lý. Nó là một yếu tố nguy cơ quan trọng đối với các bệnh tim

mạch, đặc biệt là bệnh động mạch vành, đột quỵ, ung thư biểu mô phổi, viêm phế quản mãn tính, bệnh phổi

tắc nghẽn mãn tính và khí thũng. Ngoài ra, tăng nguy cơ mắc bệnh mạch máu ngoại biên và có liên quan đến

ung thư thanh quản, khoang miệng, thực quản, tụy và bàng quang. Phụ nữ mang thai hút thuốc có thể gây ra

những ảnh hưởng xấu đến sức khỏe của trẻ sơ sinh như nhẹ cân và sinh non; tăng nguy cơ sảy thai; và cũng

được phát hiện là một nguyên nhân quan trọng gây ra hội chứng đột tử ở trẻ sơ sinh. Hút thuốc bất cẩn cũng có thể gây bỏng nặng và tử vong. Nhiều tác dụng phụ của việc hút thuốc xảy ra ở những người hút thuốc “thứ cấp” (Nair, A K Nair ,Jr E N Brandt(2000)).

Ở Hoa Kỳ đương đại, nam giới có tỷ lệ tử vong cao hơn 60% so với nữ giới. 40 phần trăm của sự khác biệt về tỷ lệ tử vong theo giới tính này là do tỷ lệ mắc bệnh tim do xơ cứng động mạch ở nam giới tăng gấp đôi.

Nguyên nhân chính của tỷ lệ mắc bệnh tim do xơ cứng động mạch cao hơn ở nam giới bao gồm hút thuốc lá

nhiều hơn ở nam giới; tỷ lệ phổ biến cao hơn của Mô hình hành vi dễ bị mạch vành cạnh tranh, hung hăng ở

nam giới; và có thể là vai trò bảo vệ của nội tiết tố nữ. Ngoài ra, nam giới có tỷ lệ tử vong do ung thư

phổi và khí thũng cao hơn, đặc biệt là do có nhiều nam giới hút thuốc lá hơn. Ngoài ra, tỷ lệ nam giới có

tuổi thọ thấp hơn nữ giới vì một số nguyên nhân như : tai nạn, tự tử và xơ gan. Mỗi hành vi này đều liên

quan đến những hành vi được khuyến khích hoặc chấp nhận ở nam giới nhiều hơn ở nữ giới trong xã hội của

chúng ta — ví dụ: sử dụng súng, thích phiêu lưu và hành động không sợ hãi, làm những công việc nguy hiểm

và uống rượu. Tôi kết luận với các đề xuất để giảm tỷ lệ tử vong ở nam giới; ví dụ, bằng cách thay đổi các điều kiện xã hội thúc đẩy ở nam giới những hành vi làm tăng tỷ lệ tử vong của họ (I Waldron, & S Johnston

(1976))

Do đó, người tham gia bảo hiểm cần cân nhắc kỹ các yếu tố này khi lựa chọn gói bảo hiểm phù hợp với nhu

cầu và khả năng của mình. Bằng cách này, họ có thể tiết kiệm chi phí và được bảo vệ sức khỏe một cách hiệu quả. ## Hạn chế

7 TÀI LIỆU THAM KHẢO

[1] Nair, A K Nair ,Jr E N Brandt(2000). Effects of smoking on health care costs. The Journal of the Oklahoma State Medical Association, 93(6), 245-250.

[2] I Waldron, & S Johnston (1976). Why do women live longer than men?. Journal of human stress, 2(2), 19-30.