library("epitools")
library("DescTools")
library("ggplot2")
library("caret")
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following objects are masked from 'package:DescTools':
##
## MAE, RMSE
Trong những năm gần đây, nhu cầu đi du lịch của con người đã trở nên ngày càng phổ biến và tăng cao. Đi du lịch không chỉ đơn thuần là việc di chuyển đến các địa điểm mới mẻ, mà còn là cơ hội để làm giàu tâm hồn và tạo dấu ấn trong ký ức. Sự tăng trưởng nhanh chóng của ngành du lịch phản ánh sự tăng cường nhận thức và ý thức của con người về giá trị của việc trải nghiệm và khám phá. Du lịch mang lại niềm vui và giải trí, đồng thời cũng mở rộng kiến thức, tăng cường ý thức văn hóa và giao lưu với nhiều người từ các quốc gia và vùng miền khác nhau. Trong bối cảnh này, việc mua bảo hiểm du lịch để bảo vệ bản thân và gia đình trước những rủi ro trong khi đi du lịch trở nên vô cùng cần thiết. Bảo hiểm du lịch đóng vai trò quan trọng trong việc đảm bảo sự an tâm cho du khách khi họ tiến hành hành trình của mình. Trước những rủi ro như tai nạn, mất mát hành lý, bệnh tật hoặc hủy chuyến bất ngờ, bảo hiểm du lịch giúp bảo vệ tài chính của du khách khỏi những tổn thất không mong muốn và giúp họ tập trung hơn vào việc trải nghiệm và khám phá.
Hiện nay, các công ty du lịch và bảo hiểm ngày càng đa dạng hóa sản phẩm bảo hiểm du lịch để đáp ứng nhu cầu đa dạng của khách hàng. Từ các gói bảo hiểm cơ bản bảo vệ như bảo hiểm y tế và mất mát hành lý cho đến các gói bảo hiểm phức tạp hơn về hủy chuyến, trợ cấp thay thế doanh thu và hỗ trợ khẩn cấp, du khách có nhiều lựa chọn hơn để lựa chọn gói bảo hiểm phù hợp với nhu cầu và mong muốn của họ. Đặc biệt, dịch bệnh như COVID-19 đã tạo ra những thách thức mới cho ngành du lịch và bảo hiểm du lịch. Những biến đổi không mong muốn trong hành trình, việc hủy chuyến và thiệt hại về sức khỏe đã làm cho việc mua bảo hiểm du lịch trở nên đặc biệt quan trọng và thiết yếu trong việc bảo vệ sức khỏe và tài chính của du khách.
Sự đa dạng của các công ty du lịch và các sản phẩm bảo hiểm du lịch đã tạo ra môi trường cạnh tranh trong ngành. Việc thu hút và giữ chân khách hàng là vô cùng quan trọng. Tác giả đã chọn đề tài “Các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng” vì nó mang lại nhiều giá trị trong việc nâng cao nhận thức, cải thiện dịch vụ, tăng cường cạnh tranh và phát triển bền vững trong lĩnh vực du lịch và bảo hiểm.
Phân tích và đánh giá các yếu tố có thể ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng. Kết quả nghiên cứu sẽ cung cấp thông tin và hiểu biết sâu hơn về các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, từ đó đề xuất các giải pháp, gợi ý cho các công ty du lịch trong việc tối ưu hóa chiến lược tiếp thị và phục vụ khách hàng tốt hơn.
Đối tượng nghiên cứu: 1987 khách hàng
Phạm vi nghiên cứu: Một công ty du lịch và lữ hành đang cung cấp gói bảo hiểm du lịch cho khách hàng của họ. Bảo hiểm đã được cung cấp cho một số khách hàng vào năm 2019 và dữ liệu nhất định đã được trích xuất từ hiệu suất/doanh số bán gói trong khoảng thời gian đó.
Phương pháp xử lý số liệu bằng thống kê toán học: Để nắm vững thông tin và số liệu liên quan đến bảo hiểm du lịch, tác giả sẽ tiến hành một quá trình phân tích số liệu bằng phương pháp thống kê toán học. Các thông số liên quan đến tần suất, phân bố, độ tương quan và độ tương tác giữa các biến sẽ được tính toán. Phần mềm R - một công cụ mạnh mẽ và phổ biến trong lĩnh vực thống kê và xử lý dữ liệu - sẽ hỗ trợ quá trình này. Việc sử dụng phần mềm R sẽ đảm bảo tính chính xác và đáng tin cậy trong việc phân tích số liệu.
Phương pháp dữ liệu định tính
Phần mở đầu
Chương 1. Tổng quan lý thuyết
Chương 2. Phương pháp nghiên cứu
Chương 3. Kết quả nghiên cứu
Chương 4. Kết luận
Trong cuộc sống sinh hoạt hằng này cũng như trong hoạt động sản xuất kinh doanh, mặc dù đã rất cố gắng để đề phòng nhưng con người vẫn luôn gặp phải những rủi ro bất ngờ. Những rủi ro này thường dẫn đến những tổn thất không thể lường trước được, đó có thể là những thiệt hại về giảm thu nhập, phá hoại nhiều tài sản, ngưng trệ sản xuất và kinh doanh, liên quan đến sức khỏe tính mạng của con người… và làm ảnh hưởng đến đời sống xã hội nói chung. Để khắc phục hậu quả, từ xa xưa đến nay con người ta đã sử dụng nhiều biện pháp như: tự tích lũy, đi vay, hình thành các quỹ tương hỗ… và dần dầ xuất hiện một hình thức mới đó là bảo hiểm. Như vậy, xuất phát từ mục đích hình thành một loại quỹ tài chính tập trung nhằm hỗ trợ cho những người không may gặp một loại rủi ro tương tự nhau mà bảo hiểm ra đời. Nhưng cho đến nay, người ta chưa xác định được chính xác về bảo hiểm. Tùy theo từng khía cạnh và theo quan điểm người ta đưa ra các khái niệm khác nhau. Tuy nhiên, khái niệm sau đây được cho là mang tính chúng nhất của bảo hiểm: “Bảo hiểm là hoạt động thể hiện người bảo hiểm cam kết bồi thường ( theo quy luật thống kê) cho người tham gia bảo hiểm trong trưởng hợp xãy ra rủi ro thuộc phạm vi bảo hiểm với điều kiện người tham gia phải nộp một khoản phí nhất định cho chính anh ta hay cho người thứ ba”.Điều này có nghĩa là người tham gia chuyển giao rủi ro cho người bảo hiểm bằng cách nộp một khoản phí để hình thành nên quỹ dự trữ. Khi người tham gia gặp rủi ro dẫn đến tổn thất, người bảo hiểm lấy quỹ dự trữ trợ cấp hoặc bồi thường thiệt hại thuộc phạm vi bảo hiểm cho người tham gia. Phạm vi bảo hiểm là những rủi ro mà người tham gia đăng kí với người bảo hiểm.
Ngày nay du lịch đã trở thành 1 hiện tượng kinh tế xã hội phổ biến. Hội đồng lữ hành và du lịch quốc tế(Word Travel and Tourism Council – WTTC) đã công nhận du lịch là một ngành kinh tế lớn nhất thế giới vượt lên cả ngành sản xuất ô tô, thép, điện tử và nông nghiệp. Đối với một quốc gia, du lịch là nguồn ngoại tệ quan trọng nhất trong ngoại thương. Tại nhiều quốc gia khác, du lịch là một ngành kinh tế hàng đầu. Du lịch đã nhanh chóng trở thành một ngành kinh tế mũi nhọn của nhiều quốc gia trên thế giới. Du lịch ngày nay là một đề tài hấp dẩn và đã trở thành vấn đề mang tính toàn cầu.
Du lịch là hoạt động di chuyển của con người từ nơi cư trú của mình đến các địa điểm khác nhằm mục đích giải trí, nghỉ ngơi, khám phá, trải nghiệm và học hỏi về văn hóa, lịch sử, địa lý, ngôn ngữ và các phong cảnh, món ăn đặc trưng của vùng đó. Du lịch cũng có thể là hoạt động kinh doanh, trong đó các công ty du lịch cung cấp các dịch vụ đi lại, chỗ ở, tham quan và giải trí cho khách du lịch. Du lịch là một ngành kinh tế quan trọng, tạo ra thu nhập cho nhiều quốc gia trên toàn thế giới.
Bảo hiểm du lịch là một loại hợp đồng bảo hiểm được thiết kế để bảo vệ người đi du lịch khỏi những rủi ro và vấn đề có thể xảy ra trong khi họ ở xa khỏi nơi cư trú thường trực. Khi mua bảo hiểm du lịch, người du lịch sẽ trả một khoản tiền gọi là phí bảo hiểm để đảm bảo họ được bồi thường nếu gặp rủi ro trong suốt chuyến đi.
Tùy thuộc vào từng công ty bảo hiểm và gói bảo hiểm cụ thể, bảo hiểm du lịch có thể bao gồm một loạt các loại bảo hiểm khác nhau, bao gồm:
Bảo hiểm y tế: Bao gồm chi phí điều trị và chăm sóc y tế trong trường hợp người du lịch gặp tai nạn hoặc bị ốm trong khi đi du lịch.
Bảo hiểm hủy chuyến đi: Bồi thường chi phí chuyến đi nếu người du lịch phải hủy bỏ vì lý do ngoài tầm kiểm soát của họ, chẳng hạn như bệnh tật, tai nạn, hoặc các tình huống khẩn cấp.
Bảo hiểm mất mát hành lý: Bồi thường cho việc mất mát, hư hỏng hoặc bị đánh cắp hành lý của người du lịch trong suốt chuyến đi.
Bảo hiểm trách nhiệm công dân: Bồi thường cho việc bồi thường hoặc phạt pháp lý mà người du lịch có thể phải chịu trách nhiệm vì gây hại đến người khác hoặc tài sản của người khác trong quá trình đi du lịch.
Bảo hiểm gián đoạn chuyến đi: Bồi thường chi phí cho việc gián đoạn hoặc hoãn chuyến đi do các sự kiện bất ngờ, chẳng hạn như tai nạn giao thông, thiên tai hoặc các tình huống khẩn cấp.
Bảo hiểm du lịch thường có mức bảo vệ tùy chọn, người mua bảo hiểm có thể chọn gói bảo hiểm phù hợp với nhu cầu cụ thể của họ và tính chất của chuyến đi.
Dữ liệu nghiên cứu về một công ty du lịch và lữ hành đang cung cấp gói bảo hiểm du lịch cho khách hàng của họ và gói bảo hiểm này cũng bao gồm bảo hiểm Covid. Mục đích là để tìm ra khách hàng nào có khả năng quan tâm đến việc mua gói bảo hiểm này, công ty sử dụng lịch sử dữ liệu của họ. Công ty đã cung cấp bảo hiểm cho một số khách hàng vào năm 2019 và đã trích xuất một số dữ liệu về hiệu suất và doanh số bán gói trong thời gian đó. Dữ liệu này bao gồm thông tin về 1987 khách hàng. Bộ dữ liệu được lấy của tác giả Tejashvi từ website Kaggle.com
Dulich <- read.csv("D:/PTDLĐT/Dulich.csv")
str(Dulich)
## 'data.frame': 1987 obs. of 9 variables:
## $ Age: int 31 31 34 28 28 25 31 31 28 33 ...
## $ ELM: chr "Government" "Private" "Private" "Private" ...
## $ GD : chr "Yes" "Yes" "Yes" "Yes" ...
## $ IC : int 400000 1250000 500000 700000 700000 1150000 1300000 1350000 1450000 800000 ...
## $ FM : int 6 7 4 3 8 4 4 3 6 3 ...
## $ CD : chr "Yes" "No" "Yes" "Yes" ...
## $ FF : chr "No" "No" "No" "No" ...
## $ TA : chr "No" "No" "No" "No" ...
## $ TI : chr "Yes" "No" "Yes" "No" ...
Dữ liệu nghiên cứu gồm 1987 quan sát với 9 biến bao gồm 6 biến định tính và 3 biến định lượng.
trong đó:
Biến định tính
ELM: Lĩnh vực của khách hàng đang làm việc (Government Sector: Lĩnh vực chính phủ; Private Sector: Lĩnh vực tư nhân)
GD: Tình trạng tốt nghiệp đại học của khách hàng (Yes: Đã; No: Chưa)
CD: Tình trạng mắc bệnh mãn tính của khách hàng (Yes: Có; No: Không)
FF: Tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua (Yes: Có; No: Không)
TA: Tình trạng khách hàng đã từng đi du lịch nước ngoài (Yes: Đã; No: Chưa)
TI: Tình trạng mua bảo hiểm du lịch của khách hàng (Yes: Có; No: Không)
Biến định lượng
Age: Số tuổi của khách hàng
IC: Thu nhập hàng năm của khách hàng tính bằng Rupee Ấn Độ.
FM: Số thành viên trong gia đình khách hàng
Xét biến đáp ứng là biến nhị phân với hai thuộc tính: một gọi là “Thành công” và một gọi là “Thất bại”, chịu sự tác động của một tập hợp m biến \(X=(X_{1}, X_{2},..., X_{m})\) mà ta gọi là các biến giải thích. Biến đáp ứng được đại diện, hay lượng hóa bởi biến ngẫu nhiên có phân phối 0 – 1:
Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”
Mô hình logistic mô tả sự phụ thuộc của biến đáp ứng thông qua xác suất “Thành công” \(\pi(x)=P(Y=1|X=x)\) ứng với mức \(x=(x_{1}, x_{2},..., x_{m})\) của các biến giải thích phụ thuộc vào \(x=(x_{1}, x_{2},..., x_{m})\) dưới dạng:
\[log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})=\beta_0+\beta_1.x_1+\beta_2.x_2+...+\beta_m.x_m\]
Trong đó các hằng số \(\beta_0, \beta_1, \beta_2,...,\beta_m\) được gọi là các hệ số hồi quy. Hệ số \(\beta_j\) của biến \(x_j\) là lượng thay đổi của \(log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})\), hay của \(log[Odds(x)]\) khi biến \(x_j\) thay đổi 1 đơn vị, trong điều kiện các biến khác không thay đổi, \(j = 1, 2,…, m\).
Nếu \(\beta_j>0,\pi(x)\) đồng biến theo \(x_j\), khi các biến khác không thay đổi.
Nếu \(\beta_j<0,\pi(x)\) nghịch biến theo \(x_j\), khi các biến khác không thay đổi.
Nếu \(\beta_j=0,\pi(x)\) không phụ thuộc \(x_j\).
Khi \(x_j\) tăng thêm 1 đơn vị, còn các biến khác không thay đổi thì tỷ lệ cược \(Odds(x)\) được nhân lên với \(e^{\beta_j}\)
Mô ước lượng cho mô hình hồi quy Logistic là :
\[log( \frac{\mathrm{\widehat{\pi}(x)}}{\mathrm{1-\widehat{\pi} (x)}})=\widehat{\beta}_0+\widehat{\beta}_1.x_1+\widehat{\beta}_2.x_2+...+\widehat{\beta}_m.x_m\]
Trong đó các hệ số \(\widehat{\beta}_j\) ước lượng cho hồi quy \(\beta_j\) được tìm theo phương pháp hợp lý cực đại.
Giả sử biến đáp ứng nhị phân với hai giá trị mà ta gọi là “Thành công” và “Thất bại”, phụ thuộc vào m biến giải thích:\(X_{1}, X_{2},..., X_{m}\). Ký hiệu:
\[X=(X_{1}, X_{2},..., X_{m})\]; Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”
thì xác suất “Thành công” ứng với \(X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m}\) là:
\[\pi(x)=\pi(x_{1},x_{2},...,x_{m})=E(Y|X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m})\]
Mô hình Probit đa biến có dạng:
\[\pi(x_{1},x_{2},...,x_{m})=\Phi(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\]
hay: \(Probi(\pi(x_{1},x_{2},...,x_{m}))=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\)
trong đó \(\phi\) là hàm phân phối chuẩn chính tắc: \[\Phi(t)=\frac{\mathrm{1}}{\mathrm{\sqrt{2\pi}}}\int_t^\infty \mathrm{e}^{-\frac{1}{2}u^2}\,\mathrm{d}u\]
và Probit là phép lấy hàm ngược của \(\Phi\):
\[Probit(\pi(x_{1},x_{2},...,x_{m}))=\Phi^{-1}(\pi(x_{1},x_{2},...,x_{m}))\]
Trong trường hợp tỷ lệ cược phụ thuộc vào các biến giải thích dưới dạng hàm lũy thừa:
\[Odds(x)=\frac{\pi(x)}{1-\pi(x)}=\lambda.x_1^{\beta_1}.x_2^{\beta_2}....x_m^{\beta_1m}\]
ta nhận được mô hình logistic có các biến dự báo ở dạng log, gọi là mô hình logistic dạng log-log
\[log(\frac{\pi(x)}{1-\pi(x)})=\beta_0+\beta_1.log x_1+\beta_2.log x_2+...+\beta_m.log x_m\]
AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:
\[AIC=-2ln(L)+2k\]
Với \(L\)là giá trị cực đại của hàm hợp lý (likelihood function) và \(k\) là số tham số của mô hình.
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:
\[B=\frac{1}{n}\sum_{t=1}^{n} (Y_t-\widehat{\pi}_t)^2\] Trong đó \(\widehat{\pi}_t\) là giá trị ước lượng của \(\pi(x_i)=E(Y|X=x_i)\) Chỉ số Brier thực chất là trung bỉnh của tổng bình phương các độ lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó. Vì vậy chỉ số B càng bé thì mô hình cho ước lượng càng chính xác, tức là càng phù hợp với dữ liệu quan sát.
Ma trận nhầm lẫn là yếu tố giúp so sánh giá trị thực tế và giá trị dự báo:
Giá trị dự báo cho quan sát thực tế \(Y_t\) là \(\widehat{Y}_j=@round(\widehat{\pi}_j)=1nếu \widehat{\pi}_j \geq 0.5; 0 nếu\widehat{\pi}_j<0.5\)
Nếu \(Y_j=1\) và \(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính thực,
Nếu \(Y_j=0\) và \(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính giả,
Nếu \(Y_j=1\) và \(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính giả,
Nếu \(Y_j=0\) và \(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính thực,
Nếu \(Y_j=\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo đúng hay chính xác, nếu \(Y_j\neq\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo sai hay không chính xác. Kí hiệu TN (True Negative) là số âm tính thực, FN (Fale Negative) là số âm tính giả, FP (Fale Positive) là số dương tính giả, TP (True Positive) là số dương tính thực, ta có:
Ma trận: \(\begin{bmatrix}TN&FP\\FN&TP\end{bmatrix}\) được gọi là ma trận nhầm lẫn (Confusion Matrix) của mô hình. Trong ma trận nhầm lẫn người ta xét các chỉ số:
Độ chính xác toàn thể \(=\frac{TN+TP}{n}\) (tỷ lệ dự báo đúng trên toàn bộ mẫu)
Sai số toàn thể \(=\frac{FN+FP}{n}\) (tỷ lệ dự báo sai trên mẫu)
Độ nhạy (Sensitivity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=1}\) (tỷ lệ dự báo đúng trên tổng số các thành công được quan sát). Độ nhạy càng lớn càng tốt.
Sai số âm tính giả (Fale negative error) \(=1-Độ nhạy=\frac{FN}{FN+TP}\)
Độ đặc hiệu (Specificity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=0}\)
Độ đặc hiệu càng lớn càng tốt.
Một mô hình tốt là một mô hình có độ nhạy lớn và độ đặc hiệu lớn.
#Biểu đồ biến TI
ggplot(Dulich,aes(TI)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng mua bảo hiểm du lịch")
#Biểu đồ biến ELM
ggplot(Dulich,aes(ELM)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Lĩnh vực khách hàng đang làm việc")
#Biểu đồ biến GD
ggplot(Dulich,aes(GD)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng tốt nghiệp đại học của khách hàng")
#Biểu đồ biến CD
ggplot(Dulich,aes(CD)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng mắc bệnh mãn tính")
#Biểu đồ biến FF
ggplot(Dulich,aes(FF)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng thường xuyên đặt vé máy bay của khách hàng")
#Biểu đồ biến TA
ggplot(Dulich,aes(TA)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng khách hàng đã từng đi du lịch nước ngoài")
#Biểu đồ biến IC
hist(Dulich$IC, main = "Biểu đồ thể hiện thu nhập hàng năm của KH",xlab = "thu nhập hàng năm", ylab = "Khách hàng", col = "pink")
#Biểu đồ biến Age
hist(Dulich$Age, main = "Biểu đồ thể hiện độ tuổi của khách hàng",xlab = "Số tuổi", ylab = "Khách hàng", col = "pink")
#Biểu đồ biến FM
pie(table(Dulich$FM), col = rainbow(8), main = "Biểu đồ thể hiện số thành viên trong gia định của KH")
#Bảng tần số
table(Dulich$TI)
##
## No Yes
## 1276 711
#Bảng tần suất
table(Dulich$TI)/sum(table(Dulich$TI))
##
## No Yes
## 0.6421741 0.3578259
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1276 khách hàng không mua bảo hiểm du lịch chiếm 64,22% và có 711 khách hàng mua bảo hiểm du lịch chiếm 35,78%.
#Bảng tần số
table(Dulich$ELM)
##
## Government Private
## 570 1417
#Bảng tần suất
table(Dulich$ELM)/sum(table(Dulich$ELM))
##
## Government Private
## 0.2868646 0.7131354
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 570 khách hàng làm việc thuộc lĩnh vực chính phủ, chiếm 28,69% và có 1417 khách hàng làm việc thuộc lĩnh vực tư nhân, chiếm 71,31%.
#Bảng tần số
table(Dulich$GD)
##
## No Yes
## 295 1692
#Bảng tần suất
table(Dulich$GD)/sum(table(Dulich$GD))
##
## No Yes
## 0.148465 0.851535
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 295 khách hàng chưa tốt nghiệp đại học, chiếm 14,85% và có 1692 khách hàng đã tốt nghiệp đại học, chiếm 85,15%.
#Bảng tần số
table(Dulich$CD)
##
## No Yes
## 1435 552
#Bảng tần suất
table(Dulich$CD)/sum(table(Dulich$CD))
##
## No Yes
## 0.7221943 0.2778057
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1435 khách hàng không mắc bênh mãn tính, chiếm 72,22% và có 552 khách hàng có mắc bênh mãn tính, chiếm 27,78%.
#Bảng tần số
table(Dulich$FF)
##
## No Yes
## 1570 417
#Bảng tần suất
table(Dulich$FF)/sum(table(Dulich$FF))
##
## No Yes
## 0.7901359 0.2098641
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1570 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua, chiếm 79,01% và có 417 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua, chiếm 20,99%.
#Bảng tần số
table(Dulich$TA)
##
## No Yes
## 1607 380
#Bảng tần suất
table(Dulich$TA)/sum(table(Dulich$TA))
##
## No Yes
## 0.8087569 0.1912431
Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1607 khách hàng chưa từng đi du lịch nước ngoài, chiếm 80,88% và có 380 khách hàng đã từng đi du lịch nước ngoài, chiếm 19,12%.
table(cut(Dulich$IC,4))
##
## (2.98e+05,6.75e+05] (6.75e+05,1.05e+06] (1.05e+06,1.42e+06] (1.42e+06,1.8e+06]
## 575 603 633 176
table(cut(Dulich$IC,4))/sum(table(cut(Dulich$IC,4)))
##
## (2.98e+05,6.75e+05] (6.75e+05,1.05e+06] (1.05e+06,1.42e+06] (1.42e+06,1.8e+06]
## 0.28938098 0.30347257 0.31857071 0.08857574
summary(Dulich$IC)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 300000 600000 900000 932763 1250000 1800000
Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có thu nhập hàng năm từ 300.000 Rupees đến 1.800.000 Rupees, trung bình (mean) là 932.763 Rupees. 1st Qu.(first quartile) = 600.000 có nghĩa là 25% đối tượng nghiên cứu có thu nhập hàng năm bằng hoặc nhỏ hơn 600.000 Rupees. Tương tự, 3rd Qu.(Third quartile) = 1.250.000 có nghĩa là 75% đối tượng có thu nhập hàng năm bằng hoặc thấp hơn 1.250.000 Rupees. Số trung vị (median) 900.000 cũng có nghĩa là 50% đối tượng có thu nhập hàng năm là 900.000 Rupees trở xuống (hay 950.000 Rupees trở lên).
table(cut(Dulich$Age,4))
##
## (25,27.5] (27.5,30] (30,32.5] (32.5,35]
## 425 763 325 474
table(cut(Dulich$Age,4))/sum(table(cut(Dulich$Age,4)))
##
## (25,27.5] (27.5,30] (30,32.5] (32.5,35]
## 0.2138903 0.3839960 0.1635632 0.2385506
summary(Dulich$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 28.00 29.00 29.65 32.00 35.00
Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có độ tuổi từ 25 tuổi đến 35 tuổi, trung bình (mean) là 29,65 tuổi. 1st Qu.(first quartile) = 28 có nghĩa là 25% đối tượng nghiên cứu có độ tuổi bằng hoặc nhỏ hơn 28 tuổi. Tương tự, 3rd Qu.(Third quartile) = 32 có nghĩa là 75% đối tượng có độ tuổi bằng hoặc thấp hơn 32 tuổi. Số trung vị (median) 29 cũng có nghĩa là 50% đối tượng có độ tuổi 29 trở xuống (hay 29 tuổi trở lên).
table(Dulich$FM)
##
## 2 3 4 5 6 7 8 9
## 93 377 505 426 294 178 59 55
table(Dulich$FM)/sum(table(Dulich$FM))
##
## 2 3 4 5 6 7 8
## 0.04680423 0.18973327 0.25415199 0.21439356 0.14796175 0.08958228 0.02969300
## 9
## 0.02767992
summary(Dulich$FM)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 4.000 5.000 4.753 6.000 9.000
Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có số thành viên trong gia đình từ 2 người đến 9 người, trung bình (mean) là 4.753. 1st Qu.(first quartile) = 4 có nghĩa là 25% đối tượng nghiên cứu có số thành viên trong gia đình bằng hoặc nhỏ hơn 4 người. Tương tự, 3rd Qu.(Third quartile) = 6 có nghĩa là 75% đối tượng có số thành viên trong gia đình bằng hoặc thấp hơn 6 người. Số trung vị (median) 5 cũng có nghĩa là 50% đối tượng có số thành viên trong gia đình là 5 người trở xuống (hay 5 người trở lên).
ggplot(Dulich, aes(ELM, fill = TI )) + geom_bar(position = 'dodge')
ggplot(Dulich, aes(GD, fill = TI )) + geom_bar(position = 'dodge')
ggplot(Dulich, aes(CD, fill = TI )) + geom_bar(position = 'dodge')
ggplot(Dulich, aes(FF, fill = TI )) + geom_bar(position = 'dodge')
ggplot(Dulich, aes(TA, fill = TI )) + geom_bar(position = 'dodge')
#Bảng tần số
TIELM <- table(Dulich$ELM, Dulich$TI); TIELM
##
## No Yes
## Government 429 141
## Private 847 570
#Bảng tần suất
TIELM1 <- prop.table(TIELM); TIELM1
##
## No Yes
## Government 0.21590337 0.07096125
## Private 0.42627076 0.28686462
Kết quả của bảng tần số và tần suất cho thấy: Có 141 khách hàng làm việc trong lĩnh vực chính phủ có mua bảo hiểm du lịch (chiếm 7,1%) và có 429 khách hàng làm việc trong lĩnh vực chính phủ không mua bảo hiểm du lịch (chiếm 21,59%). Có 570 khách hàng làm việc trong lĩnh vực tư nhân mua bảo hiểm (chiếm 28,69%) và có 847 khách hàng làm việc trong lĩnh vực tư nhân không mua bảo hiểm (chiếm 42,63%).
#Bảng tần số
TIGD <- table(Dulich$GD, Dulich$TI); TIGD
##
## No Yes
## No 196 99
## Yes 1080 612
#Bảng tần suất
TIGD1 <- prop.table(TIGD); TIGD1
##
## No Yes
## No 0.09864117 0.04982386
## Yes 0.54353296 0.30800201
Kết quả của bảng tần số và tần suất cho thấy: Có 99 khách hàng chưa tốt nghiệp đại học có mua bảo hiểm du lịch (chiếm 4,98%) và có 196 khách hàng chưa tốt nghiệp đại học không mua bảo hiểm du lịch (chiếm 9,86%). Có 612 khách hàng đã tốt nghiệp đại học mua bảo hiểm (chiếm 30,8%) và có 1080 khách hàng đã tốt nghiệp đại học không mua bảo hiểm (chiếm 54,35%).
#Bảng tần số
TICD <- table(Dulich$CD, Dulich$TI); TICD
##
## No Yes
## No 930 505
## Yes 346 206
#Bảng tần suất
TICD1 <- prop.table(TICD); TICD1
##
## No Yes
## No 0.4680423 0.2541520
## Yes 0.1741319 0.1036739
Kết quả của bảng tần số và tần suất cho thấy: Có 505 khách hàng không mắc bệnh mãn tính có mua bảo hiểm du lịch (chiếm 25,42%) và có 930 khách hàng không mắc bệnh mãn tính không mua bảo hiểm du lịch (chiếm 46,8%). Có 206 khách hàng có mắc bệnh mãn tính có mua bảo hiểm (chiếm 10,37%) và có 346 khách hàng có mắc bệnh mãn tính không mua bảo hiểm (chiếm 54,35%).
#Bảng tần số
TIFF <- table(Dulich$FF, Dulich$TI); TIFF
##
## No Yes
## No 1098 472
## Yes 178 239
#Bảng tần suất
TIFF1 <- prop.table(TIFF); TIFF1
##
## No Yes
## No 0.55259185 0.23754404
## Yes 0.08958228 0.12028183
Kết quả của bảng tần số và tần suất cho thấy: Có 472 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua có mua bảo hiểm du lịch (chiếm 23,75%) và có 1098 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua không mua bảo hiểm du lịch (chiếm 55,26%). Có 239 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua mua bảo hiểm (chiếm 12,03%) và có 178 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua không mua bảo hiểm (chiếm 8,96%).
#Bảng tần số
TITA <- table(Dulich$TA, Dulich$TI); TITA
##
## No Yes
## No 1194 413
## Yes 82 298
#Bảng tần suất
TITA1 <- prop.table(TITA); TITA1
##
## No Yes
## No 0.60090589 0.20785103
## Yes 0.04126824 0.14997484
Kết quả của bảng tần số và tần suất cho thấy: Có 413 khách hàng chưa từng đi du lịch nước ngoài có mua bảo hiểm du lịch (chiếm 20,78%) và có 1194 khách hàng chưa từng đi du lịch nước ngoài không mua bảo hiểm du lịch (chiếm 60,09%). Có 298 khách hàng đã từng đi du lịch nước ngoài mua bảo hiểm (chiếm 15%) và có 82 khách hàng đã từng đi du lịch nước ngoài không mua bảo hiểm (chiếm 4,13%).
Với dữ liệu gốc, biến thu nhập hàng năm của khách hàng (IC) là biến định lượng nhận các giá trị từ 300000Rupees đến 1800000Rupees. Tác giả đặt quy ước về việc mã hoá biến “IC” như sau: Thu nhập từ 300000Rupees đến 950000Rupees (300K-950K) và thu nhập từ 1000000Rupees đến 1800000Rupees (1000K-1800K)
#Mã hóa biến IC
Thunhap <- cut(Dulich$IC, breaks = c(250000,950000,1800000), labels=c("300K-950K","1000K-1800K"))
table(Thunhap)
## Thunhap
## 300K-950K 1000K-1800K
## 1036 951
#Bảng tần số
TIIC <- table(Thunhap, Dulich$TI); TIIC
##
## Thunhap No Yes
## 300K-950K 803 233
## 1000K-1800K 473 478
#Bảng tần suất
TIIC1 <- prop.table(TIIC); TIIC1
##
## Thunhap No Yes
## 300K-950K 0.4041268 0.1172622
## 1000K-1800K 0.2380473 0.2405637
Kết quả của bảng tần số và tần suất cho thấy: Có 233 khách hàng có thu nhập hàng năm từ 300K-950K Rupees có mua bảo hiểm du lịch (chiếm 11,73%) và có 803 khách hàng có thu nhập hàng năm từ 300K-950K Rupees không mua bảo hiểm du lịch (chiếm 40,41%). Có 478 khách hàng có thu nhập hàng năm từ 1000K-1800K Rupees mua bảo hiểm (chiếm 24,06%) và có 473 khách hàng có thu nhập hàng năm từ 1000K-1800K Rupees không mua bảo hiểm (chiếm 23,8%).
#Bảng tần số
TIA <- table(Dulich$Age, Dulich$TI); TIA
##
## No Yes
## 25 54 92
## 26 74 74
## 27 104 27
## 28 401 105
## 29 141 51
## 30 37 28
## 31 158 76
## 32 72 19
## 33 70 78
## 34 133 133
## 35 32 28
#Bảng tần suất
TIA1 <- prop.table(TIA); TIA1
##
## No Yes
## 25 0.027176648 0.046300956
## 26 0.037242073 0.037242073
## 27 0.052340211 0.013588324
## 28 0.201811777 0.052843483
## 29 0.070961248 0.025666834
## 30 0.018621037 0.014091595
## 31 0.079516860 0.038248616
## 32 0.036235531 0.009562154
## 33 0.035228988 0.039255159
## 34 0.066935078 0.066935078
## 35 0.016104680 0.014091595
#Bảng tần số
TIFM <- table(Dulich$FM, Dulich$TI); TIFM
##
## No Yes
## 2 66 27
## 3 242 135
## 4 345 160
## 5 295 131
## 6 164 130
## 7 97 81
## 8 38 21
## 9 29 26
#Bảng tần suất
TIFM1 <- prop.table(TIFM); TIFM1
##
## No Yes
## 2 0.03321590 0.01358832
## 3 0.12179165 0.06794162
## 4 0.17362859 0.08052340
## 5 0.14846502 0.06592854
## 6 0.08253649 0.06542526
## 7 0.04881731 0.04076497
## 8 0.01912431 0.01056870
## 9 0.01459487 0.01308505
riskratio(TIELM)
## $data
##
## No Yes Total
## Government 429 141 570
## Private 847 570 1417
## Total 1276 711 1987
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Government 1.000000 NA NA
## Private 1.626151 1.39039 1.901888
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Government NA NA NA
## Private 3.483569e-11 4.21807e-11 7.290975e-11
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng làm việc trong lĩnh vực “Government - Chính phủ” và “Private - Tư nhân”:
Đối với khách hàng làm việc trong lĩnh vực chính phủ (có 570 khách hàng), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.
Đối với khách hàng làm việc trong lĩnh vực tư nhân (có 1417 khách hàng), tỷ lệ rủi ro được ước tính là 1.626151. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.39039 đến 1.901888. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.
Giá trị p-value cho nhóm “Private” rất nhỏ (xấp xỉ 3.48e-11), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “Private” và nhóm “Government” là có ý nghĩa thống kê và không phải do ngẫu nhiên.
riskratio(TIGD)
## $data
##
## No Yes Total
## No 196 99 295
## Yes 1080 612 1692
## Total 1276 711 1987
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.000000 NA NA
## Yes 1.077799 0.9069494 1.280834
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.3896665 0.4296988 0.3879977
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Chưa” và “Yes - Đã” tốt nghiệp:
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.077799, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.9069494 đến 1.280834.
Giá trị p-value cho nhóm “Yes” là 0.3896665 khi sử dụng phân phối midp.exact, 0.4296988 khi sử dụng phân phối fisher.exact, và 0.3879977 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
riskratio(TICD)
## $data
##
## No Yes Total
## No 930 505 1435
## Yes 346 206 552
## Total 1276 711 1987
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.000000 NA NA
## Yes 1.060446 0.9321857 1.206354
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.3760082 0.3750747 0.3756071
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Không” và “Yes - Có” mắc bệnh nãm tính:
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.060446, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.9321857 đến 1.206354.
Giá trị p-value cho nhóm “Yes” là 0.3760082 khi sử dụng phân phối midp.exact, 0.3750747 khi sử dụng phân phối fisher.exact, và 0.3756071 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
riskratio(TIFF)
## $data
##
## No Yes Total
## No 1098 472 1570
## Yes 178 239 417
## Total 1276 711 1987
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.000000 NA NA
## Yes 1.906424 1.70436 2.132444
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0 5.695369e-24 5.792554e-25
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Không” và “Yes - Có” thường xuyên đặt vé máy bay trong 2 năm qua:
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.906424, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.70436 đến 2.132444.
Giá trị p-value cho nhóm “Yes” rất nhỏ (gần bằng 0), cho thấy có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm “No” và “Yes” khác biệt ý nghĩa.
riskratio(TITA)
## $data
##
## No Yes Total
## No 1194 413 1607
## Yes 82 298 380
## Total 1276 711 1987
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.000000 NA NA
## Yes 3.051395 2.765297 3.367094
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0 7.911639e-81 7.80608e-83
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Chưa” và “Yes - Đã” từng đi du lịch nước ngoài:
Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).
Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 3.051395, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 2.765297 đến 3.367094.
Risk ratio lớn hơn 1 (3.051395) cho thấy nhóm “Yes” có tỷ lệ rủi ro cao hơn gấp 3 lần so với nhóm “No.”
Giá trị p-value cho nhóm “Yes” rất nhỏ (gần bằng 0), cho thấy có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm “No” và “Yes” khác biệt ý nghĩa.
epitab(TIELM, method = "oddsratio")
## $tab
##
## No p0 Yes p1 oddsratio lower upper
## Government 429 0.3362069 141 0.1983122 1.000000 NA NA
## Private 847 0.6637931 570 0.8016878 2.047527 1.646659 2.545984
##
## p.value
## Government NA
## Private 4.21807e-11
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (Odds Ratio) giữa hai nhóm “Government” và “Private” không bằng nhau. Tỷ lệ chênh cho nhóm “Private” là khoảng 2.05 lần so với nhóm “Government.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.
epitab(TIGD, method = "oddsratio")
## $tab
##
## No p0 Yes p1 oddsratio lower upper p.value
## No 196 0.153605 99 0.1392405 1.000000 NA NA NA
## Yes 1080 0.846395 612 0.8607595 1.121886 0.8639772 1.456783 0.4296988
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 1.12 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.4296988) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
epitab(TICD, method = "oddsratio")
## $tab
##
## No p0 Yes p1 oddsratio lower upper p.value
## No 930 0.7288401 505 0.7102672 1.000000 NA NA NA
## Yes 346 0.2711599 206 0.2897328 1.096434 0.8943823 1.344133 0.3750747
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 1.1 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.3750747) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
epitab(TIFF, method = "oddsratio")
## $tab
##
## No p0 Yes p1 oddsratio lower upper p.value
## No 1098 0.8605016 472 0.6638537 1.000000 NA NA NA
## Yes 178 0.1394984 239 0.3361463 3.123476 2.501598 3.89995 5.695369e-24
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ rủi ro (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ rủi ro cho nhóm “Yes” là khoảng 3.12 lần so với nhóm “No.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.
epitab(TITA, method = "oddsratio")
## $tab
##
## No p0 Yes p1 oddsratio lower upper p.value
## No 1194 0.93573668 413 0.580872 1.00000 NA NA NA
## Yes 82 0.06426332 298 0.419128 10.50647 8.030006 13.74667 7.911639e-81
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ rủi ro (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ rủi ro cho nhóm “Yes” là khoảng 10.51 lần so với nhóm “No.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.
Giả thuyết - Đối thuyết:
\(H_{0}\): TI và ELM độc lập với nhau
\(H_{1}\): TI và ELM không độc lập với nhau
chisq.test(TIELM)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: TIELM
## X-squared = 41.768, df = 1, p-value = 1.028e-10
Vì p_value = 1.028e-10 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và ELM độc lập với nhau.
Giả thuyết - Đối thuyết:
\(H_{0}\): TI và GD độc lập với nhau
\(H_{1}\): TI và GD không độc lập với nhau
chisq.test(TIGD)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: TIGD
## X-squared = 0.63592, df = 1, p-value = 0.4252
Vì p_value = 0.4252 > 0.05 nên chưa đủ cơ sở để bác bỏ giả thuyết \(H_{0}\). Nghĩa là chưa đủ chứng cứ để kết luận rằng TI và GD có liên quan với nhau.
Giả thuyết - Đối thuyết:
\(H_{0}\): TI và CD độc lập với nhau
\(H_{1}\): TI và CD không độc lập với nhau
chisq.test(TICD)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: TICD
## X-squared = 0.69519, df = 1, p-value = 0.4044
Vì p_value = 0.4044 > 0.05 nên chưa đủ cơ sở để bác bỏ giả thuyết \(H_{0}\). Nghĩa là chưa đủ chứng cứ để kết luận rằng TI và GD có liên quan với nhau.
Giả thuyết - Đối thuyết:
\(H_{0}\): TI và FF độc lập với nhau
\(H_{1}\): TI và FF không độc lập với nhau
chisq.test(TIFF)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: TIFF
## X-squared = 105.3, df = 1, p-value < 2.2e-16
Vì p_value = 2.2e-16 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và FF độc lập với nhau.
Giả thuyết - Đối thuyết:
\(H_{0}\): TI và TA độc lập với nhau
\(H_{1}\): TI và TA không độc lập với nhau
chisq.test(TITA)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: TITA
## X-squared = 369.45, df = 1, p-value < 2.2e-16
Vì p_value = 2.2e-16 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và ELM độc lập với nhau.
Ước lượng tỷ lệ khách hàng có thu nhập lớn hơn 950000 đồng thời kiểm định xem tỷ lệ (%) khách hàng có độ tuổi lớn hơn 950000 có bằng 40% không?
rm<- Dulich[Dulich$IC > 950000,]
prop.test(length(rm$IC), length(Dulich$IC), p = 0.4)
##
## 1-sample proportions test with continuity correction
##
## data: length(rm$IC) out of length(Dulich$IC), null probability 0.4
## X-squared = 50.836, df = 1, p-value = 1.004e-12
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
## 0.4564582 0.5008472
## sample estimates:
## p
## 0.478611
Với khoảng tin cậy 95% ước lượng tỷ lệ khách hàng có độ tuổi lớn hơn 30 nằm trong khoảng từ 0.4564582 đến 0.5008472. p-value < 0, bác bỏ giả thuyết \(H_0\). Do đó tỷ lệ (%) khách hàng có thu nhập lớn hơn 95000 không bằng 40% với mức ý nghĩa 5%.
Ước lượng sự chênh lệch về tỷ lệ hành khách có thu nhập lớn hơn 950000 giữa hành khách có và không mua bảo hiểm du lịch. Đồng thời thực hiện bài toán kiển định sự chênh lệch này
rmm <- Dulich[Dulich$TI == "No",]
rmf <- Dulich[Dulich$TI == "Yes",]
rmm1 <- rmm[rmm$IC > 950000,]
rmf1 <- rmf[rmf$IC > 950000,]
a <- c(nrow(rmm), nrow(rmf))
b <- c(nrow(rmm1), nrow(rmf1))
prop.test(b,a)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: b out of a
## X-squared = 165.23, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.3462024 -0.2570034
## sample estimates:
## prop 1 prop 2
## 0.3706897 0.6722925
P_value < 0, chấp nhận giả thuyết \(H_0\), do đó có sự chênh lệnh về tỷ lệ khách hàng có thu nhập lớn hơn 950000 giữa hành khách có và không mua bảo hiểm du lịch
Khoảng tin cậy 95% cho chênh lệch tỷ lệ nằm trong khoảng từ -0.3462024 đến -0.2570034.
# Chọn các biến số liên tục trong mô hình
continuous_vars <- Dulich[, sapply(Dulich, is.numeric)]
# Tính ma trận tương quan
cor_matrix <- cor(continuous_vars)
cor_matrix
## Age IC FM
## Age 1.00000000 -0.02010149 0.02740866
## IC -0.02010149 1.00000000 -0.01536739
## FM 0.02740866 -0.01536739 1.00000000
MH1 <- glm( factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "logit"), data = Dulich)
summary(MH1)
##
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA +
## Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "logit"),
## data = Dulich)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.493e+00 6.223e-01 -8.827 < 2e-16 ***
## Dulich$ELMPrivate 1.154e-01 1.300e-01 0.888 0.374487
## Dulich$FFYes 4.662e-01 1.357e-01 3.437 0.000589 ***
## Dulich$TAYes 1.716e+00 1.529e-01 11.219 < 2e-16 ***
## Dulich$Age 7.285e-02 1.850e-02 3.938 8.22e-05 ***
## Dulich$IC 1.523e-06 1.746e-07 8.727 < 2e-16 ***
## Dulich$FM 1.531e-01 3.350e-02 4.571 4.85e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2591.7 on 1986 degrees of freedom
## Residual deviance: 2073.6 on 1980 degrees of freedom
## AIC: 2087.6
##
## Number of Fisher Scoring iterations: 4
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH1, test = "Chisq")
# Lấy giá trị Prob(LR statistic)
p_value <- lr_test$Pr[2]
p_value
## [1] 3.206039e-11
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
# Giá trị BrierScore
BrierScore(MH1)
## [1] 0.1709413
# Ma trận nhầm lẫn
a <- predict(MH1, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 1185 366
## 1 91 345
##
## Accuracy : 0.77
## 95% CI : (0.7509, 0.7884)
## No Information Rate : 0.6422
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.4527
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9287
## Specificity : 0.4852
## Pos Pred Value : 0.7640
## Neg Pred Value : 0.7913
## Prevalence : 0.6422
## Detection Rate : 0.5964
## Detection Prevalence : 0.7806
## Balanced Accuracy : 0.7070
##
## 'Positive' Class : 0
##
MH2 <- glm(factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "probit"), data = Dulich)
summary(MH2)
##
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA +
## Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "probit"),
## data = Dulich)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.162e+00 3.583e-01 -8.825 < 2e-16 ***
## Dulich$ELMPrivate 7.592e-02 7.550e-02 1.006 0.314633
## Dulich$FFYes 2.708e-01 8.076e-02 3.353 0.000799 ***
## Dulich$TAYes 1.055e+00 9.033e-02 11.676 < 2e-16 ***
## Dulich$Age 4.115e-02 1.084e-02 3.797 0.000146 ***
## Dulich$IC 8.798e-07 1.022e-07 8.612 < 2e-16 ***
## Dulich$FM 8.606e-02 1.959e-02 4.393 1.12e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2591.7 on 1986 degrees of freedom
## Residual deviance: 2076.0 on 1980 degrees of freedom
## AIC: 2090
##
## Number of Fisher Scoring iterations: 4
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH2, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 3.206039e-11
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
# Giá trị BrierScore
BrierScore(MH2)
## [1] 0.1713224
# Ma trận nhầm lẫn
a <- predict(MH2, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 1186 372
## 1 90 339
##
## Accuracy : 0.7675
## 95% CI : (0.7483, 0.7859)
## No Information Rate : 0.6422
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.4454
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9295
## Specificity : 0.4768
## Pos Pred Value : 0.7612
## Neg Pred Value : 0.7902
## Prevalence : 0.6422
## Detection Rate : 0.5969
## Detection Prevalence : 0.7841
## Balanced Accuracy : 0.7031
##
## 'Positive' Class : 0
##
MH3 <- glm(factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "cloglog"), data = Dulich)
summary(MH3)
##
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA +
## Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "cloglog"),
## data = Dulich)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.394e+00 4.563e-01 -9.631 < 2e-16 ***
## Dulich$ELMPrivate 8.308e-02 1.038e-01 0.801 0.423386
## Dulich$FFYes 3.311e-01 9.364e-02 3.536 0.000406 ***
## Dulich$TAYes 1.113e+00 9.515e-02 11.700 < 2e-16 ***
## Dulich$Age 4.538e-02 1.322e-02 3.432 0.000599 ***
## Dulich$IC 1.319e-06 1.367e-07 9.651 < 2e-16 ***
## Dulich$FM 1.073e-01 2.482e-02 4.323 1.54e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2591.7 on 1986 degrees of freedom
## Residual deviance: 2057.1 on 1980 degrees of freedom
## AIC: 2071.1
##
## Number of Fisher Scoring iterations: 6
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH3, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 3.206039e-11
Giả thuyết \(H_0\): Mô hình không phù hợp
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.
# Giá trị BrierScore
BrierScore(MH3)
## [1] 0.1693439
# Ma trận nhầm lẫn
a <- predict(MH3, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 1197 364
## 1 79 347
##
## Accuracy : 0.7771
## 95% CI : (0.7581, 0.7952)
## No Information Rate : 0.6422
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.4676
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9381
## Specificity : 0.4880
## Pos Pred Value : 0.7668
## Neg Pred Value : 0.8146
## Prevalence : 0.6422
## Detection Rate : 0.6024
## Detection Prevalence : 0.7856
## Balanced Accuracy : 0.7131
##
## 'Positive' Class : 0
##
| Mô hình | AIC | Deviance | Brier Score | Độ chính xác | Độ nhạy | Độ đặc hiệu |
|---|---|---|---|---|---|---|
| Logit | 2087.6 | 2073.6 | 0.1709413 | 0.77 | 0.9287 | 0.4852 |
| Probit | 2090 | 2076.0 | 0.1713224 | 0.7675 | 0.9295 | 0.4768 |
| Cloglog | 2071.1 | 2057.1 | 0.1693439 | 0.7771 | 0.9381 | 0.4880 |
| Lựa chọn | MH3 | MH3 | MH3 | MH3 | MH3 | MH3 |
Dựa vào các tiêu chí đánh giá một mô hình bao gồm AIC, Deviance, Brier Score và Confusion Matrix (Độ chính xác, độ nhạy, độ đặc hiệu) đều đưa ra kết quả cho thấy mô hình 3 - Mô hình sử dụng hàm cloglog là tốt nhất trong 3 mô hình được đề xuất. Do đó mô hình hồi quy logistic với hàm tỷ lệ (complementary log-log link function) là mô hình tốt nhất.
Kết quả phân tích hồi quy cloglog cho thấy, 6 biến đưa vào mô hình hồi quy để phân tích nhưng kết quả phân tích chỉ có 5 biến độc lập có ý nghĩa thống kê bao gồm:
FFYes: Khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua
TAYes: Khách hàng đã từng đi du lịch nước ngoài
Age: Số tuổi của khách hàng
IC: Thu nhập hàng năm của khách hàng
FM: Số thành viên trong gia đình của khách hàng
Với giả thuyết các yếu tố khác không đổi, ảnh hưởng của từng biến đến được diễn giải như sau:
Tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua có tác động đáng kể đến quyết định mua bảo hiểm du lịch. Ở mức ý nghĩa 1% khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua sẽ mua bảo hiểm du lịch cao hơn khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua.
Tình trạng khách hàng từng đi du lịch nước ngoài có tác động đáng kể đến quyết định mua bảo hiểm du lịch. Ở mức ý nghĩa 1% khách hàng đã từng đi du lịch nước ngoài sẽ mua bảo hiểm du lịch cao hơn khách hàng chưa từng đi du lịch nước ngoài.
Ở mức ý nghĩa 1%, Độ tuổi có tác động tích cực lên quyết định mua bảo hiểm du lịch.
Ở mức ý nghĩa 1%, Thu nhập hàng năm có tác động tích cực lên quyết định mua bảo hiểm du lịch.
Ở mức ý nghĩa 1%, Số thành viên trong gia đình có tác động tích cực lên quyết định mua bảo hiểm du lịch.
Với mục tiêu phân tích các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, nghiên cứu sử dụng dữ liệu quá khứ được trích xuất từ doanh số bán gói bảo hiểm trong năm 2019. Sau khi thực hiện hồi quy và lựa chọn mô hình phù hợp nhất trong 3 mô hình. Kết quả cho thấy mô hình phù hợp nhất là mô hình hồi quy hàm cloglog.
Kết quả cho thấy có 5 trên 6 yếu tố có ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, gồm: Tình trạng khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua (FF), Tình trạng khách hàng đã từng đi du lịch nước ngoài (TA), Độ tuổi (Age), Mức thu nhập hàng năm (IC) và Số thành viên trong gia đình (FM).
Qua kết quả hồi quy ta càng thấy rõ được tầm quan trọng của các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, điều này giúp cho công ty có các định hướng cụ thể trong tương lai.
Trần Kim Thanh, Trần Mạnh Tường, Vũ Anh Linh Duy: “Giáo trình Phân tích dữ liệu định tính”, trường Đại học Tài chính – Marketing, Thành phố Hồ Chí Minh.
Đỗ Kim Thoa, Bảo hiểm du lịch, thực trạng và tiềm năng phát triển. link: https://luanvan.co/luan-van/bao-hiem-du-lich-thuc-trang-va-tiem-nang-phat-trien-11209/
Link dữ liệu: https://www.kaggle.com/datasets/tejashvi14/travel-insurance-prediction-data.