library("epitools")
library("DescTools") 
library("ggplot2")
library("caret")

## Loading required package: lattice

## 
## Attaching package: 'caret'

## The following objects are masked from 'package:DescTools':
## 
##     MAE, RMSE

1 Phần mở đầu

1.1 Lý do chọn đề tài

Trong những năm gần đây, nhu cầu đi du lịch của con người đã trở nên ngày càng phổ biến và tăng cao. Đi du lịch không chỉ đơn thuần là việc di chuyển đến các địa điểm mới mẻ, mà còn là cơ hội để làm giàu tâm hồn và tạo dấu ấn trong ký ức. Sự tăng trưởng nhanh chóng của ngành du lịch phản ánh sự tăng cường nhận thức và ý thức của con người về giá trị của việc trải nghiệm và khám phá. Du lịch mang lại niềm vui và giải trí, đồng thời cũng mở rộng kiến thức, tăng cường ý thức văn hóa và giao lưu với nhiều người từ các quốc gia và vùng miền khác nhau. Trong bối cảnh này, việc mua bảo hiểm du lịch để bảo vệ bản thân và gia đình trước những rủi ro trong khi đi du lịch trở nên vô cùng cần thiết. Bảo hiểm du lịch đóng vai trò quan trọng trong việc đảm bảo sự an tâm cho du khách khi họ tiến hành hành trình của mình. Trước những rủi ro như tai nạn, mất mát hành lý, bệnh tật hoặc hủy chuyến bất ngờ, bảo hiểm du lịch giúp bảo vệ tài chính của du khách khỏi những tổn thất không mong muốn và giúp họ tập trung hơn vào việc trải nghiệm và khám phá.

Hiện nay, các công ty du lịch và bảo hiểm ngày càng đa dạng hóa sản phẩm bảo hiểm du lịch để đáp ứng nhu cầu đa dạng của khách hàng. Từ các gói bảo hiểm cơ bản bảo vệ như bảo hiểm y tế và mất mát hành lý cho đến các gói bảo hiểm phức tạp hơn về hủy chuyến, trợ cấp thay thế doanh thu và hỗ trợ khẩn cấp, du khách có nhiều lựa chọn hơn để lựa chọn gói bảo hiểm phù hợp với nhu cầu và mong muốn của họ. Đặc biệt, dịch bệnh như COVID-19 đã tạo ra những thách thức mới cho ngành du lịch và bảo hiểm du lịch. Những biến đổi không mong muốn trong hành trình, việc hủy chuyến và thiệt hại về sức khỏe đã làm cho việc mua bảo hiểm du lịch trở nên đặc biệt quan trọng và thiết yếu trong việc bảo vệ sức khỏe và tài chính của du khách.

Sự đa dạng của các công ty du lịch và các sản phẩm bảo hiểm du lịch đã tạo ra môi trường cạnh tranh trong ngành. Việc thu hút và giữ chân khách hàng là vô cùng quan trọng. Tác giả đã chọn đề tài “Các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng” vì nó mang lại nhiều giá trị trong việc nâng cao nhận thức, cải thiện dịch vụ, tăng cường cạnh tranh và phát triển bền vững trong lĩnh vực du lịch và bảo hiểm.

1.2 Mục đích nghiên cứu

Phân tích và đánh giá các yếu tố có thể ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng. Kết quả nghiên cứu sẽ cung cấp thông tin và hiểu biết sâu hơn về các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, từ đó đề xuất các giải pháp, gợi ý cho các công ty du lịch trong việc tối ưu hóa chiến lược tiếp thị và phục vụ khách hàng tốt hơn.

1.3 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu: 1987 khách hàng

Phạm vi nghiên cứu: Một công ty du lịch và lữ hành đang cung cấp gói bảo hiểm du lịch cho khách hàng của họ. Bảo hiểm đã được cung cấp cho một số khách hàng vào năm 2019 và dữ liệu nhất định đã được trích xuất từ hiệu suất/doanh số bán gói trong khoảng thời gian đó.

1.4 Phương pháp nghiên cứu

Phương pháp xử lý số liệu bằng thống kê toán học: Để nắm vững thông tin và số liệu liên quan đến bảo hiểm du lịch, tác giả sẽ tiến hành một quá trình phân tích số liệu bằng phương pháp thống kê toán học. Các thông số liên quan đến tần suất, phân bố, độ tương quan và độ tương tác giữa các biến sẽ được tính toán. Phần mềm R - một công cụ mạnh mẽ và phổ biến trong lĩnh vực thống kê và xử lý dữ liệu - sẽ hỗ trợ quá trình này. Việc sử dụng phần mềm R sẽ đảm bảo tính chính xác và đáng tin cậy trong việc phân tích số liệu.

Phương pháp dữ liệu định tính

1.5 Kết cấu đề tài

Phần mở đầu

Chương 1. Tổng quan lý thuyết

Chương 2. Phương pháp nghiên cứu

Chương 3. Kết quả nghiên cứu

Chương 4. Kết luận

2 CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT

2.1 Khái niệm về bảo hiểm

Trong cuộc sống sinh hoạt hằng này cũng như trong hoạt động sản xuất kinh doanh, mặc dù đã rất cố gắng để đề phòng nhưng con người vẫn luôn gặp phải những rủi ro bất ngờ. Những rủi ro này thường dẫn đến những tổn thất không thể lường trước được, đó có thể là những thiệt hại về giảm thu nhập, phá hoại nhiều tài sản, ngưng trệ sản xuất và kinh doanh, liên quan đến sức khỏe tính mạng của con người… và làm ảnh hưởng đến đời sống xã hội nói chung. Để khắc phục hậu quả, từ xa xưa đến nay con người ta đã sử dụng nhiều biện pháp như: tự tích lũy, đi vay, hình thành các quỹ tương hỗ… và dần dầ xuất hiện một hình thức mới đó là bảo hiểm. Như vậy, xuất phát từ mục đích hình thành một loại quỹ tài chính tập trung nhằm hỗ trợ cho những người không may gặp một loại rủi ro tương tự nhau mà bảo hiểm ra đời. Nhưng cho đến nay, người ta chưa xác định được chính xác về bảo hiểm. Tùy theo từng khía cạnh và theo quan điểm người ta đưa ra các khái niệm khác nhau. Tuy nhiên, khái niệm sau đây được cho là mang tính chúng nhất của bảo hiểm: “Bảo hiểm là hoạt động thể hiện người bảo hiểm cam kết bồi thường ( theo quy luật thống kê) cho người tham gia bảo hiểm trong trưởng hợp xãy ra rủi ro thuộc phạm vi bảo hiểm với điều kiện người tham gia phải nộp một khoản phí nhất định cho chính anh ta hay cho người thứ ba”.Điều này có nghĩa là người tham gia chuyển giao rủi ro cho người bảo hiểm bằng cách nộp một khoản phí để hình thành nên quỹ dự trữ. Khi người tham gia gặp rủi ro dẫn đến tổn thất, người bảo hiểm lấy quỹ dự trữ trợ cấp hoặc bồi thường thiệt hại thuộc phạm vi bảo hiểm cho người tham gia. Phạm vi bảo hiểm là những rủi ro mà người tham gia đăng kí với người bảo hiểm.

2.2 Khái niệm về du lịch

Ngày nay du lịch đã trở thành 1 hiện tượng kinh tế xã hội phổ biến. Hội đồng lữ hành và du lịch quốc tế(Word Travel and Tourism Council – WTTC) đã công nhận du lịch là một ngành kinh tế lớn nhất thế giới vượt lên cả ngành sản xuất ô tô, thép, điện tử và nông nghiệp. Đối với một quốc gia, du lịch là nguồn ngoại tệ quan trọng nhất trong ngoại thương. Tại nhiều quốc gia khác, du lịch là một ngành kinh tế hàng đầu. Du lịch đã nhanh chóng trở thành một ngành kinh tế mũi nhọn của nhiều quốc gia trên thế giới. Du lịch ngày nay là một đề tài hấp dẩn và đã trở thành vấn đề mang tính toàn cầu.

Du lịch là hoạt động di chuyển của con người từ nơi cư trú của mình đến các địa điểm khác nhằm mục đích giải trí, nghỉ ngơi, khám phá, trải nghiệm và học hỏi về văn hóa, lịch sử, địa lý, ngôn ngữ và các phong cảnh, món ăn đặc trưng của vùng đó. Du lịch cũng có thể là hoạt động kinh doanh, trong đó các công ty du lịch cung cấp các dịch vụ đi lại, chỗ ở, tham quan và giải trí cho khách du lịch. Du lịch là một ngành kinh tế quan trọng, tạo ra thu nhập cho nhiều quốc gia trên toàn thế giới.

2.3 Bảo hiểm du lịch

Bảo hiểm du lịch là một loại hợp đồng bảo hiểm được thiết kế để bảo vệ người đi du lịch khỏi những rủi ro và vấn đề có thể xảy ra trong khi họ ở xa khỏi nơi cư trú thường trực. Khi mua bảo hiểm du lịch, người du lịch sẽ trả một khoản tiền gọi là phí bảo hiểm để đảm bảo họ được bồi thường nếu gặp rủi ro trong suốt chuyến đi.

Tùy thuộc vào từng công ty bảo hiểm và gói bảo hiểm cụ thể, bảo hiểm du lịch có thể bao gồm một loạt các loại bảo hiểm khác nhau, bao gồm:

Bảo hiểm y tế: Bao gồm chi phí điều trị và chăm sóc y tế trong trường hợp người du lịch gặp tai nạn hoặc bị ốm trong khi đi du lịch.
Bảo hiểm hủy chuyến đi: Bồi thường chi phí chuyến đi nếu người du lịch phải hủy bỏ vì lý do ngoài tầm kiểm soát của họ, chẳng hạn như bệnh tật, tai nạn, hoặc các tình huống khẩn cấp.
Bảo hiểm mất mát hành lý: Bồi thường cho việc mất mát, hư hỏng hoặc bị đánh cắp hành lý của người du lịch trong suốt chuyến đi.
Bảo hiểm trách nhiệm công dân: Bồi thường cho việc bồi thường hoặc phạt pháp lý mà người du lịch có thể phải chịu trách nhiệm vì gây hại đến người khác hoặc tài sản của người khác trong quá trình đi du lịch.
Bảo hiểm gián đoạn chuyến đi: Bồi thường chi phí cho việc gián đoạn hoặc hoãn chuyến đi do các sự kiện bất ngờ, chẳng hạn như tai nạn giao thông, thiên tai hoặc các tình huống khẩn cấp.

Bảo hiểm du lịch thường có mức bảo vệ tùy chọn, người mua bảo hiểm có thể chọn gói bảo hiểm phù hợp với nhu cầu cụ thể của họ và tính chất của chuyến đi.

3 CHƯƠNG 2. PHƯƠNG PHÁP NGHIÊN CỨU

3.1 Dữ liệu nghiên cứu

Dữ liệu nghiên cứu về một công ty du lịch và lữ hành đang cung cấp gói bảo hiểm du lịch cho khách hàng của họ và gói bảo hiểm này cũng bao gồm bảo hiểm Covid. Mục đích là để tìm ra khách hàng nào có khả năng quan tâm đến việc mua gói bảo hiểm này, công ty sử dụng lịch sử dữ liệu của họ. Công ty đã cung cấp bảo hiểm cho một số khách hàng vào năm 2019 và đã trích xuất một số dữ liệu về hiệu suất và doanh số bán gói trong thời gian đó. Dữ liệu này bao gồm thông tin về 1987 khách hàng. Bộ dữ liệu được lấy của tác giả Tejashvi từ website: https://www.kaggle.com/datasets/tejashvi14/travel-insurance-prediction-data.

Dulich <- read.csv("D:/PTDLĐT/Dulich.csv")
str(Dulich)

## 'data.frame':    1987 obs. of  9 variables:
##  $ Age: int  31 31 34 28 28 25 31 31 28 33 ...
##  $ ELM: chr  "Government" "Private" "Private" "Private" ...
##  $ GD : chr  "Yes" "Yes" "Yes" "Yes" ...
##  $ IC : int  400000 1250000 500000 700000 700000 1150000 1300000 1350000 1450000 800000 ...
##  $ FM : int  6 7 4 3 8 4 4 3 6 3 ...
##  $ CD : chr  "Yes" "No" "Yes" "Yes" ...
##  $ FF : chr  "No" "No" "No" "No" ...
##  $ TA : chr  "No" "No" "No" "No" ...
##  $ TI : chr  "Yes" "No" "Yes" "No" ...

Dữ liệu nghiên cứu gồm 1100 quan sát với 9 biến bao gồm 6 biến định tính và 3 biến định lượng.

trong đó:

Biến định tính

ELM: Lĩnh vực của khách hàng đang làm việc (Government Sector: Lĩnh vực chính phủ; Private Sector: Lĩnh vực tư nhân)
GD: Tình trạng tốt nghiệp đại học của khách hàng (Yes: Đã; No: Chưa)
CD: Tình trạng mắc bệnh mãn tính của khách hàng (Yes: Có; No: Không)
FF: Tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua (Yes: Có; No: Không)
TA: Tình trạng khách hàng đã từng đi du lịch nước ngoài (Yes: Có; No: Không)
TI: Tình trạng mua bảo hiểm du lịch của khách hàng (Yes: Có; No: Không)

Biến định lượng

Age: Số tuổi của khách hàng
IC: Thu nhập hàng năm của khách hàng tính bằng Rupee Ấn Độ.
FM: Số thành viên trong gia đình khách hàng

3.2 Mô hình nghiên cứu

3.2.1 Mô hình hồi quy với hàm logit

Xét biến đáp ứng là biến nhị phân với hai thuộc tính: một gọi là “Thành công” và một gọi là “Thất bại”, chịu sự tác động của một tập hợp m biến \(X=(X_{1}, X_{2},..., X_{m})\) mà ta gọi là các biến giải thích. Biến đáp ứng được đại diện, hay lượng hóa bởi biến ngẫu nhiên có phân phối 0 – 1:

Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”

Mô hình logistic mô tả sự phụ thuộc của biến đáp ứng thông qua xác suất “Thành công” \(\pi(x)=P(Y=1|X=x)\) ứng với mức \(x=(x_{1}, x_{2},..., x_{m})\) của các biến giải thích phụ thuộc vào \(x=(x_{1}, x_{2},..., x_{m})\) dưới dạng:

\[log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})=\beta_0+\beta_1.x_1+\beta_2.x_2+...+\beta_m.x_m\]

Trong đó các hằng số \(\beta_0, \beta_1, \beta_2,...,\beta_m\) được gọi là các hệ số hồi quy. Hệ số \(\beta_j\) của biến \(x_j\) là lượng thay đổi của \(log( \frac{\mathrm{ \pi (x)} }{\mathrm{ 1- \pi (x)}})\), hay của \(log[Odds(x)]\) khi biến \(x_j\) thay đổi 1 đơn vị, trong điều kiện các biến khác không thay đổi, \(j = 1, 2,…, m\).

Nếu \(\beta_j>0,\pi(x)\) đồng biến theo \(x_j\), khi các biến khác không thay đổi.
Nếu \(\beta_j<0,\pi(x)\) nghịch biến theo \(x_j\), khi các biến khác không thay đổi.
Nếu \(\beta_j=0,\pi(x)\) không phụ thuộc \(x_j\).

Khi \(x_j\) tăng thêm 1 đơn vị, còn các biến khác không thay đổi thì tỷ lệ cược \(Odds(x)\) được nhân lên với \(e^{\beta_j}\)

Mô ước lượng cho mô hình hồi quy Logistic là :

\[log( \frac{\mathrm{\widehat{\pi}(x)}}{\mathrm{1-\widehat{\pi} (x)}})=\widehat{\beta}_0+\widehat{\beta}_1.x_1+\widehat{\beta}_2.x_2+...+\widehat{\beta}_m.x_m\]

Trong đó các hệ số \(\widehat{\beta}_j\) ước lượng cho hồi quy \(\beta_j\) được tìm theo phương pháp hợp lý cực đại.

3.2.2 Mô hình hồi quy với hàm probit

Giả sử biến đáp ứng nhị phân với hai giá trị mà ta gọi là “Thành công” và “Thất bại”, phụ thuộc vào m biến giải thích:\(X_{1}, X_{2},..., X_{m}\). Ký hiệu:

\[X=(X_{1}, X_{2},..., X_{m})\]; Y = 1 nếu đáp ứng là “Thành công” và 0 nếu đáp ứng là “Thất bại”

thì xác suất “Thành công” ứng với \(X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m}\) là:

\[\pi(x)=\pi(x_{1},x_{2},...,x_{m})=E(Y|X_{1}=x_{1}, X_{2}=x_{2},...,X_{m}=x_{m})\]

Mô hình Probit đa biến có dạng:

\[\pi(x_{1},x_{2},...,x_{m})=\Phi(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\]

hay: \(Probi(\pi(x_{1},x_{2},...,x_{m}))=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{m}x_{m}\)

trong đó \(\phi\) là hàm phân phối chuẩn chính tắc: \[\Phi(t)=\frac{\mathrm{1}}{\mathrm{\sqrt{2\pi}}}\int_t^\infty \mathrm{e}^{-\frac{1}{2}u^2}\,\mathrm{d}u\]

và Probit là phép lấy hàm ngược của \(\Phi\):

\[Probit(\pi(x_{1},x_{2},...,x_{m}))=\Phi^{-1}(\pi(x_{1},x_{2},...,x_{m}))\]

3.2.3 Mô hình hồi quy với hàm cloglog

Trong trường hợp tỷ lệ cược phụ thuộc vào các biến giải thích dưới dạng hàm lũy thừa:

\[Odds(x)=\frac{\pi(x)}{1-\pi(x)}=\lambda.x_1^{\beta_1}.x_2^{\beta_2}....x_m^{\beta_1m}\]

ta nhận được mô hình logistic có các biến dự báo ở dạng log, gọi là mô hình logistic dạng log-log

\[log(\frac{\pi(x)}{1-\pi(x)})=\beta_0+\beta_1.log x_1+\beta_2.log x_2+...+\beta_m.log x_m\]

3.3 Các tiêu chí đánh giá mô hình

3.3.1 Chỉ số AIC (Akaike Information Criterian)

AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:

\[AIC=-2ln(L)+2k\]

Với \(L\)là giá trị cực đại của hàm hợp lý (likelihood function) và \(k\) là số tham số của mô hình.

3.3.2 Deviance

Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.

3.3.3 Chỉ số Brier

Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:

\[B=\frac{1}{n}\sum_{t=1}^{n} (Y_t-\widehat{\pi}_t)^2\] Trong đó \(\widehat{\pi}_t\) là giá trị ước lượng của \(\pi(x_i)=E(Y|X=x_i)\) Chỉ số Brier thực chất là trung bỉnh của tổng bình phương các độ lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó. Vì vậy chỉ số B càng bé thì mô hình cho ước lượng càng chính xác, tức là càng phù hợp với dữ liệu quan sát.

3.3.4 Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn là yếu tố giúp so sánh giá trị thực tế và giá trị dự báo:

Giá trị dự báo cho quan sát thực tế \(Y_t\) là \(\widehat{Y}_j=@round(\widehat{\pi}_j)=1nếu \widehat{\pi}_j \geq 0.5; 0 nếu\widehat{\pi}_j<0.5\)

Nếu \(Y_j=1\) và \(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính thực,

Nếu \(Y_j=0\) và \(\widehat{Y}_j=1\), thì \(\widehat{Y}_j=1\) được gọi là một dương tính giả,

Nếu \(Y_j=1\) và \(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính giả,

Nếu \(Y_j=0\) và \(\widehat{Y}_j=0\), thì \(\widehat{Y}_j=0\) được gọi là một âm tính thực,

Nếu \(Y_j=\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo đúng hay chính xác, nếu \(Y_j\neq\widehat{Y}_j\), thì \(\widehat{Y}_j\) được gọi là dự báo sai hay không chính xác. Kí hiệu TN (True Negative) là số âm tính thực, FN (Fale Negative) là số âm tính giả, FP (Fale Positive) là số dương tính giả, TP (True Positive) là số dương tính thực, ta có:

Ma trận: \(\begin{bmatrix}TN&FP\\FN&TP\end{bmatrix}\) được gọi là ma trận nhầm lẫn (Confusion Matrix) của mô hình. Trong ma trận nhầm lẫn người ta xét các chỉ số:

Độ chính xác toàn thể \(=\frac{TN+TP}{n}\) (tỷ lệ dự báo đúng trên toàn bộ mẫu)
Sai số toàn thể \(=\frac{FN+FP}{n}\) (tỷ lệ dự báo sai trên mẫu)
Độ nhạy (Sensitivity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=1}\) (tỷ lệ dự báo đúng trên tổng số các thành công được quan sát). Độ nhạy càng lớn càng tốt.
Sai số âm tính giả (Fale negative error) \(=1-Độ nhạy=\frac{FN}{FN+TP}\)
Độ đặc hiệu (Specificity) \(=\frac{TP}{FN+TP}=\frac{Số dương tính thực}{Tổng số quan sát có Y=0}\)

Độ đặc hiệu càng lớn càng tốt.

Sai số dương tính giả \(=1-Độ đặc hiệu=\frac{FP}{TN+FP}\)

Một mô hình tốt là một mô hình có độ nhạy lớn và độ đặc hiệu lớn.

4 CHƯƠNG 3. KẾT QUẢ NGHIÊN CỨU

4.1 Thống kê mô tả

4.1.1 Thống kê mô tả cho một biến

4.1.1.1 Biểu đồ các biến

Các biến dữ liệu định tính

#Biểu đồ biến TI
ggplot(Dulich,aes(TI)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng mua bảo hiểm du lịch")

#Biểu đồ biến ELM
ggplot(Dulich,aes(ELM)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Lĩnh vực khách hàng đang làm việc")

#Biểu đồ biến GD
ggplot(Dulich,aes(GD)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng tốt nghiệp đại học của khách hàng")

#Biểu đồ biến CD
ggplot(Dulich,aes(CD)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng mắc bệnh mãn tính")

#Biểu đồ biến FF
ggplot(Dulich,aes(FF)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng thường xuyên đặt vé máy bay của khách hàng")

#Biểu đồ biến TA
ggplot(Dulich,aes(TA)) + geom_bar(color ="black", fill = "pink") + ylab("Số khách hàng") + xlab("Tình trạng khách hàng đã từng đi du lịch nước ngoài")

Các biến dữ liệu định lượng

#Biểu đồ biến IC
hist(Dulich$IC, main = "Biểu đồ thể hiện thu nhập hàng năm của KH",xlab = "thu nhập hàng năm", ylab = "Khách hàng", col = "pink")

#Biểu đồ biến Age
hist(Dulich$Age, main = "Biểu đồ thể hiện độ tuổi của khách hàng",xlab = "Số tuổi", ylab = "Khách hàng", col = "pink")

#Biểu đồ biến FM
pie(table(Dulich$FM), col = rainbow(8), main = "Biểu đồ thể hiện số thành viên trong gia định của KH")

4.1.1.2 Bảng tần số - tần suất

Tình trạng mua bảo hiểm du lịch của khách hàng - TI

#Bảng tần số
table(Dulich$TI)

## 
##   No  Yes 
## 1276  711

#Bảng tần suất
table(Dulich$TI)/sum(table(Dulich$TI))

## 
##        No       Yes 
## 0.6421741 0.3578259

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1276 khách hàng không mua bảo hiểm du lịch chiếm 64,22% và có 711 khách hàng mua bảo hiểm du lịch chiếm 35,78%.

Lĩnh vực của khách hàng đang làm việc - ELM

#Bảng tần số
table(Dulich$ELM)

## 
## Government    Private 
##        570       1417

#Bảng tần suất
table(Dulich$ELM)/sum(table(Dulich$ELM))

## 
## Government    Private 
##  0.2868646  0.7131354

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 570 khách hàng làm việc thuộc lĩnh vực chính phủ, chiếm 28,69% và có 1417 khách hàng làm việc thuộc lĩnh vực tư nhân, chiếm 71,31%.

Tình trạng tốt nghiệp đại học của khách hàng - GD

#Bảng tần số
table(Dulich$GD)

## 
##   No  Yes 
##  295 1692

#Bảng tần suất
table(Dulich$GD)/sum(table(Dulich$GD))

## 
##       No      Yes 
## 0.148465 0.851535

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 295 khách hàng chưa tốt nghiệp đại học, chiếm 14,85% và có 1692 khách hàng đã tốt nghiệp đại học, chiếm 85,15%.

Tình trạng mắc bệnh mãn tính của khách hàng - CD

#Bảng tần số
table(Dulich$CD)

## 
##   No  Yes 
## 1435  552

#Bảng tần suất
table(Dulich$CD)/sum(table(Dulich$CD))

## 
##        No       Yes 
## 0.7221943 0.2778057

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1435 khách hàng không mắc bênh mãn tính, chiếm 72,22% và có 552 khách hàng có mắc bênh mãn tính, chiếm 27,78%.

Tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua - FF

#Bảng tần số
table(Dulich$FF)

## 
##   No  Yes 
## 1570  417

#Bảng tần suất
table(Dulich$FF)/sum(table(Dulich$FF))

## 
##        No       Yes 
## 0.7901359 0.2098641

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1570 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua, chiếm 79,01% và có 417 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua, chiếm 20,99%.

Tình trạng khách hàng đã từng đi du lịch nước ngoài - TA

#Bảng tần số
table(Dulich$TA)

## 
##   No  Yes 
## 1607  380

#Bảng tần suất
table(Dulich$TA)/sum(table(Dulich$TA))

## 
##        No       Yes 
## 0.8087569 0.1912431

Dựa vào kết quả của bảng tần số và bảng tần suất ta thấy trong 1987 khách hàng thì có 1607 khách hàng chưa từng đi du lịch nước ngoài, chiếm 80,88% và có 380 khách hàng đã từng đi du lịch nước ngoài, chiếm 19,12%.

Thu nhập hàng năm của khách hàng - IC

table(cut(Dulich$IC,4))

## 
## (2.98e+05,6.75e+05] (6.75e+05,1.05e+06] (1.05e+06,1.42e+06]  (1.42e+06,1.8e+06] 
##                 575                 603                 633                 176

table(cut(Dulich$IC,4))/sum(table(cut(Dulich$IC,4)))

## 
## (2.98e+05,6.75e+05] (6.75e+05,1.05e+06] (1.05e+06,1.42e+06]  (1.42e+06,1.8e+06] 
##          0.28938098          0.30347257          0.31857071          0.08857574

summary(Dulich$IC)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  300000  600000  900000  932763 1250000 1800000

Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có thu nhập hàng năm từ 300.000 Rupees đến 1.800.000 Rupees, trung bình (mean) là 932.763 Rupees. 1st Qu.(first quartile) = 600.000 có nghĩa là 25% đối tượng nghiên cứu có thu nhập hàng năm bằng hoặc nhỏ hơn 600.000 Rupees. Tương tự, 3rd Qu.(Third quartile) = 1.250.000 có nghĩa là 75% đối tượng có thu nhập hàng năm bằng hoặc thấp hơn 1.250.000 Rupees. Số trung vị (median) 900.000 cũng có nghĩa là 50% đối tượng có thu nhập hàng năm là 900.000 Rupees trở xuống (hay 950.000 Rupees trở lên).

Số tuổi của khách hàng - Age

table(cut(Dulich$Age,4))

## 
## (25,27.5] (27.5,30] (30,32.5] (32.5,35] 
##       425       763       325       474

table(cut(Dulich$Age,4))/sum(table(cut(Dulich$Age,4)))

## 
## (25,27.5] (27.5,30] (30,32.5] (32.5,35] 
## 0.2138903 0.3839960 0.1635632 0.2385506

summary(Dulich$Age)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   28.00   29.00   29.65   32.00   35.00

Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có độ tuổi từ 25 tuổi đến 35 tuổi, trung bình (mean) là 29,65 tuổi. 1st Qu.(first quartile) = 28 có nghĩa là 25% đối tượng nghiên cứu có độ tuổi bằng hoặc nhỏ hơn 28 tuổi. Tương tự, 3rd Qu.(Third quartile) = 32 có nghĩa là 75% đối tượng có độ tuổi bằng hoặc thấp hơn 32 tuổi. Số trung vị (median) 29 cũng có nghĩa là 50% đối tượng có độ tuổi 29 trở xuống (hay 29 tuổi trở lên).

Số thành viên trong gia đình khách hàng - FM

table(Dulich$FM)

## 
##   2   3   4   5   6   7   8   9 
##  93 377 505 426 294 178  59  55

table(Dulich$FM)/sum(table(Dulich$FM))

## 
##          2          3          4          5          6          7          8 
## 0.04680423 0.18973327 0.25415199 0.21439356 0.14796175 0.08958228 0.02969300 
##          9 
## 0.02767992

summary(Dulich$FM)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.000   4.000   5.000   4.753   6.000   9.000

Dựa vào kết quả thống kê mô tả, ta thấy khách hàng của công ty du lịch và lữ hành có số thành viên trong gia đình từ 2 người đến 9 người, trung bình (mean) là 4.753. 1st Qu.(first quartile) = 4 có nghĩa là 25% đối tượng nghiên cứu có số thành viên trong gia đình bằng hoặc nhỏ hơn 4 người. Tương tự, 3rd Qu.(Third quartile) = 6 có nghĩa là 75% đối tượng có số thành viên trong gia đình bằng hoặc thấp hơn 6 người. Số trung vị (median) 5 cũng có nghĩa là 50% đối tượng có số thành viên trong gia đình là 5 người trở xuống (hay 5 người trở lên).

4.1.2 Thống kê mô tả cho hai biến tính

4.1.2.1 Biểu đồ của các cặp biến định tính

Biến phụ thuộc: TI và biến độc lập: ELM

ggplot(Dulich, aes(ELM, fill = TI )) + geom_bar(position = 'dodge')

Biến phụ thuộc: TI và biến độc lập: GD

ggplot(Dulich, aes(GD, fill = TI )) + geom_bar(position = 'dodge')

Biến phụ thuộc: TI và biến độc lập: CD

ggplot(Dulich, aes(CD, fill = TI )) + geom_bar(position = 'dodge')

Biến phụ thuộc: TI và biến độc lập: FF

ggplot(Dulich, aes(FF, fill = TI )) + geom_bar(position = 'dodge')

Biến phụ thuộc: TI và biến độc lập: TA

ggplot(Dulich, aes(TA, fill = TI )) + geom_bar(position = 'dodge')

4.1.2.2 Bảng tần số - tần suất của các cặp biến

Tình trạng khách hàng mua bảo hiểm du lịch theo lĩnh vực làm việc

#Bảng tần số
TIELM <- table(Dulich$ELM, Dulich$TI); TIELM

##             
##               No Yes
##   Government 429 141
##   Private    847 570

#Bảng tần suất
TIELM1 <- prop.table(TIELM); TIELM1

##             
##                      No        Yes
##   Government 0.21590337 0.07096125
##   Private    0.42627076 0.28686462

Kết quả của bảng tần số và tần suất cho thấy: Có 141 khách hàng làm việc trong lĩnh vực chính phủ có mua bảo hiểm du lịch (chiếm 7,1%) và có 429 khách hàng làm việc trong lĩnh vực chính phủ không mua bảo hiểm du lịch (chiếm 21,59%). Có 570 khách hàng làm việc trong lĩnh vực tư nhân mua bảo hiểm (chiếm 28,69%) và có 847 khách hàng làm việc trong lĩnh vực tư nhân không mua bảo hiểm (chiếm 42,63%).

Tình trạng khách hàng mua bảo hiểm du lịch theo tình trạng tốt nghiệp đại học

#Bảng tần số
TIGD <- table(Dulich$GD, Dulich$TI); TIGD

##      
##         No  Yes
##   No   196   99
##   Yes 1080  612

#Bảng tần suất
TIGD1 <- prop.table(TIGD); TIGD1

##      
##               No        Yes
##   No  0.09864117 0.04982386
##   Yes 0.54353296 0.30800201

Kết quả của bảng tần số và tần suất cho thấy: Có 99 khách hàng chưa tốt nghiệp đại học có mua bảo hiểm du lịch (chiếm 4,98%) và có 196 khách hàng chưa tốt nghiệp đại học không mua bảo hiểm du lịch (chiếm 9,86%). Có 612 khách hàng đã tốt nghiệp đại học mua bảo hiểm (chiếm 30,8%) và có 1080 khách hàng đã tốt nghiệp đại học không mua bảo hiểm (chiếm 54,35%).

Tình trạng khách hàng mua bảo hiểm du lịch theo tình trạng mắc bệnh mãn tính của khách hàng

#Bảng tần số
TICD <- table(Dulich$CD, Dulich$TI); TICD

##      
##        No Yes
##   No  930 505
##   Yes 346 206

#Bảng tần suất
TICD1 <- prop.table(TICD); TICD1

##      
##              No       Yes
##   No  0.4680423 0.2541520
##   Yes 0.1741319 0.1036739

Kết quả của bảng tần số và tần suất cho thấy: Có 505 khách hàng không mắc bệnh mãn tính có mua bảo hiểm du lịch (chiếm 25,42%) và có 930 khách hàng không mắc bệnh mãn tính không mua bảo hiểm du lịch (chiếm 46,8%). Có 206 khách hàng có mắc bệnh mãn tính có mua bảo hiểm (chiếm 10,37%) và có 346 khách hàng có mắc bệnh mãn tính không mua bảo hiểm (chiếm 54,35%).

Tình trạng khách hàng mua bảo hiểm du lịch theo tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua

#Bảng tần số
TIFF <- table(Dulich$FF, Dulich$TI); TIFF

##      
##         No  Yes
##   No  1098  472
##   Yes  178  239

#Bảng tần suất
TIFF1 <- prop.table(TIFF); TIFF1

##      
##               No        Yes
##   No  0.55259185 0.23754404
##   Yes 0.08958228 0.12028183

Kết quả của bảng tần số và tần suất cho thấy: Có 472 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua có mua bảo hiểm du lịch (chiếm 23,75%) và có 1098 khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua không mua bảo hiểm du lịch (chiếm 55,26%). Có 239 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua mua bảo hiểm (chiếm 12,03%) và có 178 khách hàng thường xuyên đặt vé máy bay trong 2 năm qua không mua bảo hiểm (chiếm 8,96%).

Tình trạng khách hàng mua bảo hiểm du lịch theo tình trạng khách hàng có từng đi du lịch nước ngoài

#Bảng tần số
TITA <- table(Dulich$TA, Dulich$TI); TITA

##      
##         No  Yes
##   No  1194  413
##   Yes   82  298

#Bảng tần suất
TITA1 <- prop.table(TITA); TITA1

##      
##               No        Yes
##   No  0.60090589 0.20785103
##   Yes 0.04126824 0.14997484

Kết quả của bảng tần số và tần suất cho thấy: Có 413 khách hàng chưa từng đi du lịch nước ngoài có mua bảo hiểm du lịch (chiếm 20,78%) và có 1194 khách hàng chưa từng đi du lịch nước ngoài không mua bảo hiểm du lịch (chiếm 60,09%). Có 298 khách hàng đã từng đi du lịch nước ngoài mua bảo hiểm (chiếm 15%) và có 82 khách hàng đã từng đi du lịch nước ngoài không mua bảo hiểm (chiếm 4,13%).

Tình trạng khách hàng mua bảo hiểm du lịch theo mức thu nhập hằng năm

Với dữ liệu gốc, biến thu nhập hàng năm của khách hàng (IC) là biến định lượng nhận các giá trị từ 300000Rupees đến 1800000Rupees. Tác giả đặt quy ước về việc mã hoá biến “IC” như sau: Thu nhập từ 300000Rupees đến 950000Rupees (300K-950K) và thu nhập từ 1000000Rupees đến 1800000Rupees (1000K-1800K)

#Mã hóa biến IC
Thunhap <- cut(Dulich$IC, breaks = c(250000,950000,1800000), labels=c("300K-950K","1000K-1800K"))
table(Thunhap)

## Thunhap
##   300K-950K 1000K-1800K 
##        1036         951

#Bảng tần số
TIIC <- table(Thunhap, Dulich$TI); TIIC

##              
## Thunhap        No Yes
##   300K-950K   803 233
##   1000K-1800K 473 478

#Bảng tần suất
TIIC1 <- prop.table(TIIC); TIIC1

##              
## Thunhap              No       Yes
##   300K-950K   0.4041268 0.1172622
##   1000K-1800K 0.2380473 0.2405637

Kết quả của bảng tần số và tần suất cho thấy: Có 233 khách hàng có thu nhập hàng năm từ 300K-950K Rupees có mua bảo hiểm du lịch (chiếm 11,73%) và có 803 khách hàng có thu nhập hàng năm từ 300K-950K Rupees không mua bảo hiểm du lịch (chiếm 40,41%). Có 478 khách hàng có thu nhập hàng năm từ 1000K-1800K Rupees mua bảo hiểm (chiếm 24,06%) và có 473 khách hàng có thu nhập hàng năm từ 1000K-1800K Rupees không mua bảo hiểm (chiếm 23,8%).

Tình trạng khách hàng mua bảo hiểm du lịch theo độ tuổi của khách hàng

#Bảng tần số
TIA <- table(Dulich$Age, Dulich$TI); TIA

##     
##       No Yes
##   25  54  92
##   26  74  74
##   27 104  27
##   28 401 105
##   29 141  51
##   30  37  28
##   31 158  76
##   32  72  19
##   33  70  78
##   34 133 133
##   35  32  28

#Bảng tần suất
TIA1 <- prop.table(TIA); TIA1

##     
##               No         Yes
##   25 0.027176648 0.046300956
##   26 0.037242073 0.037242073
##   27 0.052340211 0.013588324
##   28 0.201811777 0.052843483
##   29 0.070961248 0.025666834
##   30 0.018621037 0.014091595
##   31 0.079516860 0.038248616
##   32 0.036235531 0.009562154
##   33 0.035228988 0.039255159
##   34 0.066935078 0.066935078
##   35 0.016104680 0.014091595

Tình trạng khách hàng mua bảo hiểm du lịch theo số thành viên trong gia đình khách hàng

#Bảng tần số
TIFM <- table(Dulich$FM, Dulich$TI); TIFM

##    
##      No Yes
##   2  66  27
##   3 242 135
##   4 345 160
##   5 295 131
##   6 164 130
##   7  97  81
##   8  38  21
##   9  29  26

#Bảng tần suất
TIFM1 <- prop.table(TIFM); TIFM1

##    
##             No        Yes
##   2 0.03321590 0.01358832
##   3 0.12179165 0.06794162
##   4 0.17362859 0.08052340
##   5 0.14846502 0.06592854
##   6 0.08253649 0.06542526
##   7 0.04881731 0.04076497
##   8 0.01912431 0.01056870
##   9 0.01459487 0.01308505

4.1.3 Rủi ro tương đối

4.1.3.1 Rủi ro tương đối giữa biến TI và ELM

riskratio(TIELM)

## $data
##             
##                No Yes Total
##   Government  429 141   570
##   Private     847 570  1417
##   Total      1276 711  1987
## 
## $measure
##             risk ratio with 95% C.I.
##              estimate   lower    upper
##   Government 1.000000      NA       NA
##   Private    1.626151 1.39039 1.901888
## 
## $p.value
##             two-sided
##                midp.exact fisher.exact   chi.square
##   Government           NA           NA           NA
##   Private    3.483569e-11  4.21807e-11 7.290975e-11
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng làm việc trong lĩnh vực “Government - Chính phủ” và “Private - Tư nhân”:

Đối với khách hàng làm việc trong lĩnh vực chính phủ (có 570 khách hàng), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.

Đối với khách hàng làm việc trong lĩnh vực tư nhân (có 1417 khách hàng), tỷ lệ rủi ro được ước tính là 1.626151. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.39039 đến 1.901888. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.

Giá trị p-value cho nhóm “Private” rất nhỏ (xấp xỉ 3.48e-11), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “Private” và nhóm “Government” là có ý nghĩa thống kê và không phải do ngẫu nhiên.

4.1.3.2 Rủi ro tương đối giữa biến TI và GD

riskratio(TIGD)

## $data
##        
##           No Yes Total
##   No     196  99   295
##   Yes   1080 612  1692
##   Total 1276 711  1987
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate     lower    upper
##   No  1.000000        NA       NA
##   Yes 1.077799 0.9069494 1.280834
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact chi.square
##   No          NA           NA         NA
##   Yes  0.3896665    0.4296988  0.3879977
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Chưa” và “Yes - Đã” tốt nghiệp:

Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).

Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.077799, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.9069494 đến 1.280834.

Giá trị p-value cho nhóm “Yes” là 0.3896665 khi sử dụng phân phối midp.exact, 0.4296988 khi sử dụng phân phối fisher.exact, và 0.3879977 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

4.1.3.3 Rủi ro tương đối giữa biến TI và CD

riskratio(TICD)

## $data
##        
##           No Yes Total
##   No     930 505  1435
##   Yes    346 206   552
##   Total 1276 711  1987
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate     lower    upper
##   No  1.000000        NA       NA
##   Yes 1.060446 0.9321857 1.206354
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact chi.square
##   No          NA           NA         NA
##   Yes  0.3760082    0.3750747  0.3756071
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Không” và “Yes - Có” mắc bệnh nãm tính:

Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).

Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.060446, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.9321857 đến 1.206354.

Giá trị p-value cho nhóm “Yes” là 0.3760082 khi sử dụng phân phối midp.exact, 0.3750747 khi sử dụng phân phối fisher.exact, và 0.3756071 khi sử dụng phân phối chi-square. Các giá trị này đều lớn hơn ngưỡng ý nghĩa thường được sử dụng là 0.05, cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

4.1.3.4 Rủi ro tương đối giữa biến TI và FF

riskratio(TIFF)

## $data
##        
##           No Yes Total
##   No    1098 472  1570
##   Yes    178 239   417
##   Total 1276 711  1987
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate   lower    upper
##   No  1.000000      NA       NA
##   Yes 1.906424 1.70436 2.132444
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact   chi.square
##   No          NA           NA           NA
##   Yes          0 5.695369e-24 5.792554e-25
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Không” và “Yes - Có” thường xuyên đặt vé máy bay trong 2 năm qua:

Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).

Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 1.906424, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.70436 đến 2.132444.

Giá trị p-value cho nhóm “Yes” rất nhỏ (gần bằng 0), cho thấy có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm “No” và “Yes” khác biệt ý nghĩa.

4.1.3.5 Rủi ro tương đối giữa biến TI và TA

riskratio(TITA)

## $data
##        
##           No Yes Total
##   No    1194 413  1607
##   Yes     82 298   380
##   Total 1276 711  1987
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate    lower    upper
##   No  1.000000       NA       NA
##   Yes 3.051395 2.765297 3.367094
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact  chi.square
##   No          NA           NA          NA
##   Yes          0 7.911639e-81 7.80608e-83
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa hai nhóm khách hàng “No - Chưa” và “Yes - Đã” từng đi du lịch nước ngoài:

Đối với nhóm “No” tỷ lệ rủi ro được coi là cơ sở (1.000000).

Đối với nhóm “Yes” tỷ lệ rủi ro được ước tính là 3.051395, và khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 2.765297 đến 3.367094.

Risk ratio lớn hơn 1 (3.051395) cho thấy nhóm “Yes” có tỷ lệ rủi ro cao hơn gấp 3 lần so với nhóm “No.”

4.1.4 Tỷ lệ chênh

4.1.4.1 Tỷ lệ chênh giữa biến TI và ELM

epitab(TIELM, method = "oddsratio")

## $tab
##             
##               No        p0 Yes        p1 oddsratio    lower    upper
##   Government 429 0.3362069 141 0.1983122  1.000000       NA       NA
##   Private    847 0.6637931 570 0.8016878  2.047527 1.646659 2.545984
##             
##                  p.value
##   Government          NA
##   Private    4.21807e-11
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (Odds Ratio) giữa hai nhóm “Government” và “Private” không bằng nhau. Tỷ lệ chênh cho nhóm “Private” là khoảng 2.05 lần so với nhóm “Government.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

4.1.4.2 Tỷ lệ chênh giữa biến TI và GD

epitab(TIGD, method = "oddsratio")

## $tab
##      
##         No       p0 Yes        p1 oddsratio     lower    upper   p.value
##   No   196 0.153605  99 0.1392405  1.000000        NA       NA        NA
##   Yes 1080 0.846395 612 0.8607595  1.121886 0.8639772 1.456783 0.4296988
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 1.12 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.4296988) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

4.1.4.3 Tỷ lệ chênh giữa biến TI và CD

epitab(TICD, method = "oddsratio")

## $tab
##      
##        No        p0 Yes        p1 oddsratio     lower    upper   p.value
##   No  930 0.7288401 505 0.7102672  1.000000        NA       NA        NA
##   Yes 346 0.2711599 206 0.2897328  1.096434 0.8943823 1.344133 0.3750747
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ chênh cho nhóm “Yes” là khoảng 1.1 lần so với nhóm “No.” Tuy nhiên, giá trị p-value (0.3750747) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

4.1.4.4 Tỷ lệ chênh giữa biến TI và FF

epitab(TIFF, method = "oddsratio")

## $tab
##      
##         No        p0 Yes        p1 oddsratio    lower   upper      p.value
##   No  1098 0.8605016 472 0.6638537  1.000000       NA      NA           NA
##   Yes  178 0.1394984 239 0.3361463  3.123476 2.501598 3.89995 5.695369e-24
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ rủi ro (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ rủi ro cho nhóm “Yes” là khoảng 3.12 lần so với nhóm “No.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

4.1.4.5 Tỷ lệ chênh giữa biến TI và TA

epitab(TITA, method = "oddsratio")

## $tab
##      
##         No         p0 Yes       p1 oddsratio    lower    upper      p.value
##   No  1194 0.93573668 413 0.580872   1.00000       NA       NA           NA
##   Yes   82 0.06426332 298 0.419128  10.50647 8.030006 13.74667 7.911639e-81
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ rủi ro (odds ratio) giữa hai nhóm “No” và “Yes” không bằng nhau. Tỷ lệ rủi ro cho nhóm “Yes” là khoảng 10.51 lần so với nhóm “No.” Giá trị p-value rất nhỏ (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

4.2 Thống kê suy diễn cho dữ liệu định tính

4.2.1 Kiểm định tính độc lập cho hai biến định tính

4.2.1.1 Kiểm đinh tính độc lập cho biến TI và ELM

Kiểm định tính độc lập

Giả thuyết - Đối thuyết:

\(H_{0}\): TI và ELM độc lập với nhau

\(H_{1}\): TI và ELM không độc lập với nhau

chisq.test(TIELM)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  TIELM
## X-squared = 41.768, df = 1, p-value = 1.028e-10

Vì p_value = 1.028e-10 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và ELM độc lập với nhau.

4.2.1.2 Kiểm đinh tính độc lập cho biến TI và GD

Kiểm định tính độc lập

Giả thuyết - Đối thuyết:

\(H_{0}\): TI và GD độc lập với nhau

\(H_{1}\): TI và GD không độc lập với nhau

chisq.test(TIGD)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  TIGD
## X-squared = 0.63592, df = 1, p-value = 0.4252

Vì p_value = 0.4252 > 0.05 nên chưa đủ cơ sở để bác bỏ giả thuyết \(H_{0}\). Nghĩa là chưa đủ chứng cứ để kết luận rằng TI và GD có liên quan với nhau.

4.2.1.3 Kiểm đinh tính độc lập cho biến TI và CD

Kiểm định tính độc lập

Giả thuyết - Đối thuyết:

\(H_{0}\): TI và CD độc lập với nhau

\(H_{1}\): TI và CD không độc lập với nhau

chisq.test(TICD)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  TICD
## X-squared = 0.69519, df = 1, p-value = 0.4044

Vì p_value = 0.4044 > 0.05 nên chưa đủ cơ sở để bác bỏ giả thuyết \(H_{0}\). Nghĩa là chưa đủ chứng cứ để kết luận rằng TI và GD có liên quan với nhau.

4.2.1.4 Kiểm đinh tính độc lập cho biến TI và FF

Kiểm định tính độc lập

Giả thuyết - Đối thuyết:

\(H_{0}\): TI và FF độc lập với nhau

\(H_{1}\): TI và FF không độc lập với nhau

chisq.test(TIFF)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  TIFF
## X-squared = 105.3, df = 1, p-value < 2.2e-16

Vì p_value = 2.2e-16 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và FF độc lập với nhau.

4.2.1.5 Kiểm đinh tính độc lập cho biến TI và TA

Kiểm định tính độc lập

Giả thuyết - Đối thuyết:

\(H_{0}\): TI và TA độc lập với nhau

\(H_{1}\): TI và TA không độc lập với nhau

chisq.test(TITA)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  TITA
## X-squared = 369.45, df = 1, p-value < 2.2e-16

Vì p_value = 2.2e-16 < 0.05 nên ta thừa nhận giả thuyết \(H_{0}\). Nghĩa là TI và ELM độc lập với nhau.

4.2.2 Khoảng ước lượng cho tỷ lệ

Ước lượng tỷ lệ khách hàng có thu nhập lớn hơn 950000 đồng thời kiểm định xem tỷ lệ (%) khách hàng có độ tuổi lớn hơn 950000 có bằng 40% không?

rm<- Dulich[Dulich$IC > 950000,]
prop.test(length(rm$IC), length(Dulich$IC), p = 0.4)

## 
##  1-sample proportions test with continuity correction
## 
## data:  length(rm$IC) out of length(Dulich$IC), null probability 0.4
## X-squared = 50.836, df = 1, p-value = 1.004e-12
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
##  0.4564582 0.5008472
## sample estimates:
##        p 
## 0.478611

Với khoảng tin cậy 95% ước lượng tỷ lệ khách hàng có độ tuổi lớn hơn 30 nằm trong khoảng từ 0.4564582 đến 0.5008472. p-value < 0, bác bỏ giả thuyết \(H_0\). Do đó tỷ lệ (%) khách hàng có thu nhập lớn hơn 95000 không bằng 40% với mức ý nghĩa 5%.

Ước lượng sự chênh lệch về tỷ lệ hành khách có thu nhập lớn hơn 950000 giữa hành khách có và không mua bảo hiểm du lịch. Đồng thời thực hiện bài toán kiển định sự chênh lệch này

rmm <- Dulich[Dulich$TI == "No",]
rmf <- Dulich[Dulich$TI == "Yes",]

rmm1 <- rmm[rmm$IC > 950000,]
rmf1 <- rmf[rmf$IC > 950000,]

a <- c(nrow(rmm), nrow(rmf))
b <- c(nrow(rmm1), nrow(rmf1))

prop.test(b,a)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  b out of a
## X-squared = 165.23, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.3462024 -0.2570034
## sample estimates:
##    prop 1    prop 2 
## 0.3706897 0.6722925

P_value < 0, chấp nhận giả thuyết \(H_0\), do đó có sự chênh lệnh về tỷ lệ khách hàng có thu nhập lớn hơn 950000 giữa hành khách có và không mua bảo hiểm du lịch

Khoảng tin cậy 95% cho chênh lệch tỷ lệ nằm trong khoảng từ -0.3462024 đến -0.2570034.

4.3 Ước lượng mô hình hồi quy

4.3.1 Ma trận hệ số tương quan

# Chọn các biến số liên tục trong mô hình
continuous_vars <- Dulich[, sapply(Dulich, is.numeric)]

# Tính ma trận tương quan
cor_matrix <- cor(continuous_vars)
cor_matrix

##             Age          IC          FM
## Age  1.00000000 -0.02010149  0.02740866
## IC  -0.02010149  1.00000000 -0.01536739
## FM   0.02740866 -0.01536739  1.00000000

4.3.2 Hồi quy với hàm logit

MH1 <- glm(factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "logit"), data = Dulich)
summary(MH1)

## 
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + 
##     Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "logit"), 
##     data = Dulich)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -5.493e+00  6.223e-01  -8.827  < 2e-16 ***
## Dulich$ELMPrivate  1.154e-01  1.300e-01   0.888 0.374487    
## Dulich$FFYes       4.662e-01  1.357e-01   3.437 0.000589 ***
## Dulich$TAYes       1.716e+00  1.529e-01  11.219  < 2e-16 ***
## Dulich$Age         7.285e-02  1.850e-02   3.938 8.22e-05 ***
## Dulich$IC          1.523e-06  1.746e-07   8.727  < 2e-16 ***
## Dulich$FM          1.531e-01  3.350e-02   4.571 4.85e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2591.7  on 1986  degrees of freedom
## Residual deviance: 2073.6  on 1980  degrees of freedom
## AIC: 2087.6
## 
## Number of Fisher Scoring iterations: 4

# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH1, test = "Chisq")

# Lấy giá trị Prob(LR statistic)
p_value <- lr_test$Pr[2] 
p_value

## [1] 3.206039e-11

Kiểm định sự phù hơp của mô hình

Giả thuyết \(H_0\): Mô hình không phù hợp

Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.

# Giá trị BrierScore
BrierScore(MH1)

## [1] 0.1709413

# Ma trận nhầm lẫn
a <- predict(MH1, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c      0    1
##   0 1185  366
##   1   91  345
##                                           
##                Accuracy : 0.77            
##                  95% CI : (0.7509, 0.7884)
##     No Information Rate : 0.6422          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.4527          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.9287          
##             Specificity : 0.4852          
##          Pos Pred Value : 0.7640          
##          Neg Pred Value : 0.7913          
##              Prevalence : 0.6422          
##          Detection Rate : 0.5964          
##    Detection Prevalence : 0.7806          
##       Balanced Accuracy : 0.7070          
##                                           
##        'Positive' Class : 0               
##

4.3.3 Hồi quy với hàm probit

MH2 <- glm(factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "probit"), data = Dulich)
summary(MH2)

## 
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + 
##     Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "probit"), 
##     data = Dulich)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -3.162e+00  3.583e-01  -8.825  < 2e-16 ***
## Dulich$ELMPrivate  7.592e-02  7.550e-02   1.006 0.314633    
## Dulich$FFYes       2.708e-01  8.076e-02   3.353 0.000799 ***
## Dulich$TAYes       1.055e+00  9.033e-02  11.676  < 2e-16 ***
## Dulich$Age         4.115e-02  1.084e-02   3.797 0.000146 ***
## Dulich$IC          8.798e-07  1.022e-07   8.612  < 2e-16 ***
## Dulich$FM          8.606e-02  1.959e-02   4.393 1.12e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2591.7  on 1986  degrees of freedom
## Residual deviance: 2076.0  on 1980  degrees of freedom
## AIC: 2090
## 
## Number of Fisher Scoring iterations: 4

# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH2, test = "Chisq")
p_value <- lr_test$Pr[2] 
p_value

## [1] 3.206039e-11

Kiểm định sự phù hơp của mô hình

Giả thuyết \(H_0\): Mô hình không phù hợp

Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.

# Giá trị BrierScore
BrierScore(MH2)

## [1] 0.1713224

# Ma trận nhầm lẫn
a <- predict(MH2, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c      0    1
##   0 1186  372
##   1   90  339
##                                           
##                Accuracy : 0.7675          
##                  95% CI : (0.7483, 0.7859)
##     No Information Rate : 0.6422          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.4454          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.9295          
##             Specificity : 0.4768          
##          Pos Pred Value : 0.7612          
##          Neg Pred Value : 0.7902          
##              Prevalence : 0.6422          
##          Detection Rate : 0.5969          
##    Detection Prevalence : 0.7841          
##       Balanced Accuracy : 0.7031          
##                                           
##        'Positive' Class : 0               
##

4.3.4 Hồi quy với hàm cloglog

MH3 <- glm(factor (TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + Dulich$Age + Dulich$IC + Dulich$FM , family = binomial(link = "cloglog"), data = Dulich)
summary(MH3)

## 
## Call:
## glm(formula = factor(TI) ~ Dulich$ELM + Dulich$FF + Dulich$TA + 
##     Dulich$Age + Dulich$IC + Dulich$FM, family = binomial(link = "cloglog"), 
##     data = Dulich)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -4.394e+00  4.563e-01  -9.631  < 2e-16 ***
## Dulich$ELMPrivate  8.308e-02  1.038e-01   0.801 0.423386    
## Dulich$FFYes       3.311e-01  9.364e-02   3.536 0.000406 ***
## Dulich$TAYes       1.113e+00  9.515e-02  11.700  < 2e-16 ***
## Dulich$Age         4.538e-02  1.322e-02   3.432 0.000599 ***
## Dulich$IC          1.319e-06  1.367e-07   9.651  < 2e-16 ***
## Dulich$FM          1.073e-01  2.482e-02   4.323 1.54e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2591.7  on 1986  degrees of freedom
## Residual deviance: 2057.1  on 1980  degrees of freedom
## AIC: 2071.1
## 
## Number of Fisher Scoring iterations: 6

# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(MH3, test = "Chisq")
p_value <- lr_test$Pr[2] 
p_value

## [1] 3.206039e-11

Kiểm định sự phù hơp của mô hình

Giả thuyết \(H_0\): Mô hình không phù hợp

Với P-value = Prob(LR) < 0 bác bỏ giả thuyết \(H_0\) nên mô hình phù hợp với dữ liệu.

# Giá trị BrierScore
BrierScore(MH3)

## [1] 0.1693439

# Ma trận nhầm lẫn
a <- predict(MH3, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Dulich$TI, labels = c("0","1"))
confusionMatrix(table(c, d))

## Confusion Matrix and Statistics
## 
##    d
## c      0    1
##   0 1197  364
##   1   79  347
##                                           
##                Accuracy : 0.7771          
##                  95% CI : (0.7581, 0.7952)
##     No Information Rate : 0.6422          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.4676          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.9381          
##             Specificity : 0.4880          
##          Pos Pred Value : 0.7668          
##          Neg Pred Value : 0.8146          
##              Prevalence : 0.6422          
##          Detection Rate : 0.6024          
##    Detection Prevalence : 0.7856          
##       Balanced Accuracy : 0.7131          
##                                           
##        'Positive' Class : 0               
##

4.3.5 Lựa chọn mô hình phù hợp

Mô hình	AIC	Deviance	Brier Score	Độ chính xác	Độ nhạy	Độ đặc hiệu
Logit	2087.6	2073.6	0.1709413	0.77	0.9287	0.4852
Probit	2090	2076.0	0.1713224	0.7675	0.9295	0.4768
Cloglog	2071.1	2057.1	0.1693439	0.7771	0.9381	0.4880
Lựa chọn	MH3	MH3	MH3	MH3	MH3	MH3

Dựa vào các tiêu chí đánh giá một mô hình bao gồm AIC, Deviance, Brier Score và Confusion Matrix (Độ chính xác, độ nhạy, độ đặc hiệu) đều đưa ra kết quả cho thấy mô hình 3 - Mô hình sử dụng hàm cloglog là tốt nhất trong 3 mô hình được đề xuất. Do đó mô hình hồi quy logistic với hàm tỷ lệ (complementary log-log link function) là mô hình tốt nhất.

4.3.6 Giải thích mô hình được lựa chọn

Kết quả phân tích hồi quy cloglog cho thấy, 6 biến đưa vào mô hình hồi quy để phân tích nhưng kết quả phân tích chỉ có 5 biến độc lập có ý nghĩa thống kê bao gồm:

FFYes: Khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua
TAYes: Khách hàng đã từng đi du lịch nước ngoài
Age: Số tuổi của khách hàng
IC: Thu nhập hàng năm của khách hàng
FM: Số thành viên trong gia đình của khách hàng

Với giả thuyết các yếu tố khác không đổi, ảnh hưởng của từng biến đến được diễn giải như sau:

Tình trạng khách hàng thường xuyên đặt vé máy bay trong 2 năm qua có tác động đáng kể đến quyết định mua bảo hiểm du lịch. Ở mức ý nghĩa 1% khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua sẽ mua bảo hiểm du lịch cao hơn khách hàng không thường xuyên đặt vé máy bay trong 2 năm qua.
Tình trạng khách hàng từng đi du lịch nước ngoài có tác động đáng kể đến quyết định mua bảo hiểm du lịch. Ở mức ý nghĩa 1% khách hàng đã từng đi du lịch nước ngoài sẽ mua bảo hiểm du lịch cao hơn khách hàng chưa từng đi du lịch nước ngoài.
Ở mức ý nghĩa 1%, Độ tuổi có tác động tích cực lên quyết định mua bảo hiểm du lịch.
Ở mức ý nghĩa 1%, Thu nhập hàng năm có tác động tích cực lên quyết định mua bảo hiểm du lịch.
Ở mức ý nghĩa 1%, Số thành viên trong gia đình có tác động tích cực lên quyết định mua bảo hiểm du lịch.

5 CHƯƠNG 4. KẾT LUẬN

5.1 Kết luận

Với mục tiêu phân tích các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, nghiên cứu sử dụng dữ liệu quá khứ được trích xuất từ doanh số bán gói bảo hiểm trong năm 2019. Sau khi thực hiện hồi quy và lựa chọn mô hình phù hợp nhất trong 3 mô hình. Kết quả cho thấy mô hình phù hợp nhất là mô hình hồi quy hàm cloglog.

Kết quả cho thấy có 5 trên 6 yếu tố có ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, gồm: Tình trạng khách hàng có thường xuyên đặt vé máy bay trong 2 năm qua (FF), Tình trạng khách hàng đã từng đi du lịch nước ngoài (TA), Độ tuổi (Age), Mức thu nhập hàng năm (IC) và Số thành viên trong gia đình (FM).

Qua kết quả hồi quy ta càng thấy rõ được tầm quan trọng của các yếu tố ảnh hưởng đến quyết định mua bảo hiểm du lịch của khách hàng, điều này giúp cho công ty có các định hướng cụ thể trong tương lai.

Tiểu Luận - Phân Tích Dữ Liệu Định Tính

Phạm Thị Ngọc

2023-07-27

1 Phần mở đầu

1.1 Lý do chọn đề tài

1.2 Mục đích nghiên cứu

1.3 Đối tượng, phạm vi nghiên cứu

1.4 Phương pháp nghiên cứu

1.5 Kết cấu đề tài

2 CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT

2.1 Khái niệm về bảo hiểm

2.2 Khái niệm về du lịch

2.3 Bảo hiểm du lịch

3 CHƯƠNG 2. PHƯƠNG PHÁP NGHIÊN CỨU

3.1 Dữ liệu nghiên cứu

3.2 Mô hình nghiên cứu

3.2.1 Mô hình hồi quy với hàm logit

3.2.2 Mô hình hồi quy với hàm probit

3.2.3 Mô hình hồi quy với hàm cloglog

3.3 Các tiêu chí đánh giá mô hình

3.3.1 Chỉ số AIC (Akaike Information Criterian)

3.3.2 Deviance

3.3.3 Chỉ số Brier

3.3.4 Ma trận nhầm lẫn (Confusion matrix)

4 CHƯƠNG 3. KẾT QUẢ NGHIÊN CỨU

4.1 Thống kê mô tả

4.1.1 Thống kê mô tả cho một biến

4.1.1.1 Biểu đồ các biến

4.1.1.2 Bảng tần số - tần suất

4.1.2 Thống kê mô tả cho hai biến tính

4.1.2.1 Biểu đồ của các cặp biến định tính

4.1.2.2 Bảng tần số - tần suất của các cặp biến

4.1.3 Rủi ro tương đối

4.1.3.1 Rủi ro tương đối giữa biến TI và ELM

4.1.3.2 Rủi ro tương đối giữa biến TI và GD

4.1.3.3 Rủi ro tương đối giữa biến TI và CD

4.1.3.4 Rủi ro tương đối giữa biến TI và FF

4.1.3.5 Rủi ro tương đối giữa biến TI và TA

4.1.4 Tỷ lệ chênh

4.1.4.1 Tỷ lệ chênh giữa biến TI và ELM

4.1.4.2 Tỷ lệ chênh giữa biến TI và GD

4.1.4.3 Tỷ lệ chênh giữa biến TI và CD

4.1.4.4 Tỷ lệ chênh giữa biến TI và FF

4.1.4.5 Tỷ lệ chênh giữa biến TI và TA

4.2 Thống kê suy diễn cho dữ liệu định tính

4.2.1 Kiểm định tính độc lập cho hai biến định tính

4.2.1.1 Kiểm đinh tính độc lập cho biến TI và ELM

4.2.1.2 Kiểm đinh tính độc lập cho biến TI và GD

4.2.1.3 Kiểm đinh tính độc lập cho biến TI và CD

4.2.1.4 Kiểm đinh tính độc lập cho biến TI và FF

4.2.1.5 Kiểm đinh tính độc lập cho biến TI và TA

4.2.2 Khoảng ước lượng cho tỷ lệ

4.3 Ước lượng mô hình hồi quy

4.3.1 Ma trận hệ số tương quan

4.3.2 Hồi quy với hàm logit

4.3.3 Hồi quy với hàm probit

4.3.4 Hồi quy với hàm cloglog

4.3.5 Lựa chọn mô hình phù hợp

4.3.6 Giải thích mô hình được lựa chọn

5 CHƯƠNG 4. KẾT LUẬN

5.1 Kết luận