library(epitools)
library(tidyverse)
library(dplyr)
library(knitr)
library(readxl)
library(kableExtra)
Trong những năm gần đây, ngành hàng không dân dụng đang trên đà phát triển mạnh mẽ, trở thành một trong những phương thức vận chuyển chủ lực của thế giới hiện đại. Tại Việt Nam, số lượng hành khách sử dụng dịch vụ hàng không không ngừng gia tăng qua từng năm, phản ánh xu hướng dịch chuyển ngày càng linh hoạt của người dân cũng như sự hội nhập ngày càng sâu rộng của nền kinh tế. Cùng với đó là sự gia nhập của nhiều hãng hàng không mới, mở ra một thị trường cạnh tranh sôi động và đầy tiềm năng. Trong bối cảnh đó, việc giữ chân khách hàng, xây dựng hình ảnh thương hiệu và nâng cao chất lượng dịch vụ trở thành những yếu tố sống còn đối với mỗi doanh nghiệp trong ngành.
Một trong những chỉ số phản ánh rõ nét nhất chất lượng dịch vụ chính là mức độ hài lòng của khách hàng. Sự hài lòng không chỉ quyết định đến khả năng quay lại sử dụng dịch vụ mà còn ảnh hưởng đến hành vi truyền miệng – một kênh truyền thông có sức lan tỏa và độ tin cậy cao. Tuy nhiên, sự hài lòng là một khái niệm mang tính chủ quan, chịu ảnh hưởng bởi nhiều yếu tố khác nhau trong suốt quá trình trải nghiệm – từ khâu đặt vé, làm thủ tục, chất lượng phục vụ trên chuyến bay, cho đến thời gian bay, độ đúng giờ, hạng ghế hay thái độ của nhân viên.
Việc xác định và phân tích các yếu tố ảnh hưởng đến sự hài lòng của hành khách sẽ giúp các hãng hàng không có cơ sở dữ liệu thực chứng để điều chỉnh và hoàn thiện chất lượng dịch vụ. Bên cạnh đó, trong điều kiện ứng dụng công nghệ và phân tích dữ liệu ngày càng phổ biến, việc khai thác thông tin khách hàng thông qua các khảo sát và dữ liệu sẵn có là một hướng đi phù hợp và khả thi. Thông qua việc xử lý, trực quan hóa và phân tích các đặc điểm như loại hình khách hàng, hạng ghế, giờ khởi hành, tình trạng chuyến bay hay đánh giá của hành khách, ta có thể nhận diện được những yếu tố có ảnh hưởng rõ rệt đến sự hài lòng.
Từ những quan sát và kết quả sơ bộ trong quá trình tiền phân tích dữ liệu, có thể nhận thấy một số biến như loại khách hàng (thường xuyên hay không), hạng ghế, và trạng thái chuyến bay (delay hay đúng giờ) có thể liên quan mật thiết đến mức độ hài lòng của khách hàng. Việc hệ thống hóa và lượng hóa mối quan hệ này sẽ không chỉ giúp làm rõ hành vi người tiêu dùng mà còn góp phần cải thiện chính sách dịch vụ của doanh nghiệp.
Với những lý do trên, tác giả quyết định chọn đề tài “Phân tích các yếu tố ảnh hưởng đến mức độ khách hàng hài lòng về chuyến bay” nhằm khám phá sâu hơn mối liên hệ giữa các yếu tố vận hành và cảm nhận của hành khách, từ đó đề xuất các giải pháp nâng cao trải nghiệm bay trong tương lai.
Mục tiêu tổng quát: Phân tích và đánh giá các yếu tố ảnh hưởng đến mức độ hài lòng của hành khách đối với dịch vụ chuyến bay, từ đó đề xuất một số giải pháp nhằm nâng cao trải nghiệm và chất lượng phục vụ của ngành hàng không.
Mục tiêu cụ thể: Xác định và phân tích mối quan hệ giữa các đặc điểm của chuyến bay và mức độ hài lòng của khách hàng.
Kiểm định xem yếu tố nào có ảnh hưởng đáng kể đến sự hài lòng của hành khách.
Đưa ra một số khuyến nghị thực tiễn giúp các hãng hàng không cải thiện chất lượng dịch vụ dựa trên kết quả phân tích.
Đối tượng nghiên cứu: Các yếu tố ảnh hưởng tới mức độ hài lòng của khách hàng khi đi máy bay
Phạm vi nghiên cứu: Dữ liệu được sử dụng trong nghiên cứu được cung cấp bởi một tổ chức hàng không với tên giả là Invistico Airlines. Do một số lý do bảo mật và chính sách nội bộ, tên thật của hãng không được tiết lộ.
Bài nghiên cứu sử dụng kết hợp giữa 2 phương pháp nghiên cứu định lượng và định tính, bao gồm:
Thống kê mô tả
Kiểm định Chi-square: kiểm định mối liên hệ, đánh giá sự phụ thuộc và xác định các yếu tố có thể ảnh hưởng đến mức độ hài lòng
Các mô hình hồi quy đơn biến (Logistic Regression), đồng thời ước lượng tỷ số Odds Ratio và tỷ số Risk Ratio
Các mô hình hồi quy đa biến: Logistic Regression, Probit Regression và Complementary Log-Log Regression
Phần mềm: R Studio
Bài nghiên cứu bao gồm 4 chương:
Chương 1: Giới thiệu tổng quan về đề tài
Chương 2: Giới thiệu về bộ dữ liệu
Chương 3: Phân tích dữ liệu và kết quả nghiên cứu
Chương 4: Thảo luận
Bộ dữ liệu sử dụng trong nghiên cứu này ghi nhận thông tin chi tiết về các khách hàng đã từng trải nghiệm dịch vụ bay của một hãng hàng không, bao gồm dữ liệu hành trình và phản hồi của hành khách đối với nhiều khía cạnh trong suốt quá trình sử dụng dịch vụ. Dữ liệu được thu thập từ nền tảng Kaggle, bao gồm 129.880 quan sát với 28 biến, phản ánh các yếu tố có thể ảnh hưởng đến mức độ hài lòng của khách hàng sau chuyến bay. Do yêu cầu bảo mật, toàn bộ thông tin định danh của khách hàng cũng như tên thật của hãng hàng không đã được mã hóa. Trong nghiên cứu này, dữ liệu được giả định là kết quả thu thập từ các khảo sát nội bộ sau mỗi chuyến bay của hãng hàng không giả định có tên là Invistico Airlines.
data <- read_xlsx("C:/Users/Admin/Downloads/data.xlsx")
#hiển thị cấu trúc dữ liệu
str(data)
## tibble [129,880 × 23] (S3: tbl_df/tbl/data.frame)
## $ satisfaction : chr [1:129880] "satisfied" "satisfied" "satisfied" "satisfied" ...
## $ Gender : chr [1:129880] "Female" "Male" "Female" "Female" ...
## $ customer.type : chr [1:129880] "Loyal Customer" "Loyal Customer" "Loyal Customer" "Loyal Customer" ...
## $ age : num [1:129880] 65 47 15 60 70 30 66 10 56 22 ...
## $ Type of Travel : chr [1:129880] "Personal Travel" "Personal Travel" "Personal Travel" "Personal Travel" ...
## $ class : chr [1:129880] "Eco" "Business" "Eco" "Eco" ...
## $ Flight Distance : num [1:129880] 265 2464 2138 623 354 ...
## $ seat.comfort : num [1:129880] 0 0 0 0 0 0 0 0 0 0 ...
## $ Departure/Arrival time convenient: num [1:129880] 0 0 0 0 0 0 0 0 0 0 ...
## $ Food and drink : num [1:129880] 0 0 0 0 0 0 0 0 0 0 ...
## $ Gate location : num [1:129880] 2 3 3 3 3 3 3 3 3 3 ...
## $ Inflight wifi service : num [1:129880] 2 0 2 3 4 2 2 2 5 2 ...
## $ Inflight entertainment : num [1:129880] 4 2 0 4 3 0 5 0 3 0 ...
## $ Online support : num [1:129880] 2 2 2 3 4 2 5 2 5 2 ...
## $ Ease of Online booking : num [1:129880] 3 3 2 1 2 2 5 2 4 2 ...
## $ On-board service : num [1:129880] 3 4 3 1 2 5 5 3 4 2 ...
## $ Leg room service : num [1:129880] 0 4 3 0 0 4 0 3 0 4 ...
## $ Baggage handling : num [1:129880] 3 4 4 1 2 5 5 4 1 5 ...
## $ Checkin service : num [1:129880] 5 2 4 4 4 5 5 5 5 3 ...
## $ Cleanliness : num [1:129880] 3 3 4 1 2 4 5 4 4 4 ...
## $ Online boarding : num [1:129880] 2 2 2 3 5 2 3 2 4 2 ...
## $ departure.delay : num [1:129880] 0 310 0 0 0 0 17 0 0 30 ...
## $ Arrival Delay in Minutes : num [1:129880] 0 305 0 0 0 0 15 0 0 26 ...
Cụ thể chi tiết các biến trong bộ dữ liệu như sau:
satisfaction: Mức độ hài lòng của khách hàng được đo
lường bằng dissatisfied là không hài lòng và
satisfied là hài lòng.
Gender: Giới tính khách hàng
Male: namFemale: nữcustomer.type: Tệp khách hàng
Loyal Customer: khách hàng trung thànhdisloyal customer: khách hàng không trung thànhage: Tuổi của khách hàng
Type of Travel: Loại chuyến đi
Personal Travel: chuyến đi cá nhânBusiness travel: đi công tácclass: Hạng ghế
Eco plus
Eco
Business
departure.delay: Số phút bị hoãn chuyến khi khởi
hành
Arrival Delay in Minutes: Số phút bị trễ chuyến khi
đến nơi.
Bắt đầu từ đây là các biến yếu tố ảnh hưởng đến mức độ hài lòng
chuyến bay của mỗi khách hàng được đánh giá từ 0-5, trong đó
0 là vô cùng không hài lòng đến 5 vô cùng hài
lòng, bao gồm:
Flight Distance: Khoảng cách chuyến bay
Food and drink: Đồ ăn và thức uống
Gate location: Vị trí cổng lên máy bay
Inflight wifi service: Dịch vụ wifi
Inflight entertainment: Dịch vụ giải trí
Online support: Hỗ trợ trực tuyến
Ease of Online booking: Dễ đặt vé trực
tuyến
On-board service: Dịch vụ trên máy bay
Leg room service: Khoảng không chân
Baggage handling: Việc xử lý hành lý
Checkin service: Thủ túc check in
Cleanliness: Mức độ sạch sẽ
Online boarding: Thủ tục check in online
Đối với bài nghiên cứu này, tác giả đã sử dụng các biến sau làm biến độc lập và biến phụ thuộc như sau:
Biến phụ thuộc:
5 Biến độc lập:
Customer.type: Giới tính
Age: Độ tuổi
Class: Hạng ghế
Seat.comfort: Độ thoải mái của ghế ngồi
departure.delay: Số phút bị trễ khi khởi hành
# Bảng tần suất
bang <- table(data$satisfaction)
phantram <- prop.table(bang) * 100
bang_tansuat <- as.data.frame(bang)
bang_tansuat$Percentage <- round(as.vector(phantram), 2)
colnames(bang_tansuat) <- c("satisfaction", "Frequency", "Percentage")
print(bang_tansuat)
## satisfaction Frequency Percentage
## 1 dissatisfied 58793 45.27
## 2 satisfied 71087 54.73
#Biểu đồ
df <- as.data.frame(table(data$satisfaction))
colnames(df) <- c("satisfaction", "n")
library(ggplot2)
ggplot(data = df, aes(x = satisfaction, y = n, fill = satisfaction)) +
geom_col() +
geom_text(aes(label = paste0(phantram, "%")), vjust = -0.5) +
labs(title = "Hình 2.2.1: Biểu đồ Mức độ hài lòng",
x = "Mức độ hài lòng",
y = "Tần suất") +
theme_minimal()
Biểu đồ và bảng tần suất mô tả phân bố mức độ hài lòng của hành khách đối với chuyến bay, gồm hai nhóm: hài lòng (satisfied) và không hài lòng (dissatisfied). Dữ liệu cho thấy:
Có 71.087 hành khách (chiếm 54,73%) cảm thấy hài lòng với chuyến bay.
Ngược lại, 58.793 hành khách (chiếm 45,27%) cảm thấy không hài lòng.
Biểu đồ cột minh họa rõ ràng sự chênh lệch giữa hai nhóm, trong đó cột đại diện cho nhóm hài lòng cao hơn. Mặc dù tỷ lệ hành khách hài lòng chiếm đa số, mức độ chênh lệch không quá lớn (chỉ khoảng 9,46%), cho thấy còn một bộ phận đáng kể khách hàng chưa hài lòng.
Từ đó có thể suy ra rằng mức độ hài lòng chung của hành khách ở mức trung bình khá, và các hãng hàng không vẫn cần cải thiện chất lượng dịch vụ để nâng cao trải nghiệm khách hàng, hướng đến tỷ lệ hài lòng cao hơn trong tương lai.
Biến Tệp khách hàng
# Bảng tần suất
bang.dl1 <- table(data$customer.type)
phantram.dl1 <- prop.table(bang.dl1) * 100
bang_tansuat.dl1 <- as.data.frame(bang.dl1)
bang_tansuat.dl1$Percentage <- round(as.vector(phantram.dl1), 2)
colnames(bang_tansuat.dl1) <- c("Customer Type", "Frequency", "Percentage")
print(bang_tansuat.dl1)
## Customer Type Frequency Percentage
## 1 disloyal Customer 23780 18.31
## 2 Loyal Customer 106100 81.69
#Biểu đồ
df <- as.data.frame(table(data$customer.type))
colnames(df) <- c("customer.type", "n")
ggplot(data = df, aes(x = customer.type, y = n, fill = customer.type)) +
geom_col() +
geom_text(aes(label = paste0(phantram, "%")), vjust = -0.5) +
labs(title = "Hình 2.2.2: Biểu đồ Tệp khách hàng",
x = "Tệp khách hàng",
y = "Tần suất") +
theme_minimal()
Dựa trên kết quả phân tích tần suất, có thể thấy rằng trong tổng thể khách hàng được khảo sát, nhóm khách hàng trung thành (Loyal Customer) chiếm tỷ lệ vượt trội với 81,69%, trong khi nhóm khách hàng không trung thành (Disloyal Customer) chỉ chiếm 18,31%. Biểu đồ minh họa rõ sự chênh lệch này, cho thấy doanh nghiệp đang sở hữu một tập khách hàng trung thành lớn – đây là yếu tố tích cực trong việc duy trì doanh thu ổn định và giảm chi phí marketing. Tuy nhiên, tỷ lệ 18,31% khách hàng không trung thành cũng là một cảnh báo về khả năng rời bỏ thương hiệu, từ đó đặt ra yêu cầu doanh nghiệp cần chú trọng hơn đến các chính sách chăm sóc và giữ chân khách hàng trong nhóm này.
Biến Tuổi khách hàng
summary(data$age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 27.00 40.00 39.43 51.00 85.00
library(psych)
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
describe(data$age)
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 129880 39.43 15.12 40 39.45 17.79 7 85 78 0 -0.72
## se
## X1 0.04
ggplot(data, aes(x = age)) +
geom_histogram(binwidth = 5, fill = "lightblue", color = "black") +
stat_bin(binwidth = 5, geom = "text", aes(label = ..count..), vjust = -0.5) +
labs(title = "Hình 2.2.3. Biểu đồ tần suất Độ tuổi khách hàng",
x = "Tuổi",
y = "số khách hàng") +
theme_minimal()
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Độ tuổi trung bình của khách hàng là 39,43 tuổi, với độ lệch chuẩn là 15,12, cho thấy mức độ phân tán vừa phải quanh giá trị trung bình. Giá trị tuổi nhỏ nhất là 7 và lớn nhất là 85, với tuổi trung vị là 40, gần với trung bình, phản ánh phân phối khá đối xứng. Điều này được củng cố bởi hệ số lệch (skewness) ≈ 0, cho thấy dữ liệu không bị lệch đáng kể về phía nào.
Biểu đồ Hình 2.2.3 cho thấy phân bố hình chuông với đỉnh tập trung ở nhóm tuổi từ 30–40, trong đó độ tuổi có tần suất cao nhất là khoảng 35 tuổi với hơn 15.800 khách hàng. Nhìn chung, phần lớn khách hàng nằm trong độ tuổi lao động từ 25 đến 55 tuổi, cho thấy nhóm tuổi này là đối tượng khách hàng chủ yếu của hãng hàng không. Điều này có thể phản ánh nhu cầu đi lại cao cho công việc, du lịch hoặc các mục đích cá nhân ở nhóm tuổi trung niên.
Biến Hạng ghế
#Bảng tần suất
bang.dl3 <- table(data$class)
phantram.dl3 <- prop.table(bang.dl3) * 100
bang_tansuat.dl3 <- as.data.frame(bang.dl3)
bang_tansuat.dl3$Percentage <- round(as.vector(phantram.dl3), 2)
colnames(bang_tansuat.dl3) <- c("class", "Frequency", "Percentage")
print(bang_tansuat.dl3)
## class Frequency Percentage
## 1 Business 62160 47.86
## 2 Eco 58309 44.89
## 3 Eco Plus 9411 7.25
#Biểu đồ
ggplot(data = bang_tansuat.dl3, aes(x = class, y = Frequency, fill = class)) +
geom_col() +
geom_text(aes(label = paste0(Frequency, " người\n(", Percentage, "%)")),
vjust = -0.5, size = 4) +
labs(title = "Hình 2.2.4: Biểu đồ Hạng ghế",
x = "Hạng ghế",
y = "Tần suất") +
theme_minimal()
Bảng tần suất và biểu đồ cột của biến “Hạng ghế” trong bộ dữ liệu về mức độ hài lòng của khách hàng trong chuyến bay cho thấy sự phân bố rõ rệt giữa các hạng ghế. Cụ thể, hạng Business chiếm tỷ lệ cao nhất với 62.160 lượt (47,86%), tiếp theo là hạng Eco với 58.309 lượt (44,89%), và hạng Eco Plus chỉ ghi nhận 9.411 lượt (7,25%). Biểu đồ cột minh họa rõ sự chênh lệch về tần suất, với hai hạng Business và Eco chiếm ưu thế vượt trội so với Eco Plus. Kết quả này gợi ý rằng các yếu tố liên quan đến hạng ghế, đặc biệt là sự khác biệt về dịch vụ và tiện nghi giữa các hạng, có thể là biến số quan trọng ảnh hưởng đến mức độ hài lòng của hành khách, cần được xem xét kỹ lưỡng trong phân tích tiếp theo.
Biến Độ thoải mái của ghế ngồi
# Bảng tần suất
bang.dl4 <- table(data$seat.comfort)
phantram.dl4 <- prop.table(bang.dl4) * 100
bang_tansuat.dl4 <- as.data.frame(bang.dl4)
bang_tansuat.dl4$Percentage <- round(as.vector(phantram.dl4), 2)
colnames(bang_tansuat.dl4) <- c("seat_comfort", "Frequency", "Percentage")
print(bang_tansuat.dl4)
## seat_comfort Frequency Percentage
## 1 0 4797 3.69
## 2 1 20949 16.13
## 3 2 28726 22.12
## 4 3 29183 22.47
## 5 4 28398 21.86
## 6 5 17827 13.73
# Biểu đồ
ggplot(data = bang_tansuat.dl4, aes(x = seat_comfort, y = Frequency, fill = seat_comfort)) +
geom_col() +
geom_text(aes(label = paste0(Frequency, " người\n(", Percentage, "%)")),
vjust = -0.5, size = 4) +
labs(title = "Hình 2.2.5: Biểu đồ Độ thoải mái ghế ngồi",
x = "Độ thoải mái ghế",
y = "Tần suất") +
theme_minimal()
Bảng tần suất và biểu đồ cột của biến “Mức độ thoải mái của ghế ngồi” trong bộ dữ liệu mức độ hài lòng của khách hàng trong chuyến bay thể hiện sự phân bố đa dạng giữa các mức đánh giá từ 0 đến 5. Cụ thể, mức 3 đạt tần suất cao nhất với 29.183 lượt (22,47%), theo sau là mức 2 với 28.726 lượt (22,12%) và mức 4 với 28.398 lượt (21,86%). Mức 1 ghi nhận 20.949 lượt (16,13%), mức 5 đạt 17.827 lượt (13,73%), trong khi mức 0 thấp nhất với 4.797 lượt (3,69%). Biểu đồ cột cho thấy sự tập trung lớn ở các mức từ 2 đến 4, phản ánh xu hướng đánh giá trung bình đến khá về sự thoải mái của ghế ngồi. Kết quả này cho thấy mức độ thoải mái của ghế có thể là một yếu tố quan trọng ảnh hưởng đến trải nghiệm hành khách, cần được phân tích sâu hơn để xác định mối liên hệ với mức độ hài lòng tổng thể.
Biến Trễ giờ khởi hành
summary(data$departure.delay)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 0.00 14.71 12.00 1592.00
Thống kê mô tả của biến số “Phút khởi hành trễ” cho thấy giá trị tối thiểu là 0 phút, trong khi giá trị tối đa lên tới 1.592 phút, phản ánh sự khác biệt lớn trong mức độ trễ. Giá trị trung vị (median) và các phân vị thứ nhất (1st Qu.) đều bằng 0 phút, cho thấy phần lớn các chuyến bay không bị trễ hoặc trễ ở mức rất thấp. Giá trị trung bình (mean) là 14,71 phút, cao hơn đáng kể so với trung vị, điều này ám chỉ sự ảnh hưởng của một số trường hợp trễ kéo dài. Phân vị thứ ba (3rd Qu.) là 12 phút, cho thấy 75% các chuyến bay có thời gian trễ không vượt quá mức này. Kết quả này gợi ý rằng mặc dù đa số chuyến bay đúng giờ hoặc trễ ít, nhưng một số trường hợp trễ nghiêm trọng có thể ảnh hưởng đến trải nghiệm hành khách và cần được xem xét kỹ lưỡng.
Bảng tần suất chéo và biểu đồ trực quan hóa
library(tidyverse)
# Bảng tần suất giữa Customer.type và Satis
tansuat1 <- table(data$customer.type, data$satisfaction)
# Bảng phần trăm theo hàng (row-wise)
phantram1 <- prop.table(tansuat1, margin = 1) * 100
# Chuyển sang dạng data.frame
bang_tansuat1 <- as.data.frame(tansuat1)
bang_phantram1 <- as.data.frame(phantram1)
# Gộp bảng tần suất và phần trăm
bang_tansuat1$Percentage <- round(bang_phantram1$Freq, 2)
# Đặt tên cột
colnames(bang_tansuat1) <- c("Customer Type", "Satisfaction", "Frequency", "Percentage")
# Hiển thị bảng
library(knitr)
kable(bang_tansuat1, caption = "Bảng tần suất chéo giữa Tệp khách hàng và Mức độ hài lòng")
| Customer Type | Satisfaction | Frequency | Percentage |
|---|---|---|---|
| disloyal Customer | dissatisfied | 18080 | 76.03 |
| Loyal Customer | dissatisfied | 40713 | 38.37 |
| disloyal Customer | satisfied | 5700 | 23.97 |
| Loyal Customer | satisfied | 65387 | 61.63 |
#Trực quan hóa cho mối quan hệ giữa 2 biến
bang1 <- data %>%
group_by(customer.type, satisfaction) %>%
summarise(Count = n(), .groups = "drop")
ggplot(bang1, aes(x = customer.type, y = Count, fill = satisfaction)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Hình 3.1.1: Mối quan hệ giữa Tệp khách hàng và Mức độ hài lòng của khách hàng",
x = "Tệp khách hàng", y = "Độ hài lòng", fill = "Độ hài lòng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Dựa trên bảng tần suất chéo và biểu đồ minh họa, có thể thấy sự khác biệt rõ rệt về mức độ hài lòng giữa hai nhóm khách hàng: khách hàng trung thành (Loyal Customer) và khách hàng không trung thành (disloyal Customer). Cụ thể, trong nhóm khách hàng trung thành, tỷ lệ hài lòng đạt 61.63%, cao hơn đáng kể so với tỷ lệ không hài lòng là 38.37%. Ngược lại, ở nhóm khách hàng không trung thành, có đến 76.03% khách hàng không hài lòng, trong khi chỉ 23.97% khách hàng cảm thấy hài lòng. Biểu đồ cột minh họa trực quan cho xu hướng này, khi nhóm khách hàng trung thành thể hiện số lượng phản hồi hài lòng vượt trội so với nhóm còn lại. Kết quả này cho thấy mối quan hệ chặt chẽ giữa mức độ hài lòng và mức độ trung thành của khách hàng: khách hàng trung thành có xu hướng hài lòng cao hơn, từ đó gợi ý rằng việc cải thiện chất lượng dịch vụ nhằm tăng cường sự trung thành có thể là chiến lược hiệu quả trong nâng cao sự hài lòng tổng thể của khách hàng.
Kiểm định Chi bình phương
Giả thuyết kiểm định:
\(H_0\): Hai biến độc lập không có sự tác động
\(H_1\): Hai biến có mối quan hệ
chisq.test(tansuat1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tansuat1
## X-squared = 11118, df = 1, p-value < 2.2e-16
Để kiểm tra mối liên hệ giữa Tệp khách hàng và Mức độ hài lòng, ta tiến hành kiểm định Chi-squared. Kết quả kiểm định cho thấy giá trị thống kê Chi-squared là 11118 với 1 bậc tự do và giá trị p tương ứng nhỏ hơn 2.2e-16.
Với mức ý nghĩa thông thường (α = 0.05), giá trị p rất nhỏ (< 0.05) cho phép bác bỏ giả thuyết không (H₀), tức là không có mối liên hệ giữa hai biến. Do đó, có thể kết luận rằng tồn tại mối quan hệ có ý nghĩa thống kê giữa Tệp khách hàng và Mức độ hài lòng. Nói cách khác, mức độ hài lòng của khách hàng có sự khác biệt đáng kể giữa nhóm khách hàng trung thành và không trung thành.
Tỷ lệ RR
riskratio(tansuat1)
## $data
##
## dissatisfied satisfied Total
## disloyal Customer 18080 5700 23780
## Loyal Customer 40713 65387 106100
## Total 58793 71087 129880
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## disloyal Customer 1.000000 NA NA
## Loyal Customer 2.571065 2.512282 2.631224
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## disloyal Customer NA NA NA
## Loyal Customer 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Dựa trên kết quả phân tích, nhóm khách hàng trung thành (Loyal Customer) có khả năng hài lòng cao hơn đáng kể so với nhóm khách hàng không trung thành (disloyal Customer). Cụ thể, tỷ số rủi ro (RR) ước lượng là 2.571, với khoảng tin cậy 95% nằm trong khoảng từ 2.512 đến 2.631. Điều này có nghĩa là xác suất khách hàng trung thành hài lòng cao gấp khoảng 2.57 lần so với khách hàng không trung thành.
Kết quả này hoàn toàn có ý nghĩa thống kê, khi giá trị p từ các kiểm định liên quan (mid-p exact, Fisher exact và Chi-squared) đều bằng 0, cho thấy sự khác biệt là rất rõ rệt.
Nói cách khác, việc duy trì hoặc chuyển đổi khách hàng thành nhóm trung thành có thể làm tăng đáng kể xác suất hài lòng của họ. Đây là bằng chứng thống kê mạnh mẽ cho thấy mối quan hệ tích cực giữa mức độ trung thành và sự hài lòng của khách hàng.
Tỷ lệ OR
oddsratio(tansuat1)
## $data
##
## dissatisfied satisfied Total
## disloyal Customer 18080 5700 23780
## Loyal Customer 40713 65387 106100
## Total 58793 71087 129880
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## disloyal Customer 1.000000 NA NA
## Loyal Customer 5.094114 4.932808 5.262119
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## disloyal Customer NA NA NA
## Loyal Customer 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích cho thấy tỷ số odds (OR) giữa nhóm khách hàng trung thành (Loyal Customer) và nhóm khách hàng không trung thành (disloyal Customer) là 5.094, với khoảng tin cậy 95% nằm trong khoảng từ 4.933 đến 5.262. Điều này có nghĩa là odds (tỷ lệ chênh lệch giữa khả năng hài lòng và không hài lòng) của khách hàng trung thành cao hơn khoảng 5.1 lần so với khách hàng không trung thành.
Tất cả các kiểm định liên quan (mid-p exact, Fisher exact, và Chi-squared) đều cho giá trị p bằng 0, cho thấy sự khác biệt này có ý nghĩa thống kê rất mạnh.
Kết luận, khả năng hài lòng của khách hàng trung thành so với khả năng không hài lòng của họ cao hơn đáng kể so với nhóm khách hàng không trung thành. Kết quả này củng cố thêm cho nhận định rằng tệp khách hàng trung thành có liên hệ chặt chẽ với mức độ hài lòng cao hơn, và nhấn mạnh vai trò quan trọng của việc duy trì lòng trung thành trong chiến lược nâng cao trải nghiệm khách hàng.
Đầu tiên, trước khi tiến hành thực hiện phân tích bảng tần suất chéo và đồ thị trực quan hóa, tác giả phân nhóm tuổi thành 2 nhóm với yêu cầu rằng:
Từ 0 đến 30 tuổi: Trẻ tuổi
Từ 31 trở lại: Lớn tuổi
Phân nhóm tuổi
data$age_group <- cut(data$age,
breaks = c(0,30, max(data$age, na.rm = TRUE)),
labels = c("trẻ tuổi", "lớn tuổi"),
right = TRUE)
# Xem phân phối các nhóm tuổi
table(data$age_group)
##
## trẻ tuổi lớn tuổi
## 40880 89000
Với cách chia như này, ta thấy rằng nhóm “trẻ tuổi” có 40.880 người và nhóm “lớn tuổi” có 89.000, gần như gấp đôi.
Bảng tần suất chéo và biểu đồ trực quan hóa
# Bảng tần suất
tansuat2 <- table(data$age_group, data$satisfaction)
phantram2 <- prop.table(tansuat2, margin = 1) * 100
bang_tansuat2 <- as.data.frame(tansuat2)
bang_phantram2 <- as.data.frame(phantram2)
bang_tansuat2$Percentage <- round(bang_phantram2$Freq, 2)
colnames(bang_tansuat2) <- c("Age", "Satisfaction", "Frequency", "Percentage")
kable(tansuat2, caption = "Bảng tần suất chéo giữa Tuổi khách hàng và Mức độ hài lòng chuyến bay")
| dissatisfied | satisfied | |
|---|---|---|
| trẻ tuổi | 22729 | 18151 |
| lớn tuổi | 36064 | 52936 |
#Biểu đồ
ggplot(data, aes(x = age_group, fill = satisfaction, color = satisfaction)) +
geom_density(alpha = 0.6) +
labs(
title = "Hình 3.1.2: Mối quan hệ giữa Tuổi khách hàng và Mức độ hài lòng của khách hàng",
x = "Tuổi",
y = "Mật độ",
fill = "Mức độ hài lòng",
color = "Mức độ hài lòng"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 12, face = "bold"),
axis.title = element_text(size = 12),
axis.text = element_text(size = 10),
legend.title = element_text(size = 10),
legend.text = element_text(size = 9)
)
Dựa trên bảng tần suất chéo và biểu đồ mật độ minh họa, có thể nhận thấy sự khác biệt rõ rệt về mức độ hài lòng giữa hai nhóm tuổi khách hàng: trẻ tuổi và lớn tuổi. Trong nhóm khách hàng trẻ tuổi, tỷ lệ hài lòng chiếm khoảng 44.4% (18,151/40,880), trong khi tỷ lệ không hài lòng chiếm 55.6%. Ngược lại, trong nhóm khách hàng lớn tuổi, tỷ lệ hài lòng đạt mức 59.5% (52,936/89,000), cao hơn rõ rệt so với tỷ lệ không hài lòng (40.5%).
Biểu đồ mật độ cho thấy khách hàng lớn tuổi có xu hướng hài lòng cao hơn so với nhóm trẻ tuổi, thể hiện qua diện tích màu xanh (satisfied) vượt trội trong nhóm lớn tuổi. Trong khi đó, ở nhóm trẻ tuổi, mức độ không hài lòng (màu đỏ) chiếm tỷ trọng lớn hơn.
Kết quả này cho thấy có mối quan hệ đáng kể giữa độ tuổi và mức độ hài lòng, trong đó khách hàng lớn tuổi có xu hướng đánh giá tích cực hơn về trải nghiệm chuyến bay so với khách hàng trẻ tuổi. Phát hiện này hàm ý rằng các hãng hàng không cần chú trọng hơn đến nhu cầu và kỳ vọng của nhóm khách hàng trẻ tuổi để cải thiện mức độ hài lòng trong tương lai.
Kiểm định Chi bình phương
Giả thuyết kiểm định:
\(H_0\): Hai biến độc lập không có sự tác động
\(H_1\): Hai biến có mối quan hệ
chisq.test(tansuat2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tansuat2
## X-squared = 2569.9, df = 1, p-value < 2.2e-16
Kết quả kiểm định cho thấy giá trị thống kê Chi-squared đạt 2569.9 với 1 bậc tự do, và giá trị p tương ứng nhỏ hơn 2.2e-16. Với mức ý nghĩa 5%, giá trị p rất nhỏ cho phép bác bỏ giả thuyết không (H₀), tức là không có mối liên hệ giữa hai biến. Như vậy, có thể kết luận rằng tồn tại mối quan hệ có ý nghĩa thống kê giữa độ tuổi và mức độ hài lòng của khách hàng. Cụ thể, khách hàng lớn tuổi có xu hướng hài lòng với chuyến bay nhiều hơn so với khách hàng trẻ tuổi. Phát hiện này củng cố thêm bằng chứng từ bảng tần suất chéo và biểu đồ mật độ, và gợi mở rằng các doanh nghiệp cần có chiến lược chăm sóc riêng biệt cho từng nhóm tuổi nhằm nâng cao mức độ hài lòng tổng thể.
Tỷ lệ RR
riskratio(tansuat2)
## $data
##
## dissatisfied satisfied Total
## trẻ tuổi 22729 18151 40880
## lớn tuổi 36064 52936 89000
## Total 58793 71087 129880
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## trẻ tuổi 1.000000 NA NA
## lớn tuổi 1.339589 1.323441 1.355933
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## trẻ tuổi NA NA NA
## lớn tuổi 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Bên cạnh kiểm định thống kê, nghiên cứu cũng tiến hành ước lượng tỷ số rủi ro (Risk Ratio – RR) nhằm đo lường mức độ khác biệt về khả năng hài lòng giữa hai nhóm tuổi khách hàng. Kết quả cho thấy, khách hàng lớn tuổi có RR = 1.3396, với khoảng tin cậy 95% từ 1.3234 đến 1.3559. Điều này có nghĩa là khách hàng lớn tuổi có khả năng hài lòng cao hơn khoảng 1.34 lần so với khách hàng trẻ tuổi. Các kiểm định đi kèm (mid-p exact, Fisher exact, và Chi-squared) đều cho giá trị p bằng 0, khẳng định sự khác biệt này là có ý nghĩa thống kê.
Phát hiện này phù hợp với kết quả kiểm định Chi-squared và biểu đồ mật độ trước đó, đồng thời cho thấy tuổi tác là một yếu tố ảnh hưởng đáng kể đến sự hài lòng của khách hàng. Từ đó, có thể rút ra gợi ý thực tiễn rằng doanh nghiệp cần có chiến lược phù hợp để cải thiện trải nghiệm và mức độ hài lòng đối với nhóm khách hàng trẻ tuổi – nhóm có khả năng không hài lòng cao hơn.
Tỷ lệ OR
oddsratio(tansuat2)
## $data
##
## dissatisfied satisfied Total
## trẻ tuổi 22729 18151 40880
## lớn tuổi 36064 52936 89000
## Total 58793 71087 129880
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## trẻ tuổi 1.000000 NA NA
## lớn tuổi 1.838031 1.795093 1.881978
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## trẻ tuổi NA NA NA
## lớn tuổi 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Để đánh giá sâu hơn mối liên hệ giữa tuổi khách hàng và mức độ hài lòng, nghiên cứu đã tiến hành ước lượng tỷ số odds (Odds Ratio – OR) giữa hai nhóm tuổi. Kết quả cho thấy, nhóm khách hàng lớn tuổi có OR = 1.838, với khoảng tin cậy 95% từ 1.795 đến 1.882. Điều này cho thấy odds hài lòng (tức là tỷ lệ giữa khả năng hài lòng so với không hài lòng) của khách hàng lớn tuổi cao hơn khoảng 1.84 lần so với khách hàng trẻ tuổi.
Tất cả các kiểm định liên quan (mid-p exact, Fisher exact và Chi-squared) đều có giá trị p bằng 0, chứng tỏ sự khác biệt này là có ý nghĩa thống kê cao.
Kết quả này củng cố thêm cho những phát hiện trước đó từ bảng tần suất chéo, biểu đồ mật độ và kiểm định Chi-squared, cho thấy độ tuổi là một yếu tố ảnh hưởng đáng kể đến sự hài lòng của khách hàng. Theo đó, khách hàng lớn tuổi có xu hướng đánh giá tích cực hơn về trải nghiệm chuyến bay, từ đó gợi ý rằng các chiến lược cải thiện mức độ hài lòng nên đặc biệt chú trọng đến nhu cầu và kỳ vọng của nhóm khách hàng trẻ tuổi – nhóm có odds hài lòng thấp hơn đáng kể.
Tương tự như biến tuổi khách hàng, với biến Hạng ghế, tác giả cũng chia làm 2 nhóm với yêu cầu là:
Hạng ghế phổ thông: bao gồm hạng ghế Business
Hạng ghế thương gia: bao gồm hạng ghế Eco và Eco Plus
Phân loại Hạng ghế
data$class_group <- ifelse(data$class == "Business", "thương gia", "phổ thông")
data$class_group <- factor(data$class_group, levels = c("phổ thông", "thương gia"))
table(data$class_group)
##
## phổ thông thương gia
## 67720 62160
Sau khi chia Hạng ghế của các khách hàng làm 2, ta thấy rằng nhóm hạng ghế Phổ thông có 67.772 hành khách, trong khi đó nhóm hạng ghế thương gia có 62.160 có hành khách, không có sự chênh lệch rõ ràng giữa 2 hạng ghế này về số lượng.
Bảng tần suất chéo và biểu đồ trực quan hóa
# Bảng tần suất
tansuat3 <- table(data$class_group, data$satisfaction)
phantram3 <- prop.table(tansuat3, margin = 1) * 100
bang_tansuat3 <- as.data.frame(tansuat3)
bang_phantram3 <- as.data.frame(phantram3)
bang_tansuat3$Percentage <- round(bang_phantram3$Freq, 2)
colnames(bang_tansuat1) <- c("Class", "Satisfaction", "Frequency", "Percentage")
kable(bang_tansuat3, caption = "Bảng tần suất chéo giữa Hạng ghế và Mức độ hài lòng chuyến bay")
| Var1 | Var2 | Freq | Percentage |
|---|---|---|---|
| phổ thông | dissatisfied | 40728 | 60.14 |
| thương gia | dissatisfied | 18065 | 29.06 |
| phổ thông | satisfied | 26992 | 39.86 |
| thương gia | satisfied | 44095 | 70.94 |
#Biểu đồ
bang3 <- data %>%
group_by(class_group, satisfaction) %>%
summarise(Count = n(), .groups = "drop")
ggplot(bang3, aes(x = class_group, y = Count, fill = satisfaction)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Hình 3.1.3: Mối quan hệ giữa Hạng ghế và Mức độ hài lòng của khách hàng",
x = "Hạng ghế", y = "Độ hài lòng", fill = "Độ hài lòng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Bảng tần suất chéo và biểu đồ minh họa cho thấy sự khác biệt rõ rệt trong mức độ hài lòng giữa hai hạng ghế: phổ thông và thương gia. Cụ thể, trong nhóm khách hàng sử dụng hạng ghế phổ thông, có đến 60.14% không hài lòng và chỉ 39.86% hài lòng. Ngược lại, ở nhóm khách hàng thương gia, 70.94% bày tỏ sự hài lòng, trong khi chỉ 29.06% không hài lòng.
Biểu đồ cột trực quan hóa xu hướng này, cho thấy tỉ lệ hài lòng ở khách hàng hạng thương gia vượt trội so với hạng phổ thông. Điều này cho thấy rằng hạng ghế là một yếu tố có ảnh hưởng đáng kể đến mức độ hài lòng của khách hàng đối với chuyến bay.
Kết quả gợi ý rằng dịch vụ cung cấp ở hạng thương gia đáp ứng tốt hơn kỳ vọng của khách hàng, từ đó mang lại mức độ hài lòng cao hơn. Ngược lại, nhóm khách hàng phổ thông có xu hướng không hài lòng nhiều hơn, cho thấy cần có các biện pháp cải thiện chất lượng dịch vụ ở hạng ghế này nếu doanh nghiệp muốn nâng cao sự hài lòng tổng thể.
Kiểm định chi bình phương
Giả thuyết kiểm định:
\(H_0\): Hai biến độc lập không có sự tác động
\(H_1\): Hai biến có mối quan hệ
chisq.test(tansuat3)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tansuat3
## X-squared = 12635, df = 1, p-value < 2.2e-16
Kết quả kiểm định cho thấy giá trị thống kê Chi-squared là 12635, với 1 bậc tự do, và giá trị p tương ứng nhỏ hơn 2.2e-16.
Với mức ý nghĩa thông thường (α = 0.05), giá trị p rất nhỏ cho phép bác bỏ giả thuyết không (H₀), tức là không có mối liên hệ giữa hạng ghế và mức độ hài lòng. Như vậy, có thể kết luận rằng tồn tại mối quan hệ có ý nghĩa thống kê giữa hạng ghế và mức độ hài lòng của khách hàng.
Tỷ lệ RR
riskratio(tansuat3)
## $data
##
## dissatisfied satisfied Total
## phổ thông 40728 26992 67720
## thương gia 18065 44095 62160
## Total 58793 71087 129880
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## phổ thông 1.000000 NA NA
## thương gia 1.779755 1.76111 1.798597
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## phổ thông NA NA NA
## thương gia 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả phân tích cho thấy có sự chênh lệch đáng kể về mức độ hài lòng giữa hai nhóm hành khách theo hạng ghế. Cụ thể, xác suất hành khách thương gia cảm thấy hài lòng cao gấp 1.78 lần so với hành khách phổ thông (RR = 1.779755; khoảng tin cậy 95%: từ 1.761 đến 1.7986). Khoảng tin cậy không bao gồm giá trị 1, cho thấy sự khác biệt này có ý nghĩa thống kê. Đồng thời, các kiểm định tương ứng đều cho giá trị p = 0, củng cố thêm bằng chứng rằng sự liên hệ giữa hạng ghế và mức độ hài lòng là có thật trong tổng thể, không phải do ngẫu nhiên.
Tỷ lệ OR
oddsratio(tansuat3)
## $data
##
## dissatisfied satisfied Total
## phổ thông 40728 26992 67720
## thương gia 18065 44095 62160
## Total 58793 71087 129880
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## phổ thông 1.000000 NA NA
## thương gia 3.683011 3.598717 3.76915
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## phổ thông NA NA NA
## thương gia 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích cho thấy Odds Ratio (OR) ước lượng cho nhóm khách hàng thương gia so với nhóm phổ thông là 3.68, với khoảng tin cậy 95% dao động từ 3.60 đến 3.77. Điều này có nghĩa là khả năng hài lòng của khách hàng thương gia cao hơn gần 3.7 lần so với khách hàng phổ thông, xét trên tương quan giữa hai trạng thái (hài lòng và không hài lòng). Mức ý nghĩa thống kê được khẳng định với p-value bằng 0 trên cả ba phương pháp kiểm định (mid-p exact, Fisher exact và Chi-square), cho thấy sự khác biệt này là rất có ý nghĩa và khó có thể xảy ra do ngẫu nhiên.
Kết quả này phản ánh một xu hướng rõ rệt: nhóm khách hàng thương gia có xác suất hài lòng cao vượt trội, từ đó đặt ra yêu cầu cần phân tích sâu hơn về các yếu tố dịch vụ hoặc đặc quyền mà nhóm khách hàng này đang nhận được, nhằm mở rộng mô hình nâng cao trải nghiệm khách hàng cho cả hai phân khúc.
Phân loại nhóm Ghế ngồi
Tác giả đã phân loại kết quả dưới hoặc bằng 2 là “không hài lòng”, từ 3 trở lên là “hài lòng” với các nhóm yếu tố phải đánh giấ từ 0 đến 5.
data$seat.comfort_group <- ifelse(data$seat.comfort <= 2, "không hài lòng", "hài lòng")
data$seat.comfort_group <- factor(data$seat.comfort_group, levels = c("hài lòng", "không hài lòng"))
table(data$seat.comfort_group)
##
## hài lòng không hài lòng
## 75408 54472
Bảng tần suất chéo và biểu đồ trực quan hóa
#Tần suất
tansuat4 <- table(data$seat.comfort_group, data$satisfaction)
phantram4 <- prop.table(tansuat4, margin = 1) * 100
bang_tansuat4 <- as.data.frame(tansuat4)
bang_phantram4 <- as.data.frame(phantram4)
bang_tansuat4$Percentage <- round(bang_phantram4$Freq, 2)
colnames(bang_tansuat4) <- c("Seat", "Satisfaction", "Frequency", "Percentage")
kable(bang_tansuat4, caption = "Bảng tần suất chéo giữa Ghế ngồi thoải mái và Mức độ hài lòng chuyến bay")
| Seat | Satisfaction | Frequency | Percentage |
|---|---|---|---|
| hài lòng | dissatisfied | 28826 | 38.23 |
| không hài lòng | dissatisfied | 29967 | 55.01 |
| hài lòng | satisfied | 46582 | 61.77 |
| không hài lòng | satisfied | 24505 | 44.99 |
#Biểu đồ
bang4 <- data %>%
group_by(seat.comfort_group, satisfaction) %>%
summarise(Count = n(), .groups = "drop")
ggplot(bang4, aes(x = seat.comfort_group, y = Count, fill = satisfaction)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Hình 3.1.4: Mối quan hệ giữa Ghế ngồi thoải mái và Mức độ hài lòng của khách hàng",
x = "Ghế ngồi thoải mái", y = "Độ hài lòng", fill = "Độ hài lòng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Phân tích mối liên hệ giữa cảm nhận về ghế ngồi và mức độ hài lòng của khách hàng cho thấy sự khác biệt rõ rệt giữa hai nhóm. Cụ thể, trong nhóm hành khách đánh giá ghế ngồi là hài lòng, có 61,77% hành khách cảm thấy hài lòng với chuyến bay, trong khi chỉ 38,23% không hài lòng. Ngược lại, ở nhóm hành khách cho rằng ghế ngồi không thoải mái, tỷ lệ không hài lòng chiếm đến 55,01%, vượt trội so với 44,99% hài lòng.
Biểu đồ minh họa (Hình 4) cho thấy xu hướng này một cách trực quan: nhóm có cảm nhận tốt về sự thoải mái của ghế có mức độ hài lòng cao hơn đáng kể so với nhóm còn lại. Kết quả này gợi ý rằng cảm nhận về sự thoải mái của ghế ngồi là một yếu tố quan trọng góp phần hình thành mức độ hài lòng chung của hành khách, đồng thời cũng là một chỉ tiêu cần được ưu tiên cải thiện trong chiến lược nâng cao trải nghiệm khách hàng của hãng hàng không
Kiểm định Chi bình phương
chisq.test(tansuat4)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tansuat4
## X-squared = 3596.5, df = 1, p-value < 2.2e-16
giá trị thống kê Chi bình phương là 3596,5 với 1 bậc tự do, và giá trị p rất nhỏ (p-value < 2.2e-16), thấp hơn rất nhiều so với mức ý nghĩa 0,05. Do đó, chúng ta bác bỏ giả thuyết không (H₀), tức là giả thuyết cho rằng hai biến không có mối liên hệ.
Điều này cho thấy rằng cảm nhận về sự thoải mái của ghế ngồi có mối quan hệ chặt chẽ với mức độ hài lòng của khách hàng. Nói cách khác, mức độ hài lòng của hành khách thay đổi đáng kể tùy theo việc họ cảm thấy ghế ngồi có thoải mái hay không. Kết quả này củng cố thêm nhận định rằng cải thiện sự thoải mái của ghế ngồi có thể là một chiến lược hiệu quả để nâng cao trải nghiệm và sự hài lòng của hành khách đối với hãng hàng không.
Tỷ lệ RR
riskratio(tansuat4)
## $data
##
## dissatisfied satisfied Total
## hài lòng 28826 46582 75408
## không hài lòng 29967 24505 54472
## Total 58793 71087 129880
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## hài lòng 1.0000000 NA NA
## không hài lòng 0.7282503 0.7203901 0.7361963
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## hài lòng NA NA NA
## không hài lòng 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả phân tích cho thấy mức độ hài lòng với ghế ngồi có ảnh hưởng đáng kể đến sự hài lòng chung của khách hàng đối với hãng hàng không. Cụ thể, khách hàng không hài lòng với ghế ngồi có khả năng hài lòng với dịch vụ chung thấp hơn 27,2% so với những người cảm thấy thoải mái với ghế ngồi (Risk Ratio = 0.728; khoảng tin cậy 95%: 0.720–0.736; p < 0.001). Điều này có nghĩa là tỷ lệ hài lòng chung của nhóm không hài lòng với ghế ngồi chỉ bằng 72,8% so với nhóm hài lòng với ghế ngồi. Khoảng tin cậy hẹp và giá trị p rất nhỏ chứng tỏ mối quan hệ này có ý nghĩa thống kê và đáng tin cậy. Như vậy, trải nghiệm về ghế ngồi là một yếu tố quan trọng cần được chú trọng nếu hãng hàng không muốn nâng cao sự hài lòng tổng thể của hành khách.
Tỷ lệ OR
oddsratio(tansuat4)
## $data
##
## dissatisfied satisfied Total
## hài lòng 28826 46582 75408
## không hài lòng 29967 24505 54472
## Total 58793 71087 129880
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## hài lòng 1.0000000 NA NA
## không hài lòng 0.5060229 0.4948368 0.5174801
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## hài lòng NA NA NA
## không hài lòng 0 0 0
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích cho thấy mức độ hài lòng với ghế ngồi có liên quan đáng kể đến sự hài lòng chung của khách hàng. Cụ thể, khách hàng không hài lòng với ghế ngồi có tỷ số odds hài lòng chung chỉ bằng 50,6% so với những khách hàng hài lòng với ghế ngồi (OR = 0.506; khoảng tin cậy 95%: 0.495–0.517). Khoảng tin cậy hẹp và không chứa giá trị 1 cho thấy mối quan hệ này có ý nghĩa thống kê. Ngoài ra, các kiểm định thống kê đi kèm như kiểm định Fisher, Mid-p exact và chi bình phương đều cho giá trị p = 0, khẳng định mối liên hệ giữa hai biến là có ý nghĩa thống kê. Như vậy, khách hàng cảm thấy không thoải mái với ghế ngồi có khả năng không hài lòng với dịch vụ chung cao hơn đáng kể, cho thấy yếu tố này đóng vai trò quan trọng trong việc định hình sự hài lòng tổng thể của hành khách.
Phân loại nhóm Trễ giờ
data$departure.delay_group <- ifelse(data$departure.delay <= 2, "trễ ít", "trễ nhiều")
data$departure.delay_group <- factor(data$departure.delay_group, levels = c("trễ nhiều", "trễ ít"))
table(data$departure.delay_group)
##
## trễ nhiều trễ ít
## 49987 79893
Bảng tần suất chéo và biểu đồ trực quan hóa
#Tần suất
tansuat5 <- table(data$departure.delay_group, data$satisfaction)
phantram5 <- prop.table(tansuat5, margin = 1) * 100
bang_tansuat5 <- as.data.frame(tansuat5)
bang_phantram5 <- as.data.frame(phantram5)
bang_tansuat5$Percentage <- round(bang_phantram5$Freq, 2)
colnames(bang_tansuat5) <- c("Delay", "Satisfaction", "Frequency", "Percentage")
kable(bang_tansuat5, caption = "Bảng tần suất chéo giữa Trễ giờ khởi hành và Mức độ hài lòng chuyến bay")
| Delay | Satisfaction | Frequency | Percentage |
|---|---|---|---|
| trễ nhiều | dissatisfied | 24626 | 49.26 |
| trễ ít | dissatisfied | 34167 | 42.77 |
| trễ nhiều | satisfied | 25361 | 50.74 |
| trễ ít | satisfied | 45726 | 57.23 |
#Biểu đồ
bang5 <- data %>%
group_by(departure.delay_group, satisfaction) %>%
summarise(Count = n(), .groups = "drop")
ggplot(bang5, aes(x = departure.delay_group, y = Count, fill = satisfaction)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Hình 3.1.5: Mối quan hệ giữa Trễ giờ khởi hành và Mức độ hài lòng của khách hàng",
x = "Trễ giờ khởi hành", y = "Độ hài lòng", fill = "Độ hài lòng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Phân tích mối quan hệ giữa số phút trễ giờ khởi hành và mức độ hài lòng của khách hàng (Hình 5) cho thấy sự khác biệt rõ rệt giữa hai nhóm khách hàng. Trong nhóm chuyến bay bị trễ nhiều, tỷ lệ khách hàng không hài lòng chiếm 49,26%, cao hơn so với nhóm chuyến bay trễ ít, với tỷ lệ không hài lòng là 42,77%. Ngược lại, tỷ lệ khách hàng hài lòng trong nhóm trễ nhiều là 50,74%, thấp hơn đáng kể so với nhóm trễ ít (57,23%). Biểu đồ cột minh họa trực quan sự khác biệt này, cho thấy xu hướng hài lòng tăng lên khi mức độ trễ giảm.
Kiểm định Chi bình phương
chisq.test(tansuat5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tansuat5
## X-squared = 523.9, df = 1, p-value < 2.2e-16
Kết quả kiểm định cho thấy giá trị Chi bình phương là 523.9 với 1 bậc tự do, và giá trị p rất nhỏ (p-value < 2.2e-16). Với mức ý nghĩa thông thường (α = 0.05), ta bác bỏ giả thuyết không (H₀), tức là giả thuyết cho rằng không có mối liên hệ giữa hai biến. Do đó, có thể kết luận rằng mức độ trễ giờ khởi hành và mức độ hài lòng của khách hàng có mối quan hệ phụ thuộc lẫn nhau một cách có ý nghĩa thống kê.
Tỷ lệ RR
riskratio(tansuat5)
## $data
##
## dissatisfied satisfied Total
## trễ nhiều 24626 25361 49987
## trễ ít 34167 45726 79893
## Total 58793 71087 129880
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## trễ nhiều 1.000000 NA NA
## trễ ít 1.128094 1.116295 1.140017
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## trễ nhiều NA NA NA
## trễ ít 0 7.707321e-116 5.257531e-116
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả ước lượng tỷ số rủi ro (Risk Ratio – RR) cho thấy rằng nhóm khách hàng bị trễ ít có khả năng hài lòng cao hơn 12,8% so với nhóm bị trễ nhiều. Cụ thể, RR = 1.128, với khoảng tin cậy 95% dao động từ 1.116 đến 1.140, cho thấy kết quả này là có ý nghĩa thống kê và mức chênh lệch không phải do ngẫu nhiên.
Nhóm trễ nhiều được chọn làm nhóm tham chiếu (RR = 1). Vì RR của nhóm trễ ít lớn hơn 1 và p-value từ kiểm định chi bình phương và Fisher đều rất nhỏ (< 2.2e-16), có thể kết luận rằng mức độ trễ chuyến bay có ảnh hưởng đáng kể đến mức độ hài lòng của khách hàng.
Nói cách khác, khi mức độ trễ giảm, khả năng khách hàng cảm thấy hài lòng tăng lên rõ rệt.
Kiểm định OR
oddsratio(tansuat5)
## $data
##
## dissatisfied satisfied Total
## trễ nhiều 24626 25361 49987
## trễ ít 34167 45726 79893
## Total 58793 71087 129880
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## trễ nhiều 1.000000 NA NA
## trễ ít 1.299509 1.270672 1.329029
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## trễ nhiều NA NA NA
## trễ ít 0 7.707321e-116 5.257531e-116
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Trong nhóm khách hàng bị trễ ít, odds (tỷ lệ cược) để hài lòng so với không hài lòng cao hơn 1.299 lần so với nhóm khách hàng bị trễ nhiều. Nói cách khác, những khách hàng ít bị trễ có khả năng hài lòng cao hơn một cách đáng kể so với những khách hàng thường xuyên bị trễ.
Khoảng tin cậy 95% cho OR nằm trong khoảng từ 1.2707 đến 1.3290, cho thấy sự khác biệt là có ý nghĩa thống kê vì khoảng tin cậy này không chứa giá trị 1. Đồng thời, giá trị p từ các kiểm định (midp.exact, fisher.exact, chi-square) đều gần bằng 0, khẳng định sự khác biệt giữa hai nhóm là rất có ý nghĩa thống kê.
Như vậy, kết quả cho thấy yếu tố “trễ” có ảnh hưởng rõ rệt đến mức độ hài lòng của khách hàng: càng ít bị trễ, khách hàng càng có xu hướng hài lòng cao hơn.
Trong nghiên cứu định lượng, đặc biệt khi biến phụ thuộc có dạng nhị phân, việc lựa chọn mô hình hồi quy phù hợp không chỉ ảnh hưởng đến độ chính xác của kết quả mà còn quyết định đến khả năng giải thích và ứng dụng thực tiễn của mô hình. Trong chương này, ba mô hình hồi quy nhị phân phổ biến nhất – Logistic Regression, Probit Regression và Complementary Log-Log Regression – sẽ được đưa vào phân tích và so sánh nhằm xác định mô hình nào thể hiện tốt nhất trên tập dữ liệu nghiên cứu. Mỗi mô hình mang một giả định phân phối riêng biệt về sai số, dẫn đến cách tiếp cận khác nhau trong ước lượng xác suất xảy ra của biến phụ thuộc. Bằng việc phân tích các đặc điểm, hiệu suất và độ phù hợp của từng mô hình thông qua các tiêu chí đánh giá thống kê, chương này sẽ góp phần xác định mô hình tối ưu, từ đó cung cấp cơ sở vững chắc cho các phân tích tiếp theo.
Mô hình hồi quy Probit
Mô hình Probit được sử dụng để phân tích mối quan hệ giữa biến phụ thuộc nhị phân và một hoặc nhiều biến độc lập. Mô hình này ước lượng xác suất xảy ra của một sự kiện bằng cách giả định sai số có phân phối chuẩn. Probit thường được áp dụng khi cần phân tích hành vi lựa chọn hoặc ra quyết định, đặc biệt trong các nghiên cứu xã hội và kinh tế.
data$satisfaction_new <- ifelse(data$satisfaction == "satisfied", 1, 0)
probit_model <- glm(satisfaction_new ~ customer.type + age_group + seat.comfort_group + class_group + departure.delay_group,
data = data, family = binomial(link = "probit"))
summary(probit_model)
##
## Call:
## glm(formula = satisfaction_new ~ customer.type + age_group +
## seat.comfort_group + class_group + departure.delay_group,
## family = binomial(link = "probit"), data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.018207 0.011901 -85.560 <2e-16 ***
## customer.typeLoyal Customer 1.015640 0.010758 94.410 <2e-16 ***
## age_grouplớn tuổi 0.009721 0.008561 1.135 0.256
## seat.comfort_groupkhông hài lòng -0.517125 0.007658 -67.530 <2e-16 ***
## class_groupthương gia 0.848984 0.007695 110.336 <2e-16 ***
## departure.delay_grouptrễ ít 0.183385 0.007695 23.831 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 178886 on 129879 degrees of freedom
## Residual deviance: 150320 on 129874 degrees of freedom
## AIC: 150332
##
## Number of Fisher Scoring iterations: 4
Kết quả ước lượng mô hình Probit cho thấy các yếu tố như loại khách hàng, mức độ hài lòng với ghế ngồi, hạng vé và thời gian trễ chuyến bay có ảnh hưởng đáng kể đến xác suất khách hàng cảm thấy hài lòng. Cụ thể, khách hàng thân thiết có xác suất hài lòng cao hơn đáng kể so với khách hàng không thân thiết (hệ số ước lượng = 1.0156, p < 0.001). Hành khách không hài lòng với ghế ngồi có xác suất hài lòng thấp hơn (hệ số = -0.5171, p < 0.001), trong khi những người đi hạng thương gia có xác suất hài lòng cao hơn (hệ số = 0.8490, p < 0.001). Việc chuyến bay chỉ bị trễ nhẹ cũng góp phần làm tăng xác suất hài lòng (hệ số = 0.1834, p < 0.001). Riêng biến độ tuổi không có ý nghĩa thống kê trong mô hình (p = 0.256). Mô hình có mức độ phù hợp tốt, với sai số còn lại (residual deviance) giảm đáng kể so với sai số ban đầu (null deviance), cho thấy các biến độc lập được đưa vào đã giải thích được phần lớn biến động của xác suất hài lòng.
Mô hình Complementary Log-Log (Cloglog)
Mô hình Complementary Log-Log (Cloglog) là một biến thể của mô hình hồi quy nhị phân, thường được sử dụng khi xác suất xảy ra sự kiện gần bằng 0 hoặc gần bằng 1, đặc biệt phù hợp với các dữ liệu phân phối không đối xứng. Hàm liên kết cloglog cho phép mô hình hóa mối quan hệ phi tuyến giữa các biến độc lập và xác suất xảy ra sự kiện. Đây là lựa chọn thay thế hữu ích khi giả định phân phối chuẩn của mô hình Probit hoặc phân phối logistic của mô hình Logistic không phù hợp.
cloglog_model <- glm(satisfaction_new ~ customer.type + age_group + seat.comfort_group + class_group + departure.delay_group,
data = data, family = binomial(link = "cloglog"))
summary(cloglog_model)
##
## Call:
## glm(formula = satisfaction_new ~ customer.type + age_group +
## seat.comfort_group + class_group + departure.delay_group,
## family = binomial(link = "cloglog"), data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.644530 0.015616 -105.313 <2e-16 ***
## customer.typeLoyal Customer 1.180584 0.014274 82.711 <2e-16 ***
## age_grouplớn tuổi 0.080553 0.009482 8.495 <2e-16 ***
## seat.comfort_groupkhông hài lòng -0.508745 0.008338 -61.018 <2e-16 ***
## class_groupthương gia 0.882514 0.008272 106.691 <2e-16 ***
## departure.delay_grouptrễ ít 0.196864 0.008311 23.687 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 178886 on 129879 degrees of freedom
## Residual deviance: 151171 on 129874 degrees of freedom
## AIC: 151183
##
## Number of Fisher Scoring iterations: 6
Kết quả ước lượng mô hình Cloglog cho thấy tất cả các biến độc lập đều có ý nghĩa thống kê cao (p-value < 0.001). Cụ thể, khách hàng thuộc nhóm “Loyal Customer” có khả năng hài lòng cao hơn đáng kể so với khách hàng thông thường (hệ số ước lượng = 1.1806). Khách hàng lớn tuổi cũng có xu hướng hài lòng hơn (0.0806), trong khi sự không hài lòng với chỗ ngồi làm giảm đáng kể xác suất hài lòng (-0.5087). Hành khách ở hạng thương gia có khả năng hài lòng cao hơn (0.8825), và việc chuyến bay chỉ bị trễ ít cũng góp phần làm tăng mức độ hài lòng (0.1969). Mô hình phù hợp tốt với dữ liệu khi AIC = 151183 và sai số chuẩn của các hệ số là nhỏ, cho thấy độ tin cậy cao trong ước lượng.
Mô hình Logistic (Logit)
Mô hình Logistic (Logit) là một mô hình hồi quy dùng để phân tích các biến phụ thuộc nhị phân. Thay vì ước lượng trực tiếp xác suất, mô hình sử dụng hàm logit – logarit của tỷ số xác suất xảy ra và không xảy ra của một sự kiện. Đây là mô hình phổ biến để dự đoán khả năng xảy ra của một hiện tượng dựa trên các biến giải thích.
logit_model <- glm(satisfaction_new ~ customer.type + age_group + seat.comfort_group + class_group + departure.delay_group,
data = data, family = binomial(link = "logit"))
summary(logit_model)
##
## Call:
## glm(formula = satisfaction_new ~ customer.type + age_group +
## seat.comfort_group + class_group + departure.delay_group,
## family = binomial(link = "logit"), data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.68861 0.02042 -82.697 <2e-16 ***
## customer.typeLoyal Customer 1.68905 0.01846 91.501 <2e-16 ***
## age_grouplớn tuổi 0.01398 0.01421 0.984 0.325
## seat.comfort_groupkhông hài lòng -0.86428 0.01287 -67.141 <2e-16 ***
## class_groupthương gia 1.41283 0.01302 108.499 <2e-16 ***
## departure.delay_grouptrễ ít 0.30340 0.01282 23.660 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 178886 on 129879 degrees of freedom
## Residual deviance: 150287 on 129874 degrees of freedom
## AIC: 150299
##
## Number of Fisher Scoring iterations: 4
Kết quả hồi quy logistic cho thấy các yếu tố như loại khách hàng, mức độ hài lòng với ghế ngồi, hạng ghế và thời gian trễ của chuyến bay có ảnh hưởng đáng kể đến mức độ hài lòng của khách hàng, với giá trị p đều nhỏ hơn 0.001. Cụ thể, khách hàng trung thành, ngồi hạng thương gia, và gặp tình trạng trễ ít có khả năng hài lòng cao hơn. Ngược lại, sự không hài lòng về ghế ngồi làm giảm đáng kể xác suất hài lòng. Nhóm tuổi không có ý nghĩa thống kê trong mô hình (p = 0.325). Mô hình có độ phù hợp tốt với dữ liệu (AIC = 150299) và hội tụ sau 4 vòng lặp Fisher Scoring.
Mô hình hồi quy Logit (Logistic Regression) là lựa chọn tốt nhất
Tất cả các mô hình đều cho thấy sự phù hợp đáng kể với dữ liệu khi xét về ý nghĩa thống kê của các biến độc lập (p-value < 0.001), đặc biệt là các biến như loại khách hàng, độ thoải mái ghế ngồi, hạng vé và tình trạng trễ chuyến. Tuy nhiên, xét về tiêu chí thông tin Akaike (AIC) – một chỉ số phổ biến để so sánh mức độ phù hợp giữa các mô hình – thì mô hình Logit có giá trị AIC thấp nhất (150299), cho thấy đây là mô hình có khả năng dự báo tốt nhất với mức phức tạp tối ưu.
So với Logit, mô hình Probit (AIC = 150332) và Complementary Log-Log (AIC = 151183) có độ phù hợp thấp hơn một chút. Mặc dù các mô hình này vẫn cung cấp những giải thích hợp lý về xác suất, nhưng chênh lệch AIC cho thấy Logit là mô hình có hiệu năng tốt nhất trong bối cảnh nghiên cứu này. Đồng thời, sự khác biệt giữa các hệ số ước lượng cũng không đáng kể và diễn giải trong mô hình Logit là trực quan nhất.
Từ đó, có thể kết luận rằng mô hình Logistic (Logit) là lựa chọn phù hợp và hiệu quả nhất để dự báo mức độ hài lòng của khách hàng, đồng thời cho phép giải thích rõ ràng tác động của từng biến độc lập lên xác suất khách hàng cảm thấy hài lòng. ___
Bài nghiên cứu đã sử dụng bộ dữ liệu Invistico
Airlines để phân tích các yếu tố ảnh hưởng đến mức độ hài lòng
của một khách hàng khi sử dụng dịch vụ hàng không. Các yếu tố ảnh hưởng
(biến độc lập) mà tác giả dùng để nghiên cứu bao gồm: age
(độ tuổi),seat.comfort (độ thoải mái của ghế),
classs(hạng ghế), departure.delay(số phút khởi
hành trễ) và costumer.type(tệp khách hàng). Sau khi kiểm
định chi bình phương tất cả các biến được chọn đều có p-value <
2.2e-16 (nhỏ hơn 0.05), cho thấy có mối quan hệ ý nghĩa thống kê giữa
các biến độc lập và mức độ hài lòng của khách hàng. Các ước lượng tỷ số
RR và OR cho các biến đều chỉ ra rằng, Tệp khách hàng là khách hàng
trung thành, khách hàng lớn tuổi, khách hàng đi hạng ghế thương gia có
tỷ lệ hài lòng với chuyến bay cao hơn. Đặc biệt, yếu tố ghế ngồi thoải
mái cũng ảnh hưởng đến độ hài lòng khi kết quả chỉ ra những khách hàng
không thoải mái với ghế ngồi cũng không cảm thấy thoải mái với dịch vụ
chung ở mức khá cao. Đồng thời, số phút khởi trễ hành trễ cũng là một
yếu tố quan trọng trong đo lường mức độ hài lòng của khách hàng khi kết
quả ước lượng tỷ số RR và OR đều cho ra rằng số phút khởi hành trễ càng
ít thì khách hàng càng cảm thấy hài lòng.
Thực hiện ước lượng mô hình hồi quy đa biến, tác giả đã sử dụng 3 mô hình: Logistic, Probit, và Complementary Log-Log (Cloglog).Kết quả từ cả ba mô hình đều nhất quán và cho thấy các yếu tố như loại khách hàng, mức độ hài lòng với ghế ngồi, hạng vé, và mức độ trễ của chuyến bay có ảnh hưởng đáng kể đến xác suất khách hàng cảm thấy hài lòng.
Cụ thể, khách hàng trung thành (loyal customer) có xác suất hài lòng cao hơn rõ rệt so với khách hàng thông thường, trong khi sự không hài lòng với chỗ ngồi làm giảm đáng kể khả năng hài lòng. Hành khách ở hạng thương gia và những người chỉ trải qua mức độ trễ nhẹ cũng có xu hướng hài lòng cao hơn. Trong khi đó, độ tuổi không cho thấy ý nghĩa thống kê rõ rệt trong mô hình Logistic và Probit, nhưng lại có ảnh hưởng tích cực nhẹ trong mô hình Cloglog.
Về độ phù hợp mô hình, cả ba đều cho kết quả tốt: AIC thấp (Logistic = 150299, Probit = [không ghi rõ], Cloglog = 151183) và các hệ số đều có độ tin cậy cao (p < 0.001) trong phần lớn trường hợp. Mặc dù có sự chênh lệch nhẹ về tiêu chí AIC giữa các mô hình, nhưng sự khác biệt không đủ lớn để khẳng định ưu thế tuyệt đối của một mô hình cụ thể. Tuy nhiên, mô hình Logistic có ưu thế về khả năng diễn giải Odds Ratio, nên được ưu tiên sử dụng trong thực tiễn.
Tóm lại, nghiên cứu cho thấy việc nâng cao trải nghiệm khách hàng, đặc biệt đối với khách hàng trung thành, cải thiện chất lượng ghế ngồi, đảm bảo chuyến bay đúng giờ và ưu tiên dịch vụ cao cấp là những yếu tố then chốt giúp gia tăng mức độ hài lòng. Các kết quả này không chỉ cung cấp bằng chứng định lượng cho các chiến lược nâng cao chất lượng dịch vụ hàng không, mà còn làm cơ sở cho các mô hình dự báo và cá nhân hóa trải nghiệm hành khách trong tương lai.
Mặc dù nghiên cứu đã sử dụng các mô hình định lượng để xác định những yếu tố ảnh hưởng đến mức độ hài lòng của hành khách, đề tài vẫn tồn tại một số hạn chế nhất định. Thứ nhất, dữ liệu phân tích mang tính cắt ngang và được thu thập trong một khoảng thời gian cụ thể, do đó không phản ánh được sự thay đổi về mức độ hài lòng theo thời gian hoặc theo mùa vụ. Thứ hai, một số yếu tố tiềm ẩn khác như thái độ của tiếp viên, chất lượng phục vụ trên máy bay, trải nghiệm trước khi lên chuyến bay (check-in, an ninh, v.v.) không được đưa vào mô hình do giới hạn dữ liệu, dẫn đến khả năng thiếu sót trong việc giải thích đầy đủ hành vi hài lòng của hành khách.
Ngoài ra, nghiên cứu chủ yếu sử dụng các biến định lượng và định danh có sẵn trong bộ dữ liệu, nên chưa khai thác được các yếu tố định tính như cảm xúc, kỳ vọng hay trải nghiệm cá nhân – những yếu tố thường đóng vai trò quan trọng trong đánh giá chủ quan của hành khách. Cuối cùng, mặc dù mô hình Logistic có ưu thế về khả năng diễn giải, nhưng chưa có so sánh sâu giữa các kỹ thuật học máy khác có thể mang lại hiệu suất dự đoán cao hơn (ví dụ: Random Forest, Gradient Boosting).
Những hạn chế trên là cơ sở để đề xuất các hướng nghiên cứu tiếp theo, trong đó kết hợp cả dữ liệu định tính, mở rộng phạm vi phân tích, và áp dụng các kỹ thuật học máy tiên tiến nhằm nâng cao tính toàn diện và độ chính xác trong việc dự đoán mức độ hài lòng của hành khách.
Thứ nhất, các nghiên cứu trong tương lai nên sử dụng dữ liệu theo chuỗi thời gian (panel data) để theo dõi sự thay đổi về mức độ hài lòng của hành khách theo thời gian, từ đó đánh giá được tác động của các yếu tố ngắn hạn và dài hạn. Việc tích hợp yếu tố mùa vụ hoặc tình hình vận hành theo từng giai đoạn (ví dụ: cao điểm lễ Tết, ảnh hưởng thời tiết) có thể giúp mô hình phản ánh thực tế khách quan hơn.
Thứ hai, cần xem xét mở rộng tập hợp biến giải thích, đặc biệt là các biến liên quan đến trải nghiệm dịch vụ như thái độ tiếp viên, chất lượng suất ăn, thủ tục check-in, thời gian chờ hành lý,… nhằm cung cấp cái nhìn toàn diện hơn về những yếu tố tác động đến mức độ hài lòng. Các yếu tố này có thể được thu thập thông qua khảo sát định tính hoặc dữ liệu phản hồi mở (open-ended feedback).
Thứ ba, việc áp dụng các mô hình học máy (machine learning) như Random Forest, XGBoost hoặc mô hình mạng nơ-ron (neural networks) có thể được xem xét nhằm nâng cao độ chính xác của dự báo, đặc biệt trong các hệ thống khuyến nghị hoặc cá nhân hóa trải nghiệm khách hàng.
Cuối cùng, hướng tiếp cận phân đoạn khách hàng (customer segmentation) kết hợp với phân tích hài lòng cũng là một định hướng tiềm năng, giúp doanh nghiệp không chỉ hiểu hành khách nói chung mà còn xác định nhóm khách hàng chiến lược để ưu tiên chăm sóc và giữ chân hiệu quả hơn.