Link bộ dữ liệu: https://docs.google.com/spreadsheets/d/1kiN1EOK4Gja2HybIQUAGtioA1OwbESez/edit#gid=885482698
Đầu tiên, em xin gửi lời cảm ơn chân thành đến Trường Đại học Tài chính - Marketing đã đưa môn học Phân tích dữ liệu định tính vào trương trình giảng dạy. Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Thầy Trần Mạnh Tường đã dạy dỗ, truyền đạt những kiến thức quý báu cho em trong suốt thời gian học tập vừa qua. Trong thời gian tham gia lớp học Phân tích dữ liệu định tính của thầy, em đã có thêm cho mình nhiều kiến thức bổ ích, tinh thần học tập hiệu quả, nghiêm túc. Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang để em có thể vững bước sau này.
Bộ môn Phân tích dữ liệu định tính là môn học thú vị, vô cùng bổ ích và có tính thực tế cao. Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ. Mặc dù em đã cố gắng hết sức nhưng chắc chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính xác, kính mong thầy xem xét và góp ý để bài tiểu luận của em được hoàn thiện hơn.
Em xin chân thành cảm ơn.
Trong bối cảnh ngày nay, tình hình hoạt động của ngành hàng không Việt phát triển nhanh và tăng cao đột biến, theo báo cáo của Hiệp hội vận tải hàng không quốc tế (IATA), Việt Nam được ghi nhận là một trong những thị trường hàng không có tốc độ tăng trưởng hàng năm nhanh nhất thế giới, cao hơn tốc độ trung bình của khu vực châu Á – Thái Bình Dương. Tỷ trọng vận tải hành khách qua đường hàng không tăng gấp hơn 2 lần từ mức 0,5% trong năm 2009 lên mức 1,2 % trong năm 2019.
Đối với ngành hàng không Việt Nam hiện tại, trên thị trường hàng không Việt Nam có sự tham gia cung cấp dịch vụ vận chuyển hành khách của 5 hãng hàng không bao gồm Tổng công ty Hàng Không Việt Nam (Vietnamairlines), Tổng công ty cổ phần hàng không Vietjet (Vietjet Air), Công ty cổ phần hàng không Tre Việt(Bamboo Airways), Công ty cổ phần hàng không Pacific (Pacific Airlines), công ty Bay dịchvụ hàng không Việt Nam (VASCO) với mô hình kinh doanh khác nhau hướng đến các đối tượng khách hàng khác nhau, chất lượng dịch vụ vận chuyển hàng không là đa dạng và không giống nhau. Chính vì thế đã xảy ra sự cạnh tranh không hề nhỏ giữa các hãng hàng không không về giá vé, dịch vụ… để giành thị phần về mình.
Vậy để tồn tại, sống sót và giữ vững hệ số ghế (load-factor) cũng như thị phần hàng không, vấn đề nghiên cứu và đưa ra các giải pháp làm thỏa mãn sự hài lòng của khách hàng là rất cấp bách và cần thiết. Tìm hiểu những yếu tố quyết định đến sự hài lòng của khách hàng chính là cơ sở để các hãng hàng không phát huy khả năng vốn có của hãng, đồng thời tạo ra lợi thế cạnh tranh trên thị trường hàng không đang cạnh tranh gay gắt như hiện nay. Thông qua đó, các hãng hàng không sẽ có những chiến lược phù hợp, góp phần thúc đẩy hoạt động kinh doanh hiệu quả.
Nhận thấy được tầm quan trọng này, tác giả tiến hành thực hiện đề tài “Các nhân tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay”. Nghiên cứu này sẽ chỉ ra được mức độ hài lòng của khách hàng khi sử dụng dịch vụ trên chuyến bay nghiên cứu sẽ đề xuất cho lãnh đạo của hãng hàng không có thêm những chiến lược phù hợp cụ thể để chiếm lĩnh thị phần hàng không, gia tăng mức độ hài lòng, thu hút khách hàng.
Làm rõ cơ sở lý luận, thực tiễn của hoạt động nghiên cứu các yếu tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay
Xác định các yếu tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay.
Đo lường mức độ ảnh hưởng của từng yếu tố đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay.
Phân tích và đánh giá thực trạng, tìm ra những thuận lợi và khó khăn trong quá trình thực hiện nghiên cứu sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay dưới vai trò hành khách.
Đề xuất các giải pháp nhằm chiếm lĩnh thị phần hàng không, gia tăng mức độ hài lòng, thu hút khách hàng cho hãng hàng không.
Các nhân tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay.
Phương pháp xử lý số liệu bằng thống kê toán học: Để nắm vững thông tin và số liệu liên quan đến sự hài lòng của khách hàng đối với hãng hàng không, tác giả sẽ tiến hành một quá trình phân tích số liệu bằng phương pháp thống kê toán học. Các thông số liên quan đến tần suất, phân bố, độ tương quan và độ tương tác giữa các biến sẽ được tính toán. Phần mềm R - một công cụ mạnh mẽ và phổ biến trong lĩnh vực thống kê và xử lý dữ liệu - sẽ hỗ trợ quá trình này. Việc sử dụng phần mềm R sẽ đảm bảo tính chính xác và đáng tin cậy trong việc phân tích số liệu.
Phương pháp dữ liệu định tính
Ý nghĩa khoa học: Bài nghiên cứu góp phần bổ sung thêm bằng chứng thực nghiệm về các yếu tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay.
Ý nghĩa thực tiễn: Kết luận giúp cho các hãng hàng không có cái nhìn chiến lược hơn khi phân tích từ đó đề xuất các giải pháp nhằm chiếm lĩnh thị phần hàng không, gia tăng mức độ hài lòng, thu hút khách hàng ngày càng một lớn mạnh và tìm kiếm được lợi nhuận. Đề tài này cũng có thể là tài liệu tham khảo cho các nghiên cứu trong tương lai về các yếu tố ảnh hưởng đến sự hài lòng của khách hàng đối với dịch vụ trên chuyến bay.
Phần mở đầu
Chương 1. Tổng quan lý thuyết
Chương 2. Phương pháp nghiên cứu
Chương 3. Thống kê mô tả cho các biên
Chương 4. Mô hình hồi quy
Chương 5: Kết luận và kiến nghị
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.1
library(scales)
## Warning: package 'scales' was built under R version 4.3.1
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.1
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.1
## Warning: package 'tidyr' was built under R version 4.3.1
## Warning: package 'readr' was built under R version 4.3.1
## Warning: package 'purrr' was built under R version 4.3.1
## Warning: package 'forcats' was built under R version 4.3.1
## Warning: package 'lubridate' was built under R version 4.3.1
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ lubridate 1.9.2 ✔ tibble 3.2.1
## ✔ purrr 1.0.1 ✔ tidyr 1.3.0
## ✔ readr 2.1.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ readr::col_factor() masks scales::col_factor()
## ✖ purrr::discard() masks scales::discard()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(tidyselect)
## Warning: package 'tidyselect' was built under R version 4.3.1
library(epitools)
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.1
library(caTools)
## Warning: package 'caTools' was built under R version 4.3.1
library(tidytext)
## Warning: package 'tidytext' was built under R version 4.3.1
library(readxl)
DL <- read_excel("C:/Users/Abc/Downloads/DL.xlsx")
View(DL)
DL
## # A tibble: 25,976 × 8
## Gender Customer Age Travel Class IS DDIM SF
## <chr> <chr> <dbl> <chr> <chr> <dbl> <dbl> <chr>
## 1 Female Loyal Customer 52 Business travel Eco 5 50 satisfied
## 2 Female Loyal Customer 36 Business travel Business 4 0 satisfied
## 3 Male disloyal Customer 20 Business travel Eco 2 0 neutral …
## 4 Male Loyal Customer 44 Business travel Business 1 0 satisfied
## 5 Female Loyal Customer 49 Business travel Eco 2 0 satisfied
## 6 Male Loyal Customer 16 Business travel Eco 2 0 satisfied
## 7 Female Loyal Customer 77 Business travel Business 5 0 satisfied
## 8 Female Loyal Customer 43 Business travel Business 4 77 satisfied
## 9 Male Loyal Customer 47 Business travel Eco 3 1 satisfied
## 10 Female Loyal Customer 46 Business travel Business 4 28 satisfied
## # ℹ 25,966 more rows
Gender<-DL$Gender
Travel<-DL$Travel
Customer<-DL$Customer
Class<-DL$Class
SF<-DL$SF
Age<-DL$Age
IS<-DL$IS
DDIM<-DL$DDIM
Có rất nhiều định nghĩa về dịch vụ hiện nay, tuy nhiên theo tác giả có thể hiểu sản phẩm dịch vụ là một loại sản phẩm kinh tế đặc biệt, có tính phi vật chất, vô hình. Trái ngược ới nó là sản phẩm hàng hóa là sản phẩm mà chúng ta có thể chạm vào, sờ vào trực tiếp được.
Philip Kotler đã định nghĩa dịch vụ: “Dịch vụ là một hoạt động hay lợi ích cung ứng nhằm để trao đổi, chủ yếu là vô hình và không dẫn đến việc chuyển quyền sở hữu. Việc thực hiện dịch vụ thể gắn liền hoặc không gắn liền với sản phẩm vật chất”.
Theo C.Mác cho rằng: “Dịch vụ là con đẻ của nền kinh tế sản xuất hàng hóa, khi mà kinh tế hàng hóa phát triển mạnh, đòi hỏi một sự lưu thông thông suốt, trôi chảy, liên tục đểthoả mãn nhu cầu ngày càng cao đó của con người thì dịch vụ ngày càng phát triển”.
Một số định nghĩa khác về dịch vụ: “Dịch vụ là hoạt động hoặc kết quả được một bênthực hiện hoặc cung cấp cho một bên khác. Mặc dù quá trình có thể là phải gắn liền với mộtsản phẩm hữu hình, kết quả thực hiện chỉ diễn ra trong một khoảng thời gian nhất định, vôhình và thường không tạo ra sự thay đổi nào về sự sở hữu các yếu tố sản xuất”.
Dịch vụ là hoạt động kinh tế mà tạo ra giá trị và cung cấp các lợi ích cho các khách hàng một thời gian địa điểm cụ thể bằng cách đem tới sự thay đổi được mong đợi ở người tiếp nhận dịch vụ hoặc bên đại diện cho người tiếp nhận dịch vụ
Như vậy, có thể hiểu dịch vụ là hoạt động tạo ra giá trị nhằm thỏa mãn nhu cầu của khách hàng, khác với việc tạo ra sản phẩm vật chất (có tính hữu hình), dịch vụ tạo ra các giá trịp ứng nhu cầu của khách hàng đóng góp cho sự phát triển của xã hội.
Là dịch vụ mà khách hàng được tận hưởng, trải nghiệm khi chuyến bay đang bay.Tính từ thời điểm cửa ra máy bay được đóng lại tại sân bay đi đến thời điểm cửa ra máy bayđược mở ra tại sân bay đến. Dịch vụ trên chuyến bay sẽ bao gồm nhiều thành phần gồm có:
Tiện nghi trên máy bay: sự thoải mái, rộng rãi, sạch sẽ của ghế ngồi, các trang thiết bịgiải trí trên ghế ngồi, sự rộng rãi của chỗ để chân, không khí thoáng mát, thơm tho trong khoang hành khách, sạch sẽ, thơm tho của buồng vệ sinh. Các chươngtrình giải trí như xem phim trên FPT PLAY với kho phim các thể loại, hệ thống kết nốiinternet không dây trên máy bay (WIFE) (Wireless inflight entertainment system). Có màn hình trình chiếu các chương trình phim giúp khách hàng thư giãn, có màn hìnhthông báo hành trình của tàu bay để khách hàng nắm được tàu bay đang ở đâu. Cótrang bị màn hình chơi game, khách có thể chơi điện tử trong suốt hành trình bay.
Đảm bảo các tiêu chuẩn an toàn trong phòng chống dịch Covid: Có thảm để khách chùi sát khuẩn trước khi vào máy bay, có trang bị nước rửa tay khô để khách rửa tay khi vào máy bay, trang bị hệ thống màn lọc không khí hiệu suất cao (HEPA –High Efficiency Particulate Air) (tấm lọc HEPA có thể chặn bụi, phấn hoa tế bào dangười, virus và vi khuẩn tốt hơn nhiều so với tấm lọc mỏng thông thường), trang bịkhăn giấy ướt tẩm cồn 90 độ để sát khuẩn tay cho hành khách, sử dụng nước uống đóng chai thay vì phát nước uống trực tiếp trong cốc cho khách.
Thái độ của tiếp viên hàng không: tính nghiêm túc và chuyên nghiệp khi phục vụ, thái độ thân thiện và chân thành, sự nhã nhặn và lịch sự, sự nhiệt tình chu đáo, diện mạo xinh xắn trang phục gọn gàng sạch sẽ đúng quy chuẩn của hãng, yếu tố nhiệt tình và tính sãn sàng khi khách hàng có nhu cầu.
Nghiệp vụ phục vụ của tiếp viên hàng không và tổ lái: cách phát âm, sự trôi chảy, sự rõ ràng, dễ hiểu khi tiếp viên đọc các thông báo và thông tin chuyến bay đến hành khách. Cung cấp đầy đủ thông tin và có sự chia sẻ kết nối với khách hàng, Tổ lái điều khiển máy bay cấp các thông tin thêm về chuyến bay (nhiệt độ tại sân bay đến,độ cao,
Tiêu chuẩn dịch vụ trên không: Hãng hàng không phải đảm bảo các dịch vụ theo đúng như hợp đồng ghi trên vé (bao gồm các suất ăn trên tàu bay, nước uống trên tàu bay).Các dịch vụ ăn uống trên tàu bay, bán hàng lưu niệm (móc khóa, tạp chí, áo thun…).Liên quan đến chất lượng các loại đồ uống và món ăn, sự phong phú và đa dạng vềcác loại đồ uống và món ăn
Tiêu chuẩn về sách báo tạp chí: Bao gồm các loại tạp chí sách báo giấy như báo ThanhNiên, Tuổi Trẻ, tạp chí Heritage, tạp chí du lịch. Khách có thể lấy về chỗ mình để đọctrong lúc máy bay bay bằng
Qua quá trình tìm hiểu và nghiên cứu, có khá nhiều định nghĩa về sự hài lòng của khách hàng, cũng như định nghĩa về chất lượng dịch vụ, nhiều chuyên gia trong và ngoạinước cũng có định nghĩa khác nhau về sự hài lòng.Theo Hansemark và Albinsson (2004), “Sự hài lòng của khách hàng là một thái độ tổng thể của khách hàng đối với một nhà cung cấp dịch vụ, hoặc một cảm xúc phản ứng với sự khác biệt giữa những gì khách hàng dự đoán trước và những gì họ tiếp nhận, đối với sự đáp ứng một số nhu cầu, mục tiêu hay mong muốn”.Theo Philip Kotler, “Sự hài lòng của khách hàng (Customer satisfaction) là mức độ trạng thái cảm giác của một người bắt nguồn từ việc so sánh kết quả thu được từ việc tiêu dùng sản phẩm/dịch vụ với những kỳ vọng của chính họ. Mức độ hài lòng phụ thuộc sự khác biệt giữa kết quả nhận được và sự kỳ vọng, nếu kết quả thực tế thấp hơn sự kỳ vọng thì khách hàng không hài lòng, nếu kết quả thực tế tương xứng với sự kỳ vọng thì khách hàng sẽ hài lòng, nếu kết quả thực tế cao hơn sự kỳ vọng thì khách hàng rất hài lòng”.
Trong cuốn sách “Marketing Metrics” của mình, Paul Farris (2010) đã định nghĩa sự hài lòng của khách hàng như sau: “một số lượng khách hàng hay tỷ lệ phần trăm trên tổng số khách hàng có trải nghiệm đối với sản phẩm/dịch vụ vượt trội so với chỉ tiêu hài lòng được đặt ra trong báo cáo của doanh nghiệp”. Theo Zeithaml & Bitner (2000), sự hài lòng của khách hàng là sự đánh giá của khách hàng về một sản phẩm hay một dịch vụ đã đáp ứng được nhu cầu và mong đợi của họ.Vậy tóm lại, sự hài lòng của khách hàng đối với sản phẩm dịch vụ có thể hiểu đó là cảm giác chủ quan của khách hàng khi đánh giá về một sản phẩm dịch vụ mà khách hàngđược trải nghiệm, sự hài lòng này bị chi phối bởi sự kỳ vọng và kết quả nhận được từ dịchvụ, nếu khách hàng kỳ vọng quá cao so với dịch vụ khách thực nhận thì khách sẽ rất khônghài lòng hoặc ngược lại. Thêm nữa, sự kỳ vọng của khách hàng chịu sự tác động chi phối củasự quảng cáo, sự truyền miệng từ khách hàng khác đã trải nghiệm, kinh nghiệm tích lũy của hách hàng về những sản phẩm tương tự. Khách hàng sẽ đặt ra cho mình một kỳ vọng nhấtđịnh trước khi sử dụng sản phẩm và đem nó so sánh với những trải nghiệm và giá trị thực tế mà họ nhận được. Từ đó sẽ có những cảm nhận mang tính chủ quan, thích hay không thích, hài lòng hay không hài lòng.
Các nghiên cứu của Chow & Luk, 2005; Ahmad & Samreen, 2011, các tác giả đã chỉ ra rằng mối quan hệ giữa chất lượng dịch vụ và sự thỏa mãn của khách hàng là mối quan hệ tỷ lệ thuận. Đặc biệt đối với ngành dịch vụ vận tải hàng không, chấtlượng dịch vụ càng cao, khách hàng càng cảm thấy hài lòng thỏa mãn.
Theo Skytrax (tổ chức đánh giá và xếp hạng các hãng hàng không) đã chỉ ra rằng chất lượng dịch vụ vận tải hành khách hàng không là yếu tố tiên quyết để làm cho khách hàng cảm thấy thỏa mãn. Tổ chức này cũng đưa ra những bảng đánh giá cụ thể để phân loại các hãng hàng không đang hoạt động trên thế giới thành các hãng hàng không từ một đến năm sao. Mục tiêu của việc đánh giá xếp hạng là đưa tất cả các hãng hàng không về một thước đo quy chuẩn, từ đó đưa ra các chỉ dẫn để các hãng hàng không thay đổi và nâng cao chất lượng dịch vụ.
Đây là bộ dữ liệu về một cuộc khảo sát về sự hài lòng của hành khách đối với hãng hàng không. Bộ dữ liệu được lấy từ website: https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction
Bộ dữ liệu nghiên cứu bao gồm 25977 quan sát với 8 biến bao gồm 2 biến định lượng và 6 biến định tính.
Trong đó:
+) Gender: Giới tính của hành khách (Female, Male)
+) Customer: Loại khách hàng (Loyal customer:Khách hàng trung thành, disloyal customer: khách hàng không trung thành)
+) Age: Tuổi thực tế của hành khách
+) Travel: Mục đích chuyến bay của hành khách (Personal Travel: Du lịch Cá nhân, Business Travel: Du lịch Công tác)
+) Class: Hạng du lịch trên máy bay của hành khách (Business: Thương gia, Eco, Eco Plus)
+) IS: Inflight service: Mức độ hài lòng về dịch vụ trên chuyến bay
+) DDIM: Departure Delay Minutes: Số phút bị trễ khi khởi hành
+) SF: Satisfaction: Mức độ hài lòng của hành khách đối với hãng hàng không (satisfied :Hài lòng, neutral or dissatisfied: bình thường hoặc không hài lòng)
library(readxl)
DL <- read_excel("C:/Users/Abc/Downloads/DL.xlsx")
View(DL)
DL
## # A tibble: 25,976 × 8
## Gender Customer Age Travel Class IS DDIM SF
## <chr> <chr> <dbl> <chr> <chr> <dbl> <dbl> <chr>
## 1 Female Loyal Customer 52 Business travel Eco 5 50 satisfied
## 2 Female Loyal Customer 36 Business travel Business 4 0 satisfied
## 3 Male disloyal Customer 20 Business travel Eco 2 0 neutral …
## 4 Male Loyal Customer 44 Business travel Business 1 0 satisfied
## 5 Female Loyal Customer 49 Business travel Eco 2 0 satisfied
## 6 Male Loyal Customer 16 Business travel Eco 2 0 satisfied
## 7 Female Loyal Customer 77 Business travel Business 5 0 satisfied
## 8 Female Loyal Customer 43 Business travel Business 4 77 satisfied
## 9 Male Loyal Customer 47 Business travel Eco 3 1 satisfied
## 10 Female Loyal Customer 46 Business travel Business 4 28 satisfied
## # ℹ 25,966 more rows
Mô hình hồi quy logistic là trường hợp đặc biệt của GLM. Thành phần ngẫu nhiên (thành công, thật bại) là nhị phân. Hàm liên kêt logit của π là phép biên đổi log [(π/ 1-π)]. ký hiệu bởi logit(π). Các mô hình hồi quy logistic thường được gọi là mô hình logit. Logit là tham số tự nhiên của phân phối nhị thức. Trong đó π bị giới hạn trong phạm vi (0, 1), logit có thê là sô thực bât kỳ. Tập sô thực cũng là khoảng giá trị có thê có cho các dự báo tuyên tính ( ø + πx), do đó, mô hình này không có vấn đề cầu trúc mà mô hình xác suất tuyến tính mắc phải.
Mô hình logistic mô tả sự phụ thuộc của biến đáp ứng thông qua xác suất “Thành công” π(x)=P(Y=1|X=x) ứng với mức x=(x1,x2,…,xm) của các biến giải thích phụ thuộc vào x=(x1,x2,…,xm) dưới dạng:
log(π(x)/(1-π(x)) = β0+β1.x1+β2.x2+...+βm.xm
Hồi quy Probit, đôi khi còn được gọi là mô hình Probit, được sử dụng. đề ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy Probit, xem hàm xác suất π(x) hoặc 1 — π(x)) là hàm phân phối xác suất của một biến ngẫu nhiên X có phân phối chuẩn, tức là xác suất “Thành công”.
Mô hình Probit được viết dưới dạng:
π(x1,x2,...,xm)=Φ(β0+β1x1+β2x2+...+βmxm
hay: Probi(π(x1,x2,…,xm))=β0+β1x1+β2x2+…+βmxm
trong đó ϕ là hàm phân phối chuẩn chính tắc:
Trong trường hợp tỷ lệ cược phụ thuộc vào các biến giải thích dưới dạng hàm lũy thừa:
Odds(x) = π(x)/(1-π(x)
ta nhận được mô hình logistic có các biến dự báo ở dạng log, gọi là mô hình logistic dạng log-log
log(π(x)/(1-π(x)) = β0+β1.logx1+β2.logx2+...+βm.logxm
AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau:
AIC=−2ln(L)+2k
Với L là giá trị cực đại của hàm hợp lý (likelihood function) và k là số tham số của mô hình.
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Chỉ số Brier thực chất là trung bỉnh của tổng bình phương các độ lệch giữa giá trị của biến phụ thuộc Y và giá trị ước lượng của nó. Vì vậy chỉ số B càng bé thì mô hình cho ước lượng càng chính xác, tức là càng phù hợp với dữ liệu quan sát.
Là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp. Một confusion matrix gồm 4 chỉ số sau đối với mỗi lớp phân loại:
TP (True Positive): Số lượng dự đoán chính xác
TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp
FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch
FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách gián tiếp
Trong ma trận nhầm lẫn người ta xét các chỉ số:
+)Độ chính xác toàn thể (tỷ lệ dự báo đúng trên toàn bộ mẫu)
+)Sai số toàn thể (tỷ lệ dự báo sai trên mẫu)
+)Độ nhạy (Sensitivity) (tỷ lệ dự báo đúng trên tổng số các thành công được quan sát). Độ nhạy càng lớn càng tốt.
+)Sai số âm tính giả (Fale negative error)
+)Độ đặc hiệu (Specificity) Độ đặc hiệu càng lớn càng tốt. Một mô hình tốt là một mô hình có độ nhạy lớn và độ đặc hiệu lớn.
+)Sai số dương tính giả
Travel là biến thể hiện Mục đích chuyến bay của hành khách, gồm 2 biểu hiện
table(DL$Travel)
##
## Business travel Personal Travel
## 18038 7938
table(DL$Travel)/sum(table(DL$Travel))
##
## Business travel Personal Travel
## 0.6944102 0.3055898
ggplot(map = aes(x=Travel, y= after_stat(count)))+geom_bar(fill = 'brown')+geom_text(aes(label=percent(after_stat(count/sum(count)),accuracy = .01)), stat = 'count', color = 'white',vjust = 4) + labs(tiltle = 'Độ thị thể hiện số lượng hành khách chia theo mục đích chuyến bay ', x = 'Mục đích chuyến bay của hành khách', y = 'số lượng hành khách')
Nhận xét: Trong 25976 hành khách được khảo sát có:
18038 hành khách đi chuyến bay với mục đích Business Travel: Du lịch Công tác , chiếm 69.44%.
7938 hành khách đi chuyến bay với mục đích Personal Travel: Du lịch Cá nhân,, chiếm 30.56%
Đồ thị cột thể hiện số hành khách được chia theo mục đích chuyến bay, có thể thấy có sự chênh lệch khá lớn vào khoảng 30% giữa mục đích chuyến bay của hành khách cá nhân và công tác.
table(DL$Gender)
##
## Female Male
## 13172 12804
table(DL$Gender)/sum(table(DL$Gender))
##
## Female Male
## 0.5070835 0.4929165
ggplot(map = aes(x = Gender, y = after_stat(count))) + geom_bar(fill = 'lightslategray') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)), accuracy = 0.01)), stat = 'count', vjust = 5, color = 'pink')+ labs(title = 'Biểu đồ cột thể hiện số lượng hành khách theo giới tính', ylab = 'Số lượng hành khách', xlab = 'Giới tính')
Nhận xét: Trong 25976 hành khách được khảo sát có:
12804 hành khách thuộc giới tính nam (49,29%)
13172 hành khách thuộc giới tính nữ ( chiếm 50,71%)
Như vậy trong tổng số hành khách được khảo sát số hành khách có giới tính nữ nhiều hơn số học sinh có giới tính nam 368 người (khoảng 1,42% so với tổng hành khách).
table(DL$Customer)
##
## disloyal Customer Loyal Customer
## 4799 21177
table(DL$Customer)/sum(table(DL$Customer))
##
## disloyal Customer Loyal Customer
## 0.1847475 0.8152525
ggplot(map = aes(x = Customer, y = after_stat(count))) + geom_bar(fill = 'lightpink') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)), accuracy = 0.01)), stat = 'count', vjust = 5, color = 'darkblue')+ labs(title = 'Biểu đồ cột thể hiện số lượng hành khách theo loại khách hàng', ylab = 'Số lượng hành khách', xlab = 'Loại khách hàng')
Nhận xét: Trong 25976 hành khách được khảo sát có:
4799 hành khách thuộc loại disloyal customer: khách hàng không trung thành (18,47%)
21177 hành khách thuộc loạiloại Loyal customer:Khách hàng trung thành ( chiếm 81,53%)
Như vậy trong tổng số hành khách được khảo sát số hành khách trung thành nhiều hơn số hành khách không trung thành 16378 người (khoảng 63,05% so với tổng hành khách).
table(DL$Class)
##
## Business Eco Eco Plus
## 12495 11564 1917
table(DL$Class)/sum(table(DL$Class))
##
## Business Eco Eco Plus
## 0.48102094 0.44518017 0.07379889
ggplot(map = aes(x = Class, y = after_stat(count))) + geom_bar(fill = 'salmon') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)), accuracy = 0.01)), stat = 'count', vjust = 5, color = 'darkblue')+ labs(title = 'Biểu đồ cột thể hiện số lượng hành khách theo hạng du lịch trên máy bay', ylab = 'Số lượng hành khách', xlab = 'Hạng du lịch trên máy bay')
Nhận xét: Trong 25976 hành khách được khảo sát có:
12495 hành khách thuộc hạng Business: Thương gia trên máy bay (48,10%)
11564 hành khách thuộc hạng Eco (chiếm 44,52%)
1917 hành khách thuộc hạng Eco Plus (chiếm 7,38%)
Như vậy trong tổng số hành khách được khảo sát số hành khách trung thành nhiều hơn số hành khách không trung thành 16378 người (khoảng 63,05% so với tổng hành khách).
Nhìn vào đồ thị, ta có kết luận, trong tổng số 25976 hành khách được khảo sát, nhóm hành khách thuộc hạng Business: Thương gia trên máy bay là nhiều nhất (12495 người, chiếm 48,10%), theo sát là nhóm hành khách thuộc hạng Eco với 11564 hành khách chiếm 44,52%, thấp nhất là nhóm hành khách thuộc hạng Eco Pluss (1917 người, chiếm 7,38%). Như vậy ta thấy có sự chênh lệch lớn giữa số người thuộc hạng Business so với nhóm thuộc hạng Eco Pluss.
table(DL$SF)
##
## neutral or dissatisfied satisfied
## 14573 11403
table(DL$SF)/sum(table(DL$SF))
##
## neutral or dissatisfied satisfied
## 0.5610179 0.4389821
ggplot(map = aes(x = SF, y = after_stat(count))) + geom_bar(fill = 'slategray') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)), accuracy = 0.01)), stat = 'count', vjust = 5, color = 'darkblue')+ labs(title = 'Biểu đồ cột thể hiện số lượng hành khách theo mức độ hài lòng với hãng hàng không', ylab = 'Số lượng hành khách', xlab = 'Mức độ hài lòng')
Nhận xét: Trong 25976 hành khách được khảo sát có:
14573 hành khách neutral or dissatisfied: bình thường hoặc không hài lòng (56,10%)
11403 hành khách satisfied: hài lòng ( chiếm 43,9%)
Như vậy trong tổng số hành khách được khảo sát số hành khách có mức độ bình thường hoặc không hài lòng nhiều hơn số hành khách hài lòng 3170 người (khoảng 12,2% so với tổng hành khách).
table(IS)
## IS
## 0 1 2 3 4 5
## 2 1778 2851 5017 9378 6950
table(DL$IS)/sum(table(DL$IS))
##
## 0 1 2 3 4 5
## 7.699415e-05 6.844780e-02 1.097552e-01 1.931398e-01 3.610256e-01 2.675547e-01
ggplot(map = aes(x = DL$IS, y = after_stat(count))) + geom_bar(fill = 'slategray') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)), accuracy = 0.01)), stat = 'count', vjust = 5, color = 'darkblue')+ labs(title = 'Biểu đồ cột thể hiện số lượng hành khách theo mức độ hài lòng với dịch vụ trên chuyến bay', ylab = 'Số lượng hành khách', xlab = 'Mức độ hài lòng')
Nhận xét: Trong 25976 hành khách được khảo sát có:
2 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 0
1778 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 1 (6,84%)
2851 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 2 (10,98%)
5017 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 3 (19,31%)
9378 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 4 (36,1%)
6950 hành khách có mức độ hài lòng về dịch vụ trên chuyến bay là 4 (26,76%)
summary(DL$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 27.00 40.00 39.62 51.00 85.00
Biến độ tuổi (age) là biến định lượng cho biết độ tuổi của hành khách trên chuyến bay. Thông qua kết quả trên ta thấy độ tuổi các hành khách trên chuyến bay nhỏ nhất là 7 tuổi, lớn nhất là 85 tuổi và độ tuổi trung bình của các bệnh nhân khoảng 39 tuổi. Tứ phân vị: là ba điểm cắt sẽ chia tập dữ liệu thành 4 nhóm có kích thước bằng nhau, cụ thể: Tứ phân vị thứ nhất (1st Qu.) = 27 Nghĩa là dưới 25% hành khách trên chuyến bay có độ tuổi nhỏ hơn 27 tuổi hay trên 75% số người nhập viện có độ tuổi lớn hơn 27 tuổi.
Tứ phân vị thứ hai (trung vị: Median) = 40 Nghĩa là dưới 50% số hành khách có số tuổi nhỏ hơn 40 hay trên 50% số hành khách có độ tuổi lớn hơn 40 tuổi.
Tứ phân vị thứ ba (3rd Qu.) = 51 Nghĩa là dưới 75% tổng số người nhập viện có độ tuổi nhỏ hơn 51 hay trên 25% số người nhập viện lớn hơn 51 tuổi.
Age <- DL$Age
table(cut(Age,3))
##
## (6.92,33] (33,59] (59,85.1]
## 9364 14116 2496
Bảng tần số trên cho thấy có 9364 hành khách trên chuyến bay có độ tuổi trong khoảng từ 7 đến 33 tuổi; có 14116 hành khách trên chuyến bay có tuổi trong khoảng từ 33 đến 59 tuổi và có 2496 hành khách trên chuyến bay có số tuổi nằm trong khoảng từ 59 đến 85 tuổi.
hist(DL$Age, main = "Biểu đồ tần số của độ tuổi (age)",xlab = "Độ tuổi", ylab = "Số người", col = "lightblue")
Dựa vào biểu đồ tần số của biến độ tuổi (age) cho thấy không có quá nhiều sự chênh lệch về số lượng hành khách trên chuyến bay ứng với những độ tuổi khác nhau. Trong đó số lượng hành khách trên chuyến bay từ 20 tuổi đến 60 là nhiều nhất và số lượng hành khách trên chuyến bay trên 60 tuổi là ít nhất.
summary(DL$DDIM)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.00 0.00 14.31 12.00 1128.00
Biến DDIM (Departure Delay Minutes) là biến định lượng cho biết Số phút bị trễ khi khởi hành chuyến bay. Thông qua kết quả trên ta thấy Số phút bị trễ khi khởi hành trên chuyến bay của hành khách nhỏ nhất là 0 phút, lớn nhất là 1128 phút và trung bình Số phút bị trễ khi khởi hành trên chuyến bay của hành khách khoảng 14.31 phút. Tứ phân vị: là ba điểm cắt sẽ chia tập dữ liệu thành 4 nhóm có kích thước bằng nhau, cụ thể: Tứ phân vị thứ nhất (1st Qu.) = 0 Nghĩa là dưới 25% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành nhỏ hơn 0 hay trên 75% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành lớn hơn 0.
Tứ phân vị thứ hai (trung vị: Median) = 0 Nghĩa dưới 50% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành nhỏ hơn 0 hay trên 50% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành lớn hơn 0.
Tứ phân vị thứ ba (3rd Qu.) = 12 Nghĩa dưới 75% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành nhỏ hơn 12 hay trên 25% hành khách trên chuyến bay có Số phút bị trễ khi khởi hành lớn hơn 12
hist(DL$DDIM, main = "Biểu đồ tần số của DDIM (Số phút bị trễ khi khởi hành)",xlab = "Số phút bị trễ khi khởi hành", ylab = "Số hành khách", col = "blue")
Thông qua biểu đồ tần số trên có thể thấy rằng Số phút bị trễ khi khởi hành của hành khách trên chuyến bay nhiều nhất là vào khoảng từ 0 - 100 phút và ít nhất là từ 200 phút trở lên.
Với dữ liệu gốc, biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay (IS: Inflight service) là biến định tính nhận các giá trị từ 0 đến 5 điểm nên tác giả đã đặt quy ước về việc mã hoá biến (IS: Inflight service) như sau: Số điểm thấp (Thấp): Số điểm thấp từ trên 0 đến 3. Số điểm cao (Cao): Số điểm từ 3 đến 5.
IS <- cut(DL$IS, breaks = c(0,3,5), labels=c("Thấp","Cao"))
table(IS)
## IS
## Thấp Cao
## 9646 16328
Gender <- DL$Gender
table(Gender)
## Gender
## Female Male
## 13172 12804
Bảng tần số:
a <- table(Gender, IS);a
## IS
## Gender Thấp Cao
## Female 5076 8095
## Male 4570 8233
Bảng tần suất:
a1 <- prop.table(a);a1
## IS
## Gender Thấp Cao
## Female 0.1954262 0.3116578
## Male 0.1759452 0.3169708
Phân phối biên:
addmargins(a)
## IS
## Gender Thấp Cao Sum
## Female 5076 8095 13171
## Male 4570 8233 12803
## Sum 9646 16328 25974
Biểu đồ cột kết hợp 2 biến:
library(data.table)
## Warning: package 'data.table' was built under R version 4.3.1
##
## Attaching package: 'data.table'
## The following object is masked from 'package:DescTools':
##
## %like%
## The following objects are masked from 'package:lubridate':
##
## hour, isoweek, mday, minute, month, quarter, second, wday, week,
## yday, year
## The following object is masked from 'package:purrr':
##
## transpose
## The following objects are masked from 'package:dplyr':
##
## between, first, last
k <- data.frame(DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$Age,DL$DDIM, DL$IS, IS, Gender)
k |> ggplot(aes(x=Gender,y=after_stat(count))) + geom_bar(fill="blue") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "red", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Giới tính",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay và Giới tính ta thấy có 9646 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp (tức dưới 3 điểm) trong đó có 5076 người là nữ, chiếm tỉ lệ 19,54% tổng số hành khách và 4570 hành khách là nam, chiếm 17,59% tổng hành khách. Bên cạnh đó có 16328 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao (trên 3 điẻm) trong đó có 8095 hành khách là nữ, chiếm 31,16% tổng số hành khách và 8233 người là nam, chiếm 31,69% tổng số hành khách. Số hành khách trên chuyên bay có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp chỉ xấp xỉ khoảng 10% Số hành khách trên chuyên bay có Mức độ hài lòng về dịch vụ cao. Qua biểu đồ có thể thấy đối với những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp thì tỷ lệ nữ cao hơn nam nhưng đối với những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao thì tỷ lệ nam lại nhiều hơn nữ.
library(epitools)
riskratio(a)
## $data
## IS
## Gender Thấp Cao Total
## Female 5076 8095 13171
## Male 4570 8233 12803
## Total 9646 16328 25974
##
## $measure
## risk ratio with 95% C.I.
## Gender estimate lower upper
## Female 1.000000 NA NA
## Male 1.046281 1.026904 1.066023
##
## $p.value
## two-sided
## Gender midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 2.09737e-06 2.143568e-06 2.101154e-06
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao theo giới tính là 1,046281 tức là tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao là nam gấp 1,046281 lần tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao là nữ.
Khi thêm tham số rev = “c” thì sẽ thực hiện việc đổi chỗ 2 cột trong bảng ngẫu nhiên:
riskratio(a, rev = "c")
## $data
## IS
## Gender Cao Thấp Total
## Female 8095 5076 13171
## Male 8233 4570 12803
## Total 16328 9646 25974
##
## $measure
## risk ratio with 95% C.I.
## Gender estimate lower upper
## Female 1.0000000 NA NA
## Male 0.9261932 0.8972824 0.9560356
##
## $p.value
## two-sided
## Gender midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 2.09737e-06 2.143568e-06 2.101154e-06
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp theo giới tính là 0,9261932 tức là tỉ lệ hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp là nam ít hơn và xấp xỉ bằng tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao là nữ.
epitab(a, method = "oddsratio")
## $tab
## IS
## Gender Thấp p0 Cao p1 oddsratio lower upper p.value
## Female 5076 0.5262285 8095 0.4957741 1.000000 NA NA NA
## Male 4570 0.4737715 8233 0.5042259 1.129657 1.074151 1.188032 2.143568e-06
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1,129657 tức tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở giới tính nam lớn hơn khoảng 12,97% so với tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở giới tính nữ.
Khi thêm tham số rev = “r” thì sẽ thực hiện việc đổi chỗ 2 dòng trong bảng ngẫu nhiên:
epitab(a, method = "oddsratio", rev = "r")
## $tab
## IS
## Gender Thấp p0 Cao p1 oddsratio lower upper
## Male 4570 0.4737715 8233 0.5042259 1.0000000 NA NA
## Female 5076 0.5262285 8095 0.4957741 0.8852243 0.8417284 0.9309678
## IS
## Gender p.value
## Male NA
## Female 2.143568e-06
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0,8852243 tức tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở giới tính nữ chỉ bằng khoảng 88,52% tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở giới tính nam.
Kiểm định tính độc lập cho 2 biến (IS) và (Gender):
Phương pháp chi bình phương: Giả thuyết Ho: IS và Gender độc lập
a <- table(DL$Gender, IS);a
## IS
## Thấp Cao
## Female 5076 8095
## Male 4570 8233
chisq.test(a)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a
## X-squared = 22.379, df = 1, p-value = 2.239e-06
Kết quả kiểm định trên cho thấy giá trị tới hạn P_value = 2.239e-06 < 5% vì vậy chưa có đủ cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay (IS) và giới tính (Gender) có liên quan tới nhau.
Với dữ liệu gốc, biến độ tuổi (Age) là biến định lượng nhận các giá trị từ 7 đến 85 tuổi. Tác giả đặt quy ước về việc mã hoá biến (age) như sau: Tuổi nhóm trung niên (trungnien): độ tuổi từ trên 40 tuổi đến 85 tuổi. Tuổi nhóm thanh niên (thanhnien): độ tuổi từ trên 7 tuổi đến 40 tuổi.
Age <- cut(DL$Age, breaks = c(7,40,85), labels=c("thanhnien","trungnien"))
table(Age)
## Age
## thanhnien trungnien
## 13189 12664
Bảng tần số:
b <- table(Age, IS); b
## IS
## Age Thấp Cao
## thanhnien 4732 8457
## trungnien 4876 7786
Bảng tần suất:
b1 <- prop.table(b); b1
## IS
## Age Thấp Cao
## thanhnien 0.1830490 0.3271440
## trungnien 0.1886194 0.3011876
Phân phối biên:
addmargins(b)
## IS
## Age Thấp Cao Sum
## thanhnien 4732 8457 13189
## trungnien 4876 7786 12662
## Sum 9608 16243 25851
Biểu đồ cột kết hợp 2 biến:
m <- data.frame(DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$Age, DL$DDIM, DL$IS, IS, Age)
m |> ggplot(aes(x=Age,y=after_stat(count))) + geom_bar(fill="green") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Độ tuổi",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay (IS) và độ tuổi ta thấy có 9608 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp (tức dưới 3 điểm) trong đó có 4732 hành khách nhóm tuổi thanh niên, chiếm tỉ lệ 18,3% tổng số hành khách và 4876 hành khách nhóm tuổi trung niên, chiếm tỉ lệ 18,86% tổng số hành khách. Bên cạnh đó có 16243 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao (trên 3 điểm) trong đó có 8457 hành khách nhóm tuổi thanh niên, chiếm 32,71% tổng số hành khách và 7786 người nhóm tuổi trung niên, chiếm 30,12% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp thì tỷ lệ người thuộc nhóm tuổi thanh niên ít hơn những người thuộc nhóm tuổi trung niên nhưng đối với những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao thì tỷ lệ nhóm tuổi thanh niên lại cao hơn nhóm tuổi trung niên, đối với từng mức độ hài lòng về dịch vụ trên chuyên bay thì mức độ chênh lệch giữa 2 nhóm tuồi này không quá lớn.
epitab(b, method = "riskratio")
## $tab
## IS
## Age Thấp p0 Cao p1 riskratio lower upper
## thanhnien 4732 0.3587838 8457 0.6412162 1.0000000 NA NA
## trungnien 4876 0.3850892 7786 0.6149108 0.9589758 0.9411273 0.9771627
## IS
## Age p.value
## thanhnien NA
## trungnien 1.275542e-05
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao theo độ tuổi là 0,9589758 tức là tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao trong nhóm tuổi trung niên ít hơn và xấp xỉ bằng tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao trong nhóm tuổi thanh niên.
Khi thêm tham số rev = “c” thì sẽ thực hiện việc đổi chỗ 2 cột trong bảng ngẫu nhiên:
epitab(b, method = "riskratio", rev = "c")
## $tab
## IS
## Age Cao p0 Thấp p1 riskratio lower upper
## thanhnien 8457 0.6412162 4732 0.3587838 1.000000 NA NA
## trungnien 7786 0.6149108 4876 0.3850892 1.073318 1.039826 1.107889
## IS
## Age p.value
## thanhnien NA
## trungnien 1.275542e-05
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp theo độ tuổi là 1,073318 tức là tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp trong nhóm tuổi trung niên gấp 1,073318 tỉ lệ những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay thấp trong nhóm tuổi thanh niên.
epitab(b, method = "oddsratio")
## $tab
## IS
## Age Thấp p0 Cao p1 oddsratio lower upper
## thanhnien 4732 0.4925062 8457 0.5206551 1.0000000 NA NA
## trungnien 4876 0.5074938 7786 0.4793449 0.8934682 0.8494937 0.9397191
## IS
## Age p.value
## thanhnien NA
## trungnien 1.275542e-05
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0.8934682 tức tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở nhóm tuỏi trung niên bằng khoảng 89,34% so với tỉ lệ Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở nhóm tuổi thanh niên.
Khi thêm tham số rev = “r” thì sẽ thực hiện việc đổi chỗ 2 dòng trong bảng ngẫu nhiên:
epitab(b, method = "oddsratio", rev = "r")
## $tab
## IS
## Age Thấp p0 Cao p1 oddsratio lower upper
## trungnien 4876 0.5074938 7786 0.4793449 1.000000 NA NA
## thanhnien 4732 0.4925062 8457 0.5206551 1.119234 1.064148 1.177172
## IS
## Age p.value
## trungnien NA
## thanhnien 1.275542e-05
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1,119234 tức tỉ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở nhóm tuổi thanh niên lớn hơn khoảng 11,92% so với tỉ lệ Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao/ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp ở nhóm tuổi trung niên.
Kiểm định tính độc lập cho 2 biến (IS) và (Age):
Phương pháp chi bình phương: Giả thuyết Ho: IS và Age độc lập
b <- table(Age, IS);b
## IS
## Age Thấp Cao
## thanhnien 4732 8457
## trungnien 4876 7786
chisq.test(b)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: b
## X-squared = 19.029, df = 1, p-value = 1.287e-05
Kết quả kiểm định trên cho thấy giá trị tới hạn P_value = 1.287e-05 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay và độ tuổi (Age) có liên quan tới nhau.
Với dữ liệu gốc, biến Số phút bị trễ khi khởi hành (DDIM) là biến định lượng nhận các giá trị từ 0 đến 1128 phút. Tác giả đặt quy ước về việc mã hoá biến (DDIM) như sau: Nhóm nhỏ (nho): số phút trễ từ trên 0 phút đến 300 phút. Nhóm trễ (lon): số phút trễ từ trên 300 phút đến 1128 phút.
DDIM <- cut(DL$DDIM, breaks = c(0,300,1128), labels=c("nho","lon"))
table(DDIM)
## DDIM
## nho lon
## 11233 55
Bảng tần số:
d <- table(DDIM, IS); d
## IS
## DDIM Thấp Cao
## nho 4342 6890
## lon 30 25
Bảng tần suất:
d1 <- prop.table(d); d1
## IS
## DDIM Thấp Cao
## nho 0.384690352 0.610436786
## lon 0.002657925 0.002214938
Phân phối biên:
addmargins(d)
## IS
## DDIM Thấp Cao Sum
## nho 4342 6890 11232
## lon 30 25 55
## Sum 4372 6915 11287
Biểu đồ cột kết hợp 2 biến:
n <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, IS, DDIM)
m |> ggplot(aes(x=DDIM,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Số phút bị trễ khi khởi hành",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay và Số phút bị trễ khi khởi hành (DDIM) ta thấy có 4372 hành khách có Số điểm về mức độ hài lòng về dịch vụ thấp (tức dưới 3 điểm) trong đó có 4342 hành khách có Số điểm về mức độ hài lòng về dịch vụ thuộc nhóm nhỏ, chiếm tỉ lệ 38,47% tổng số hành khách và 30 hành khách nhóm lớn, chiếm tỉ lệ 0,27% tổng số hành khách. Bên cạnh đó có 6915 hành khách có Số điểm về mức độ hài lòng về dịch vụ ở mức cao (trên 3 điểm) trong đó có 6890 hành khách nhóm nhỏ, chiếm 61,04% tổng số hành khách và 25 người nhóm trễ, chiếm 0,22% tổng số hành khách. Trong tổng số hành khách trên chuyến bay thì tỉ lệ những hành khách có số phút bị trễ khi khởi hành thuộc nhóm nhỏ lớn hơn rất nhiều lần so với những hành khách có số phút bị trễ khi khởi hành thuộc nhóm lớn. Qua biểu đồ có thể thấy đối với những hành khách có số điểm về Mức độ hài lòng về dịch vụ cả cao và thấp thì tỷ lệ những hành khách có số phút bị trễ khi khởi hành thuộc nhóm nhỏ đều nhiều hơn những hành khách có số phút bị trễ khi khởi hành thuộc nhóm lớn , đối với từng mức độ hài lòng về dịch vụ trên chuyên bay thì mức độ chênh lệch giữa 2 nhóm này quá lớn.
epitab(d, method = "riskratio")
## $tab
## IS
## DDIM Thấp p0 Cao p1 riskratio lower upper p.value
## nho 4342 0.3865741 6890 0.6134259 1.0000000 NA NA NA
## lon 30 0.5454545 25 0.4545455 0.7409949 0.5545272 0.990165 0.01819294
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có số điểm về Mức độ hài lòng về dịch vụ cao theo Số phút bị trễ khi khởi hành là 0,7409949 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm Số phút bị trễ khi khởi hành lớn chỉ bằng 74,09% tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm Số phút bị trễ khi khởi hành nhỏ.
Khi thêm tham số rev = “c” thì sẽ thực hiện việc đổi chỗ 2 cột trong bảng ngẫu nhiên:
epitab(d, method = "riskratio", rev = "c")
## $tab
## IS
## DDIM Cao p0 Thấp p1 riskratio lower upper p.value
## nho 6890 0.6134259 4342 0.3865741 1.000000 NA NA NA
## lon 25 0.4545455 30 0.5454545 1.410996 1.107294 1.797997 0.01819294
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp theo Số phút bị trễ khi khởi hành là 1,410996 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp trong nhóm Số phút bị trễ khi khởi hành lớn lớn hơn gấp 1,410996 lần tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp trong nhóm Số phút bị trễ khi khởi hành nhỏ.
epitab(d, method = "oddsratio")
## $tab
## IS
## DDIM Thấp p0 Cao p1 oddsratio lower upper p.value
## nho 4342 0.993138152 6890 0.996384671 1.0000000 NA NA NA
## lon 30 0.006861848 25 0.003615329 0.5251572 0.3084562 0.894098 0.01819294
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0,5251572 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp/những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao ở nhóm lớn bằng khoảng 52,52% so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ thấp/những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao ở nhóm nhỏ.
Khi thêm tham số rev = “r” thì sẽ thực hiện việc đổi chỗ 2 dòng trong bảng ngẫu nhiên:
epitab(d, method = "oddsratio", rev = "r")
## $tab
## IS
## DDIM Thấp p0 Cao p1 oddsratio lower upper p.value
## lon 30 0.006861848 25 0.003615329 1.000000 NA NA NA
## nho 4342 0.993138152 6890 0.996384671 1.904192 1.118446 3.241951 0.01819294
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1,904192 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm nhỏ lớn hơn khoảng 90,41% so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm lớn.
Kiểm định tính độc lập cho 2 biến (IS) và (DDIM):
Phương pháp chi bình phương: Giả thuyết Ho: IS và DDIM độc lập
d <- table(DDIM, IS);d
## IS
## DDIM Thấp Cao
## nho 4342 6890
## lon 30 25
chisq.test(d)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: d
## X-squared = 5.1717, df = 1, p-value = 0.02296
Kết quả kiểm định trên cho thấy giá trị tới hạn P_value = 0.02296 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa số điểm Mức độ hài lòng về dịch vụ (IS) và Số phút bị trễ khi khởi hành (DDIM) có liên quan tới nhau.
Với dữ liệu gốc, biến Hạng du lịch trên máy bay của hành khách (Class) là biến định tính nhận 3 giá trị: Business: Thương gia, Eco, Eco Plus. Tác giả đã đặt quy ước về việc mã hoá 2 giá trị biến (Class) như sau: Khách hàng thuộc hạng thương gia: Business. Khách hàng thuộc hạng Bình thường: Eco, Eco Plus.
p <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, IS, DDIM, Age, Gender, Travel, Customer, Class, SF)
Class <- p %>% mutate(hang=case_when(DL$Class == "Business" ~ 1, DL$Class =="Eco" ~ 3, DL$Class =="Eco Plus" ~ 3))
Class <- cut(Class$hang, breaks = c(0,1,4), labels = c("thuonggia", "binhthuong"))
table(Class)
## Class
## thuonggia binhthuong
## 12495 13481
Bảng tần số:
v <- table(Class, IS); v
## IS
## Class Thấp Cao
## thuonggia 3560 8933
## binhthuong 6086 7395
Bảng tần suất:
v1 <- prop.table(v); v1
## IS
## Class Thấp Cao
## thuonggia 0.1370601 0.3439208
## binhthuong 0.2343112 0.2847078
Phân phối biên:
addmargins(v)
## IS
## Class Thấp Cao Sum
## thuonggia 3560 8933 12493
## binhthuong 6086 7395 13481
## Sum 9646 16328 25974
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, IS, Class)
k |> ggplot(aes(x=Class,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Hạng du lịch trên máy bay của hành khách",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay và Hạng du lịch trên máy bay của hành khách (Class) ta thấy có 9646 hành khách có Số điểm về mức độ hài lòng về dịch vụ thấp (tức dưới 3 điểm) trong đó có 6086 hành khách có Số điểm về mức độ hài lòng về dịch vụ thuộc nhóm bình thường (Eco, Eco Plus), chiếm tỉ lệ 23,4% tổng số hành khách và 3560 hành khách nhóm thương gia, chiếm tỉ lệ 13,7% tổng số hành khách. Bên cạnh đó có 16328 hành khách có Số điểm về mức độ hài lòng về dịch vụ ở mức cao (trên 3 điểm) trong đó có 7395 hành khách nhóm bình thường, chiếm 28,5% tổng số hành khách và 8933 người nhóm thương gia, chiếm 34,4% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có số điểm về Mức độ hài lòng về dịch vụ cả thấp thì tỷ lệ những hành khách có Hạng du lịch trên máy bay thuộc nhóm bình thường nhiều hơn những hành khách có Hạng du lịch trên máy bay thuộc nhóm thương gia nhưng đối với những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao thì tỷ lệ những hành khách có Hạng du lịch trên máy bay thuộc nhóm bình thường ít hơn những hành khách có Hạng du lịch trên máy bay thuộc nhóm thương gia , đối với từng mức độ hài lòng về dịch vụ trên chuyên bay thì mức độ chênh lệch giữa 2 nhóm này không quá lớn.
epitab(v, method = "riskratio")
## $tab
## IS
## Class Thấp p0 Cao p1 riskratio lower upper
## thuonggia 3560 0.2849596 8933 0.7150404 1.0000000 NA NA
## binhthuong 6086 0.4514502 7395 0.5485498 0.7671592 0.7527991 0.7817931
## IS
## Class p.value
## thuonggia NA
## binhthuong 7.887711e-171
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có số điểm về Mức độ hài lòng về dịch vụ cao theo Hạng du lịch trên máy bay là 0.7671592 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm bình thường bằng khoảng 76,7% tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm thương gia.
Khi thêm tham số rev = “c” thì sẽ thực hiện việc đổi chỗ 2 cột trong bảng ngẫu nhiên:
epitab(v, method = "riskratio", rev = "c")
## $tab
## IS
## Class Cao p0 Thấp p1 riskratio lower upper
## thuonggia 8933 0.7150404 3560 0.2849596 1.00000 NA NA
## binhthuong 7395 0.5485498 6086 0.4514502 1.58426 1.532168 1.638124
## IS
## Class p.value
## thuonggia NA
## binhthuong 7.887711e-171
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp theo Hạng du lịch trên máy bay là 1.58426 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp trong nhóm bình thường lớn hơn khoảng 58,43% tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp trong nhóm thương gia.
epitab(v, method = "oddsratio")
## $tab
## IS
## Class Thấp p0 Cao p1 oddsratio lower upper
## thuonggia 3560 0.3690649 8933 0.547097 1.000000 NA NA
## binhthuong 6086 0.6309351 7395 0.452903 0.484238 0.4598976 0.5098667
## IS
## Class p.value
## thuonggia NA
## binhthuong 7.887711e-171
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0.484238 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm bình thường bằng khoảng 48,42% so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm thương gia.
Khi thêm tham số rev = “r” thì sẽ thực hiện việc đổi chỗ 2 dòng trong bảng ngẫu nhiên:
epitab(v, method = "oddsratio", rev = "r")
## $tab
## IS
## Class Thấp p0 Cao p1 oddsratio lower upper
## binhthuong 6086 0.6309351 7395 0.452903 1.0000 NA NA
## thuonggia 3560 0.3690649 8933 0.547097 2.0651 1.961297 2.174397
## IS
## Class p.value
## binhthuong NA
## thuonggia 7.887711e-171
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 2.0651 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm thương gia lớn gấp 2.0651 so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/ những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm bình thường.
Kiểm định tính độc lập cho 2 biến (IS) và (Class):
Phương pháp chi bình phương: Giả thuyết Ho: IS và Class độc lập
v <- table(DL$Class, IS); v
## IS
## Thấp Cao
## Business 3560 8933
## Eco 5135 6429
## Eco Plus 951 966
chisq.test(v)
##
## Pearson's Chi-squared test
##
## data: v
## X-squared = 788.96, df = 2, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa số điểm Mức độ hài lòng về dịch vụ (IS) và Hạng du lịch trên máy bay của hành khách (Class) có liên quan tới nhau.
Bảng tần số:
t <- table(Customer, IS); t
## IS
## Customer Thấp Cao
## disloyal Customer 1668 3131
## Loyal Customer 7978 13197
Bảng tần suất:
t1 <- prop.table(t); t1
## IS
## Customer Thấp Cao
## disloyal Customer 0.06421806 0.12054362
## Loyal Customer 0.30715331 0.50808501
Phân phối biên:
addmargins(t)
## IS
## Customer Thấp Cao Sum
## disloyal Customer 1668 3131 4799
## Loyal Customer 7978 13197 21175
## Sum 9646 16328 25974
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, IS, Class)
k |> ggplot(aes(x=Customer,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Loại khách hàng",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay và Loại khách hàng ta thấy có 9646 hành khách có Số điểm về mức độ hài lòng về dịch vụ thấp (tức dưới 3 điểm) trong đó có 1668 hành khách thuộc loại hành khách disloyal Customer, chiếm tỉ lệ 6,4% tổng số hành khách và 7978 hành khách thuộc loại hành khách Loyal Customer, chiếm tỉ lệ 30,7% tổng số hành khách. Bên cạnh đó có 16328 hành khách có Số điểm về mức độ hài lòng về dịch vụ cao trong đó có 3131 hành khách thuộc loại hành khách disloyal Customer, chiếm tỉ lệ 12,1% tổng số hành khách và 13197 hành khách thuộc loại hành khách Loyal Customer, chiếm tỉ lệ 50,8% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có số điểm về Mức độ hài lòng về dịch vụ cả thấp và cao thì tỷ lệ những hành khách thuộc loại hành khách Loyal Customer đều lớn hơn nhóm hành khách disloyal Customer và mức chênh lêchj khá lớn.
epitab(t, method = "riskratio")
## $tab
## IS
## Customer Thấp p0 Cao p1 riskratio lower
## disloyal Customer 1668 0.3475724 3131 0.6524276 1.0000000 NA
## Loyal Customer 7978 0.3767651 13197 0.6232349 0.9552554 0.9333914
## IS
## Customer upper p.value
## disloyal Customer NA NA
## Loyal Customer 0.9776315 0.0001513434
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có số điểm về Mức độ hài lòng về dịch vụ cao theo Loại hành khách là 0.9552554 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm hành khách Loyal Customer gấp 0.9552554 tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao trong nhóm disloyal Customer.
epitab(t, method = "oddsratio")
## $tab
## IS
## Customer Thấp p0 Cao p1 oddsratio lower
## disloyal Customer 1668 0.1729214 3131 0.1917565 1.0000000 NA
## Loyal Customer 7978 0.8270786 13197 0.8082435 0.8812399 0.8252911
## IS
## Customer upper p.value
## disloyal Customer NA NA
## Loyal Customer 0.9409817 0.0001513434
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0.8812399 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm hành khách Loyal Customer bằng khoảng 88,12% so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp ở nhóm hành khách disloyal Customer.
Kiểm định tính độc lập cho 2 biến (IS) và (Customer):
Phương pháp chi bình phương: Giả thuyết Ho: IS và Customer độc lập
t <- table(DL$Customer, IS); t
## IS
## Thấp Cao
## disloyal Customer 1668 3131
## Loyal Customer 7978 13197
chisq.test(t)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: t
## X-squared = 14.157, df = 1, p-value = 0.0001682
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value = 0.0001682 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa số điểm Mức độ hài lòng về dịch vụ (IS) và Loại khách hàng có liên quan tới nhau.
Bảng tần số:
q <- table(DL$Travel, IS); q
## IS
## Thấp Cao
## Business travel 6585 11451
## Personal Travel 3061 4877
Bảng tần suất:
q1 <- prop.table(q); q1
## IS
## Thấp Cao
## Business travel 0.2535228 0.4408639
## Personal Travel 0.1178486 0.1877647
Phân phối biên:
addmargins(q)
## IS
## Thấp Cao Sum
## Business travel 6585 11451 18036
## Personal Travel 3061 4877 7938
## Sum 9646 16328 25974
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, IS, Class)
k |> ggplot(aes(x=Travel,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Mục đích chuyến bay",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng về dịch vụ trên chuyến bay và Mục đích chuyến bay của hành khách (Travel) ta thấy có 9646 hành khách có Mức độ hài lòng về dịch vụ trên chuyến bay Thấp trong đó có 6585 hành khách có Mục đích chuyến bay thuộc nhóm Business travel, chiếm tỉ lệ 25,4% tổng số hành khách và 3061 hành khách nhóm Personal travel, chiếm tỉ lệ 11,8% tổng số hành khách. Bên cạnh đó có 16328 hành khách có Mức độ hài lòng về dịch vụ trên chuyến bay Cao trong đó có 11451 hành khách nhóm Business travel, chiếm 44,1% tổng số hành khách và 4877 người nhóm Personal travel, chiếm 18,8% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng về dịch vụ trên chuyến bay cả cao và thấp thì tỷ lệ những hành khách có Mục đích chuyến bay thuộc nhóm Business travel đều nhiều hơn những hành khách có Mục đích chuyến bay thuộc nhóm Personal travel.
epitab(q, method = "riskratio")
## $tab
## IS
## Thấp p0 Cao p1 riskratio lower upper
## Business travel 6585 0.3651031 11451 0.6348969 1.0000000 NA NA
## Personal Travel 3061 0.3856135 4877 0.6143865 0.9676949 0.9479217 0.9878807
## IS
## p.value
## Business travel NA
## Personal Travel 0.001710852
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có số điểm về Mức độ hài lòng về dịch vụ trên chuyến bay cao theo Mục đích chuyến bay là 0.9676949 tức là tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao có mục đích chuyến bay là Personal Travel gấp 0.9676949 lần tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao có mục đích chuyến bay là Personal Travel.
epitab(q, method = "oddsratio")
## $tab
## IS
## Thấp p0 Cao p1 oddsratio lower upper
## Business travel 6585 0.6826664 11451 0.7013106 1.0000000 NA NA
## Personal Travel 3061 0.3173336 4877 0.2986894 0.9162243 0.8676963 0.9674663
## IS
## p.value
## Business travel NA
## Personal Travel 0.001710852
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0.9162243 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp có mục đích chuyến bay là Personal Travel bằng khoảng 91,62% so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp có mục đích chuyến bay là Business travel.
Kiểm định tính độc lập cho 2 biến (IS) và (Travel):
Phương pháp chi bình phương: Giả thuyết Ho: IS và Travel độc lập
q <- table(DL$Travel, IS); q
## IS
## Thấp Cao
## Business travel 6585 11451
## Personal Travel 3061 4877
chisq.test(q)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: q
## X-squared = 9.8448, df = 1, p-value = 0.001703
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value = 0.001703 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa Mức độ hài lòng về dịch vụ trên chuyến bay (IS) và Mục đích của chuyến bay (Travel) có liên quan tới nhau.
Bảng tần số:
w <- table(SF, IS); w
## IS
## SF Thấp Cao
## neutral or dissatisfied 7026 7545
## satisfied 2620 8783
Bảng tần suất:
w1 <- prop.table(w); w1
## IS
## SF Thấp Cao
## neutral or dissatisfied 0.2705013 0.2904828
## satisfied 0.1008701 0.3381458
Phân phối biên:
addmargins(w)
## IS
## SF Thấp Cao Sum
## neutral or dissatisfied 7026 7545 14571
## satisfied 2620 8783 11403
## Sum 9646 16328 25974
Biểu đồ cột kết hợp 2 biến:
m <- data.frame(DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$Age, DL$DDIM, DL$IS, SF, IS)
m |> ggplot(aes(x=SF,y=after_stat(count))) + geom_bar(fill="green") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~IS) + labs(x = "Mức độ hài lòng về hãng hàng không",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng về dịch vụ trên chuyến bay và Mức độ hài lòng của hành khách đối với hãng hàng không (SF) ta thấy có 9646 hành khách có Mức độ hài lòng về dịch vụ trên chuyến bay Thấp trong đó có 7026 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied, chiếm tỉ lệ 27% tổng số hành khách và 2620 hành khách nhóm satisfied, chiếm tỉ lệ 10,1% tổng số hành khách. Bên cạnh đó có 16328 hành khách có Mức độ hài lòng về dịch vụ trên chuyến bay Cao trong đó có 7545 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied, chiếm tỉ lệ 29% tổng số hành khách và 8783 hành khách nhóm satisfied, chiếm tỉ lệ 33,8% tổng số hành khách.
epitab(w, method = "riskratio")
## $tab
## IS
## SF Thấp p0 Cao p1 riskratio lower
## neutral or dissatisfied 7026 0.4821907 7545 0.5178093 1.000000 NA
## satisfied 2620 0.2297641 8783 0.7702359 1.487489 1.460076
## IS
## SF upper p.value
## neutral or dissatisfied NA NA
## satisfied 1.515417 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có mức độ hài lòng về dịch vụ trên chuyến bay Cao theo Mức độ hài lòng của hành khách đối với hãng hàng không (SF) là 1.487489 tức là tỉ lệ những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay Cao có Mức độ hài lòng đối với hãng hàng không thuộc nhóm satisfied lớn hơn khoảng 48,75% tỉ lệ những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay Cao có Mức độ hài lòng đối với hãng hàng không thuộc nhóm neutral or dissatisfied.
epitab(w, method = "oddsratio")
## $tab
## IS
## SF Thấp p0 Cao p1 oddsratio lower
## neutral or dissatisfied 7026 0.7283848 7545 0.4620897 1.000000 NA
## satisfied 2620 0.2716152 8783 0.5379103 3.121695 2.956408
## IS
## SF upper p.value
## neutral or dissatisfied NA NA
## satisfied 3.296223 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 3.121695 tức tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp thuộc nhóm satisfied lớn gấp 3.121695 so với tỉ lệ số điểm về Mức độ hài lòng về dịch vụ cao/những hành khách có số điểm về Mức độ hài lòng về dịch vụ thấp có Mức độ hài lòng đối với hãng hàng không thuộc nhóm neutral or dissatisfied.
Kiểm định tính độc lập cho 2 biến (IS) và (SF):
Phương pháp chi bình phương: Giả thuyết Ho: IS và SF độc lập
w <- table(SF, IS);w
## IS
## SF Thấp Cao
## neutral or dissatisfied 7026 7545
## satisfied 2620 8783
chisq.test(w)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: w
## X-squared = 1744.9, df = 1, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa mức độ hài lòng về dịch vụ trên chuyến bay (IS) mức độ hài lòng về hãng hàng không (SF) có liên quan tới nhau.
Bảng tần số:
e <- table(DL$Gender, SF); e
## SF
## neutral or dissatisfied satisfied
## Female 7437 5735
## Male 7136 5668
Bảng tần suất:
e1 <- prop.table(e); e1
## SF
## neutral or dissatisfied satisfied
## Female 0.2863027 0.2207807
## Male 0.2747151 0.2182014
Phân phối biên:
addmargins(e)
## SF
## neutral or dissatisfied satisfied Sum
## Female 7437 5735 13172
## Male 7136 5668 12804
## Sum 14573 11403 25976
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, SF, Gender)
k |> ggplot(aes(x=DL$Gender,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Mức độ hài lòng của hành khách đối với hãng hàng không",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng của hành khách đối với hãng hàng không (SF) và Giới tính (Gender) ta thấy có 14573 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 7437 hành khách giới tính nữ, chiếm tỉ lệ 28,63% tổng số hành khách và 7136 hành khách nam, chiếm tỉ lệ 27,47% tổng số hành khách. Bên cạnh đó có 11403 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied trong đó có 5735 hành khách nữ, chiếm 22,08% tổng số hành khách và 5668 hành khách nam, chiếm 21,82% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có số điểm về Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied thì tỷ lệ những hành khách có nữ nhiều hơn những hành khách nam nhưng đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied thì tỷ lệ những hành khách nữ lại ít hơn những hành khách nam, đối với từng Mức độ hài lòng của hành khách đối với hãng hàng không thì mức độ chênh lệch giữa 2 nhóm này không quá lớn.
epitab(e, method = "riskratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1 riskratio
## Female 7437 0.5646067 5735 0.4353933 1.000000
## Male 7136 0.5573258 5668 0.4426742 1.016723
## SF
## lower upper p.value
## Female NA NA NA
## Male 0.9891497 1.045064 0.2398548
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Mức độ hài lòng đối với hãng hàng không thuộc nhóm satisfied theo Giới tính là 1,016723 tức là tỉ lệ những hành khách nam có Mức độ hài lòng đối với hãng hàng không thuộc nhóm satisfied lớn hơn khoảng 1,67% tỉ lệ những hành khách nữ có Mức độ hài lòng về hãng hàng không trong nhóm satisfied.
epitab(e, method = "oddsratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1 oddsratio
## Female 7437 0.5103273 5735 0.5029378 1.000000
## Male 7136 0.4896727 5668 0.4970622 1.030005
## SF
## lower upper p.value
## Female NA NA NA
## Male 0.9807371 1.081748 0.2398548
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1,030005 tức tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không nhóm satisfied/những hành khách có Mức độ hài lòng về hãng hàng không nhóm neutral or dissatisfied ở giới tính nam lớn hơn khoảng 3% so với tỉ lệ Mức độ hài lòng về hãng hàng không nhóm satisfied/những hành khách có Mức độ hài lòng về hãng hàng không nhóm neutral or dissatisfied ở giới tính nữ.
Kiểm định tính độc lập cho 2 biến (SF) và (Gender):
Phương pháp chi bình phương: Giả thuyết Ho: (FS) và (Gender)
e <- table(DL$Gender, SF); e
## SF
## neutral or dissatisfied satisfied
## Female 7437 5735
## Male 7136 5668
chisq.test(e)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: e
## X-squared = 1.3682, df = 1, p-value = 0.2421
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value = 0.2421 > 5% vì vậy có cơ sở để thừa nhận giả thuyết Ho, nói cách khác Mức độ hài lòng về hãng hàng không (SF) và giới tính không có liên quan tới nhau.
Với dữ liệu gốc, biến Hạng du lịch trên máy bay của hành khách (Class) là biến định tính nhận 3 giá trị: Business: Thương gia, Eco, Eco Plus. Tác giả đã đặt quy ước về việc mã hoá 2 giá trị biến (Class) như sau: Khách hàng thuộc hạng thương gia: Business. Khách hàng thuộc hạng Bình thường: Eco, Eco Plus.
f <- table(DL$Class, SF); f
## SF
## neutral or dissatisfied satisfied
## Business 3809 8686
## Eco 9322 2242
## Eco Plus 1442 475
Bảng tần số:
f <- table(Class, SF); f
## SF
## Class neutral or dissatisfied satisfied
## thuonggia 3809 8686
## binhthuong 10764 2717
Bảng tần suất:
f1 <- prop.table(f); f1
## SF
## Class neutral or dissatisfied satisfied
## thuonggia 0.1466354 0.3343856
## binhthuong 0.4143825 0.1045966
Phân phối biên:
addmargins(f)
## SF
## Class neutral or dissatisfied satisfied Sum
## thuonggia 3809 8686 12495
## binhthuong 10764 2717 13481
## Sum 14573 11403 25976
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, SF, Class)
k |> ggplot(aes(x=Class,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Mức độ hài lòng về hãng hàng không",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng về hãng hàng không và Hạng du lịch trên máy bay của hành khách (Class) ta thấy có 14573 hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 10764 hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm bình thường (Eco, Eco Plus), chiếm tỉ lệ 41,4% tổng số hành khách và 3809 hành khách nhóm thương gia, chiếm tỉ lệ 14,7% tổng số hành khách. Bên cạnh đó có 11403 hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied trong đó có 2717 hành khách nhóm bình thường, chiếm 10,5% tổng số hành khách và 8686 người nhóm thương gia, chiếm 33,4% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có số điểm về Mức độ hài lòng về hãng hàng không thấp thuộc nhóm neutral or dissatisfied thì tỷ lệ những hành khách có Hạng du lịch trên máy bay thuộc nhóm bình thường nhiều hơn những hành khách có Hạng du lịch trên máy bay thuộc nhóm thương gia nhưng đối với những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied thì tỷ lệ những hành khách có Hạng du lịch trên máy bay thuộc nhóm bình thường ít hơn những hành khách có Hạng du lịch trên máy bay thuộc nhóm thương gia , đối với từng mức độ hài lòng về hãng hàng không thì mức độ chênh lệch giữa 2 nhóm này tương đối lớn.
epitab(f, method = "riskratio")
## $tab
## SF
## Class neutral or dissatisfied p0 satisfied p1 riskratio
## thuonggia 3809 0.3048419 8686 0.6951581 1.0000000
## binhthuong 10764 0.7984571 2717 0.2015429 0.2899239
## SF
## Class lower upper p.value
## thuonggia NA NA NA
## binhthuong 0.2797984 0.3004157 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Mức độ hài lòng về dịch vụ thuộc nhóm satisfied theo Hạng du lịch trên máy bay là 3,449181 tức là tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không trong nhóm bình thường lớn gấp 3,449181 tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied trong nhóm thương gia.
epitab(f, method = "oddsratio")
## $tab
## SF
## Class neutral or dissatisfied p0 satisfied p1 oddsratio
## thuonggia 3809 0.2613738 8686 0.7617294 1.0000000
## binhthuong 10764 0.7386262 2717 0.2382706 0.1106897
## SF
## Class lower upper p.value
## thuonggia NA NA NA
## binhthuong 0.1045821 0.117154 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 9,034267 tức tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied /những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral or dissatisfied ở nhóm bình thường lớn gấp 9,034267 so với tỉ lệ Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied /những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral or dissatisfied ở nhóm thương gia.
Kiểm định tính độc lập cho 2 biến (SF) và (Class):
Phương pháp chi bình phương: Giả thuyết Ho: SF và Class độc lập
f <- table(DL$Class, SF); f
## SF
## neutral or dissatisfied satisfied
## Business 3809 8686
## Eco 9322 2242
## Eco Plus 1442 475
chisq.test(f)
##
## Pearson's Chi-squared test
##
## data: f
## X-squared = 6435, df = 2, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa số điểm Mức độ hài lòng về hãng hàng không (SF) và Hạng du lịch trên máy bay của hành khách (Class) có liên quan tới nhau.
Bảng tần số:
y <- table(DL$Travel, SF); y
## SF
## neutral or dissatisfied satisfied
## Business travel 7428 10610
## Personal Travel 7145 793
Bảng tần suất:
y1 <- prop.table(y); y1
## SF
## neutral or dissatisfied satisfied
## Business travel 0.28595627 0.40845396
## Personal Travel 0.27506160 0.03052818
Phân phối biên:
addmargins(y)
## SF
## neutral or dissatisfied satisfied Sum
## Business travel 7428 10610 18038
## Personal Travel 7145 793 7938
## Sum 14573 11403 25976
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, SF, Travel)
k |> ggplot(aes(x=DL$Travel,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Mục đích chuyến bay của hành khách",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng về hãng hàng không và Mục đích chuyến bay của hành khách (Travel) ta thấy có 14573 hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 7428 hành khách có Mục đích chuyến bay thuộc nhóm Business travel, chiếm tỉ lệ 28,6% tổng số hành khách và 7145 hành khách nhóm Personal travel, chiếm tỉ lệ 27,5% tổng số hành khách. Bên cạnh đó có 11403 hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied trong đó có 10610 hành khách nhóm Business travel, chiếm 40,8% tổng số hành khách và 793 người nhóm Personal travel, chiếm 3,1% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral or dissatisfied và satisfied thì tỷ lệ những hành khách có Mục đích chuyến bay thuộc nhóm Business travel đều nhiều hơn những hành khách có Mục đích chuyến bay thuộc nhóm Personal travel.
epitab(y, method = "riskratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1
## Business travel 7428 0.4117973 10610 0.58820268
## Personal Travel 7145 0.9001008 793 0.09989922
## SF
## riskratio lower upper p.value
## Business travel 1.0000000 NA NA NA
## Personal Travel 0.1698381 0.1588076 0.1816347 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Mức độ hài lòng về dịch vụ thuộc nhóm satisfied theo Mục đích chuyến bay là 0.1698381 tức là tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không ở nhóm Personal travel trong nhóm satisfied chỉ bằng 16,9% tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied trong nhóm Business travel .
epitab(y, method = "oddsratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1
## Business travel 7428 0.5097097 10610 0.9304569
## Personal Travel 7145 0.4902903 793 0.0695431
## SF
## oddsratio lower upper p.value
## Business travel 1.00000000 NA NA NA
## Personal Travel 0.07770115 0.07178985 0.0840992 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 0.07770115 tức tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied /những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral dissatisfied ở nhóm Personal travel chỉ bằng 7,77% so với tỉ lệ Mức độ hài lòng về hãng hàng không thuộc nhóm satisfied /những hành khách có Mức độ hài lòng về hãng hàng không thuộc nhóm neutral dissatisfied ở nhóm Buiness travel.
Kiểm định tính độc lập cho 2 biến (SF) và (Travel):
Phương pháp chi bình phương: Giả thuyết Ho: SF và Travel độc lập
y <- table(DL$Travel, SF); y
## SF
## neutral or dissatisfied satisfied
## Business travel 7428 10610
## Personal Travel 7145 793
chisq.test(y)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: y
## X-squared = 5334.8, df = 1, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa số điểm Mức độ hài lòng về hãng hàng không (SF) và Mục đích của chuyến bay (Travel) có liên quan tới nhau.
Bảng tần số:
h <- table(DL$Customer, SF); h
## SF
## neutral or dissatisfied satisfied
## disloyal Customer 3591 1208
## Loyal Customer 10982 10195
Bảng tần suất:
h1 <- prop.table(h); h1
## SF
## neutral or dissatisfied satisfied
## disloyal Customer 0.13824299 0.04650447
## Loyal Customer 0.42277487 0.39247767
Phân phối biên:
addmargins(h)
## SF
## neutral or dissatisfied satisfied Sum
## disloyal Customer 3591 1208 4799
## Loyal Customer 10982 10195 21177
## Sum 14573 11403 25976
Biểu đồ cột kết hợp 2 biến:
k <- data.frame(DL$Age, DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$DDIM, DL$IS, SF, Customer)
k |> ggplot(aes(x=DL$Customer,y=after_stat(count))) + geom_bar(fill="pink") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Loại khách hàng",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng của hành khách đối với hãng hàng không (SF) và Loại khách hàng (Customer) ta thấy có 14573 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 3591 là hành khách disloyal Customer, chiếm tỉ lệ 13,8% tổng số hành khách và 10982 hành khách Loyal Customer, chiếm tỉ lệ 42,3% tổng số hành khách. Bên cạnh đó có 11403 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied trong đó có 1208 hành khách disloyal Customer, chiếm 4,7% tổng số hành khách và 10195 hành khách Loyal Customer, chiếm 39,2% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied và nhóm satisfied thì tỷ lệ những hành khách Loyal Customer đều nhiều hơn những hành khách disloyal Customer, đối với từng Mức độ hài lòng của hành khách đối với hãng hàng không thì mức độ chênh lệch giữa 2 nhóm này tương đối lớn.
epitab(h, method = "riskratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1
## disloyal Customer 3591 0.7482809 1208 0.2517191
## Loyal Customer 10982 0.5185815 10195 0.4814185
## SF
## riskratio lower upper p.value
## disloyal Customer 1.000000 NA NA NA
## Loyal Customer 1.912523 1.817895 2.012076 5.4258e-193
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Mức độ hài lòng đối với hãng hàng không thuộc nhóm satisfied theo Loại khách hàng là 1,912523 tức là tỉ lệ những hành khách Loyal Customer có Mức độ hài lòng đối với hãng hàng không thuộc nhóm satisfied lớn hơn khoảng 91,25% tỉ lệ những hành khách disloyal Customer có Mức độ hài lòng về hãng hàng không trong nhóm satisfied.
epitab(h, method = "oddsratio")
## $tab
## SF
## neutral or dissatisfied p0 satisfied p1
## disloyal Customer 3591 0.2464146 1208 0.105937
## Loyal Customer 10982 0.7535854 10195 0.894063
## SF
## oddsratio lower upper p.value
## disloyal Customer 1.000000 NA NA NA
## Loyal Customer 2.759652 2.571685 2.961357 5.4258e-193
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 2,759652 tức tỉ lệ những hành khách có Mức độ hài lòng về hãng hàng không nhóm satisfied/những hành khách có Mức độ hài lòng về hãng hàng không nhóm neutral or dissatisfied ở khách hàng Loyal Customer lớn gấp 2,759652 lần so với tỉ lệ Mức độ hài lòng về hãng hàng không nhóm satisfied/những hành khách có Mức độ hài lòng về hãng hàng không nhóm neutral or dissatisfied ở khách hàng disloyal Customer.
Kiểm định tính độc lập cho 2 biến (SF) và (Customer):
Phương pháp chi bình phương: Giả thuyết Ho: (SF) và (Customer)
h <- table(DL$Customer, SF); h
## SF
## neutral or dissatisfied satisfied
## disloyal Customer 3591 1208
## Loyal Customer 10982 10195
chisq.test(h)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: h
## X-squared = 837.25, df = 1, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác Mức độ hài lòng về hãng hàng không (SF) và Loại khách hàng (Customer) có liên quan tới nhau.
Với dữ liệu gốc, biến độ tuổi (Age) là biến định lượng nhận các giá trị từ 7 đến 85 tuổi. Tác giả đặt quy ước về việc mã hoá biến (age) như sau: Tuổi nhóm trung niên (trungnien): độ tuổi từ trên 40 tuổi đến 85 tuổi. Tuổi nhóm thanh niên (thanhnien): độ tuổi từ trên 7 tuổi đến 40 tuổi.
Age <- cut(DL$Age, breaks = c(7,40,85), labels=c("thanhnien","trungnien"))
table(Age)
## Age
## thanhnien trungnien
## 13189 12664
Bảng tần số:
x <- table(Age, SF); x
## SF
## Age neutral or dissatisfied satisfied
## thanhnien 8334 4855
## trungnien 6125 6539
Bảng tần suất:
x1 <- prop.table(x); x1
## SF
## Age neutral or dissatisfied satisfied
## thanhnien 0.3223610 0.1877925
## trungnien 0.2369164 0.2529300
Phân phối biên:
addmargins(x)
## SF
## Age neutral or dissatisfied satisfied Sum
## thanhnien 8334 4855 13189
## trungnien 6125 6539 12664
## Sum 14459 11394 25853
Biểu đồ cột kết hợp 2 biến:
m <- data.frame(DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$Age, DL$DDIM, DL$IS, SF, Age)
m |> ggplot(aes(x=Age,y=after_stat(count))) + geom_bar(fill="green") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Độ tuổi",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng của hành khách đối với hãng hàng không (SF) và Độ tuổi (Age) ta thấy có 14459 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 8334 hành khách thuộc nhóm thanh niên, chiếm tỉ lệ 32,08% tổng số hành khách và 6125 hành khách trung niên, chiếm tỉ lệ 23,58% tổng số hành khách. Bên cạnh đó có 11394 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied trong đó có 4855 hành khách thuộc nhóm thanh niên, chiếm 18,69% tổng số hành khách và 6539 hành khách thuộc nhóm trung niên, chiếm 25,17% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied thì tỷ lệ những hành khách thanh niên nhiều hơn những hành khách trung niên nhưng đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied thì tỷ lệ những hành khách thanh niên ít hơn những hành khách trung niên.
epitab(x, method = "riskratio")
## $tab
## SF
## Age neutral or dissatisfied p0 satisfied p1 riskratio
## thanhnien 8334 0.6318902 4855 0.3681098 1.000000
## trungnien 6125 0.4836545 6539 0.5163455 1.402694
## SF
## Age lower upper p.value
## thanhnien NA NA NA
## trungnien 1.363961 1.442528 1.381424e-127
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied theo độ tuổi là 1,402694 tức là tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied trong nhóm tuổi trung niên lớn hơn 40,27% tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied trong nhóm tuổi thanh niên.
epitab(x, method = "oddsratio")
## $tab
## SF
## Age neutral or dissatisfied p0 satisfied p1 oddsratio
## thanhnien 8334 0.5763884 4855 0.4261015 1.000000
## trungnien 6125 0.4236116 6539 0.5738985 1.832608
## SF
## Age lower upper p.value
## thanhnien NA NA NA
## trungnien 1.743811 1.925926 1.381424e-127
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1.832608 tức tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied/những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay ở nhóm neutral or dissatisfied của khách hàng trung niên lớn hơn khoảng 83,26% so với tỉ lệ mức độ hài lòng về hãng hàng không ở nhóm satisfied/những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay ở nhóm neutral or dissatisfied ở nhóm tuổi thanh niên.
Kiểm định tính độc lập cho 2 biến (SF) và (Age):
Phương pháp chi bình phương: Giả thuyết Ho: SF và Age độc lập
x <- table(Age, SF);x
## SF
## Age neutral or dissatisfied satisfied
## thanhnien 8334 4855
## trungnien 6125 6539
chisq.test(x)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: x
## X-squared = 575.35, df = 1, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa mức độ hài lòng về hãng hàng không (SF) và độ tuổi (Age) có liên quan tới nhau.
Bảng tần số:
l <- table(IS, SF); l
## SF
## IS neutral or dissatisfied satisfied
## Thấp 7026 2620
## Cao 7545 8783
Bảng tần suất:
l1 <- prop.table(l); l1
## SF
## IS neutral or dissatisfied satisfied
## Thấp 0.2705013 0.1008701
## Cao 0.2904828 0.3381458
Phân phối biên:
addmargins(l)
## SF
## IS neutral or dissatisfied satisfied Sum
## Thấp 7026 2620 9646
## Cao 7545 8783 16328
## Sum 14571 11403 25974
Biểu đồ cột kết hợp 2 biến:
m <- data.frame(DL$Gender, DL$Travel, DL$Customer, DL$Class, DL$SF, DL$Age, DL$DDIM, DL$IS, SF, IS)
m |> ggplot(aes(x=IS,y=after_stat(count))) + geom_bar(fill="green") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~SF) + labs(x = "Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay",y = "Số người")
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng của hành khách đối với hãng hàng không (SF) và Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay (IS) ta thấy có 14571 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied trong đó có 7026 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm thấp (dưới 3 điểm), chiếm tỉ lệ 27% tổng số hành khách và 7545 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm cao, chiếm tỉ lệ 29% tổng số hành khách. Bên cạnh đó có 11403 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied trong đó có 2620 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm thấp, chiếm 10,1% tổng số hành khách và 8783 hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm cao, chiếm 33,8% tổng số hành khách. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied và satisfied thì tỷ lệ những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm cao nhiều hơn những hành khách có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thuộc nhóm thấp.
epitab(l, method = "riskratio")
## $tab
## SF
## IS neutral or dissatisfied p0 satisfied p1 riskratio lower
## Thấp 7026 0.7283848 2620 0.2716152 1.000000 NA
## Cao 7545 0.4620897 8783 0.5379103 1.980413 1.911078
## SF
## IS upper p.value
## Thấp NA NA
## Cao 2.052264 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied theo Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay là 1,980413 tức là tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied trong nhóm có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao lớn hơn khoảng 98,04% tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied trong nhóm có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp.
epitab(l, method = "oddsratio")
## $tab
## SF
## IS neutral or dissatisfied p0 satisfied p1 oddsratio lower
## Thấp 7026 0.4821907 2620 0.2297641 1.000000 NA
## Cao 7545 0.5178093 8783 0.7702359 3.121695 2.956408
## SF
## IS upper p.value
## Thấp NA NA
## Cao 3.296223 0
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 3,121695 tức tỉ lệ những hành khách có mức độ hài lòng về hãng hàng không ở nhóm satisfied/những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay ở nhóm neutral or dissatisfied của khách hàng có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay cao lớn hơn gấp 3,121695 lần so với tỉ lệ mức độ hài lòng về hãng hàng không ở nhóm satisfied/những hành khách có mức độ hài lòng về dịch vụ trên chuyến bay ở nhóm neutral or dissatisfied của khách hàng có Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay thấp.
Kiểm định tính độc lập cho 2 biến (SF) và (IS):
Phương pháp chi bình phương: Giả thuyết Ho: SF và IS độc lập
l <- table(IS, SF);l
## SF
## IS neutral or dissatisfied satisfied
## Thấp 7026 2620
## Cao 7545 8783
chisq.test(l)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: l
## X-squared = 1744.9, df = 1, p-value < 2.2e-16
Kết quả kiểm định trên cho thấy giá trị tới hạn p-value < 2.2e-16 < 5% vì vậy chưa có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa mức độ hài lòng về hãng hàng không (SF) và Số điểm về mức độ hài lòng về dịch vụ trên chuyến bay (IS) có liên quan tới nhau.
Bảng tần số:
o <- table(DDIM, SF); o
## SF
## DDIM neutral or dissatisfied satisfied
## nho 6711 4522
## lon 31 24
Bảng tần suất:
o1 <- prop.table(o); o1
## SF
## DDIM neutral or dissatisfied satisfied
## nho 0.594525159 0.400602410
## lon 0.002746279 0.002126152
Phân phối biên:
addmargins(o)
## SF
## DDIM neutral or dissatisfied satisfied Sum
## nho 6711 4522 11233
## lon 31 24 55
## Sum 6742 4546 11288
Thông qua bảng tần số, tần suất trên của 2 biến Mức độ hài lòng của hành khách đối với hãng hàng không và Số phút bị trễ khi khởi hành (DDIM) ta thấy có 6742 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or satisfied trong đó có 6711 hành khách có Số phút bị trễ khi khởi hành thuộc nhóm nhỏ, chiếm tỉ lệ 59,45% tổng số hành khách và 31 hành khách nhóm lớn, chiếm tỉ lệ 0,27% tổng số hành khách. Bên cạnh đó có 4546 hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied trong đó có 4522 hành khách có Số phút bị trễ khi khởi hành thuộc nhóm nhỏ, chiếm tỉ lệ 40,06% tổng số hành khách và 24 hành khách nhóm lớn, chiếm tỉ lệ 0,21% tổng số hành khách. Trong tổng số hành khách trên chuyến bay thì tỉ lệ những hành khách có số phút bị trễ khi khởi hành thuộc nhóm nhỏ lớn hơn rất nhiều lần so với những hành khách có số phút bị trễ khi khởi hành thuộc nhóm lớn. Qua biểu đồ có thể thấy đối với những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc cả nhóm neutral or satisfied và satisfied thì tỷ lệ những hành khách có số phút bị trễ khi khởi hành thuộc nhóm nhỏ đều nhiều hơn những hành khách có số phút bị trễ khi khởi hành thuộc nhóm lớn.
epitab(o, method = "riskratio")
## $tab
## SF
## DDIM neutral or dissatisfied p0 satisfied p1 riskratio lower
## nho 6711 0.5974361 4522 0.4025639 1.000000 NA
## lon 31 0.5636364 24 0.4363636 1.083961 0.8020523
## SF
## DDIM upper p.value
## nho NA NA
## lon 1.464957 0.6796631
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ rủi ro tương đối (risk ratio) của hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied theo Số phút bị trễ khi khởi hành là 1.083961 tức là tỉ lệ những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không trong nhóm satisfied có Số phút bị trễ khi khởi hành lớn hơn khoảng 8.39% tỉ lệ những hành khách có số điểm về Mức độ hài lòng về dịch vụ trong nhóm satisfied có Số phút bị trễ khi khởi hành nhỏ.
epitab(o, method = "oddsratio")
## $tab
## SF
## DDIM neutral or dissatisfied p0 satisfied p1 oddsratio
## nho 6711 0.995401958 4522 0.994720634 1.000000
## lon 31 0.004598042 24 0.005279366 1.148963
## SF
## DDIM lower upper p.value
## nho NA NA NA
## lon 0.6734316 1.960284 0.6796631
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Theo kết quả trên ta thấy tỉ lệ chênh (odd ratio) là 1.148963 tức tỉ lệ những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied/những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied có Số phút bị trễ khi khởi hành lớn thì lớn hơn khoảng 14,89% so với tỉ lệnhững hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied/những hành khách có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm neutral or dissatisfied có Số phút bị trễ khi khởi hành nhỏ.
Kiểm định tính độc lập cho 2 biến (SF) và (DDIM):
Phương pháp chi bình phương: Giả thuyết Ho: SF và DDIM độc lập
o <- table(DDIM, SF);o
## SF
## DDIM neutral or dissatisfied satisfied
## nho 6711 4522
## lon 31 24
chisq.test(o)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: o
## X-squared = 0.13842, df = 1, p-value = 0.7099
Kết quả kiểm định trên cho thấy giá trị tới hạn P_value = 0.7099 > 5% vì vậy có cơ sở để thừa nhận giả thuyết Ho, nói cách khác giữa Mức độ hài lòng của hành khách đối với hãng hàng không và Số phút bị trễ khi khởi hành (DDIM) không có liên quan tới nhau.
Ước lượng tỷ lệ số người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 và đồng thời kiểm định xem tỷ lệ người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 có phải là 50% hay không. Ta kiểm định giả thuyết:
H0: Tỷ lệ số người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 là 50%
H1: Tỷ lệ số người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 không phải là 50%
rm<- DL[DL$IS > 3,]
prop.test(length(rm$IS), length(DL$IS), p = 0.5)
##
## 1-sample proportions test with continuity correction
##
## data: length(rm$IS) out of length(DL$IS), null probability 0.5
## X-squared = 1717.3, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.6226664 0.6344559
## sample estimates:
## p
## 0.6285802
Vì p_value < 2.2e-16 < 0.05 nên ta bác bỏ giả thuyết H0. Nghĩa là Tỷ lệ số người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 không phải là 50%
Với độ tin cậy 95%, ước lượng tỷ lệ số người được khảo sát có Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 nằm trong khoảng từ 0.6226664 đến 0.6344559.
Giả thuyết:
H0: không có sự khác biệt đáng kể trong tỷ lệ giữa Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 giữa giới tính nam và nữ.
H1: có sự khác biệt đáng kể trong tỷ lệ giữa Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 giữa giới tính nam và nữ.
rmm <- DL[DL$Gender == "Male",]
rmf <- DL[DL$Gender == "Female",]
rmm1 <- rmm[rmm$IS > 3,]
rmf1 <- rmf[rmf$IS > 3,]
a <- c(nrow(rmm), nrow(rmf))
b <- c(nrow(rmm1), nrow(rmf1))
prop.test(b,a)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: b out of a
## X-squared = 22.373, df = 1, p-value = 2.244e-06
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.01661870 0.04026329
## sample estimates:
## prop 1 prop 2
## 0.6430022 0.6145612
Vì p_value = 2.244e-06 < 0.05 đủ cơ sở để bác bỏ giả thuyết H0. Nghĩa là đủ cơ sở để chứng minh rằng có sự khác biệt trong tỷ lệ giữa Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 giữa giới tính nam và nữ.
Với độ tin cậy 95%, khoảng chênh lệch giữa Mức độ hài lòng về dịch vụ trên chuyến bay (IS) cao lớn hơn 3 giữa giới tính nam và nữ nằm trong khoảng từ 0.6430022 đến 0.6145612.
Chạy mô hình hồi quy với biến phụ thuộc Inflight service: Mức độ hài lòng về dịch vụ trên chuyến bay (IS)
IS <- cut(DL$IS, breaks = c(0,3,5), labels=c("Thấp","Cao"))
table(IS)
## IS
## Thấp Cao
## 9646 16328
Age <- cut(DL$Age, breaks = c(7,40,85), labels=c("thanhnien","trungnien"))
table(Age)
## Age
## thanhnien trungnien
## 13189 12664
Tôi mã hóa biến định lượng Age thành biến định tính 2 giá trị để đưa vào mô hình vì muốn biết cụ thể nhóm độ tuổi của hành khách nào sẽ ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay (IS) và mức độ tác động của nó như thế nào.
mh1 <- glm(data = k, formula = factor(IS) ~ Gender + Travel + Customer + DL$Class + Age + DL$DDIM + SF, family = binomial(link = "logit"))
levels(factor(IS))
## [1] "Thấp" "Cao"
summary(mh1)
##
## Call:
## glm(formula = factor(IS) ~ Gender + Travel + Customer + DL$Class +
## Age + DL$DDIM + SF, family = binomial(link = "logit"), data = k)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8899394 0.0443241 20.078 < 2e-16 ***
## GenderMale 0.1281927 0.0275232 4.658 3.20e-06 ***
## TravelPersonal Travel 1.4345087 0.0445014 32.235 < 2e-16 ***
## CustomerLoyal Customer -1.1147659 0.0465251 -23.961 < 2e-16 ***
## DL$ClassEco -0.8492843 0.0377027 -22.526 < 2e-16 ***
## DL$ClassEco Plus -0.8937706 0.0561539 -15.916 < 2e-16 ***
## Agetrungnien -0.2134418 0.0292548 -7.296 2.97e-13 ***
## DL$DDIM -0.0019109 0.0003668 -5.210 1.89e-07 ***
## SFsatisfied 1.5678669 0.0369964 42.379 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 34115 on 25850 degrees of freedom
## Residual deviance: 30806 on 25842 degrees of freedom
## (125 observations deleted due to missingness)
## AIC: 30824
##
## Number of Fisher Scoring iterations: 4
Cặp giả thuyết - đối thuyết:
H0: Mô hình không phù hợp với dữ liệu điều tra
H1: Mô hình phù hợp với dữ liệu điều tra
lr_test1 <- anova(mh1, test = "Chisq")
p_value1 <- lr_test1$Pr[2]
p_value1
## [1] 1.540252e-06
Kết quả kiểm định cho thấy P_value < 0.05 nên ta bác bỏ giả thuyết H0, cho thấy mô hình 1 là mô hình phù hợp với mức ý nghĩa 5%.
mh2 <- glm(data = k, formula = factor(IS) ~ Gender + Travel + Customer + DL$Class + Age + DL$DDIM + SF, family = binomial(link = "probit"))
levels(factor(IS))
## [1] "Thấp" "Cao"
summary(mh2)
##
## Call:
## glm(formula = factor(IS) ~ Gender + Travel + Customer + DL$Class +
## Age + DL$DDIM + SF, family = binomial(link = "probit"), data = k)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.5419796 0.0266039 20.372 < 2e-16 ***
## GenderMale 0.0760862 0.0165867 4.587 4.49e-06 ***
## TravelPersonal Travel 0.8354764 0.0263614 31.693 < 2e-16 ***
## CustomerLoyal Customer -0.6507978 0.0274623 -23.698 < 2e-16 ***
## DL$ClassEco -0.5176963 0.0225994 -22.908 < 2e-16 ***
## DL$ClassEco Plus -0.5454022 0.0341068 -15.991 < 2e-16 ***
## Agetrungnien -0.1244033 0.0176210 -7.060 1.67e-12 ***
## DL$DDIM -0.0011571 0.0002215 -5.224 1.75e-07 ***
## SFsatisfied 0.9208065 0.0217075 42.419 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 34115 on 25850 degrees of freedom
## Residual deviance: 30844 on 25842 degrees of freedom
## (125 observations deleted due to missingness)
## AIC: 30862
##
## Number of Fisher Scoring iterations: 4
Cặp giả thuyết - đối thuyết:
H0: Mô hình không phù hợp với dữ liệu điều tra
H1: Mô hình phù hợp với dữ liệu điều tra
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(mh2, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 1.540252e-06
Kết quả kiểm định cho thấy P_value < 0.05 nên ta bác bỏ giả thuyết H0, cho thấy mô hình 2 là mô hình phù hợp với mức ý nghĩa 5%.
mh3 <- glm(data = k, formula = factor(IS) ~ Gender + Travel + Customer + DL$Class + Age + DL$DDIM + SF, family = binomial(link = "cloglog"))
levels(factor(IS))
## [1] "Thấp" "Cao"
summary(mh3)
##
## Call:
## glm(formula = factor(IS) ~ Gender + Travel + Customer + DL$Class +
## Age + DL$DDIM + SF, family = binomial(link = "cloglog"),
## data = k)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.2214399 0.0266804 8.300 < 2e-16 ***
## GenderMale 0.0604168 0.0168577 3.584 0.000338 ***
## TravelPersonal Travel 0.8132401 0.0286816 28.354 < 2e-16 ***
## CustomerLoyal Customer -0.6389434 0.0279891 -22.828 < 2e-16 ***
## DL$ClassEco -0.5735425 0.0236342 -24.267 < 2e-16 ***
## DL$ClassEco Plus -0.6233514 0.0378611 -16.464 < 2e-16 ***
## Agetrungnien -0.1065397 0.0179583 -5.933 2.98e-09 ***
## DL$DDIM -0.0013165 0.0002489 -5.288 1.23e-07 ***
## SFsatisfied 0.8734808 0.0221479 39.439 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 34115 on 25850 degrees of freedom
## Residual deviance: 30929 on 25842 degrees of freedom
## (125 observations deleted due to missingness)
## AIC: 30947
##
## Number of Fisher Scoring iterations: 8
Cặp giả thuyết - đối thuyết:
H0: Mô hình không phù hợp với dữ liệu điều tra
H1: Mô hình phù hợp với dữ liệu điều tra
# Kiểm định sự phù hợp của mô hình bằng cách tính giá trị Prob(LR statistic)
lr_test <- anova(mh3, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 1.540252e-06
Kết quả kiểm định cho thấy P_value < 0.05 nên ta bác bỏ giả thuyết H0, cho thấy mô hình 1 là mô hình phù hợp với mức ý nghĩa 5%.
Để đánh giá các mô hình hồi quy trên, ta sử dụng các tiêu chí sau:
# Tiêu chí AIC - Akaike Information Criterion
aic1 <- AIC(mh1)
aic2 <- AIC(mh2)
aic3 <- AIC(mh3)
AIC <-cbind(aic1,aic2,aic3)
AIC
## aic1 aic2 aic3
## [1,] 30823.55 30861.94 30947.04
# Tiêu chí Deviance
de1 <- deviance(mh1)
de2 <- deviance(mh2)
de3 <- deviance(mh3)
deviance <- cbind(de1,de2,de3)
deviance
## de1 de2 de3
## [1,] 30805.55 30843.94 30929.04
# Tiêu chí Brier Score
bs1 <- BrierScore(mh1)
bs2 <- BrierScore(mh2)
bs3 <- BrierScore(mh3)
BrierScore <- cbind(bs1,bs2,bs3)
BrierScore
## bs1 bs2 bs3
## [1,] 0.2034545 0.2038786 0.2047766
Kết luận: Dựa vào các tiêu chí trên, ta thấy các giá trị AIC, deviance và Brier Score của mô hình logit là nhỏ nhất, tức là mô hình logit là mô hình tốt nhất trong 3 mô hình.
summary(mh1)
##
## Call:
## glm(formula = factor(IS) ~ Gender + Travel + Customer + DL$Class +
## Age + DL$DDIM + SF, family = binomial(link = "logit"), data = k)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8899394 0.0443241 20.078 < 2e-16 ***
## GenderMale 0.1281927 0.0275232 4.658 3.20e-06 ***
## TravelPersonal Travel 1.4345087 0.0445014 32.235 < 2e-16 ***
## CustomerLoyal Customer -1.1147659 0.0465251 -23.961 < 2e-16 ***
## DL$ClassEco -0.8492843 0.0377027 -22.526 < 2e-16 ***
## DL$ClassEco Plus -0.8937706 0.0561539 -15.916 < 2e-16 ***
## Agetrungnien -0.2134418 0.0292548 -7.296 2.97e-13 ***
## DL$DDIM -0.0019109 0.0003668 -5.210 1.89e-07 ***
## SFsatisfied 1.5678669 0.0369964 42.379 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 34115 on 25850 degrees of freedom
## Residual deviance: 30806 on 25842 degrees of freedom
## (125 observations deleted due to missingness)
## AIC: 30824
##
## Number of Fisher Scoring iterations: 4
Kết quả phân tích hồi quy logit cho thấy, 7 biến đưa vào mô hình hồi quy để phân tích dều có ý nghĩa
+) Giới tính (Gender) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (+) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi giới tính là Nam
+) Mục đích chuyến bay của hành khách (Travel) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (+) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi Mục đích du lịch là cá nhân: Personal Travel
+) Loại khách hàng (Customer) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (-) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi khách hàng thuộc nhóm disloyal customer
+) Hạng du lịch trên máy bay của hành khách (Class) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (-) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi khách hàng có hạng du lịch là Thương gia
+) Tuổi thực tế của hành khách (Age) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (-) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi khách hàng có độ tuổi là thanh niên
+) Số phút bị trễ khi khởi hành (DDIM) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (-) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi Số phút bị trễ khi khởi hành thấp
+) Mức độ hài lòng của hành khách đối với hãng hàng không (SF) có ảnh hưởng đến Mức độ hài lòng về dịch vụ trên chuyến bay với hệ số mang dấu (+) cho thấy Mức độ hài lòng về dịch vụ trên chuyến bay cao khi khách hàng có Mức độ hài lòng của hành khách đối với hãng hàng không thuộc nhóm satisfied.
MHlogit: logit(π) = log(π/1−π) = 0.8899394 + 0.1281927GenderMale + 1.4345087TravelPersonal Travel - 1.1147659CustomerLoyal Customer - 0.8492843DL\(ClassEco - 0.8937706DL\)ClassEco Plus - 0.2134418Agetrungnien - 0.0019109DL$DDIM + 1.5678669SFsatisfied
Kết quả nghiên cứu cho thấy thông qua việc phân tích định tính kết hợp định lượng, sử dụng bộ số liệu thu nhập của một hãng hàng không và ước lượng mô hình hồi quy tổng quát cho các biến từ đó kiểm định và lựa chọn mô hình phù hợp để chỉ ra mức độ hài lòng về dịch vụ trên chuyến bay của hành khách phụ thuộc và bị tác động bởi các yếu tố nào. Từ đó đưa ra phương án và giải pháp chiến lược phù hợp cụ thể để chiếm lĩnh thị phần hàng không, gia tăng mức độ hài lòng, thu hút khách hàng.
Nghiên cứu đã chỉ ra các yếu tố đầu vào đều có tác động đến mức độ hài lòng của khách hàng đối với dịch vụ trên chuyến bay và mức độ tác động của mỗi biến là khác nhau. Nghiên cứu đã chỉ ra rằng các yếu tố Travel, Class, Customer, Age, SF có tác động mạnh tới mức độ hài lòng của khách hàng đối với dịch vụ trên chuyến bay còn 2 yếu tố Gender, DDIM cũng tác động mức độ hài lòng của khách hàng đối với dịch vụ trên chuyến bay với mức độ vừa ở mức ý nghĩa 5%.
Dựa trên kết quả phân tích tác động các yếu tố như mục đích du lịch, giới tính,… và một số biến khác có ý nghĩa ảnh hưởng đến mức độ hài lòng của khách hàng đối với dịch vụ trên chuyến bay, nghiên cứu đưa ra một số khuyến nghị, chính sách và chiến lược nhằm đánh vào tâm lý khách hàng, đưa ra giải pháp phù hợp để chiếm lĩnh thị trường, gia tăng mức độ hài lòng, thu hút khách hàng. Chẳng hạn như các hãng hàng không nên làm các cuộc khảo sát về chất lượng, dịch vụ, đào tạo chuyên sâu cho nhân viên,… để hiểu rõ được điểm mạnh điểm yếu về dịch vụ của hãng mình, thấu hiểu tâm lý của những hành khách dễ dàng đưa ra cách xủ lý tình huống phù hợp.
Trong bối cảnh nền kinh tế phát triển, nhu cầu đi lại bằng máy bay tăng cao khiến cho các hãng hàng không tranh nhau về giá cả, dịch vụ, chất lượng để chiếm lĩnh thị trường. Chính vì thế cách để có thể thu hút khách hàng là nâng cao chất lượng dịch vụ trên chuyến bay ngày một tốt hơn. Các hãng hàng không nên chú ý và tập trung vào các yếu tố ảnh hưởng đến chất lượng dịch vụ trên chuyến bay để khách hàng hài lòng và chọn hãng hàng không của mình để di chuyển.