CHƯƠNG 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1 Lý do chọn đề tài

Bưu chính viễn thông là một nhóm ngành đặc thù phục vụ cho những nhu cầu thiết yếu của con người trong xã hội hiện đại. Đặc biệt dịch vụ liên quan đến nhóm ngành này lại còn cần thiết hơn nữa vì nó gắn trực tiếp đến hoạt động sinh hoạt, sản xuất kinh doanh và các dịch vụ khác có liên quan. Xã hội ngày càng phát triển thì bưu chính viễn thông lại ngày càng là những dịch vụ thiết yếu cho con người nhằm phục vụ những nhu cầu giải trí, làm việc và học tập của con người. Thực tế hiện nay, dịch vụ bưu chính viễn thông là một ngành dịch vụ cần thiết, các công ty cung cấp dịch vụ này cũng mọc lên nhiều như nấm sau mưa, điều này lại tăng thê yếu tố cạnh tranh của các công ty này. Việc khách hàng chuyển đổi và trải nghiệm nhiều công ty cung cấp dịch vụ bưu chính viễn thông khác nhau có thể giúp khách hàng tìm ra được công ty ưng ý nhất. Tuy thế, các công ty vẫn luôn cần tìm hiểu những nguyên nhân khiến khách hàng rời bỏ dịch vụ và khắc phục nó nhằm đem lại doanh thu tối ưu nhất. Hiểu rõ lý do khách hàng rời bỏ dịch vụ sẽ giúp doanh nghiệp đề ra giải pháp kịp thời để giữ chân khách hàng, nâng cao chất lượng dịch vụ.

Các nghiên cứu trước đây thường nghiên cứu về sự hài lòng, hay sự trung thành của khách hàng nhưng chưa thực sự đào sâu đến nguyên nhân khiến khách hàng rời bỏ dịch vụ. Vì thế, đề tài này được đưa ra nhằm mục đích tìm ra nguyên nhân tiêu cực nhằm giúp các công ty đưa ra giải pháp để khắc phục chúng. Đề tài này sẽ giúp các nhà cung cấp dịch vụ xác định các yếu tố then chốt khiến khách hàng rời bỏ, từ đó điều chỉnh chiến lược kinh doanh, cải thiện chất lượng dịch vụ, gợi ý chính sách ưu đãi, dịch vụ hỗ trợ hoặc giải pháp công nghệ để giảm tỷ lệ khách hàng mất đi. Đối với khách hàng, đề tài có thể giúp khách hàng nâng cao trải nghiệm người dùng khi các công ty đã hủy bỏ dịch vụ. Đối với xã hội, đề tài này góp thêm một phần thúc đầy ngành dịch vụ bưu chính viễn thông phát triển bền vững.

Xuất phát từ những thực tiễn đó, đề tài “Các yếu tố ảnh hưởng đến quyết định ngưng sử dụng dịch vụ bưu chính viễn thông của khách hàng” ra đời nhằm mục đích tìm hiểu, đánh giá và phân tích các yếu tố có thể làm khách hàng rời bỏ dịch vụ nhằm giúp cho các công ty cải thiện dịch vụ và cũng giúp các khách hàng có thể tối ưu hóa được trải nghiệm dịch vụ sau khi các công ty thay đổi được chúng.

1.2 Mục tiêu nghiên cứu

Nghiên cứu này có mục tiêu là giúp cho các công ty cung cấp dịch vụ bưu chính viễn thông có thể có một cái nhìn tổng quan hơn về quá trình cung cấp dịch vụ của chính công ty đó, giúp cải thiện dịch vụ và doanh thu từ việc giảm thiểu tỷ lệ hủy dịch vụ.

1.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu ở đây là ba yếu tố trong việc đánh giá độ bền quan hệ khách hàng bao gồm: khả năng tiếp tục duy trì hợp đồng (Churn) và thời gian gắn bó thực tế (tenure) bên trong bộ dữ liệu Customer Churn Prediction.csv.

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu ở bài viết này là các phương pháp được sử dụng trong phân tích dữ liệu định tính bao gồm các loại hồi quy tuyến tính tổng quát cho các biến nhị phân, hồi quy Poisson, thống kê mô tả và các kiểm định có liên quan.

1.5 Bố cục của đề tài

Bố cục của đề tài được chia làm 5 phần như sau:

Chương 1: Tổng quan về vấn đề nghiên cứu

Phần này tác giả sẽ tiến hành trình bày tổng quan về vấn đề, mục tiêu, phương pháp và đối tượng mà bài nghiên cứu đề cập đến.

Chương 2: Tổng quan về mô hình nghiên cứu

Phần này tác giả sẽ khái quát các lý thuyết về những mô hình sẽ được sử dụng trong nghiên cứu bao gồm mô hình hồi quy cho biến đếm, mô hình tuyến tính tổng quán và các kiểm định có liên quan.

Chương 3: Tổng quan về dữ liệu và các biến nghiên cứu

Phần này là phần tác giả giới thiệu và tìm hiểu về dữ liệu nghiên cứu nhằm có được một góc nhìn sâu sắc về dữ liệu nghiên cứu để dễ dàng diễn đạt kết quả nghiên cứu.

Chương 4: Kết quả nghiên cứu

Phần này trình bày và giải thích kết quả sau khi chạy các mô hình hồi quy, từ đó xem xét ảnh hưởng của các biến độc lập lên biến phụ thuộc và đánh giá nó tốt hay xấu

Chương 5: Kết luận và khuyến nghị

Phần này sẽ tiến hành đưa ra những kết luận và khuyến nghị rút ra được từ kết quả nghiên cứu, thừa nhận những thiếu sót và trình bày hướng nghiên cứu tiếp theo.

CHƯƠNG 2: TỔNG QUAN VỀ MÔ HÌNH NGHIÊN CỨU

2.1 Tỷ số chênh (Odds Ratio) và rủi ro tương đối (Relative Risk)

Giả sử chúng ta có bảng ngẫu nhiên 2x2 như sau:

Thành công Thất bại Tổng thành công và thất bại
Nhóm 1 a b a+b
Nhóm 2 c d c+d
Tổng nhóm 1 và nhóm 2 a + c b+d

2.1.1 Tỷ số chênh (Odds Ratio)

Tỷ số chênh (Odds Ratio) là tỷ lệ giữa xác suất sự kiện quan tâm xảy ra. Tỷ lệ này thường được ước tính bằng tỷ lệ giữa số lần sự kiện quan tâm xảy ra (thành công) và số lần sự kiện đó không xảy ra (thất bại) (Bland và Altman, 2000).

Odds thành công của nhóm 1:

\[ \mathrm{Odds}_{1} = \frac{p_1}{1 - p_1} = \frac{a/(a+b)}{b/(a+b)} = \frac{a}{b} \]

Odds thành công của nhóm 2:

\[ \mathrm{Odds}_{2} = \frac{p_2}{1 - p_2} = \frac{c/(c+d)}{d/(c+d)} = \frac{c}{d} \]

Vậy khi đó tỷ số chênh Odds Ratio (OR) là:

\[ \mathrm{OR}=\frac{\mathrm{Odds}_{1}}{\mathrm{Odds}_{2}} \]

Giá trị OR luôn lớn hơn hoặc bằng 0, nếu OR > 1, khi đó odds của thành công ở nhóm 1 cao hơn nhóm 2 OR lần. Ngược lại nếu OR < 1 thì odds của thành công ở nhóm 1 thấp hơn nhóm 2 OR lần. Khi OR = 1, hai biến này sẽ độc lập với nha.

2.1.2 Rủi ro tương đối (Relative Risk)

Rủi ro tương đối được tính bằng cách chia xác suất xảy ra một sự kiện (thành công hoặc thất bại) trong nhóm 1 với xác suất xảy ra một sự kiện trong nhóm 2 (Tenny và Hoffman, 2017). Giá trị RR được tính bằng công thức:

\[ \mathrm{RR}=\frac{p_1}{p_2}=\frac{a/(a+b)}{c/(c+d)} \]

Cũng giống như OR, RR luôn lớn hơn hoặc bằng 0. Nếu RR > 1, khi đó nhóm 1 có tỷ lệ thành công cao hơn nhóm 2 RR lần. Ngược lại khi RR < 1 thì nhóm 1 có tỷ lệ thành công thấp hơn nhóm 2 RR lần. Khi RR = 1, khi đó không có sự khác biệt về tỷ lệ thành công.

2.2 Mô hình hồi quy tuyến tính GLMs

2.2.1 Tổng quan về mô hình hồi quy tuyến tính tổng quát GLMs

Các mô hình tuyến tính tổng quát (GLMs) giả định rằng các phản ứng đến từ một phân phối thuộc về một họ phân phối tổng quát hơn, và cũng cho phép các thành phần hệ thống tổng quát hơn (Dunn và Smyth, 2018).GLMs được phát triển bởi Nelder và Wedderburn vào năm 1972, đây là một mô hình mở rộng hơn so với mô hình hồi quy tuyến tính cổ điển do nó cung cấp một khung lý thuyết thống nhất để xử lý các loại biến phản hổi khác nhau, bao gồm cả biến định tính và biến đếm.

GLMs được định nghĩa bởi ba thành phần bao gồm: thành phần ngẫu nhiên, thành phần hệ thống và hàm liên kết. Thành phần ngẫu nhiên (Random Component) chỉ định phân phối xác suất cho biến phụ thuộc Y với điều kiện các biến độc lập. Phân phối này phải thuộc họ phân phối bao gồm những phân phối như phân phối chuẩn, nhị thức, Gamma,… Và thành phần này cũng xác định cấu trúc phương sai của Y. Thành phần hệ thống (Systematic Component) là một tổ hợp tuyến tính của các biến độc lập, ký hiệu là \(\eta\). \(\eta = \beta_0 +\beta_1X_1+...+\beta_kX_k\). Cuối cùng là hàm liên kết (link function) là một hàm kết nối giá trị của biến phụ thuộc với thành phần hệ thống. Trong GLMs, để hồi quy cho biến phụ thuộc là biến nhị phân, ta có ba hàm liên kết chính bao gồm hàm liên kết Logit, Probit và Complementary Log-log (cloglog).

Hàm liên kết Logit

\[ g(\mu)=log(\frac{\mu}{1-\mu}) \]

  • \(\eta = logit(\mu)\)

  • \(\mu\) là xác suất, nên \(\mu \in (0,1)\). Hàm logit biến đổi một giá trị trong khoảng \((0,1)\) thành một giá trị trong khoảng \((-\infty,+\infty)\).

  • Hàm ngược: \(\mu = \frac{exp(\eta)}{1+exp(\eta)}\)

Hàm liên kết Probit

\[ g(\mu)=\Phi^{-1}(\mu) \]

  • \(\Phi^{-1}\) là hàm ngược của phân phối tích lũy của phân phối chuẩn tắc N(0,1).

  • Probit cũng biến đối \(\mu \in (0,1)\) thành \(\eta \in (-\infty,+\infty)\).

Hàm liên kết Complementary Log-log

\[ g(\mu) = log(-log(1-\mu)) \]

  • Hàm này cũng biến đổi \(\mu \in (0,1)\) thành \(\eta \in (-\infty,+\infty)\) nhưng nó bất đối xứng.

  • Thường được sử dụng khi xác suất một sự kiện tăng rất nhanh từ 0 sau đó tiệm cận 1 một cách chậm hơn (hoặc ngược lại).

Khi so sánh các mô hình để lựa chọn ra mô hình tốt nhất, ta có thể sử dụng các tiêu chí thông tin bao gồm AIC và BIC. Nếu AIC và BIC là một giá trị nhỏ, nghĩa là mô hình đó được coi là tốt.

2.3 Mô hình hồi quy cho biến đếm

Ngoài các mô hình cho các biến định tính, một kiểu biến nữa cũng rất quan trọng trong các hoạt động kinh tế và kinh doanh, đó là biến thuộc kiểu dữ liệu đếm. Đặc điểm của kiểu dữ liệu này là các số nguyên không âm (0, 1, 2,…). Tuy đây là dữ liệu thuần về số, nhưng việc áp dụng phương pháp hồi quy tuyến tính lên biến đếm sẽ gây ra hiện tượng dự báo sai lệch ra giá trị âm. Khi đó sẽ vi phạm giả thuyết rằng biến phụ thuộc lại là một tập số nguyên không âm. Vì thế ta cần một loại mô hình chuyên dùng cho loại dữ liệu này, là mô hình hồi quy Poisson.

Tương tự, hồi quy Poisson cũng có ba thành phần chính bao gồm thành phần ngẫu nhiên, thành phần hệ thống và hàm liên kết giống như GLMs vì Poisson vốn là một thành viên của GLMs. Tuy nhiên, có một vài khác biệt như biến phụ thuộc Y sẽ tuân theo phân phối Poisson (\(Y ~ Poisson(\mu)\)), còn hàm liên kết sẽ sử dụng hàm liên kết log (\(g(\mu)=log(\mu)\)). Khi đó ta có thành phần hệ thống sẽ là \(log(\mu)=\beta_0 + \beta_1X_1+...+\beta_kX_k\).

Trong thực tế, phương sai thường lớn hơn kỳ vọng (\(Var(Y) > E(Y)\)), đây được gọi là hiện tượng quá phân tán. Hiện tượng quá phân tán khiến mô hình Poisson tuy ước lượng hệ số không chệch, nhưng sẽ bị ước tính thấp hơn thực tế. Điều này sẽ khiến các kiểm định thống kê trở nên quá tốt. Để phát hiện hiện tượng quá phân tán, ta sử dụng kiểm định với giả thuyết gốc là không có quá phân tán và giả thuyết đối là có quá phân tán. Nếu p_value nhỏ hơn mức ý nghĩa, khi đó ta bác bỏ giả thuyết gốc, nghĩa là có hiện tượng quá phân tán. Nếu mô hình gặp phải hiện tượng quá phân tán, ta có thể thay thế bằng hồi quy Negative Binomial (NB). Ý tưởng của mô hình này là cho phép phương sai lớn hơn kỳ vọng, và vì thế đây là một công cụ thay thế mạng mẽ và phổ biến nhất. Gọi \(\theta\) là tham số phân tán, ta có phương sai của hồi quy NB là \(Var(Y)=\mu +\frac{\mu^2}{\theta}\). Khi \(\theta \to \infty\), khi đó mô hình NB sẽ hội tụ về mô hình Poisson.

2.4 Các kiểm định

2.4.1 Ước lượng khoảng và kiểm định giả thuyết cho tỷ lệ

  • Ước lượng khoảng tin cậy cho tỷ lệ

\[ \hat{p} \pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Trong đó \(\hat{p}=\frac{X}{n}\) với X là phần tử được xét và n là tổng kích thước mẫu.

  • Kiểm định giả thuyết chi tỷ lệ

\[ Z = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \]

Với giả thuyết gốc là không có sự khác biệt giữa tỷ lệ giả định và tỷ lệ thức tế, giả thuyết đối là có sự khác biệt giữa tỷ lệ giả định và tỷ lệ thực tế. Nếu giá trị p_value nhỏ hơn mức ý nghĩa, khi đó ta bác bỏ H0, nghĩa là có sự khác biệt giữa tỷ lệ giả định và tỷ lệ thực tế và ngược lại.

2.4.2 Kiểm định Chi-squared

Kiểm định Chi-squared là kiểm định với mục đích nhằm xem xét xem hai biến có mối liên hệ với nhau hay không. Với giả thuyết gốc là hai biến không có mối quan hệ (độc lập) với nhau và giả thuyết đối là hai biến có mối quan hệ với nhau. Nếu giá trị p_value nhỏ hơn mức ý nghĩa, khi đó ta bác bỏ H0, nghĩa là hai biến có mối quan hệ với nhau và ngược lại. Công thức của kiểm định Chi-squared:

\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, \quad \text{với} \quad E_{ij} = \frac{(\text{tổng dòng } i)(\text{tổng cột } j)}{\text{tổng toàn bảng}}. \]

Trong đó:

  • \(O_{ij}\) là tần số quan sát tại ô (i, j)
  • \(E_{ij}\) là tần số kỳ vọng tại ô (i, j)
  • r là số dòng của bảng
  • c là số cột của hàng

CHƯƠNG 3: TỔNG QUAN VỀ DỮ LIỆU NGHIÊN CỨU

3.1 Tìm hiểu và chuẩn bị dữ liệu

Nhập dữ liệu

ccp <- read.csv("D:/BAI TAP/PTDLDT/Customer-Churn-Prediction.csv", header = TRUE)

Cấu trúc của bộ dữ liệu

str(ccp)
## 'data.frame':    7043 obs. of  10 variables:
##  $ customerID      : chr  "7590-VHVEG" "5575-GNVDE" "3668-QPYBK" "7795-CFOCW" ...
##  $ gender          : chr  "Female" "Male" "Male" "Male" ...
##  $ Dependents      : chr  "No" "No" "No" "No" ...
##  $ tenure          : int  1 34 2 45 2 8 22 10 28 62 ...
##  $ PhoneService    : chr  "No" "Yes" "Yes" "No" ...
##  $ InternetService : chr  "DSL" "DSL" "DSL" "DSL" ...
##  $ PaperlessBilling: chr  "Yes" "No" "Yes" "No" ...
##  $ PaymentMethod   : chr  "Electronic check" "Mailed check" "Mailed check" "Bank transfer (automatic)" ...
##  $ MonthlyCharges  : num  29.9 57 53.9 42.3 70.7 ...
##  $ Churn           : chr  "No" "No" "Yes" "No" ...

Customer Churn Prediction.csv là bộ dữ liệu khảo sát quyết định hủy sử dụng dịch vụ của khách hàng của một công ty cung cấp dịch vụ bưu chính viễn thông. Bộ dữ liệu này có 7043 quan sát và 10 biến lần lượt như sau:

  • customerID: ID của khách hàng khảo sát

  • gender: Giới tính của khách hàng khảo sát

  • Dependents: Khách hàng có độc lập tài chính không

  • tenure: Số tháng mà khách hàng đã gắn bó với dịch vụ

  • PhoneService: Khách hàng có đăng ký dịch vụ điện thoại không

  • InternetService: Loại dịch vụ Internet mà khách hàng đăng ký

  • PaperlessBilling: Khách hàng có chọn hóa đơn điện tử không

  • PaymentMethod: Phương thức thanh toán của khách hàng

  • MonthlyCharges: Số tiền khách hàng phải trả hàng tháng

  • Churn: Quyết định rời bỏ dịch vụ của khách hàng

Kiểm tra dữ liệu bị thiếu

sum(is.na(ccp))
## [1] 0

Kết quả cho thấy bộ dữ liệu này không có dữ liệu nào bị thiếu. Vì thế bộ dữ liệu đã sẵn sàng để tiến hành phân tích.

Chuyển về các biến định tính về định dạng factor

# Chuyển phương thức thanh toán thành tự động và thủ công
ccp$PaymentMethod <- ifelse(ccp$PaymentMethod %in% c("Mailed check","Electronic check"), "Manual", "Automatic")
# Chuyển tất cả các biến về "factor"
ccp <- ccp %>% mutate(across(c(gender,Dependents,PhoneService,InternetService,PaperlessBilling,PaymentMethod,Churn), as.factor))

Trong hàm glm, việc chuyển các biến về factor là một công cụ đơn giản mà hiệu quả do việc các biến thuộc phân loại này sẽ được glm tự động mã hóa thành biến giả mà không cần phải tác thêm bất cứ bước nào, điều này khiến việc phân tích dữ liệu trở nên đỡ rắc rối hơn. Ngoài ra, việc đưa các biến về factor còn giúp hạn chế lỗi trong quá trình ước lượng các mô hình hồi quy.

levels(ccp$Churn)
## [1] "No"  "Yes"

Ta cần kiểm tra mức tham chiếu của biến Churn để xem xét rằng đâu là mức tham chiếu ta cần. Ở đây là giá trị No sẽ là mức tham chiếu, tương đương với ý nghĩa rằng biến phụ thuộc chính ở đây chính là số khách hàng chọn tiếp tục ở lại với dịch vụ.

3.2 Phân tích và mô tả các biến định lượng

ccp1 <- ccp[, c("tenure","MonthlyCharges")]
desccp <- describe(ccp1)[, c("n","mean","sd","median","min","max","skew","kurtosis")]
colnames(desccp) <- c("Số quan sát","Trung bình","Độ lệch chuẩn","Trung vị","Giá trị nhỏ nhất","Giá trị lớn nhất","Hệ số lệch","Hệ số nhọn")
desccp <- t(round(desccp,2))
kable(desccp, align = 'c')
tenure MonthlyCharges
Số quan sát 7043.00 7043.00
Trung bình 32.37 64.76
Độ lệch chuẩn 24.56 30.09
Trung vị 29.00 70.35
Giá trị nhỏ nhất 0.00 18.25
Giá trị lớn nhất 72.00 118.75
Hệ số lệch 0.24 -0.22
Hệ số nhọn -1.39 -1.26

Biến tenure có 7032 quan sát với giá trị dao động từ 1 đến 72 tháng, trung bình là 32.42 tháng và trung vị là 29 tháng. Sự chênh lệch nhỏ giữa trung bình và trung vị cho thấy phân phối của biến khá cân đối. Độ lệch chuẩn là 24.55 cho thấy mức độ phân tán vừa phải. Hệ số lệch là 0.24 và hệ số nhọn là -1.39 cho thấy phân phối có xu hướng lệch phải nhẹ và bẹt hơn so với phân phối chuẩn, tức là có ít giá trị cực trị hơn.

Biến MonthlyCharges cũng có 7032 quan sát, với giá trị dao động từ 18.25 đến 118.75. Trung bình là 64.80 trong khi trung vị là 70.35, cho thấy phân phối có xu hướng lệch trái nhẹ. Độ lệch chuẩn là 30.09, phản ánh mức độ biến động ở mức trung bình. Hệ số lệch -0.22 và hệ số nhọn -1.26 cho thấy phân phối này tương đối bẹt và hơi lệch về bên trái, tức là có một số khách hàng trả phí thấp hơn mức trung bình.

3.3 Phân tích và mô tả các biến định tính

3.3.1 Biến Gender

# Lập bảng tần số
gender_f <- table(ccp$gender)
# Lập bảng tần suất
gender_p <- prop.table(gender_f)*100
# Kết hợp thành một bảng
gender <- data.frame(
  Category = names(gender_f),
  Frequency = as.vector(gender_f),
  Percentage = round(as.vector(gender_p), 2)
)
kable(gender, align = "c")
Category Frequency Percentage
Female 3488 49.52
Male 3555 50.48
ggplot(data = gender, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = 'Hình 1: Giới tính của khách hàng') +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))  

Nhận xét: Ta thấy với mẫu nghiên cứu bao gồm 7032 quan sát, giới tính nữ là khoảng 3483 người, chiếm khoảng 49.53% và nam là 3549 người, chiếm tỷ lệ khoảng 50.47%.

3.3.2 Biến PhoneService

# Lập bảng tần số
ps_f <- table(ccp$PhoneService)
# Lập bảng tần suất
ps_p <- prop.table(ps_f)*100
# Kết hợp thành một bảng
ps <- data.frame(
  Category = names(ps_f),
  Frequency = as.vector(ps_f),
  Percentage = round(as.vector(ps_p), 2)
)
kable(ps, align = "c")
Category Frequency Percentage
No 682 9.68
Yes 6361 90.32
ggplot(data = ps, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = 'Hình 2: Dịch vụ điện thoại của khách hàng') +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))

Nhận xét: Với tỷ lệ áp đảo là 90% và số khách hàng sử dụng dịch vụ điện thoại là 6352 người và chỉ có 10% tương đương với 680 khách hàng không đăng ký dịch vụ điện thoại.

3.3.3 Biến InternetService

# Lập bảng tần số
is_f <- table(ccp$InternetService)
# Lập bảng tần suất
is_p <- prop.table(is_f)*100
# Kết hợp thành một bảng
is <- data.frame(
  Category = names(is_f),
  Frequency = as.vector(is_f),
  Percentage = round(as.vector(is_p), 2)
)
kable(is, align = "c")
Category Frequency Percentage
DSL 2421 34.37
Fiber optic 3096 43.96
No 1526 21.67
ggplot(data = is, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = 'Hình 3: Dịch vụ Internet của khách hàng') +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))  

Nhận xét: Ta thấy tỷ lệ khách hàng sử dụng Fiber optic chiếm rất cao, khoảng 44% tương đương với 3096 khách hàng. Tiếp đến là DSL với 34.4%, tương đương với 2416 khách hàng và cuối cùng là số khách hàng không sử dụng internet chiếm tỷ lệ 21.6% tương đương với 1520 khách hàng.

3.3.4 Biến PaperlessBilling

# Lập bảng tần số
pb_f <- table(ccp$PaperlessBilling)
# Lập bảng tần suất
pb_p <- prop.table(pb_f)*100
# Kết hợp thành một bảng
pb <- data.frame(
  Category = names(pb_f),
  Frequency = as.vector(pb_f),
  Percentage = round(as.vector(pb_p), 2)
)
kable(pb, align = "c")
Category Frequency Percentage
No 2872 40.78
Yes 4171 59.22
ggplot(data = pb, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = 'Hình 4: Hóa đơn điện tử của khách hàng') +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))  

Nhận xét: Số khách hàng sử dụng hóa đơn điện tử chiếm 59% tương đương với khoảng 4168 khách hàng. Còn lại có 41% khách hàng không sử dụng hóa đơn điện tử tương đương với khoảng 2864 khách hàng.

3.3.5 Biến PaymentMethod

# Lập bảng tần số
pm_f <- table(ccp$PaymentMethod)
# Lập bảng tần suất
pm_p <- prop.table(pm_f)*100
# Kết hợp thành một bảng
pm <- data.frame(
  Category = names(pm_f),
  Frequency = as.vector(pm_f),
  Percentage = round(as.vector(pm_p), 2)
)
kable(pm, align = "c")
Category Frequency Percentage
Automatic 3066 43.53
Manual 3977 56.47
ggplot(data = pm, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = "Hình 5: Phương thức thanh toán của khách hàng") +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))  

Nhận xét: Số lượng khách hàng sử dụng phương thức thanh toán thủ công (Electronic check, Mailed check) chiếm tỷ lệ cao hơn chiếm 56% với khoảng 3969 khách hàng. Số lượng khách hàng sử dụng phương thức tự động (Credit card, Bank transfer) chiếm tỷ lệ ít hơn, khoảng 44% tương đương với 3063 khách hàng.

3.3.6 Biến Churn

# Lập bảng tần số
ch_f <- table(ccp$Churn)
# Lập bảng tần suất
ch_p <- prop.table(ch_f)*100
# Kết hợp thành một bảng
churn <- data.frame(
  Category = names(ch_f),
  Frequency = as.vector(ch_f),
  Percentage = round(as.vector(ch_p), 2)
)
kable(churn,align = "c")
Category Frequency Percentage
No 5174 73.46
Yes 1869 26.54
ggplot(data = churn, aes(x = '', y = Frequency, fill = Category)) +
  geom_col() +
  coord_polar('y') +
  geom_text(aes(label = percent(Frequency/length(ccp$gender))), position = position_stack(vjust = 0.5)) +
  labs(title = 'Hình 6: Quyết định rời bỏ của khách hàng') +
  scale_fill_brewer(palette = "Set3") +
  theme(plot.title = element_text(hjust = 0.5, face = 'bold'))  

Nhận xét: Số lượng khách hàng chọn tiếp tục sử dụng dịch vụ là 73%, khoảng 5174 khách hàng và số khách hàng chọn ngưng sử dụng dịch vụ chiếm 27%, khoảng 1869 khách hàng. Điều này cho thấy rằng số khách hàng đều chọn tiếp tục sử dụng dịch vụ internet chiếm ưu thế so với số khách hàng không sử dụng dịch vụ.

CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU

4.1 Kiểm định và ước lượng tỷ lệ khách hàng rời bỏ dịch vụ

prop.test(x = 1869, n = 7032, p = 0.27, alternative = "two.sided", conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  1869 out of 7032, null probability 0.27
## X-squared = 0.61265, df = 1, p-value = 0.4338
## alternative hypothesis: true p is not equal to 0.27
## 95 percent confidence interval:
##  0.2555198 0.2763077
## sample estimates:
##        p 
## 0.265785

Đặt giả thuyết: \[ \left\{ \begin{array}{ll} H_0: & \text{Tỷ lệ thực số khách hàng chọn dừng sử dụng dịch vụ } = 0.27 \\ H_1: & \text{Tỷ lệ thực số khách hàng chọn dừng sử dụng dịch vụ } \ne 0.27 \end{array} \right. \]

Ta thấy rằng p_value = 0.2169 > 5%, nghĩa là không có đủ cơ sở để bác bỏ \(H_0\). Nghĩa là thực tế tỷ lệ số khách hàng chọn dừng sử dụng dịch vụ thấp hơn 27%, ngoài ra, tỷ lệ khách hàng chọn dừng sử dụng dịch vụ còn được ước lượng là nằm trong khoảng 25.5 - 27.6%.

4.2 Kiểm định mối quan hệ giữa các biến độc lập và biến phụ thuộc

4.2.1 Biến độc lập định tính

test_results <- list(
  chisq.test(table(ccp$gender,ccp$Churn)),
  chisq.test(table(ccp$PhoneService,ccp$Churn)),
  chisq.test(table(ccp$InternetService,ccp$Churn)),
  chisq.test(table(ccp$PaperlessBilling,ccp$Churn)),
  chisq.test(table(ccp$PaymentMethod,ccp$Churn))
)
dfts <- data.frame(
  Variable = c("Gender","Phone Service","Internet Service","Paperless Billing","Payment Method"),
  Chi_Square = sapply(test_results, function(x) unname(x$statistic)),
  p_value = sapply(test_results, function(x) round(x$p.value, 4))
)
kable(dfts, align = "c")
Variable Chi_Square p_value
Gender 0.4840829 0.4866
Phone Service 0.9150330 0.3388
Internet Service 732.3095897 0.0000
Paperless Billing 258.2776491 0.0000
Payment Method 309.3485572 0.0000

Đặt giả thuyết: \[ \left\{ \begin{array}{ll} H_0: & \text{Không có mối quan hệ giữa hai biến phân loại } \\ H_1: & \text{Có tồn tại mối quan hệ giữa hai biến phân loại } \end{array} \right. \]

Từ kết quả kiểm định, ta thấy biến GenderPhoneService có giá trị p_value > 5%, vì thế ta chưa có đủ cơ sở để bác bỏ H0, khi đó không có mối quan hệ nào giữa GenderPhoneService đến Churn. Ngược lại, với các biến InternetService, Contract, PaperlessBillingPaymentMethod, ta thấy giá trị p_value < 5%, vì thế ta bác bỏ H0, khi đó có tồn tại mối quan hệ giữa InternetService, Contract, PaperlessBillingPaymentMethod đến Churn.

4.2.2 Biến độc lập định lượng

Với các biến độc lập định lượng, việc kiểm định mối quan hệ giữa hai biến có thể được thực hiện bằng cách chia nhóm cho các biến định lượng để chúng trở thành biến định tính. Ở đây, tác giả sử dụng ba phân vị để chia thành 3 nhóm để thể hiện được rõ hơn vì nó dựa trên phân phối thực tế của dữ liệu. Bên dưới là kết quả kiểm định Chi-squared sau khi đã phân nhóm.

# Chia nhóm cho biến tenure
ccp$tenure_grd <- cut(ccp$tenure, breaks = quantile(ccp$tenure, probs = c(0, 1/3, 2/3, 1)),
                      include.lowest = TRUE,
                      labels = c("New","Mid","Old"))
# Chia nhóm cho biến MonthlyCharges
ccp$MonthlyCharges_grd <- cut(ccp$MonthlyCharges, breaks = quantile(ccp$MonthlyCharges, probs = c(0, 1/3, 2/3, 1)),
                      include.lowest = TRUE,
                      labels = c("Low","Medium","High"))
test_results2 <- list(
  chisq.test(table(ccp$tenure_grd,ccp$Churn)),
  chisq.test(table(ccp$MonthlyCharges_grd,ccp$Churn))
)
dfts2 <- data.frame(
  Variable = c("tenure","MonthlyCharges"),
  Chi_Square = sapply(test_results2, function(x) unname(x$statistic)),
  p_value = sapply(test_results2, function(x) round(x$p.value, 4))
)
kable(dfts2, align = "c")
Variable Chi_Square p_value
tenure 828.9021 0
MonthlyCharges 217.8259 0

Đặt giả thuyết: \[ \left\{ \begin{array}{ll} H_0: & \text{Không có mối quan hệ giữa hai biến phân loại } \\ H_1: & \text{Có tồn tại mối quan hệ giữa hai biến phân loại } \end{array} \right. \]

Từ kết quả kiểm định, ta thấy rằng giá trị p_value của hai kiểm định cho biến tenureMonthlyCharges đều bé hơn 5%. Vì thế ta bác bỏ H0, khi đó có tồn tại mối quan hệ giữa hai biến tenureMonthlyCharges đến biến phụ thuộc Churn.

4.3 Rủi ro tương đối

InternetService và Churn

riskratio(table(ccp$InternetService,ccp$Churn))
## $data
##              
##                 No  Yes Total
##   DSL         1962  459  2421
##   Fiber optic 1799 1297  3096
##   No          1413  113  1526
##   Total       5174 1869  7043
## 
## $measure
##              risk ratio with 95% C.I.
##                estimate     lower     upper
##   DSL         1.0000000        NA        NA
##   Fiber optic 2.2096380 2.0149902 2.4230887
##   No          0.3905764 0.3211862 0.4749579
## 
## $p.value
##              two-sided
##               midp.exact fisher.exact   chi.square
##   DSL                 NA           NA           NA
##   Fiber optic          0 5.462658e-76 1.352046e-73
##   No                   0 1.775062e-25 9.986103e-24
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Kết quả rủi ro tương đối cho thấy ở nhóm sử dụng Fiber optic có tỷ lệ tiếp tục ở lại với dịch vụ cao hơn nhóm tham chiếu DSL là 2.2 lần (nằm trong khoảng 2.015 - 2.423 ở mức ý nghĩa 5%). Nhóm không sử dụng Internet có tỷ lệ tiếp tục ở lại với dịch vụ thấp hơn DSL 0.39 lần (nằm trong khoảng 0.32 - 0.475 với mức ý nghĩa 5%). Giá trị p_value từ kiểm định cũng cho thấy được rằng RR là đáng tin cậy.

PaperlessBilling và Churn

riskratio(table(ccp$PaperlessBilling,ccp$Churn))
## $data
##        
##           No  Yes Total
##   No    2403  469  2872
##   Yes   2771 1400  4171
##   Total 5174 1869  7043
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate    lower    upper
##   No  1.000000       NA       NA
##   Yes 2.055415 1.872608 2.256067
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact   chi.square
##   No          NA           NA           NA
##   Yes          0 1.181267e-60 2.614597e-58
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Các khách hàng chọn thanh toán bằng hóa đơn điện tử sẽ có tỷ lệ ở lại cao hơn các khách hàng không chọn hóa đơn điện tử 2.05 lần và nằm trong khoảng 1.87 - 2.26 với mức ý nghĩa 5%. Giá trị p_value từ kiểm định cũng cho thấy được rằng RR là đáng tin cậy.

PaymentMethod và Churn

riskratio(table(ccp$PaymentMethod,ccp$Churn))
## $data
##            
##               No  Yes Total
##   Automatic 2576  490  3066
##   Manual    2598 1379  3977
##   Total     5174 1869  7043
## 
## $measure
##            risk ratio with 95% C.I.
##             estimate    lower    upper
##   Automatic 1.000000       NA       NA
##   Manual    2.169625 1.979545 2.377957
## 
## $p.value
##            two-sided
##             midp.exact fisher.exact   chi.square
##   Automatic         NA           NA           NA
##   Manual             0 7.443372e-72 1.872491e-69
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Các khách hàng sử dụng phương thức thanh toán là cổ điển cũng có tỷ lệ ở lại dịch vụ cao hơn các khách hàng sử dụng phương thức thanh toán tự động và cao gấp 2.17 lần, nằm trong khoảng 1.98 - 2.38 ở mức ý nghĩa 5%. Giá trị p_value từ kiểm định cũng cho thấy được rằng RR là đáng tin cậy.

4.4 Tỷ số chênh

InternetService và Churn

oddsratio(table(ccp$InternetService,ccp$Churn))
## $data
##              
##                 No  Yes Total
##   DSL         1962  459  2421
##   Fiber optic 1799 1297  3096
##   No          1413  113  1526
##   Total       5174 1869  7043
## 
## $measure
##              odds ratio with 95% C.I.
##                estimate     lower     upper
##   DSL         1.0000000        NA        NA
##   Fiber optic 3.0805710 2.7224910 3.4904113
##   No          0.3422587 0.2743666 0.4236615
## 
## $p.value
##              two-sided
##               midp.exact fisher.exact   chi.square
##   DSL                 NA           NA           NA
##   Fiber optic          0 5.462658e-76 1.352046e-73
##   No                   0 1.775062e-25 9.986103e-24
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết quả cho thấy rằng những người sử dụng dịch vụ Fiber optic có odds của việc tiếp tục sử dụng dịch vụ cao hơn DSL đến 3.08 lần. Còn những khách hàng không sử dụng Internet có odds của việc tiếp tục sử dụng dịch vụ thấp hơn DSL 0.34 lần. Giá trị p_value cho kiểm định hai phía của odds-ratio cũng cho thấy được giá trị odds hoàn toàn đáng tin cậy.

PaperlessBilling và Churn

oddsratio(table(ccp$PaperlessBilling,ccp$Churn))
## $data
##        
##           No  Yes Total
##   No    2403  469  2872
##   Yes   2771 1400  4171
##   Total 5174 1869  7043
## 
## $measure
##      odds ratio with 95% C.I.
##       estimate    lower    upper
##   No  1.000000       NA       NA
##   Yes 2.587832 2.301395 2.913968
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact   chi.square
##   No          NA           NA           NA
##   Yes          0 1.181267e-60 2.614597e-58
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Các khách hàng sử dụng hóa đơn điện tử có odds tiếp tục sử dụng dịch vụ cao hơn không sử dụng hóa đơn điện tử là 2.59 lần và nằm trong khoange 2.301 - 2.914 ở mức ý nghĩa 5%. Giá trị p_value cho kiểm định hai phía của odds-ratio cũng cho thấy được giá trị odds hoàn toàn đáng tin cậy.

PaymentMethod và Churn

oddsratio(table(ccp$PaymentMethod,ccp$Churn))
## $data
##            
##               No  Yes Total
##   Automatic 2576  490  3066
##   Manual    2598 1379  3977
##   Total     5174 1869  7043
## 
## $measure
##            odds ratio with 95% C.I.
##             estimate    lower   upper
##   Automatic 1.000000       NA      NA
##   Manual    2.789571 2.484107 3.13657
## 
## $p.value
##            two-sided
##             midp.exact fisher.exact   chi.square
##   Automatic         NA           NA           NA
##   Manual             0 7.443372e-72 1.872491e-69
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Các khách hàng sử dụng phương thức thanh toán là thủ công có odds tiếp tục dùng dịch vụ cao hơn các khách hàng sử dụng phườn thức thanh toán tự động là 2.79 lần và nằm trong khoảng 2.484 - 3.137 ở mức ý nghĩa 5%. Giá trị p_value cho kiểm định hai phía của odds-ratio cũng cho thấy được giá trị odds hoàn toàn đáng tin cậy.

4.5 Biến phụ thuộc Churn

4.5.3 Hàm liên kết Logit

Kết quả hồi quy

logit <- glm(Churn ~  Dependents + PhoneService + InternetService + PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp, family = binomial(link = "logit"))
summary(logit)
## 
## Call:
## glm(formula = Churn ~ Dependents + PhoneService + InternetService + 
##     PaperlessBilling + PaymentMethod + MonthlyCharges, family = binomial(link = "logit"), 
##     data = ccp)
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                -0.233312   0.156418  -1.492  0.13580    
## DependentsYes              -0.487147   0.074030  -6.580 4.69e-11 ***
## PhoneServiceYes             0.360165   0.126805   2.840  0.00451 ** 
## InternetServiceFiber optic  2.258407   0.114856  19.663  < 2e-16 ***
## InternetServiceNo          -2.372461   0.158167 -15.000  < 2e-16 ***
## PaperlessBillingYes         0.501230   0.068758   7.290 3.11e-13 ***
## PaymentMethodManual         0.838976   0.064930  12.921  < 2e-16 ***
## MonthlyCharges             -0.038830   0.002706 -14.347  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 8150.1  on 7042  degrees of freedom
## Residual deviance: 6709.7  on 7035  degrees of freedom
## AIC: 6725.7
## 
## Number of Fisher Scoring iterations: 5

Bên trên là kết quả hồi quy logistic của biến phụ thuộc ChurnYes. Trong đó ta có thể thấy được:

  • DependentsYes với hệ số hồi quy là -0.487147 và có ý nghĩa thống kê ở mức ý nghĩa rất cao là 0.1% cho thấy khách hàng không độc lập tài chính (DependentsYes) có log-odds (log của tỷ lệ giữa khách hàng chọn tiếp tục sử dụng dịch vụ và khách hàng chọn dừng sử dụng dịch vụ) tiếp tục dịch vụ thấp hơn 0.487147 lần so với khách hàng độc lập tài chính (DependentsNo)

  • PhoneServiceYes với hệ số hồi quy là 0.360165 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ điện thoại có log-odds tiếp tục dịch vụ cao hơn 0.360165 lần so với khách hàng không đăng ký dịch vụ điện thoại.

  • InternetServiceFiber optic với hệ số hồi quy là 2.258407 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử dụng Fiber optic có log-odds tiếp tục dịch vụ cao hơn 2.258407 làn so với khách hàng sử dụng dịch vụ DSL (InternetServiceDSL).

  • InternetServiceNo với hệ số hồi quy là -2.372461 và có ý nghĩa thống kê ở mức ý nghĩa 1% cho thấy rằng khách hàng không có dịch vụ internet có log-odds tiếp tục dịch vụ thấp hơn 2.372461 so với khách hàng sử dụng dịch vụ DSL (InternetServiceDSL).

  • PaperlessBillingYes với hệ số hồi quy là 0.501230 và có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn điện tử có log-odds tiếp tục dịch vụ cao hơn 0.501230 so với khách hàng sử dụng hóa đơn điện tử.

  • PaymentMethodManual với hệ số hồi quy là 0.838976 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng phương thức thanh toán thủ công (Electronic check, Mailed check) có log-odds tiếp tục dịch vụ cao hơn 0.838976 so với khách hàng sử dụng phương thức thanh toán tự động. (PaymentMethodAutomatic).

  • MonthlyCharges với hệ số hồi quy là -0.038830 cho thấy với mỗi đơn vị tăng của phí hàng tháng, log-odds tiếp tục dịch vụ giảm 0.038830 và giá trị này cũng có ý nghĩa thống kê ở mức ý nghĩa 0%.

  • Hệ số chặn (Intercept) với giá trị là -0.233312 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy log-odds của ChurnNo là -0.233312 khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.

4.5.4 Hàm liên kết Probit

Kết quả hồi quy

probit <- glm(Churn ~ Dependents + PhoneService + InternetService + PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp, family = binomial(link = "probit"))
summary(probit)
## 
## Call:
## glm(formula = Churn ~ Dependents + PhoneService + InternetService + 
##     PaperlessBilling + PaymentMethod + MonthlyCharges, family = binomial(link = "probit"), 
##     data = ccp)
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                -0.121858   0.092171  -1.322  0.18614    
## DependentsYes              -0.281301   0.041860  -6.720 1.82e-11 ***
## PhoneServiceYes             0.236311   0.073770   3.203  0.00136 ** 
## InternetServiceFiber optic  1.344143   0.065819  20.422  < 2e-16 ***
## InternetServiceNo          -1.374544   0.088082 -15.605  < 2e-16 ***
## PaperlessBillingYes         0.281439   0.039432   7.137 9.52e-13 ***
## PaymentMethodManual         0.480012   0.037299  12.869  < 2e-16 ***
## MonthlyCharges             -0.023319   0.001583 -14.729  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 8150.1  on 7042  degrees of freedom
## Residual deviance: 6706.9  on 7035  degrees of freedom
## AIC: 6722.9
## 
## Number of Fisher Scoring iterations: 5

Bên trên là kết quả hồi quy probit của biến phụ thuộc ChurnYes (Khả năng khách hàng ngưng sử dụng dịch vụ). Trong đó ta có thể thấy được:

  • DependentsYes với hệ số hồi quy là -0.281301 và có ý nghĩa thống kê ở mức ý nghĩa ở mức 0.1% cho thấy khách hàng không độc lập tài chính (DependentsYes) có khả năng tiếp tục dịch vụ thấp hơn -0.281301 lần so với khách hàng độc lập tài chính (DependentsNo)

  • PhoneServiceYes với hệ số hồi quy là 0.236311 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ điện thoại có khả năng tiếp tục dịch vụ cao hơn 0.236311 lần so với khách hàng không đăng ký dịch vụ điện thoại.

  • InternetServiceFiber optic với hệ số hồi quy là 1.344143 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử dụng Fiber optic có khả năng tiếp tục dịch vụ cao hơn 1.344143 lần so với khách hàng sử dụng dịch vụ DSL (InternetServiceDSL).

  • InternetServiceNo với hệ số hồi quy là -1.374544 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy rằng khách hàng không có dịch vụ internet có khả năng tiếp tục sử dụng dịch vụ thấp hơn 1.374544 so với khách hàng sử dụng dịch vụ DSL (InternetServiceDSL).

  • PaperlessBillingYes với hệ số hồi quy là 0.281439 và có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn điện tử có khả năng tiếp tục dịch vụ cao hơn 0.281439 lần so với khách hàng sử dụng hóa đơn điện tử.

  • PaymentMethodManual với hệ số hồi quy là 0.480012 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng phương thức thanh toán thủ công (Electronic check, Mailed check) có khả năng tiếp tục dịch vụ cao hơn 0.480012 lần so với khách hàng sử dụng phương thức thanh toán tự động. (PaymentMethodAutomatic).

  • MonthlyCharges với hệ số hồi quy là -0.023319 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy với mỗi đơn vị tăng của phí hàng tháng, khả năng tiếp tục dịch vụ giảm -0.023319.

  • Hệ số chặn (Intercept) với giá trị là -0.121858 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khả năng một khách hàng tiếp tục dịch vụ (ChurnNo) thấp hơn 0.121858 lần so với chọn không tiếp tục dịch vụ khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.

4.5.5 Hàm liên kết Complementary Log-log

Kết quả hồi quy

cloglog <- glm(Churn ~  Dependents + PhoneService + InternetService + PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp, family = binomial(link = "cloglog"))
summary(cloglog)
## 
## Call:
## glm(formula = Churn ~ Dependents + PhoneService + InternetService + 
##     PaperlessBilling + PaymentMethod + MonthlyCharges, family = binomial(link = "cloglog"), 
##     data = ccp)
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                -0.663174   0.126306  -5.251 1.52e-07 ***
## DependentsYes              -0.392690   0.062248  -6.308 2.82e-10 ***
## PhoneServiceYes             0.202023   0.105635   1.912   0.0558 .  
## InternetServiceFiber optic  1.736299   0.090025  19.287  < 2e-16 ***
## InternetServiceNo          -1.928289   0.136732 -14.103  < 2e-16 ***
## PaperlessBillingYes         0.410997   0.056588   7.263 3.79e-13 ***
## PaymentMethodManual         0.689626   0.054056  12.758  < 2e-16 ***
## MonthlyCharges             -0.028722   0.002084 -13.785  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 8150.1  on 7042  degrees of freedom
## Residual deviance: 6729.0  on 7035  degrees of freedom
## AIC: 6745
## 
## Number of Fisher Scoring iterations: 5

Bên trên là kết quả của hồi quy cloglog với biến phụ thuộc là ChurnYes. Kết quả hồi quy như sau:

  • DependentsYes với hệ số hồi quy là -0.392690 và có ý nghĩa thống kê ở mức ý nghĩa 5% cho thấy khi các yếu tố khách không đổi, khách hàng độc lập tài chính có tỷ lệ tiếp tục dịch vụ thấp hơn khách hàng không độc lập tài chính -0.392690 lần.

  • PhoneServiceYes với hệ số hồi quy là 0.202023 và có ý nghĩa thống kê ở mức ý nghĩa 10% cho thấy rằng trong điều kiện các yếu tố khác không đổi, việc đăng ký dịch vụ điện thoại khiến xác suất tiếp tục dịch vụ tăng 0.202023 lần so với không đăng ký.

  • InternetServiceFiber optic với hệ số hồi quy là 1.736299 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy rằng trong điều kiện các yếu tố khác không đổi, khách hàng sử dụng Fiber optic có xác suất tiếp tục dịch vụ tăng 1.736299 lần so với khách hàng dùng DSL

  • InternetServiceNo với hệ số hồi quy là -1.928289 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy rằng trong điều kiện các yếu tố khác không đổi, khách hàng chọn không đăng ký dịch vụ Internet có xác suất tiếp tục dịch vụ giảm 1.928289 lần so với khách hàng dùng DSL.

  • PaperlessBillingYes với hệ số hồi quy là 0.410997 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy trong điều kiện các yếu tố khác không đổi, khách hàng chọn hóa đơn điện tử có xác suất tiếp tục dịch vụ tăng 0.410997 lần so với khách hàng không chọn hóa đơn điện tử.

  • PaymentMethodManual với hệ số hồi quy là 0.689626 và có ý nghĩa thống kê ở mức ý nghĩa 0%, cho thấy trong điều kiện các yếu tố khác không đổi thì khách hàng chọn phương thức thanh toán thủ công có xác suất tiếp tục dịch vụ cao hơn các khách hàng chọn thanh toán tự động là 0.689626 lần.

  • MonthlyCharges với hệ số hồi quy là -0.028722 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được với mỗi đơn vị tăng trong phí hàng tháng, xác suất tiếp tục dịch vụ giảm xuống -0.028722 lần.

4.5.6 Đánh giá độ phù hợp của từng mô hình

c(Logit = AIC(logit),
  Probit = AIC(probit),
  Cloglog = AIC(cloglog))
##    Logit   Probit  Cloglog 
## 6725.700 6722.939 6745.047

Ta thấy rằng trong ba mô hình, giá trị AIC của Probit là nhỏ nhất, điều đó cho thấy được mô hình Probit sẽ phù hợp với bộ dữ liệu nhất.

4.6 Biến phụ thuộc tenure

Hình bên dưới là biểu đồ thể hiện tần số của thời gian mà từng khách hàng gắn bó. Ta thấy rằng những khách hàng sở hữu thời gian gắn bó ngắn (Khoảng 1 tháng) có tần số xuất hiện cao nhất và khách hàng gắn bó 72 tháng có tần số xuất hiện cao thứ hai.

# Biểu đồ phân phối của tenure
hist(ccp$tenure, breaks = 72, main = "Hình 7: Phân phối thời gian gắn bó của khách hàng", xlab = "Số tháng", ylab = "Tần số")

Tiếp đến là xây dựng mô hình hồi quy cho biến đếm tenure là số tháng gắn bó của khách hàng sử dụng dịch vụ. Kết quả của mô hình hồi quy Poisson cho biến tenure như sau:

# Xây dựng mô hình
tenure_model <- glm(tenure ~ Dependents + PhoneService + InternetService + PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp, family = poisson)
summary(tenure_model)
## 
## Call:
## glm(formula = tenure ~ Dependents + PhoneService + InternetService + 
##     PaperlessBilling + PaymentMethod + MonthlyCharges, family = poisson, 
##     data = ccp)
## 
## Coefficients:
##                              Estimate Std. Error  z value Pr(>|z|)    
## (Intercept)                 2.1503344  0.0121614  176.817  < 2e-16 ***
## DependentsYes               0.1336777  0.0044820   29.825  < 2e-16 ***
## PhoneServiceYes            -0.7592696  0.0092265  -82.292  < 2e-16 ***
## InternetServiceFiber optic -0.8210743  0.0074922 -109.590  < 2e-16 ***
## InternetServiceNo           1.4858071  0.0115475  128.669  < 2e-16 ***
## PaperlessBillingYes        -0.0231840  0.0046031   -5.037 4.74e-07 ***
## PaymentMethodManual        -0.4133597  0.0044065  -93.806  < 2e-16 ***
## MonthlyCharges              0.0330968  0.0001958  169.036  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 151096  on 7042  degrees of freedom
## Residual deviance:  98535  on 7035  degrees of freedom
## AIC: 132175
## 
## Number of Fisher Scoring iterations: 5

Trong điều kiện các yếu tố khác không đổi, khách hàng có độc lập tài chính (DependentsYes) sẽ có thời gian gắn bó (tenure) kỳ vọng cao hơn khoảng 0.1336777 so với nhóm không có người phụ thuộc. Ngược lại, khách hàng sử dụng dịch vụ điện thoại (PhoneServiceYes) có xu hướng rời bỏ sớm hơn — thời gian gắn bó kỳ vọng giảm khoảng 0.7598696 so với nhóm không dùng điện thoại. Đáng chú ý, trong nhóm dịch vụ Internet, những khách hàng dùng Fiber optic có tenure thấp hơn rõ rệt so với nhóm DSL, trong khi những khách không sử dụng Internet lại gắn bó lâu hơn đáng kể. Việc thanh toán bằng hóa đơn điện tử (PaperlessBillingYes) khiến tenure giảm nhẹ (0.023184). Khách hàng thanh toán thủ công (PaymentMethodManual) thì rời bỏ sớm hơn khá nhiều — tenure kỳ vọng giảm khoảng 0.4133597. Cuối cùng, biến MonthlyCharges có hệ số dương cho thấy khi chi phí hàng tháng tăng lên, khách hàng có xu hướng gắn bó dài hơn; cụ thể, mỗi khi chi phí tăng thêm 1 đơn vị thì thời gian gắn bó kỳ vọng tăng thêm khoảng 0.339068. Nhìn chung, các yếu tố về dịch vụ sử dụng và phương thức thanh toán ảnh hưởng mạnh tới hành vi duy trì của khách hàng.

Sau khi có kết quả hồi quy, ta cần phải kiểm tra độ phân tán của mô hình. Kết quả kiểm tra độ phân tán như sau:

# Kiểm tra độ phân tán
dispersiontest(tenure_model)
## 
##  Overdispersion test
## 
## data:  tenure_model
## z = 61.325, p-value < 2.2e-16
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##   13.16897

Đặt giả thuyết:

\[ \left\{ \begin{array}{ll} H_0: & \text{Mô hình không có sự phân tán } \\ H_1: & \text{Mô hình có sự phân tán } \end{array} \right. \]

Ta thấy giá trị p-value < 5% nên khi đó mô hình có sự phân tán lớn. Vì mô hình có sự phân tán lớn, khi đó ta có thể khắc phục bằng cách sử dụng hồi quy NB. Hồi quy NB có kết quả như sau:

tenure_model <- glm.nb(tenure ~ Dependents + PhoneService + InternetService + PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp)
summary(tenure_model)
## 
## Call:
## glm.nb(formula = tenure ~ Dependents + PhoneService + InternetService + 
##     PaperlessBilling + PaymentMethod + MonthlyCharges, data = ccp, 
##     init.theta = 1.526525931, link = log)
## 
## Coefficients:
##                              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                 1.9267798  0.0544100  35.412  < 2e-16 ***
## DependentsYes               0.1738842  0.0221973   7.834 4.74e-15 ***
## PhoneServiceYes            -0.8827565  0.0427922 -20.629  < 2e-16 ***
## InternetServiceFiber optic -0.9709274  0.0360087 -26.964  < 2e-16 ***
## InternetServiceNo           1.6975386  0.0495010  34.293  < 2e-16 ***
## PaperlessBillingYes        -0.0400769  0.0218931  -1.831   0.0672 .  
## PaymentMethodManual        -0.4765360  0.0206501 -23.077  < 2e-16 ***
## MonthlyCharges              0.0388004  0.0009123  42.530  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(1.5265) family taken to be 1)
## 
##     Null deviance: 10607.4  on 7042  degrees of freedom
## Residual deviance:  7854.8  on 7035  degrees of freedom
## AIC: 60915
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  1.5265 
##           Std. Err.:  0.0269 
## 
##  2 x log-likelihood:  -60896.6250

Dựa trên mô hình hồi quy NB, thời gian gắn bó (tenure) của khách hàng chịu ảnh hưởng rõ rệt từ các yếu tố dịch vụ và đặc điểm cá nhân. Cụ thể, khách hàng độc lập tài chính (DependentsYes) có thời gian gắn bó kỳ vọng cao hơn khoảng 0.1738842 so với nhóm không có người phụ thuộc. Ngược lại, những người sử dụng dịch vụ điện thoại (PhoneServiceYes) có xu hướng rời bỏ sớm hơn — thời gian gắn bó kỳ vọng giảm khoảng 0.8827565 so với nhóm không dùng điện thoại. Trong các loại Internet, khách hàng dùng Fiber optic cũng có tenure thấp hơn đáng kể (-0.9709274) so với nhóm DSL, còn những khách không sử dụng Internet lại có thời gian gắn bó cao hơn rất nhiều (1.6975386). Việc sử dụng hoá đơn điện tử (PaperlessBillingYes) không ảnh hưởng rõ rệt tới tenure (p ≈ 0.067), nhưng phương thức thanh toán thủ công (PaymentMethod = Manual) lại làm giảm thời gian gắn bó kỳ vọng khoảng 0.4765360, cho thấy những người thanh toán thủ công dễ rời bỏ sớm hơn. Cuối cùng, chi phí hàng tháng MonthlyCharges có ảnh hưởng tích cực: mỗi khi chi phí tăng thêm 1 đơn vị, thời gian gắn bó kỳ vọng tăng khoảng 0.0388004, hàm ý rằng khách hàng trả mức phí cao hơn thường gắn bó lâu hơn với doanh nghiệp. Nhìn chung, các yếu tố dịch vụ và hành vi thanh toán có vai trò quan trọng trong việc duy trì khách hàng.

CHƯƠNG 5: KẾT LUẬN VÀ KHUYẾN NGHỊ

5.1 Kết luận

Ta thấy được rằng kết quả hồi quy đã cho thấy sự ảnh hưởng mạnh mẽ của các yếu tố liên quan đến độc lập tài chính, dịch vụ internet, dịch vụ điện thoại, loại dịch vụ Internet, hóa đơn điện tử, phương thức thanh toán và số tiền phải thanh toán hàng tháng đến đọ bền quan hệ khách hàng. Cụ thể ở quyết định tiếp tục dịch vụ, các nhóm có ảnh hưởng tích cực bao gồm dịch vụ điện thoại, dịch vụ Internet, thanh toán bằng hóa đơn điện tử và phương thức thanh toán là các yếu tố ảnh hưởng tích cực đến quyết định ở lại. Đối với thời gian gắn bó thực tế, các yếu tố như độc lập tài chính, dịch vụ Internet và số tiền phải trả hàng tháng lại có ảnh hưởng tích cực nó.

5.2 Khuyến nghị

Từ những kết quả phân tích trên, doanh nghiệp nên ưu tiên duy trì và cải thiện chất lượng các dịch vụ Internet, dịch vụ điện thoại, bởi đây là các yếu tố có tác động tích cực đến quyết định tiếp tục sử dụng dịch vụ của khách hàng. Đồng thời, cần tăng cường khuyến khích khách hàng sử dụng hóa đơn điện tử và phương thức thanh toán hiện đại, vì những khách hàng sử dụng các hình thức thanh toán tiện lợi có xu hướng gắn bó lâu hơn. Bên cạnh đó, việc thiết kế các gói dịch vụ phù hợp với nhóm khách hàng có tính độc lập tài chính cao và tối ưu mức phí hàng tháng cũng là chiến lược nên được xem xét, bởi hai yếu tố này tác động rõ rệt đến thời gian gắn bó thực tế. Cuối cùng, doanh nghiệp nên phát triển các chương trình chăm sóc khách hàng theo từng nhóm đặc điểm sử dụng dịch vụ – nhất là nhóm sử dụng Fiber optic và thanh toán thủ công – để can thiệp kịp thời, giảm thiểu nguy cơ rời bỏ sớm, từ đó nâng cao độ bền vững trong mối quan hệ với khách hàng.

5.3 Hạn chế của đề tài và hướng nghiên cứu tiếp theo

Mặc dù mô hình đã đưa ra được nhiều kết quả có ý nghĩa thực tiễn, nghiên cứu vẫn tồn tại một số hạn chế nhất định. Thứ nhất, dữ liệu sử dụng mang tính chất cắt ngang tại một thời điểm nên chưa thể phản ánh đầy đủ sự thay đổi hành vi khách hàng theo thời gian, do đó việc suy rộng kết luận cho các giai đoạn khác cần được cân nhắc. Thứ hai, mô hình mới chỉ xem xét các yếu tố thuộc về dịch vụ và đặc điểm thanh toán mà chưa tính đến các yếu tố tâm lý, mức độ hài lòng hay tác động từ đối thủ cạnh tranh — vốn có thể ảnh hưởng nhiều đến hành vi ở lại của khách hàng. Trong các hướng nghiên cứu tiếp theo, các tác giả có thể mở rộng theo hướng thu thập dữ liệu bảng theo thời gian (panel data) để đánh giá động thái thay đổi theo chu kỳ sử dụng dịch vụ, đồng thời tích hợp thêm các biến đo lường về mức độ hài lòng, chất lượng chăm sóc khách hàng và sự cạnh tranh trên thị trường để nâng cao khả năng giải thích và tính ứng dụng của mô hình.

TÀI LIỆU THAM KHẢO

Bland, J. M., & Altman, D. G. (2000). The odds ratio. Bmj, 320(7247), 1468.

Tenny, S., & Hoffman, M. R. (2017). Relative risk.

Dunn, P. K., & Smyth, G. K. (2018). Generalized linear models with examples in R (Vol. 53, p. 16). New York: Springer.