Cấu trúc của bộ dữ liệu
ccp <- read.csv("D:/BAI TAP/PTDLDT/Customer-Churn-Prediction.csv", header = TRUE)
str(ccp)
## 'data.frame': 7043 obs. of 12 variables:
## $ customerID : chr "7590-VHVEG" "5575-GNVDE" "3668-QPYBK" "7795-CFOCW" ...
## $ gender : chr "Female" "Male" "Male" "Male" ...
## $ Dependents : chr "No" "No" "No" "No" ...
## $ tenure : int 1 34 2 45 2 8 22 10 28 62 ...
## $ PhoneService : chr "No" "Yes" "Yes" "No" ...
## $ InternetService : chr "DSL" "DSL" "DSL" "DSL" ...
## $ Contract : chr "Month-to-month" "One year" "Month-to-month" "One year" ...
## $ PaperlessBilling: chr "Yes" "No" "Yes" "No" ...
## $ PaymentMethod : chr "Electronic check" "Mailed check" "Mailed check" "Bank transfer (automatic)" ...
## $ MonthlyCharges : num 29.9 57 53.9 42.3 70.7 ...
## $ TotalCharges : num 29.9 1889.5 108.2 1840.8 151.7 ...
## $ Churn : chr "No" "No" "Yes" "No" ...
Customer-Churn-Prediction.csv là bộ dữ liệu khảo sát
quyết định dừng sử dụng dịch vụ của khách hàng. Bộ dữ liệu này bao gồm
12 biến và 7043 quan sát.
customerID: Mã khách hànggender: Giới tính (bao gồm Male và Female)Dependents: Độc lập kinh tế (No và Yes)tenure: Số tháng đã gắn bó với dịch vụPhoneService: Dịch vụ điện thoại (No và Yes)InternetService: Loại dịch vụ internet (DSL, Fiber
optic và No)Contract: Hạn hợp đồng (Ngắn hạn: Month-to-month; Dài
hạn: One year, Two year)PaperlessBilling: Hóa đơn điện tử (No và Yes)PaymentMethod: Phương thức thanh toán (Tự động: Bank
transfer, Credit card; Thủ công: Electronic check, Mailed check)MonthlyCharges: Số tiền trả hàng thángTotalCharges: Tổng số tiền đã trảChurn: Dừng sử dụng dịch vụ (No và Yes)Kiểm tra dữ liệu bị thiếu
sum(is.na(ccp))
## [1] 11
ccp <- na.omit(ccp)
Kết quả cho thấy bộ dữ liệu này không có giá trị nào bị thiếu và đã sẵn sàng để thực hiện các thao tác tính toán và ước lượng.
library(tidyr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# Chuyển hạn hợp đồng thành dài hạn và ngắn hạn
ccp$Contract <- ifelse(ccp$Contract == "Month-to-month", "Shortterm", "Longterm")
# Chuyển phương thức thanh toán thành tự động và thủ công
ccp$PaymentMethod <- ifelse(ccp$PaymentMethod %in% c("Mailed check","Electronic check"), "Manual", "Automatic")
# Chuyển tất cả các biến về "factor"
ccp <- ccp %>% mutate(across(c(gender,Dependents,PhoneService,InternetService,Contract,PaperlessBilling,PaymentMethod,Churn), as.factor))
Trong hàm glm, việc chuyển các biến về factor là một
công cụ đơn giản mà hiệu quả do việc các biến thuộc phân loại này sẽ
được glm tự động mã hóa thành biến giả mà không cần phải
tác thêm bất cứ bước nào, điều này khiến việc phân tích dữ liệu trở nên
đỡ rắc rối hơn. Ngoài ra, việc đưa các biến về factor còn giúp hạn chế
lỗi trong quá trình ước lượng các mô hình hồi quy.
ccp$Churn <- relevel(ccp$Churn, ref = "Yes")
levels(ccp$Churn)
## [1] "Yes" "No"
Khi đặt mức ưu tiên của biến phụ thuộc Churn thành Yes,
khi đó glm sẽ mặc định rằng ChurnYes là biến phụ thuộc,
nghĩa là tỷ lệ các khách hàng quyết định ngưng sử dụng dịch vụ.
# Đặt mức ưu tiên cho ContractShortterm
ccp$Contract <- relevel(ccp$Contract, ref = "Shortterm")
levels(ccp$Contract)
## [1] "Shortterm" "Longterm"
Tương tự, khi đặt mức ưu tiên là Shortterm, khi đó biến phụ thuộc là ContractShortterm, tỷ lệ khách hàng chọn loại dịch vụ ngắn hạn.
Churnlogit1 <- glm(Churn ~ Dependents + tenure + PhoneService + InternetService + Contract + PaperlessBilling + PaymentMethod + MonthlyCharges + TotalCharges, data = ccp, family = binomial(link = "logit"))
summary(logit1)
##
## Call:
## glm(formula = Churn ~ Dependents + tenure + PhoneService + InternetService +
## Contract + PaperlessBilling + PaymentMethod + MonthlyCharges +
## TotalCharges, family = binomial(link = "logit"), data = ccp)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.364e-01 2.070e-01 1.625 0.104261
## DependentsYes 2.332e-01 7.940e-02 2.937 0.003317 **
## tenure 5.560e-02 5.916e-03 9.399 < 2e-16 ***
## PhoneServiceYes 7.514e-01 1.438e-01 5.227 1.72e-07 ***
## InternetServiceFiber optic -9.724e-01 1.317e-01 -7.382 1.56e-13 ***
## InternetServiceNo 5.244e-01 1.857e-01 2.823 0.004758 **
## ContractLongterm 1.013e+00 1.010e-01 10.030 < 2e-16 ***
## PaperlessBillingYes -4.354e-01 7.304e-02 -5.961 2.50e-09 ***
## PaymentMethodManual -3.073e-01 7.174e-02 -4.284 1.84e-05 ***
## MonthlyCharges -5.533e-03 3.975e-03 -1.392 0.163891
## TotalCharges -2.538e-04 6.717e-05 -3.778 0.000158 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 8143.4 on 7031 degrees of freedom
## Residual deviance: 5969.6 on 7021 degrees of freedom
## AIC: 5991.6
##
## Number of Fisher Scoring iterations: 6
Bên trên là kết quả hồi quy logistic của biến phụ thuộc ChurnYes. Trong đó ta có thể thấy được:
DependentsYes với hệ số hồi quy là 0.2332 và có ý
nghĩa thống kê ở mức ý nghĩa rất cao là 1% cho thấy khách hàng không độc
lập tài chính (DependentsYes) có log-odds (log của tỷ
lệ giữa khách hàng chọn ngưng sử dụng dịch vụ và khách hàng chọn tiếp
tục sử dụng dịch vụ) ngừng dịch vụ cao hơn 0.2332 so với khách hàng độc
lập tài chính (DependentsNo)
tenure với hệ số hồi quy là 0.05566 và có ý nghĩa
thống kê ở mức cao 0% cho thấy với mỗi tháng gắn bó thêm, log-odds ngừng
dịch vụ tăng 0.0556.
PhoneServiceYes với hệ số hồi quy là 0.7514 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ
điện thoại có log-odds ngừng dịch vụ cao hơn 0.7514 so với khách hàng
không đăng ký dịch vụ điện thoại.
InternetServiceFiber optic với hệ số hồi quy là
-0.9724 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử
dụng Fiber optic có log-odds ngừng dịch vụ thấp hơn 0.9724 so với khách
hàng sử dụng dịch vụ DSL (InternetServiceDSL).
InternetServiceNo với hệ số hồi quy là 0.5244 và có
ý nghĩa thống kê ở mức ý nghĩa 1% cho thấy rằng khách hàng không có dịch
vụ internet có log-odds ngừng dịch vụ cao hơn 0.5244 so với khách hàng
sử dụng dịch vụ DSL (InternetServiceDSL).
ContractShortterm với hệ số hồi quy là -1.013 và có
ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng với hợp đồng ngắn
hạn có log-odds ngừng dịch vụ thấp hơn 1.013 so với khách hàng có hợp
đồng dài hạn là ContractLongterm.
PaperlessBillingYes với hệ số hồi quy là -0.4354 và
có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn
điện tử có log-odds ngừng dịch vụ thấp hơn 0.4354 so với khách hàng sử
dụng hóa đơn điện tử.
PaymentMethodManual với hệ số hồi quy là -0.3073 và
có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng
phương thức thanh toán thủ công (Electronic check,
Mailed check) có log-odds ngừng dịch vụ thấp hơn 0.3073
so với khách hàng sử dụng phương thức thanh toán tự động.
(PaymentMethodAutomatic).
MonthlyCharges với hệ số hồi quy là -0.005533 cho
thấy với mỗi đơn vị tăng của phí hàng tháng, log-odds ngừng dịch vụ giảm
0.05533. Tuy nhiên giá trị này không có ý nghĩa thống kê đến biến
ChurnYes. Điều này cho thấy không có bằng chứng đủ mạnh
để kết luận nó có tác động riêng lẻ đáng kể đến
ChurnYes khi các biến khác đã được đưa vào mô
hình.
TotalCharges -0.0002538 và có ý nghĩa thống kê ở mức
0% cho thấy với mỗi đơn vị tăng của tổng phí, log-odds ngừng dịch vụ
giảm 0.0002538.
Hệ số chặn (Intercept) với giá trị là 1.349 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy log-odds của ChurnYes là 1.349 khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.
# Giả sử đây là thông tin của một khách hàng bất kỳ
newcustomer1 <- data.frame(
gender = "Female",
Dependents = "No",
tenure = 2,
PhoneService = "Yes",
InternetService = "Fiber optic",
Contract = "Shortterm",
PaperlessBilling = "No",
PaymentMethod = "Manual",
MonthlyCharges = 22.3,
TotalCharges = 22.3)
# Tính xác suất khách hàng đó ngưng sử dụng dịch vụ
predict(logit1, newdata = newcustomer1, type = "response")
## 1
## 0.4477365
Giả sử rằng một khách hàng có thông tin như sau:
Vậy khi đó, ta có thể dự đoán được xác suất dừng sử dụng dịch vụ của khách hàng đó theo hồi quy logistic là khoảng 44.77365%.
Contractlogit2 <- glm(Contract ~ Dependents + tenure + PhoneService + InternetService + Churn + PaperlessBilling + PaymentMethod + MonthlyCharges + TotalCharges, data = ccp, family = binomial(link = "logit"))
summary(logit2)
##
## Call:
## glm(formula = Contract ~ Dependents + tenure + PhoneService +
## InternetService + Churn + PaperlessBilling + PaymentMethod +
## MonthlyCharges + TotalCharges, family = binomial(link = "logit"),
## data = ccp)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -6.472e+00 3.176e-01 -20.378 < 2e-16 ***
## DependentsYes 5.567e-01 8.082e-02 6.888 5.66e-12 ***
## tenure 8.416e-02 5.225e-03 16.108 < 2e-16 ***
## PhoneServiceYes -1.205e+00 1.714e-01 -7.031 2.04e-12 ***
## InternetServiceFiber optic -3.336e+00 1.740e-01 -19.174 < 2e-16 ***
## InternetServiceNo 4.107e+00 2.295e-01 17.898 < 2e-16 ***
## ChurnNo 1.140e+00 1.069e-01 10.666 < 2e-16 ***
## PaperlessBillingYes -6.469e-01 8.257e-02 -7.834 4.72e-15 ***
## PaymentMethodManual -4.212e-01 7.658e-02 -5.500 3.80e-08 ***
## MonthlyCharges 7.453e-02 5.468e-03 13.628 < 2e-16 ***
## TotalCharges -1.383e-04 7.104e-05 -1.947 0.0516 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 9675.0 on 7031 degrees of freedom
## Residual deviance: 4609.5 on 7021 degrees of freedom
## AIC: 4631.5
##
## Number of Fisher Scoring iterations: 6
Bên trên là kết quả hồi quy logistic của biến phụ thuộc ContractShortterm (Tỷ lệ khách hàng có chọn hợp đồng ngắn hạn). Trong đó ta có thể thấy được:
DependentsYes với hệ số hồi quy là 0.5567 và có ý
nghĩa thống kê ở mức ý nghĩa rất cao là 0% cho thấy khách hàng không độc
lập tài chính (DependentsYes) có log-odds (log của tỷ
lệ khách hàng chọn hợp đồng ngắn hạn và tỷ lệ khách hàng chọn hợp đồng
dài hạn) sử dụng loại hợp đồng ngắn hạn cao hơn 0.2332 so với khách hàng
độc lập tài chính (DependentsNo)
tenure với hệ số hồi quy là 0.08416 và có ý nghĩa
thống kê ở mức cao 0% cho thấy với mỗi tháng gắn bó thêm, log-odds sử
dụng loại hợp đồng ngắn hạn tăng 0.08416 lần.
PhoneServiceYes với hệ số hồi quy là -3.336 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ
điện thoại có log-odds sử dụng loại hợp đồng ngắn hạn thấp hơn 3.336 lần
so với khách hàng không đăng ký dịch vụ điện thoại.
InternetServiceFiber optic với hệ số hồi quy là
-0.9724 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử
dụng Fiber optic có log-odds sử dụng loại hợp đồng ngắn hạn thấp hơn
0.9724 so với khách hàng sử dụng dịch vụ DSL
(InternetServiceDSL).
InternetServiceNo với hệ số hồi quy là 4.107 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy rằng khách hàng không có dịch
vụ internet có log-odds sử dụng loại hợp đồng ngắn hạn cao hơn 4.107 lần
so với khách hàng sử dụng dịch vụ DSL
(InternetServiceDSL).
ChurnNo với hệ số hồi quy là 1.14 và có ý nghĩa
thống kê với mức ý nghĩa 0% cho thấy rằng khách hàng quyết định tiếp tục
sử dụng dịch vụ có log-odds sử dụng loại hợp đồng ngắn hạn cao hơn 1.14
lần so với khách hàng chọn dừng sử dụng dịch vụ
(ChurnYes).
PaperlessBillingYes với hệ số hồi quy là -0.6469 và
có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn
điện tử có log-odds sử dụng loại hợp đồng ngắn hạn thấp hơn 0.6469 lần
so với khách hàng sử dụng hóa đơn điện tử.
PaymentMethodManual với hệ số hồi quy là -0.4212 và
có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng
phương thức thanh toán thủ công (Electronic check,
Mailed check) có log-odds sử dụng loại hợp đồng ngắn
hạn thấp hơn 0.4212 so với khách hàng sử dụng phương thức thanh toán tự
động. (PaymentMethodAutomatic).
MonthlyCharges với hệ số hồi quy là 0.007453 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy với mỗi đơn vị tăng của phí
hàng tháng, log-odds sử dụng loại hợp đồng ngắn hạn tăng 0.007453
lần.
TotalCharges -0.0001383 và có ý nghĩa thống kê ở mức
10% cho thấy với mỗi đơn vị tăng của tổng phí, log-odds sử dụng loại hợp
đồng ngắn hạn giảm 0.0001383 lần.
Hệ số chặn (Intercept) với giá trị là -6.472 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy log-odds của tỷ lệ các khách hàng chọn hợp đồng ngắn hạn là 1.349 khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.
# Giả sử đây là thông tin của một khách hàng bất kỳ
newcustomer2 <- data.frame(
gender = "Female",
Dependents = "No",
tenure = 2,
PhoneService = "Yes",
InternetService = "DSL",
Churn = "No",
PaperlessBilling = "No",
PaymentMethod = "Manual",
MonthlyCharges = 22.3,
TotalCharges = 22.3)
# Tính xác suất khách hàng đó ngưng sử dụng dịch vụ
predict(logit2, newdata = newcustomer2, type = "response")
## 1
## 0.00587512
Giả sử rằng một khách hàng có thông tin như sau:
Vậy khi đó, ta có thể dự đoán được xác suất chọn loại hợp đồng ngắn hạn của khách hàng đó theo hồi quy logistic là khoảng 5.88%.
Churnprobit1 <- glm(Churn ~ Dependents + tenure + PhoneService + InternetService + Contract + PaperlessBilling + PaymentMethod + MonthlyCharges + TotalCharges, data = ccp, family = binomial(link = "probit"))
summary(probit1)
##
## Call:
## glm(formula = Churn ~ Dependents + tenure + PhoneService + InternetService +
## Contract + PaperlessBilling + PaymentMethod + MonthlyCharges +
## TotalCharges, family = binomial(link = "probit"), data = ccp)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.285e-01 1.211e-01 2.713 0.00667 **
## DependentsYes 1.383e-01 4.501e-02 3.072 0.00213 **
## tenure 2.499e-02 3.040e-03 8.221 < 2e-16 ***
## PhoneServiceYes 4.197e-01 8.266e-02 5.078 3.82e-07 ***
## InternetServiceFiber optic -5.620e-01 7.567e-02 -7.427 1.11e-13 ***
## InternetServiceNo 2.647e-01 1.060e-01 2.497 0.01251 *
## ContractLongterm 5.459e-01 5.494e-02 9.937 < 2e-16 ***
## PaperlessBillingYes -2.455e-01 4.198e-02 -5.849 4.95e-09 ***
## PaymentMethodManual -1.761e-01 4.126e-02 -4.267 1.98e-05 ***
## MonthlyCharges -4.819e-03 2.324e-03 -2.074 0.03812 *
## TotalCharges -6.325e-05 3.527e-05 -1.793 0.07290 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 8143.4 on 7031 degrees of freedom
## Residual deviance: 5989.7 on 7021 degrees of freedom
## AIC: 6011.7
##
## Number of Fisher Scoring iterations: 6
Bên trên là kết quả hồi quy probit của biến phụ thuộc ChurnYes (Khả năng khách hàng ngưng sử dụng dịch vụ). Trong đó ta có thể thấy được:
DependentsYes với hệ số hồi quy là 0.1383 và có ý
nghĩa thống kê ở mức ý nghĩa ở mức 1% cho thấy khách hàng không độc lập
tài chính (DependentsYes) có khả năng ngừng dịch vụ cao
hơn 0.1383 lần so với khách hàng độc lập tài chính
(DependentsNo)
tenure với hệ số hồi quy là 0.2499 và có ý nghĩa
thống kê ở mức cao 0% cho thấy với mỗi tháng gắn bó thêm, khả năng ngừng
dịch vụ tăng 0.0556.
PhoneServiceYes với hệ số hồi quy là 0.4197 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ
điện thoại có khả năng ngừng dịch vụ cao hơn 0.4197 lần so với khách
hàng không đăng ký dịch vụ điện thoại.
InternetServiceFiber optic với hệ số hồi quy là
-0.562 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử
dụng Fiber optic có khả năng ngừng dịch vụ thấp hơn 0.9724 so với khách
hàng sử dụng dịch vụ DSL (InternetServiceDSL).
InternetServiceNo với hệ số hồi quy là 0.2647 và có
ý nghĩa thống kê ở mức ý nghĩa 5% cho thấy rằng khách hàng không có dịch
vụ internet có khả năng ngừng dịch vụ cao hơn 0.2647 so với khách hàng
sử dụng dịch vụ DSL (InternetServiceDSL).
ContractShortterm với hệ số hồi quy là -0.5459 và có
ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng với hợp đồng ngắn
hạn có khả năng ngừng dịch vụ thấp hơn 0.5459 lần so với khách hàng có
hợp đồng dài hạn là ContractLongterm.
PaperlessBillingYes với hệ số hồi quy là -0.2455 và
có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn
điện tử có khả năng ngừng dịch vụ thấp hơn 0.2455 lần so với khách hàng
sử dụng hóa đơn điện tử.
PaymentMethodManual với hệ số hồi quy là -0.1761 và
có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng
phương thức thanh toán thủ công (Electronic check,
Mailed check) có khả năng ngừng dịch vụ thấp hơn 0.1761
so với khách hàng sử dụng phương thức thanh toán tự động.
(PaymentMethodAutomatic).
MonthlyCharges với hệ số hồi quy là -0.004819 và có
ý nghĩa thống kê ở mức ý nghĩa 5% cho thấy với mỗi đơn vị tăng của phí
hàng tháng, khả năng ngừng dịch vụ giảm 0.004819.
TotalCharges -0.00006325 và có ý nghĩa thống kê ở
mức 10% cho thấy với mỗi đơn vị tăng của tổng phí, khả năng ngừng dịch
vụ giảm0.00006325 lần.
Hệ số chặn (Intercept) với giá trị là 0.8744 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khả năng một khách hàng dừng dịch vụ (ChurnYes) cao hơn 0.8744 lần so với chọn không tiếp tục dịch vụ khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.
# Giả sử đây là thông tin của một khách hàng bất kỳ
newcustomer <- data.frame(
gender = "Female",
Dependents = "No",
tenure = 2,
PhoneService = "Yes",
InternetService = "Fiber optic",
Contract = "Shortterm",
PaperlessBilling = "No",
PaymentMethod = "Manual",
MonthlyCharges = 22.3,
TotalCharges = 22.3)
# Tính xác suất khách hàng đó ngưng sử dụng dịch vụ
predict(probit1, newdata = newcustomer, type = "response")
## 1
## 0.4805878
Giả sử rằng một khách hàng có thông tin như sau:
Vậy khi đó, ta có thể dự đoán được xác suất dừng sử dụng dịch vụ của khách hàng đó theo hồi quy probit là khoảng 48.05878%
Contractprobit2 <- glm(Contract ~ Dependents + tenure + PhoneService + InternetService + Churn + PaperlessBilling + PaymentMethod + MonthlyCharges + TotalCharges, data = ccp, family = binomial(link = "probit"))
summary(probit2)
##
## Call:
## glm(formula = Contract ~ Dependents + tenure + PhoneService +
## InternetService + Churn + PaperlessBilling + PaymentMethod +
## MonthlyCharges + TotalCharges, family = binomial(link = "probit"),
## data = ccp)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.633e+00 1.713e-01 -21.213 < 2e-16 ***
## DependentsYes 3.191e-01 4.574e-02 6.977 3.02e-12 ***
## tenure 4.785e-02 2.737e-03 17.484 < 2e-16 ***
## PhoneServiceYes -6.838e-01 9.602e-02 -7.121 1.07e-12 ***
## InternetServiceFiber optic -1.852e+00 9.524e-02 -19.446 < 2e-16 ***
## InternetServiceNo 2.298e+00 1.256e-01 18.295 < 2e-16 ***
## ChurnNo 6.404e-01 5.932e-02 10.795 < 2e-16 ***
## PaperlessBillingYes -3.611e-01 4.641e-02 -7.780 7.27e-15 ***
## PaymentMethodManual -2.413e-01 4.354e-02 -5.541 3.00e-08 ***
## MonthlyCharges 4.138e-02 3.009e-03 13.753 < 2e-16 ***
## TotalCharges -7.445e-05 3.734e-05 -1.994 0.0462 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 9675.0 on 7031 degrees of freedom
## Residual deviance: 4591.2 on 7021 degrees of freedom
## AIC: 4613.2
##
## Number of Fisher Scoring iterations: 6
Bên trên là kết quả hồi quy probit của biến phụ thuộc ChurnYes (Khả năng khách hàng ngưng sử dụng dịch vụ). Trong đó ta có thể thấy được:
DependentsYes với hệ số hồi quy là -0.3191 và có ý
nghĩa thống kê ở mức ý nghĩa ở mức 0% cho thấy khách hàng không độc lập
tài chính (DependentsYes) có khả năng chọn hợp đồng
ngắn hạn thấp hơn 0.3191 lần so với khách hàng độc lập tài chính
(DependentsNo)
tenure với hệ số hồi quy là -0.04785 và có ý nghĩa
thống kê ở mức cao 0% cho thấy với mỗi tháng gắn bó thêm, khả năng chọn
hợp đồng ngắn hạn giảm 0.004785 lần.
PhoneServiceYes với hệ số hồi quy là 0.6838 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng có đăng ký dịch vụ
điện thoại có khả năng chọn hợp đồng ngắn hạn cao hơn 0.6838 lần so với
khách hàng không đăng ký dịch vụ điện thoại.
InternetServiceFiber optic với hệ số hồi quy là
1.852 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khách hàng sử
dụng Fiber optic có khả năng chọn hợp đồng ngắn hạn cao hơn 1.852 lần so
với khách hàng sử dụng dịch vụ DSL
(InternetServiceDSL).
InternetServiceNo với hệ số hồi quy là -2.298 và có
ý nghĩa thống kê ở mức ý nghĩa 5% cho thấy rằng khách hàng không có dịch
vụ internet có khả năng chọn sử dùng hợp đồng ngắn hạn thấp hơn 2.298 so
với khách hàng sử dụng dịch vụ DSL
(InternetServiceDSL).
ChurnNo với hệ số hồi quy là -0.6404 và có ý nghĩa
thống kê ở mức ý nghĩa 0% cho thấy rằng khách hàng chọn tiếp tục sử dụng
dịch vụ có khả năng chọn loại hợp đồng ngắn hạn thấp hơn 0.6404 lần so
với khách chọn dừng dịch vụ.
PaperlessBillingYes với hệ số hồi quy là 0.3611 và
có ý nghĩa thống kê ở mức 0% cho thấy khách hàng không sử dụng hóa đơn
điện tử có khả năng chọn loại hợp đồng ngắn hạn cao hơn 0.3611 lần so
với khách hàng sử dụng hóa đơn điện tử.
PaymentMethodManual với hệ số hồi quy là 0.2413 và
có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy được khách hàng sử dụng
phương thức thanh toán thủ công (Electronic check,
Mailed check) có khả năng chọn sử dụng hợp đồng ngắn
hạn cao hơn 0.2413 lần so với khách hàng sử dụng phương thức thanh toán
tự động (PaymentMethodAutomatic).
MonthlyCharges với hệ số hồi quy là -0.04138 và có ý
nghĩa thống kê ở mức ý nghĩa 0% cho thấy với mỗi đơn vị tăng của phí
hàng tháng, khả năng chọn sử dụng hợp đồng ngắn hạn giảm 0.04138
lần.
TotalCharges với hệ số hồi quy là 0.00007445 và có ý
nghĩa thống kê ở mức 5% cho thấy với mỗi đơn vị tăng của tổng phí, khả
năng chọn hợp đồng ngắn hạn tăng 0.00007445 lần.
Hệ số chặn (Intercept) với giá trị là 3.633 và có ý nghĩa thống kê ở mức ý nghĩa 0% cho thấy khả năng một khách hàng chọn sử dụng hợp đồng ngắn hạn (ContractShortterm) cao hơn một khách hàng chọn sử dụng hợp đồng dài hạn là 3.633 lần khi tất cả các biến giải thích khác bằng 0 hoặc ở mức tham chiếu của chúng.
# Giả sử đây là thông tin của một khách hàng bất kỳ
newcustomer2 <- data.frame(
gender = "Female",
Dependents = "No",
tenure = 2,
PhoneService = "Yes",
InternetService = "DSL",
Churn = "No",
PaperlessBilling = "No",
PaymentMethod = "Manual",
MonthlyCharges = 22.3,
TotalCharges = 22.3)
# Tính xác suất khách hàng đó ngưng sử dụng dịch vụ
predict(probit2, newdata = newcustomer2, type = "response")
## 1
## 0.001860661
Giả sử rằng một khách hàng có thông tin như sau:
Vậy khi đó, ta có thể dự đoán được xác suất chọn loại hợp đồng ngắn hạn của khách hàng đó theo hồi quy probit là khoảng 1.86%.