(https://drive.google.com/file/d/1qzv2DSePcA5DkGaiaNlpv3G8Qh_2LGOp/view?usp=drive_link) (https://docs.google.com/spreadsheets/d/15cP3Bfm3RhAhHElxAD47Mvc5qW-AM7kIDZUJAFyLFig/edit?usp=sharing)
require(tidyverse)
## Loading required package: tidyverse
## Warning: package 'tibble' was built under R version 4.2.3
## Warning: package 'dplyr' was built under R version 4.2.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.2.3
library(ggplot2)
library(xlsx)
setwd("C:/Users/YEN NHI/Documents/PTDLDT")
dl <- read.xlsx("dl.xlsx",1)
age = dl$age
ms = dl$marital
ed = dl$education
hs = dl$housing
ln = dl$loan
ct = dl$contact
dr = dl$duration
cp = dl$campaign
poc = dl$poutcome
y = dl$y
Đề tài: “Phân tích các yếu tố ảnh hưởng đến hiệu quả chiến dịch tiếp thị của công ty tài chính”.
Công ty tài chính là một trong những loại hình tổ chức tín dụng phi ngân hàng, tuy nhiên vẫn thực hiện một số hoạt động ngân hàng theo Luật tổ chức tín dụng 2010. Ngoại trừ một số hoạt động như nhận tiền gửi các nhân và cung ứng các dịch vụ thanh toán qua tài khoản của khách hàng. Công ty tài chính với vai trò nhằm thúc đẩy nền kinh tế phát triển, tạo vốn cho nền kinh tế, thúc đẩy các hoạt động của các NHTM mở rộng và hiện đại hóa hệ thống của ngân hàng, giúp điều hành chính sách tiền tệ của ngân hàng trung ương, đáp ứng đủ và kịp thời nhu cầu về vốn với chi phí thấp nhất. Ngoài ra, khai thác được mọi nguồn vốn phục vụ cho đầu tư phát triển sản xuất kinh doanh. Vì vậy, việc cải thiện hiểu quả hoạt động của các công ty tài chính là rất cần thiết thông qua các chiến dịch của công ty. Bài tiểu luận phân tích các yếu tố ảnh hưởng đến phản ứng của khách hàng về chiến dịch của công ty tài chính nhằm mục đích tìm ra các yếu tố có ảnh hưởng tiêu cực đến chiến dịch đồng thời thay đổi để phù hợp với khách hàng hơn trong các chiến dịch trong tương lai.
Đầu tiên cần xác định các yếu tố có ảnh hưởng đến phản ứng của khách hàng về chiến dịch, sau đó đưa ra một số giải pháp để cải thiện hiệu quả của chiến dịch trong tương lai của công ty tài chính.
Bài nghiên cứu này nghiên cứu các yếu tố ảnh hưởng đến phản ứng của khách hàng về chiến dịch của công ty tài chính.
Bài nghiên cứu này sử dụng phương pháp phân tích dữ liệu định tính.
Chương một: Giới thiệu tổng quan nghiên cứu. Chương này giới thiệu tổng quan nghiên cứu, bao gồm: đặt vấn đề nghiên cứu, mục tiêu nghiên cứu, đối tượng nghiên cứu, phạm vi và phương pháp nghiên cứu và kết cấu bài nghiên cứu.
Chương hai: Cơ sở lý thuyết nghiên cứu. Chương này bao gồm: các khái niệm, các lý thuyết công ty tài chính.
Chương ba: Phương pháp nghiên cứu và dữ liệu nghiên cứu – Mô tả phương pháp nghiên cứu và nguồn dữ liệu sử dụng, xây dựng mô hình nghiên cứu, giải thích các biến có trong mô hình.
Chương bốn: Phân tích dữ liệu và kết quả nghiên cứu.
Chương năm: Kết luận và kiến nghị. Chương này bao gồm kết luận chung của bài nghiên cứu. Sau đó, đưa ra một số kiến nghị dựa trên kết quả bài nghiên cứu.
Theo khoản 4 Điều 4 Luật Các tổ chức tín dụng 2010 thì tổ chức tín dụng phi ngân hàng là loại hình tổ chức tín dụng được thực hiện một hoặc một số hoạt động ngân hàng theo quy định, trừ các hoạt động nhận tiền gửi của cá nhân và cung ứng các dịch vụ thanh toán qua tài khoản của khách hàng. Tổ chức tín dụng phi ngân hàng bao gồm công ty tài chính, công ty cho thuê tài chính và các tổ chức tín dụng phi ngân hàng khác. Như vậy, công ty tài chính là doanh nghiệp thuộc loại hình tổ chức tín dụng phi ngân hàng.
Công ty tài chính được thực hiện một hoặc một số hoạt động ngân hàng sau đây:
Nhận tiền gửi của tổ chức;
Phát hành chứng chỉ tiền gửi, kỳ phiếu, tín phiếu, trái phiếu để huy động vốn của tổ chức;
Vay vốn của tổ chức tín dụng, tổ chức tài chính trong nước và nước ngoài theo quy định của pháp luật; vay Ngân hàng Nhà nước dưới hình thức tái cấp vốn theo quy định của Luật Ngân hàng Nhà nước Việt Nam;
Cho vay, bao gồm cả cho vay trả góp, cho vay tiêu dùng;
Bảo lãnh ngân hàng;
Chiết khấu, tái chiết khấu công cụ chuyển nhượng, các giấy tờ có giá khác;
Phát hành thẻ tín dụng, bao thanh toán, cho thuê tài chính và các hình thức cấp tín dụng khác sau khi được Ngân hàng Nhà nước chấp thuận.
Chính phủ quy định cụ thể điều kiện để công ty tài chính thực hiện hoạt động ngân hàng quy định.
Đối với các hoạt động kinh doanh khác, công ty tài chính được thực hiện những lĩnh vực bao gồm:
Mở tài khoản tiền gửi tại Ngân hàng Nhà nước hoặc mở tài khoản thanh toán tại ngân hàng thương mại, chi nhánh ngân hàng nước ngoài. Ngoài ra, công ty tài chính được phép thực hiện hoạt động phát hành thẻ tín dụng được mở tài khoản tại ngân hàng nước ngoài theo quy định của pháp luật về ngoại hối.
Góp vốn, mua cổ phần của doanh nghiệp, quỹ đầu tư.
Thành lập, mua lại công ty con, công ty liên kết hoạt động trong các lĩnh vực bảo hiểm, chứng khoán, quản lý nợ và khai thác tài sản sau khi được Ngân hàng Nhà nước chấp thuận bằng văn bản.
Tiếp nhận vốn ủy thác của Chính phủ, tổ chức, cá nhân để thực hiện các hoạt động đầu tư vào các dự án sản xuất, kinh doanh, cấp tín dụng được phép; ủy thác vốn cho tổ chức tín dụng thực hiện cấp tín dụng. Việc tiếp nhận vốn ủy thác của cá nhân và ủy thác vốn cho các tổ chức tín dụng cấp tín dụng thực hiện theo quy định của Ngân hàng Nhà nước.
Tham gia thị trường tiền tệ theo quy định tại Điều 104 của Luật này.
Mua, bán trái phiếu Chính phủ, trái phiếu doanh nghiệp.
Bảo lãnh phát hành trái phiếu Chính phủ, trái phiếu doanh nghiệp; đại lý phát hành trái phiếu, cổ phiếu và các loại giấy tờ có giá khác.
Kinh doanh, cung ứng dịch vụ ngoại hối theo quy định của Ngân hàng Nhà nước.
Làm đại lý kinh doanh bảo hiểm.
Cung ứng dịch vụ tư vấn trong lĩnh vực ngân hàng, tài chính, đầu tư.
Cung ứng dịch vụ quản lý, bảo quản tài sản của khách hàng.
Công ty tài chính với vai trò nhằm thúc đẩy nền kinh tế phát triển, tạo vốn cho nền kinh tế, thúc đẩy các hoạt động của các NHTM mở rộng và hiện đại hóa hệ thống của ngân hàng, giúp điều hành chính sách tiền tệ của ngân hàng trung ương, đáp ứng đủ và kịp thời nhu cầu về vốn với chi phí thấp nhất. Ngoài ra, khai thác được mọi nguồn vốn phục vụ cho đầu tư phát triển sản xuất kinh doanh.
Nhằm để phân tích các yếu tố ảnh hưởng đến phản ứng về chiến dịch của khách hàng, chọn biến phụ thuộc là biến y thể hiện khách hàng thể hiện khách hàng có phản ứng như thể nào với chiến dịch của công ty.
\[ y = \beta_0 + \beta_1age + \beta_2ms + \beta_3ed + \beta_4hs + \beta_5ln + \beta_6ct + \beta_7dr+ \beta_8cp + \beta_9poc \]
Nguồn dữ liệu: (https://www.kaggle.com/datasets/pkdarabi/bank-marketing-dataset)
str(dl)
## 'data.frame': 4426 obs. of 10 variables:
## $ age : num 32 58 32 39 32 43 35 30 34 21 ...
## $ marital : chr "yes" "yes" "yes" "yes" ...
## $ education: chr "university.degree" "basic" "university.degree" "high.school" ...
## $ housing : chr "no" "yes" "yes" "no" ...
## $ loan : chr "yes" "no" "yes" "no" ...
## $ contact : chr "cellular" "cellular" "cellular" "cellular" ...
## $ duration : num 133 358 36 1011 142 ...
## $ campaign : num 2 2 9 1 1 1 1 1 2 3 ...
## $ poutcome : chr "failure" "failure" "failure" "success" ...
## $ y : chr "no" "no" "no" "no" ...
Thông qua bảng dữ liệu trên, ta thấy dữ liệu nghiên cứu gồm 4426 quan sát và 10 biến khác nhau. Trong đó, có 7 biến định tính và 3 biến định lượng.
Bộ dữ liệu được thu thập từ các hai chiến dịch tiếp thị của một tổ chức tài chính, nhằm mục đích cải thiện hiệu quả của các chiến dịch tiếp thị trong tương lai. Vì vậy, phân tích xem hiệu quả của chiến dịch tiếp thị trước đó. Sau đó, xác định các yếu tố ảnh hưởng đến kết quả của chiến dịch, nhằm xác định các chiến lước tốt hơn trong tương lai.
Dữ liệu gồm 4426 quan sát và 10 biến.
table(y)
## y
## no yes
## 3202 1224
table(y)/sum(table(y))
## y
## no yes
## 0.7234523 0.2765477
dl |> ggplot(aes(x = y, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Phản ứng về chiến dịch', y = 'Số khách hàng')
Bảng tần số/tần suất còn được gọi là bảng ngẫu nhiên. Khi lập bảng ngẫu nhiên cho 2 biến thì bảng đó được gọi là bảng ngẫu nhiên 2 chiều, nếu lập cho 3 biến thì gọi là ngẫu nhiên 3 chiều và cứ thế tăng lên. Đối với bảng tần số, ta quy ước biến phụ thuộc được sắp xếp theo cột và biến độc lập được sắp xếp theo hàng.
summary(age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 31.00 37.00 39.98 47.00 94.00
age1 <- cut(age, 2, labels = c('low','high'))
summary(age1)
## low high
## 3896 530
Theo kết quả trên, độ tuổi của khách hàng tại công ty tài chính trung bình ở độ tuổi 40, độ tuổi cao nhất là 94 tuổi và thấp nhất là 17 tuổi. 25% khách hàng có độ tuổi nhỏ hơn 31 tuổi, 50% khách hàng có độ tuổi nhỏ hơn 37 tuổi và 75% khách hàng có độ tuổi nhỏ hơn 47 tuổi. Trong 4426 khách hàng của công ty tài chính, có 3896 khách hàng ở độ tuổi thấp và 530 khách hàng có độ tuổi cao.
table(age1)/sum(table(age1))
## age1
## low high
## 0.8802531 0.1197469
dl <- data.frame(age, ms, ed, hs, ln, ct, dr, cp, poc, y)
dl |> ggplot(aes(x = age1, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Độ tuổi', y = 'Số khách hàng')
Dựa vào đồ thị của biến age, ta thấy rằng tỷ lệ khách hàng ở độ tuổi thấp gấp 7,33 lần tỷ lệ khách hàng ở độ tuổi cao.
table(ms)
## ms
## no yes
## 2029 2397
table(ms)/sum(table(ms))
## ms
## no yes
## 0.4584275 0.5415725
dl |> ggplot(aes(x = ms, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Tình trạng hôn nhân', y = 'Số khách hàng')
Biến Marital (ms) thể hiện tình trạng hôn nhân của khách hàng rằng khách hàng đã kết hôn hay chưa. Dựa vào kết quả thống kê và đồ thị trên, ta thấy có 2029 khách hàng chưa kết hôn và 2397 khách hàng đã kết hôn trên tổng số 4426 khách hàng. Cụ thể, tỷ lệ khách hàng đã kết hôn (với tỷ lệ 45,84%) chiếm cao hơn tỷ lệ khách hàng chưa kết hôn (với tỷ lệ 54,16%).
table(ed)
## ed
## basic high.school illiterate professional.course
## 1099 1180 1 594
## university.degree
## 1552
table(ed)/sum(table(ed))
## ed
## basic high.school illiterate professional.course
## 0.2483054677 0.2666064166 0.0002259376 0.1342069589
## university.degree
## 0.3506552192
dl |> ggplot(aes(x = ed, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Trình độ học vấn', y = 'Số khách hàng')
Dựa vào đồ thị và kết quả thống kê trên, ta thấy rằng tỷ lệ khách hàng có trình độ học vấn là cử nhân chiếm tỷ lệ cao nhất với tỷ lệ 35,1%, tỷ lệ khách hàng bỏ học có tỷ lệ thấp nhất xấp xỉ 0,02% (1 khách hàng).
table(hs)
## hs
## no yes
## 1892 2534
table(hs)/sum(table(hs))
## hs
## no yes
## 0.427474 0.572526
dl |> ggplot(aes(x = hs, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Nhà', y = 'Số khách hàng')
Biến Housing (hs) thể hiện khách hàng có nhà hay không. Dựa vào kết quả thống kê và đồ thị trên, ta thấy có 1892 khách hàng chưa có nhà và 2534 khách hàng đã có nhà trên tổng số 4426 khách hàng. Cụ thể, tỷ lệ khách hàng đã có nhà (với tỷ lệ 57%) chiếm cao hơn tỷ lệ khách hàng chưa có nhà (với tỷ lệ 43%).
table(ln)
## ln
## no yes
## 3745 681
table(ln)/sum(table(ln))
## ln
## no yes
## 0.8461365 0.1538635
dl |> ggplot(aes(x = ln, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Vay nợ', y = 'Số khách hàng')
Biến Loan (ln) thể hiện khách hàng có vay tại công ty tài chính hay không. Dựa vào kết quả thống kê và đồ thị trên, ta thấy có 3745 khách hàng không vay tại công ty tài chính và 681 khách hàng có vay tại công ty tài chính trên tổng số 4426 khách hàng. Cụ thể, tỷ lệ khách hàng không vay tại công ty tài chính (với tỷ lệ 85%) chiếm cao hơn tỷ lệ khách hàng có vay tại công ty tài chính (với tỷ lệ 15%).
table(ct)
## ct
## cellular telephone
## 4101 325
table(ct)/sum(table(ct))
## ct
## cellular telephone
## 0.92657027 0.07342973
dl |> ggplot(aes(x = ct, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Cách thức liên lạc', y = 'Số khách hàng')
Biến Contact (ct) thể hiện cách thức công ty liên hệ với khách hàng. Dựa vào kết quả thống kê và đồ thị trên, ta thấy có 4101 khách hàng công ty sử dụng điện thoại di động để liên lạc và 325 khách hàng công ty sử dụng điện thoại bàn để liên lạc trên tổng số 4426 khách hàng. Cụ thể, tỷ lệ khách hàng công ty sử dụng điện thoại di động để liên lạc (với tỷ lệ 93%) chiếm cao hơn tỷ lệ khách hàng công ty sử dụng điện thoại bàn để liên lạc (với tỷ lệ 7%).
summary(dr)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1 116 199 266 329 3509
dr1 <- cut(dr, breaks = c(0, mean(dr), max(dr)), labels = c('few', 'many'))
table(dr1)
## dr1
## few many
## 2885 1541
Theo kết quả trên, số ngày trung bình mà khách hàng đã bắt đầu sử dụng các dịch vụ của công ty tài chính là 266 ngày, số ngày nhiều nhất là 3509 ngày và ít nhất là 1 ngày. 65% khách hàng có số ngày sử dụng dưới 266 ngày, 35% khách hàng có số ngày sử dụng trên 266 ngày. Trong 4426 khách hàng của công ty tài chính, có 2885 khách hàng có số ngày sử dụng dưới 266 ngày và 1541 khách hàng có số ngày sử dụng trên 266 ngày.
table(dr1)/sum(table(dr1))
## dr1
## few many
## 0.6518301 0.3481699
dl <- data.frame(age, ms, ed, hs, ln, ct, dr, cp, poc, y)
dl |> ggplot(aes(x = dr1, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Ngày sử dụng các dịch vụ tại công ty', y = 'Số khách hàng')
Dựa vào đồ thị, ta thấy rằng, khách hàng có số ngày sử dụng các dịch vụ ít gấp 1,86 lần khách hàng có số ngày sử dụng các dịch vụ nhiều.
summary(cp)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.944 2.000 12.000
cp1 <- cut(cp, breaks = c(0, 2, max(cp)), labels = c('few', 'many'))
summary(cp1)
## few many
## 3488 938
Theo kết quả trên, số cuộc gọi trung bình mà các khách hàng nhận được gần 2 cuộc gọi, khách hàng được gọi nhiều nhất với số cuộc gọi là 12 cuộc gọi và ít nhất là 1 cuộc gọi. 79% khách hàng nhận số cuộc gọi dưới 2 cuộc gọi, 21% khách hàng nhận số cuộc gọi trên 2 cuộc gọi. Trong 4426 khách hàng của công ty tài chính, 3488 khách hàng nhận số cuộc gọi dưới 2 cuộc gọi và 938 khách hàng nhận số cuộc gọi dưới 2 cuộc gọi.
table(cp1)/sum(table(cp1))
## cp1
## few many
## 0.7880705 0.2119295
dl <- data.frame(age, ms, ed, hs, ln, ct, dr, cp, poc, y)
dl |> ggplot(aes(x = cp1, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Số cuộc gọi', y = 'Số khách hàng')
Dựa vào đồ thị, ta thấy rằng, khách hàng nhận cuộc gọi ít gấp 3,76 lần khách hàng nhận cuộc gọi nhiều.
table(poc)
## poc
## failure success
## 3301 1125
table(poc)/sum(table(poc))
## poc
## failure success
## 0.7458202 0.2541798
dl |> ggplot(aes(x = poc, y = after_stat(count))) +
geom_bar(fill = 'violet') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'black', vjust = - .5) +labs(x = 'Kết quả của chiến dịch trước', y = 'Số khách hàng')
Biến p_outcome (poc) thể hiện kết quả của chiến dịch trước là thất bại hay thành công đối với từng khách hàng. Dựa vào kết quả thống kê và đồ thị trên, ta thấy có 3301 quan sát thể hiện thất bại của chiến dịch và 1125 quan sát thể hiện thành công của chiến dịch trên tổng số 4426 quan sát. Cụ thể, tỷ lệ thất bại của chiến dịch (với tỷ lệ 75%) chiếm cao hơn tỷ lệ thành công của chiến dịch (với tỷ lệ 25%).
dl1 <- table(y,age1)
dl1
## age1
## y low high
## no 2915 287
## yes 981 243
Trong tổng 4426 khách hàng, ta thấy có 2915 khách hàng ở độ tuổi thấp có phản ứng tiêu cực với chiến dịch của công ty tài chính, 981 khách hàng ở độ tuổi thấp có phản ứng tích cực với chiến dịch. Trong khi đó, có 287 khách hàng ở độ tuổi cao có phản ứng tiêu cực với chiến dịch, 243 khách hàng ở độ tuổi cao có phản ứng tích cực với chiến dịch.
dl2 <- table(y,hs)
dl2
## hs
## y no yes
## no 1359 1843
## yes 533 691
Trong tổng 4426 khách hàng, ta thấy có 1359 khách hàng chưa có nhà có phản ứng tiêu cực với chiến dịch của công ty tài chính, 535 khách hàng chưa có nhà có phản ứng tích cực với chiến dịch. Trong khi đó, có 1843 khách hàng đã có nhà có phản ứng tiêu cực với chiến dịch, 691 khách hàng đã có nhà có phản ứng tích cực với chiến dịch.
dl3 <- table(y,ln)
dl3
## ln
## y no yes
## no 2701 501
## yes 1044 180
Trong tổng 4426 khách hàng, ta thấy có 2701 khách hàng chưa vay có phản ứng tiêu cực với chiến dịch của công ty tài chính, 1044 khách hàng chưa vay có phản ứng tích cực với chiến dịch. Trong khi đó, có 501 khách hàng đã vay có phản ứng tiêu cực với chiến dịch, 180 khách hàng đã vay có phản ứng tích cực với chiến dịch.
dl4 <- table(y,ct)
dl4
## ct
## y cellular telephone
## no 2955 247
## yes 1146 78
Trong tổng 4426 khách hàng, ta thấy có 2955 khách hàng liên hệ bằng di động có phản ứng tiêu cực với chiến dịch của công ty tài chính, 1146 khách hàng liên hệ bằng di động có phản ứng tích cực với chiến dịch. Trong khi đó, có 247 khách hàng liên hệ bằng điện thoại bàn có phản ứng tiêu cực với chiến dịch, 78 khách hàng liên hệ bằng điện thoại bàn có phản ứng tích cực với chiến dịch.
dl5 <- table(y,dr1)
dl5
## dr1
## y few many
## no 2404 798
## yes 481 743
Trong tổng 4426 khách hàng, ta thấy có 2404 khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít có phản ứng tiêu cực với chiến dịch của công ty tài chính, 481 khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít có phản ứng tích cực với chiến dịch. Trong khi đó, có 798 khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính nhiều có phản ứng tiêu cực với chiến dịch, 743 khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít có phản ứng tích cực với chiến dịch.
dl6 <- table(y, poc)
dl6
## poc
## y failure success
## no 2817 385
## yes 484 740
Trong tổng 4426 khách hàng, ta thấy có 2817 quan sát thấy rằng chiến dịch trước thất bại có phản ứng tiêu cực với chiến dịch của công ty tài chính, 484 quan sát thấy rằng chiến dịch trước thất bại có phản ứng tích cực với chiến dịch. Trong khi đó, có 385 quan sát thấy rằng chiến dịch trước thành công có phản ứng tiêu cực với chiến dịch, 740 quan sát thấy rằng chiến dịch trước thành công có phản ứng tích cực với chiến dịch.
dl7 <- table(y, cp1)
dl7
## cp1
## y few many
## no 2490 712
## yes 998 226
Trong tổng 4426 khách hàng, ta thấy có 2490 khách hàng nhận cuộc gọi ít có phản ứng tiêu cực với chiến dịch của công ty tài chính, 998 khách hàng nhận cuộc gọi ít có phản ứng tích cực với chiến dịch. Trong khi đó, có 712 khách hàng nhận cuộc gọi nhiều có phản ứng tiêu cực với chiến dịch, 226 khách hàng nhận cuộc gọi nhiều có phản ứng tích cực với chiến dịch.
dl8 <- table(y, ms)
dl8
## ms
## y no yes
## no 1459 1743
## yes 570 654
Trong tổng 4426 khách hàng, ta thấy có 1459 khách hàng chưa kết hôn có phản ứng tiêu cực với chiến dịch của công ty tài chính, 570 khách hàng chưa kết hôn có phản ứng tích cực với chiến dịch. Trong khi đó, có 1743 khách hàng đã kết hôn có phản ứng tiêu cực với chiến dịch, 654 khách hàng đã kết hôn có phản ứng tích cực với chiến dịch.
Ký hiệu là \(\pi_i\) là tỷ lệ “thành công của biến phụ thuộc tương ứng với từng biến độc lập. Từ bảng tần xuất, chúng ta tính \(\frac{\pi_1}{\pi_2}\), phân số này được gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc.
addmargins(dl1)
## age1
## y low high Sum
## no 2915 287 3202
## yes 981 243 1224
## Sum 3896 530 4426
RelRisk(dl1)
## [1] 1.135873
Tỷ lệ khách hàng ở độ tuổi thấp nhưng có phản ứng tiêu cực với chiến dịch gấp 1,14 lần tỷ lệ khách hàng ở độ tuổi thấp nhưng có phản ứng tích cực với chiến dịch.
addmargins(dl2)
## hs
## y no yes Sum
## no 1359 1843 3202
## yes 533 691 1224
## Sum 1892 2534 4426
RelRisk(dl2)
## [1] 0.9746582
Tỷ lệ khách hàng chưa có nhà và có phản ứng tiêu cực với chiến dịch gấp 97,47% lần tỷ lệ khách hàng chưa có nhà nhưng có phản ứng tích cực với chiến dịch.
addmargins(dl3)
## ln
## y no yes Sum
## no 2701 501 3202
## yes 1044 180 1224
## Sum 3745 681 4426
RelRisk(dl3)
## [1] 0.9889724
Tỷ lệ khách hàng chưa vay và có phản ứng tiêu cực với chiến dịch gấp 98,9% lần tỷ lệ khách hàng chưa vay nhưng có phản ứng tích cực với chiến dịch.
addmargins(dl4)
## ct
## y cellular telephone Sum
## no 2955 247 3202
## yes 1146 78 1224
## Sum 4101 325 4426
RelRisk(dl4)
## [1] 0.9856732
Tỷ lệ khách hàng liên hệ bằng di động và có phản ứng tiêu cực với chiến dịch gấp 98,57% lần tỷ lệ khách hàng liên hệ bằng di động và có phản ứng tích cực với chiến dịch.
addmargins(dl5)
## dr1
## y few many Sum
## no 2404 798 3202
## yes 481 743 1224
## Sum 2885 1541 4426
RelRisk(dl5)
## [1] 1.910511
Tỷ lệ khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít và có phản ứng tiêu cực với chiến dịch gấp 1,91 lần tỷ lệ khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít và có phản ứng tích cực với chiến dịch.
addmargins(dl6)
## poc
## y failure success Sum
## no 2817 385 3202
## yes 484 740 1224
## Sum 3301 1125 4426
RelRisk(dl6)
## [1] 2.224854
Tỷ lệ chiến dịch trước thất bại và khách hàng có phản ứng tiêu cực với chiến dịch gấp 2,22 lần tỷ lệ chiến dịch trước thành công và có khách hàng phản ứng tích cực với chiến dịch.
addmargins(dl7)
## cp1
## y few many Sum
## no 2490 712 3202
## yes 998 226 1224
## Sum 3488 938 4426
RelRisk(dl7)
## [1] 0.9537376
Tỷ lệ khách hàng nhận cuộc gọi ít và có phản ứng tiêu cực với chiến dịch gấp 95,37% lần tỷ lệ khách hàng nhận cuộc gọi nhiều và có phản ứng tích cực với chiến dịch.
addmargins(dl8)
## ms
## y no yes Sum
## no 1459 1743 3202
## yes 570 654 1224
## Sum 2029 2397 4426
RelRisk(dl8)
## [1] 0.9784543
Tỷ lệ khách hàng chưa kết hôn và có phản ứng tiêu cực với chiến dịch gấp 97,85% lần tỷ lệ khách hàng chưa kết hôn và có phản ứng tích cực với chiến dịch.
Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là \(\pi_i\) thì chúng ta ký hiệu Tỷ lệ cược (odd) của biểu hiện này là \(odd_i\) và được định nghĩa như sau:
\[ odd_i = \frac{\pi_i}{1-\pi_i} \]
Nghĩa là chúng ta tính tỷ lệ thành công theo từng hàng trong bảng ngẫu nhiên. Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được ký hiệu là \(\theta_{ij}\) và được định nghĩa:
\[ \theta = \frac{odd_i}{odd_j} = \frac{\frac{\pi_i}{1-\pi_i}}{\frac{\pi_j}{1-\pi_j}} = \frac{\pi_i(1-\pi_j)}{\pi_j(1-\pi_i)} \]
dl1
## age1
## y low high
## no 2915 287
## yes 981 243
OddsRatio(dl1)
## [1] 2.515903
Theo kết quả trên, ta thấy, tỷ lệ khách hàng có độ tuổi thấp so với khách hàng có độ tuổi cao mà có phản ứng tiêu cực với chiến dịch gấp 2,52 lần khách hàng có độ tuổi thấp so với khách hàng có độ tuổi cao mà có phản ứng tích cực với chiến dịch.
dl2
## hs
## y no yes
## no 1359 1843
## yes 533 691
OddsRatio(dl2)
## [1] 0.9559715
Theo kết quả trên, ta thấy, tỷ lệ khách hàng chưa có nhà so với khách hàng có nhà mà có phản ứng tiêu cực với chiến dịch gấp 95,6% lần khách hàng chưa có nhà so với khách hàng có nhà mà có phản ứng tích cực với chiến dịch.
dl3
## ln
## y no yes
## no 2701 501
## yes 1044 180
OddsRatio(dl3)
## [1] 0.9295203
Theo kết quả trên, ta thấy, tỷ lệ khách hàng chưa vay so với khách hàng đã vay mà có phản ứng tiêu cực với chiến dịch gấp 92,95% lần khách hàng chưa vay so với khách hàng đã vay mà có phản ứng tích cực với chiến dịch.
dl4
## ct
## y cellular telephone
## no 2955 247
## yes 1146 78
OddsRatio(dl4)
## [1] 0.8142739
Theo kết quả trên, ta thấy, tỷ lệ khách hàng liên hệ bằng di động so với khách hàng liên hệ bằng điện thoại bàn mà có phản ứng tiêu cực với chiến dịch gấp 81,43% lần khách hàng liên hệ bằng di động so với khách hàng liên hệ bằng điện thoại bàn mà có phản ứng tích cực với chiến dịch.
dl5
## dr1
## y few many
## no 2404 798
## yes 481 743
OddsRatio(dl5)
## [1] 4.653453
Theo kết quả trên, ta thấy, tỷ lệ khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít so với khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính nhiều mà có phản ứng tiêu cực với chiến dịch gấp 4,65 lần khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính ít so với khách hàng có số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính nhiều mà có phản ứng tích cực với chiến dịch.
dl6
## poc
## y failure success
## no 2817 385
## yes 484 740
OddsRatio(dl6)
## [1] 11.18697
Theo kết quả trên, ta thấy, tỷ lệ chiến dịch trước thất bại so với chiến dịch trước thành công mà khách hàng có phản ứng tiêu cực với chiến dịch gấp 11,19 lần chiến dịch trước thất bại so với chiến dịch trước thành công mà có phản ứng tích cực với chiến dịch.
dl7
## cp1
## y few many
## no 2490 712
## yes 998 226
OddsRatio(dl7)
## [1] 0.7919491
Theo kết quả trên, ta thấy, tỷ lệ khách hàng nhận cuộc gọi ít so với khách hàng nhận cuộc gọi nhiều mà có phản ứng tiêu cực với chiến dịch gấp 79,19% lần khách hàng nhận cuộc gọi ít so với khách hàng nhận cuộc gọi nhiều mà có phản ứng tích cực với chiến dịch.
dl8
## ms
## y no yes
## no 1459 1743
## yes 570 654
OddsRatio(dl8)
## [1] 0.9604191
Theo kết quả trên, ta thấy, tỷ lệ khách hàng chưa kết hôn so với khách hàng đã kết hôn mà có phản ứng tiêu cực với chiến dịch gấp 96,04% lần khách hàng chưa kết hôn so với khách hàng đã kết hôn mà có phản ứng tích cực với chiến dịch.
Giả thuyết \(H_0\): X, Y độc lập. Giá trị kiểm định: Phương pháp Chi bỉnh phương:
\[ \mathcal{X}^2 = \sum\limits_{i,j} \frac{(n_{ij}-\hat{\mu}_{ij})^2}{\hat{\mu}_{ij}} \]
Với \(n_{ij}\) là giá trị của ô i, j, \(\hat{\mu}_{ij}\) = \(\frac{n_i+n_j}{n}\).
chisq.test(dl1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl1
## X-squared = 98.592, df = 1, p-value < 2.2e-16
Kết quả p_value < 2.2e-16 < 0,05, nên bác bỏ \(H_0\), tức là phản ứng của khách hàng về chiến dịch có liên quan tới độ tuổi của khách hàng.
chisq.test(dl2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl2
## X-squared = 0.39667, df = 1, p-value = 0.5288
Kết quả p_value = 0,5288 > 0,05, nên chấp nhận \(H_0\), tức là phản ứng của khách hàng về chiến dịch độc lập với việc khách hàng đã có nhà hay chưa.
chisq.test(dl3)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl3
## X-squared = 0.53167, df = 1, p-value = 0.4659
Kết quả p_value = 0,4659 > 0,05, nên chấp nhận \(H_0\), tức là phản ứng của khách hàng về chiến dịch độc lập với việc khách hàng có đi vay hay không.
chisq.test(dl4)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl4
## X-squared = 2.1488, df = 1, p-value = 0.1427
Kết quả p_value = 0,1427 > 0,05, nên chấp nhận \(H_0\), tức là phản ứng của khách hàng về chiến dịch độc lập với cách thức liên hệ với khách hàng.
chisq.test(dl5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl5
## X-squared = 497.96, df = 1, p-value < 2.2e-16
Kết quả p_value < 2.2e-16 < 0,05, nên bác bỏ \(H_0\), tức là phản ứng của khách hàng về chiến dịch có liên quan tới số ngày mà khách hàng đã bắt đầu sử dụng các dịch vụ tại công ty tài chính.
chisq.test(dl7)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl7
## X-squared = 7.3196, df = 1, p-value = 0.006821
Kết quả p_value = 0,006821 < 0,05, nên bác bỏ \(H_0\), tức là phản ứng của khách hàng về chiến dịch có liên quan tới số cuộc gọi mà khách hàng nhận được.
chisq.test(dl6)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl6
## X-squared = 1093.2, df = 1, p-value < 2.2e-16
Kết quả p_value < 2.2e-16 < 0,05, nên bác bỏ \(H_0\), tức là phản ứng của khách hàng về chiến dịch có liên quan tới kết quả của chiến dịch trước.
chisq.test(dl8)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dl8
## X-squared = 0.31979, df = 1, p-value = 0.5717
Kết quả p_value = 0,5717 > 0,05, nên chấp nhận \(H_0\), tức là phản ứng của khách hàng về chiến dịch độc lập với tình trạng hôn nhân của khách hàng.
dl9 <- table(y,ed)
dl9
## ed
## y basic high.school illiterate professional.course university.degree
## no 859 889 1 406 1047
## yes 240 291 0 188 505
chisq.test(dl9)
## Warning in chisq.test(dl9): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: dl9
## X-squared = 47.496, df = 4, p-value = 1.202e-09
Kết quả p_value = 1,202e-09 < 0,05, nên bác bỏ \(H_0\), tức là phản ứng của khách hàng về chiến dịch có liên quan tới trình độ học vấn của khách hàng.
Công thức ước lượng tỷ lệ (cho một tổng thể)
\[ \hat{p} - Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq P \leq \hat{p} + Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Ước lượng tỷ lệ phản ứng của khách hàng về chiến dich là tích cực có phải là 28% hay không. Tức là kiểm định giả thuyết: \(H_0\): p = 0,28.
tl <- dl[y == "1",]
prop.test(length(tl$y), length(dl$y), p = 0.28)
##
## 1-sample proportions test with continuity correction
##
## data: length(tl$y) out of length(dl$y), null probability 0.28
## X-squared = 1719.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.28
## 95 percent confidence interval:
## 0.000000000 0.001081125
## sample estimates:
## p
## 0
Kết quả cho thấy, p_value = 0,6207 > 5%, tức là chấp nhận \(H_0\). Tại mức ý nghĩa 5% phản ứng của khách hàng về chiến dịch là tích cực là 28% trên tổng 4426 khách hàng. Khoảng ước lượng với độ tin cậy 95% của tỷ lệ số căn hộ bán là (0,263457;0,2900292).
Dữ liệu nhị phân là dữ liệu định tính chỉ nhận 2 giá trị: Đúng/Sai; Đồng ý/Không đồng ý;….
\[ logit(\pi) = log(\frac{\pi}{1-\pi}) = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+ \beta_kX_k \]
\[ probit(\pi) = \Phi^{-1}(\pi) = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+ \beta_kX_k \]
\[ cloglog(\pi) = log(-log(1-\pi)) = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+ \beta_kX_k \]
Với \(\pi\) là xác suất để biến phụ thuộc nhận giá trị “thành công”. Đối với hàm glm phạm trù thứ hai của biến nhị phân thể hiện cho “thành công” (chúng ta sử dụng hàm levels() để kiểm tra thứ tự của các phạm trù một biến định tính).
lg <- glm(data = dl, factor(y) ~ age + dr + cp + poc, family = binomial(link = "logit"))
summary(lg)
##
## Call:
## glm(formula = factor(y) ~ age + dr + cp + poc, family = binomial(link = "logit"),
## data = dl)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -4.9542 -0.5308 -0.4086 0.5578 2.5637
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.0377379 0.1648957 -18.422 < 2e-16 ***
## age 0.0110384 0.0032193 3.429 0.000606 ***
## dr 0.0036513 0.0001912 19.097 < 2e-16 ***
## cp -0.1449969 0.0346071 -4.190 2.79e-05 ***
## pocsuccess 2.4783401 0.0861454 28.769 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5219.7 on 4425 degrees of freedom
## Residual deviance: 3698.3 on 4421 degrees of freedom
## AIC: 3708.3
##
## Number of Fisher Scoring iterations: 5
\[ logit(\pi) = log(\frac{\pi}{1-\pi}) = -3,0377379 + 0,0110384age + 0,0036513dr - 0,1449969cp + 2,4783401pocsuccess \]
Kiểm định sự phù hợp của mô hình: Giả thuyết \(H_0\): Mô hình không phù hợp.
lr_test <- anova(lg, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 4.575191e-09
Ta thấy, p_value = 4,57519e-09 < 0,05, nên ta bác bỏ giả thuyết \(H_0\), mô hình logit là mô hình phù hợp với dữ liệu.
pb <- glm(data = dl, formula = factor(y) ~ age + dr + cp + poc, family = binomial(link = "probit"))
levels(factor(y))
## [1] "no" "yes"
summary(pb)
##
## Call:
## glm(formula = factor(y) ~ age + dr + cp + poc, family = binomial(link = "probit"),
## data = dl)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -6.6428 -0.5372 -0.4164 0.6212 2.5904
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.7219221 0.0903111 -19.067 < 2e-16 ***
## age 0.0065774 0.0018196 3.615 0.000301 ***
## dr 0.0018379 0.0001019 18.043 < 2e-16 ***
## cp -0.0751181 0.0187637 -4.003 6.24e-05 ***
## pocsuccess 1.4506044 0.0489015 29.664 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5219.7 on 4425 degrees of freedom
## Residual deviance: 3728.8 on 4421 degrees of freedom
## AIC: 3738.8
##
## Number of Fisher Scoring iterations: 6
\[ probit(\pi)= \Phi(1-\pi) = -1,7219221 + 0,0065774age + 0,0018379dr - 0,0751181cp + 1,4506044pocsuccess \]
Kiểm định sự phù hợp của mô hình: Giả thuyết \(H_0\): Mô hình không phù hợp.
lr_test <- anova(pb, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 7.970061e-09
Ta thấy, p_value = 7,970061e-09 < 0,05, nên ta bác bỏ giả thuyết \(H_0\), mô hình probit là mô hình phù hợp với dữ liệu.
cl <- glm(data = dl, formula = factor(y) ~ age + dr + cp + poc, family = binomial(link = "cloglog"))
## Warning: glm.fit: algorithm did not converge
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
levels(factor(y))
## [1] "no" "yes"
summary(cl)
##
## Call:
## glm(formula = factor(y) ~ age + dr + cp + poc, family = binomial(link = "cloglog"),
## data = dl)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -8.4904 -0.5506 -0.4684 0.5825 2.3837
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.6035385 0.1168018 -22.290 < 2e-16 ***
## age 0.0090650 0.0022037 4.114 3.9e-05 ***
## dr 0.0020307 0.0001112 18.260 < 2e-16 ***
## cp -0.1088710 0.0257175 -4.233 2.3e-05 ***
## pocsuccess 1.8698291 0.0608108 30.748 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5219.7 on 4425 degrees of freedom
## Residual deviance: 3882.9 on 4421 degrees of freedom
## AIC: 3892.9
##
## Number of Fisher Scoring iterations: 25
\[ cloglog(\pi) = -2,6035385 + 0,0090650age + 0,0020307dr - 0,1088710cp + 1,8698291pocsuccess \]
Kiểm định sự phù hợp của mô hình: Giả thuyết \(H_0\): Mô hình không phù hợp.
lr_test <- anova(cl, test = "Chisq")
## Warning: glm.fit: algorithm did not converge
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: algorithm did not converge
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
p_value <- lr_test$Pr[2]
p_value
## [1] 1.775139e-09
Ta thấy, p_value = 1,775139e-09 < 0,05, nên ta bác bỏ giả thuyết \(H_0\), mô hình cloglog là mô hình phù hợp với dữ liệu.
Ta đánh giá các mô hình hồi quy cổ điển dựa vào hệ số xác định mô hình (\(R^2\)), nhưng đối với các mô hình hồi quy tuyến tính tổng quát, ta sử dụng các tiêu chí sau:
\[ AIC = -2ln(L) + 2k \]
Với L là giá trị cực đại của hàm hợp lý (likelihood function) và k là số tham số của mô hình. Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quát, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt. lưu ý: Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC và Deviance đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau:
\[ B = \frac{1}{n} \sum_{i=1}^{n} (p_i - o_i) \]
Trong đó: \(p_i\), \(o_i\) lần lượt là giá trị xác suất quan sát được, và giá trị xác suất tính ra từ mô hình. Giá trị của Brier Score càng nhỏ nghĩa là chênh lệch giữa xác suất thực tế và xác suất tính từ mô hình càng nhỏ, nghĩa là mô hình càng tốt.
# Tiêu chí AIC - Akaike Information Criterion
aic1 <- AIC(lg)
aic2 <- AIC(pb)
aic3 <- AIC(cl)
AIC <-cbind(aic1,aic2,aic3)
AIC
## aic1 aic2 aic3
## [1,] 3708.307 3738.809 3892.852
# Tiêu chí Deviance
de1 <- deviance(lg)
de2 <- deviance(pb)
de3 <- deviance(cl)
deviance <- cbind(de1,de2,de3)
deviance
## de1 de2 de3
## [1,] 3698.307 3728.809 3882.852
# Tiêu chí Brier Score
bs1 <- BrierScore(lg)
bs2 <- BrierScore(pb)
bs3 <- BrierScore(cl)
BrierScore <- cbind(bs1,bs2,bs3)
BrierScore
## bs1 bs2 bs3
## [1,] 0.1300596 0.1308641 0.132992
Thông qua 3 kết quả các tiêu chí đánh giá mô hình trên, ta thấy rằng, mô hình probit có các giá trị AIC, Deviance và Brier Score nhỏ nhất. Vì vậy, mô hình logit là mô hình tốt nhất cho dữ liệu này.
\[ logit(\pi) = log(\frac{\pi}{1-\pi}) = -3,0377379 + 0,0110384age + 0,0036513dr - 0,1449969cp + 2,4783401pocsuccess \]
Với \(\pi\) là xác suất để biến y nhận giá trị “tích cực”.
Mô hình được đưa ra cuối cùng là mô hình hồi quy logistic với hàm liên kết probit có biến phụ thuộc là phản ứng của khách hàng với chiến dịch của công ty (y) và các biến độc lập. Theo kết quả hồi quy, mô hình có 3 yếu tố có ảnh hưởng đến phản ứng của khách hàng (y) là độ tuổi của khách hàng (age), số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính của khách hàng (dr), kết quả của chiến dịch trước (poc) ở mức ý nghĩa 5%.
Kết quả bài nghiên cứu cho thấy, với mức ý nghĩa 5%, độ tuổi của khách hàng (age), số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty tài chính của khách hàng (dr) có tác động đến phản ứng của khách hàng về chiến dịch (y). Cụ thể, 3 yếu tố này đều có tác động tích cực đến phản ứng của khách hàng.
Nhằm mục đích cải thiện hiệu quả hoạt động của công ty tài chính qua các chiến dịch. Dựa vào kết quả của bài nghiên cứu, tác giả đề xuất một số kiến nghị sau: Độ tuổi của khách hàng có ảnh hưởng đến phản ứng của khách hàng về chiến dịch, vì vậy chiến dịch mà công ty tài chính đưa ra cần hướng đến những khách hàng có độ tuổi trung niên trở lên để tăng phản ứng tích cực của chiến dịch hơn. Hơn nữa, số ngày kể từ khi bắt đầu sử dụng các dịch vụ tại công ty càng lâu thì phản hồi của khách hàng về chiến dịch sẽ tích cực, nên chiến dịch sẽ hướng đến các ưu đãi cho khách hàng thân thiết, lâu năm,… Và cuối cùng kết quả của chiến dịch trước thành công sẽ có tích cực với chiến dịch mới nên ta cần phải nhắm đến những khách hàng có phản hồi tích cực từ chiến dịch trước nhiều hơn.
[1] T. K. Thanh, T. M. Tường & V. A. L. Duy, Giáo trình Phân tích dữ liệu định tính, 2022.