Dữ liệu nghiên cứu có liên quan đến các chiến dịch tiếp thị trực tiếp(gọi điện thoại) của một tổ chức ngân hàng Bồ Đào Nha. Mục tiêu phân loại là khảo sát có đăng kí tài khoản tiền gửi có kì hạn hay không.
Dữ liệu bao gồm 10217 quan sát, có 8 biến (2 biến định lượng,6 biến định tính)
Age : tuổi tác
Job : nghề nghiệp
Marital : (married/đã kết hôn_single/độc thân_divorced/ly hôn)
Default : Có khoản vỡ nợ tín dụng không? (Yes/Có_No/Không)
Housing : Có khoản vay mua nhà không? (Yes/Có_No/Không)
Loan : Có khoản vay cá nhân không? (Yes/Có_No/Không)
Term_deposit : Có tài khoản tiền gửi có kì hạn không? (Yes/Có_No/Không)
Total_Relationship_Count : Số lượng sản phẩm ngân hàng mà khách hàng đang sở hữu
Job : nghề nghiệp
Marital : (married/đã kết hôn_single/độc thân_divorced/ly hôn)
Default : Có khoản vỡ nợ tín dụng không? (Yes/Có_No/Không)
Housing : Có khoản vay mua nhà không? (Yes/Có_No/Không)
Loan : Có khoản vay cá nhân không? (Yes/Có_No/Không)
Term_deposit : Có tài khoản tiền gửi có kì hạn không? (Yes/Có_No/Không)
Age : tuổi tác
Total_Relationship_Count : Số lượng sản phẩm ngân hàng mà khách hàng đang sở hữu
library(readxl)
datadt <- read_excel("C:/data/datadt.xlsx")
datadt
## # A tibble: 10,127 × 8
## age job marital default housing loan term_deposit Total_Relationship_C…¹
## <dbl> <chr> <chr> <chr> <chr> <chr> <chr> <dbl>
## 1 58 mana… married no yes no no 5
## 2 44 tech… single no yes no no 6
## 3 33 entr… married no yes yes no 4
## 4 47 blue… married no yes no no 3
## 5 33 unkn… single no no no no 5
## 6 35 mana… married no yes no no 3
## 7 28 mana… single no yes yes no 6
## 8 42 entr… divorc… yes yes no no 2
## 9 58 reti… married no yes no no 5
## 10 43 tech… single no yes no no 6
## # ℹ 10,117 more rows
## # ℹ abbreviated name: ¹Total_Relationship_Count
Tiết kiệm có kỳ hạn là một khoảng tiền cá nhân được người gửi gửi vào tài khoản tiết kiệm trong một khoảng thời gian nhất định do ngân hàng thương mại đưa ra và định trước. Thường khi người gửi chọn phương thức gửi tiết kiệm này thì họ đã có một khoản thu nhập thường xuyên và ổn định đáp ứng đủ cho nhu cầu sinh hoạt hàng tháng của họ vì vậy đa số những khách hàng lựa chọn phương thức này vì mục đích được hưỡng lợi tức nhiều hơn và có được theo định kỳ.
Tuy đây là nghiệp vụ không mang lại lợi nhuận trức tiếp của ngân hàng nhưng nghiệp vụ này đóng vai trò rất lớn trong bộ máy hoạt động của ngân hàng thương mại. Mỗi ngân hàng thương mại kể từ được cấp phép thành lập bắt buộc phải có vốn điều lệ theo quy định của Ngân Hàng Nhà Nước. Nhưng vốn điều lệ ban đầu đó chỉ đủ để mua những tài sản cố định như trụ sở văn phòng, máy móc, trang thiết bị cần thiết cho hoạt động kinh doanh như cấp tín dụng và các dịch vụ bán lẻ ngân hàng khác. Để duy trì và cung cấp đầy đủ các hoạt động khác của ngân hàng thì việc huy động vốn từ khách hàng là một trong những hoạt động cần thiết của ngân hàng thương mại
Ta tiến hành phân tích xem số lượng sản phẩm của ngân hàng mà khách hàng sở hữu có ảnh hưởng đến việc mở tài khoản tiền gửi của khách hàng hay không.
Chọn 5 biến :
Marital : (married/đã kết hôn_single/độc thân_divorced/ly hôn)
Default : Có khoản vỡ nợ tín dụng không? (Yes/Có_No/Không)
Loan : Có khoản vay cá nhân không? (Yes/Có_No/Không)
Term_deposit : Có tài khoản tiền gửi có kì hạn không? (Yes/Có_No/Không)
Total_Relationship_Count : Số lượng sản phẩm ngân hàng mà khách hàng đang sở hữu
Trong phần này chúng ta sẽ sử dụng dữ liệu về cuộc khảo sát KH qua điện thoại về đăng kí tài khoản tiền gửi có kì hạn
## *Bảng thống kê mô tả biến Total_Relationship_Count*
summary(datadt$Total_Relationship_Count)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 4.000 3.813 5.000 6.000
Dựa vào số liệu thống kê, ta thấy số lượng sản phẩm của Nh mà khách hàng sở hữu ít nhất là 1 sản phẩm, nhiều nhất là 6 sản phẩm. Trung bình mỗi khách hàng sẽ sở hữu khoảng 4 sản phẩm của ngân hàng và có 50% số khách hàng sở hữu 4 sản phẩm.
## *Bảng tần suất của biến Marital*
table(datadt$marital)
##
## divorced married single
## 1212 6171 2744
## *Bảng tần suất của biến Marital theo %*
table(datadt$marital)/sum(table(datadt$marital))
##
## divorced married single
## 0.1196801 0.6093611 0.2709588
Dựa vào kết quả phân tích ta thấy % số người được gọi khảo sát cao nhất thuộc vào nhóm người đã kết hôn chiếm 60.93%, sau đó là nhóm người chưa kết hôn chiếm 27.09% và đã ly hôn chiếm 11.96%
## *Đồ thị cột biến Marital*
library(ggplot2)
datadt |> ggplot(aes(marital)) +
geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`
## *Bảng tần suất biến default*
table(datadt$default)
##
## no yes
## 9904 223
## *Bảng tần suất biến default theo %*
table(datadt$default)/sum(table(datadt$default))
##
## no yes
## 0.97797966 0.02202034
Dựa theo kết quả thống kê thì số khách hàng có khoản vỡ nợ khi sử dụng dịch vụ tín dụng của ngân hàng chiếm tỉ lệ rất thấp chỉ khoảng 2,2%.
## *Đồ thị cột biến Default*
library(ggplot2)
datadt |> ggplot(aes(default)) +
geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`
## *Bảng tần suất biến loan*
table(datadt$loan)
##
## no yes
## 8638 1489
## *Bảng tần suất biến loan theo %*
table(datadt$loan)/sum(table(datadt$loan))
##
## no yes
## 0.8529673 0.1470327
Theo bảng tần suất về khoản vay cá nhân của khách hàng thì tỉ lệ khách hàng có khoản vay cá nhân chiếm khá thấp khoảng 14.7% và tỉ lệ khách hàng không có khoản vay cá nhân chiếm khá cao 85.29%
## *Đồ thị cột của biến Loan*
library(ggplot2)
datadt |> ggplot(aes(default)) +
geom_bar(olor = 'blue', fill = 'yellow')
## Warning in geom_bar(olor = "blue", fill = "yellow"): Ignoring unknown
## parameters: `olor`
## *Bảng tần số biến term_deposit*
table(datadt$term_deposit)
##
## no yes
## 9770 357
Theo bảng tần số của biến có tài khoản tiết kiệm có kì hạn, số người chưa có tài khoản chiếm khá lớn 9770 trong 10128 người, chỉ có 357 người đã có tài khoản tiết kiệm có kì hạn.
## *Đồ thị cột của biến term_deposit
library(ggplot2)
library(ggplot2)
datadt |> ggplot(aes(default)) +
geom_bar()
tmp <- table(datadt$loan, datadt$marital)
tmp
##
## divorced married single
## no 1035 5190 2413
## yes 177 981 331
Dựa vào bảng ta thấy:
Có 981 khách hàng đã kết hôn có khoản vay cá nhân, 5190 khách hàng đã kết hông không có khoản vay cá nhân.
Có 331 khách hàng chưa kết hôn có khoản vay cá nhân, 2413 khách hàng chưa kết hông không có khoản vay cá nhân.
Có 177 khách hàng đã ly hôn có khoản vay cá nhân, 1035 khách hàng đã ly hông không có khoản vay cá nhân.
ggplot(datadt, aes(marital, fill = loan)) + geom_bar(position = 'dodge')
tmp <- table(datadt$term_deposit, datadt$Total_Relationship_Count)
tmp
##
## 1 2 3 4 5 6
## no 856 1196 2234 1857 1829 1798
## yes 54 47 71 55 62 68
Có 54 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu một sản phẩm của ngân hàng cung cấp, 856 khách hàng không có khoản tiền gửi có kì hạn và sở hữu một sản phẩm của ngân hàng cung cấp.
Có 47 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu 2 sản phẩm của ngân hàng cung cấp, 1196 khách hàng không có khoản tiền gửi có kì hạn và sở hữu 2 sản phẩm của ngân hàng cung cấp.
Có 71 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu 3 sản phẩm của ngân hàng cung cấp, 2234 khách hàng không có khoản tiền gửi có kì hạn và sở hữu 3 sản phẩm của ngân hàng cung cấp.
Có 55 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu 4 sản phẩm của ngân hàng cung cấp, 1857 khách hàng không có khoản tiền gửi có kì hạn và sở hữu 4 sản phẩm của ngân hàng cung cấp.
Có 62 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu 5 sản phẩm của ngân hàng cung cấp, 1829 khách hàng không có khoản tiền gửi có kì hạn và sở hữu 5 sản phẩm của ngân hàng cung cấp.
Có 68 khách hàng có tài khoản tiền gửi có kì hạn và sở hữu 6 sản phẩm của ngân hàng cung cấp, 1798 khách hàng không có khoản tiền gửi có kì hạn và sở hữu 6 sản phẩm của ngân hàng cung cấp.
ggplot(datadt, aes(Total_Relationship_Count, fill =term_deposit )) + geom_bar(position = 'dodge')