PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH

Tuần 1

Dữ liệu nghiên cứu có liên quan đến các chiến dịch tiếp thị trực tiếp(gọi điện thoại) của một tổ chức ngân hàng Bồ Đào Nha. Mục tiêu phân loại là khảo sát có đăng kí tài khoản tiền gửi có kì hạn hay không.

Dữ liệu bao gồm 10217 quan sát, có 8 biến (2 biến định lượng,6 biến định tính)

Giải thích các biến

Các biến định tính

Các biến định lượng

library(readxl)
datadt <- read_excel("C:/data/datadt.xlsx")
datadt
## # A tibble: 10,127 × 8
##      age job   marital default housing loan  term_deposit Total_Relationship_C…¹
##    <dbl> <chr> <chr>   <chr>   <chr>   <chr> <chr>                         <dbl>
##  1    58 mana… married no      yes     no    no                                5
##  2    44 tech… single  no      yes     no    no                                6
##  3    33 entr… married no      yes     yes   no                                4
##  4    47 blue… married no      yes     no    no                                3
##  5    33 unkn… single  no      no      no    no                                5
##  6    35 mana… married no      yes     no    no                                3
##  7    28 mana… single  no      yes     yes   no                                6
##  8    42 entr… divorc… yes     yes     no    no                                2
##  9    58 reti… married no      yes     no    no                                5
## 10    43 tech… single  no      yes     no    no                                6
## # ℹ 10,117 more rows
## # ℹ abbreviated name: ¹​Total_Relationship_Count

Tuần 2

Chọn biến định lượng làm biến phụ thuộc : biến term_deposit

Tiết kiệm có kỳ hạn là một khoảng tiền cá nhân được người gửi gửi vào tài khoản tiết kiệm trong một khoảng thời gian nhất định do ngân hàng thương mại đưa ra và định trước. Thường khi người gửi chọn phương thức gửi tiết kiệm này thì họ đã có một khoản thu nhập thường xuyên và ổn định đáp ứng đủ cho nhu cầu sinh hoạt hàng tháng của họ vì vậy đa số những khách hàng lựa chọn phương thức này vì mục đích được hưỡng lợi tức nhiều hơn và có được theo định kỳ.

Tuy đây là nghiệp vụ không mang lại lợi nhuận trức tiếp của ngân hàng nhưng nghiệp vụ này đóng vai trò rất lớn trong bộ máy hoạt động của ngân hàng thương mại. Mỗi ngân hàng thương mại kể từ được cấp phép thành lập bắt buộc phải có vốn điều lệ theo quy định của Ngân Hàng Nhà Nước. Nhưng vốn điều lệ ban đầu đó chỉ đủ để mua những tài sản cố định như trụ sở văn phòng, máy móc, trang thiết bị cần thiết cho hoạt động kinh doanh như cấp tín dụng và các dịch vụ bán lẻ ngân hàng khác. Để duy trì và cung cấp đầy đủ các hoạt động khác của ngân hàng thì việc huy động vốn từ khách hàng là một trong những hoạt động cần thiết của ngân hàng thương mại

Chọn biến định tính: biến Total_Relationship_Count

Ta tiến hành phân tích xem số lượng sản phẩm của ngân hàng mà khách hàng sở hữu có ảnh hưởng đến việc mở tài khoản tiền gửi của khách hàng hay không.

Tuần 3: Làm thống kê mô tả cho ít nhất 5 biến

Chọn 5 biến :

Giải thích và thống kê mô tả cho từng biến

Bảng tần số cho cuộc khảo sát

Trong phần này chúng ta sẽ sử dụng dữ liệu về cuộc khảo sát KH qua điện thoại về đăng kí tài khoản tiền gửi có kì hạn

## *Bảng thống kê mô tả biến Total_Relationship_Count*
summary(datadt$Total_Relationship_Count)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.813   5.000   6.000

Dựa vào số liệu thống kê, ta thấy số lượng sản phẩm của Nh mà khách hàng sở hữu ít nhất là 1 sản phẩm, nhiều nhất là 6 sản phẩm. Trung bình mỗi khách hàng sẽ sở hữu khoảng 4 sản phẩm của ngân hàng và có 50% số khách hàng sở hữu 4 sản phẩm.

## *Bảng tần suất của biến Marital*
table(datadt$marital)
## 
## divorced  married   single 
##     1212     6171     2744
## *Bảng tần suất của biến Marital theo %*
table(datadt$marital)/sum(table(datadt$marital))
## 
##  divorced   married    single 
## 0.1196801 0.6093611 0.2709588

Dựa vào kết quả phân tích ta thấy % số người được gọi khảo sát cao nhất thuộc vào nhóm người đã kết hôn chiếm 60.93%, sau đó là nhóm người chưa kết hôn chiếm 27.09% và đã ly hôn chiếm 11.96%

## *Đồ thị cột biến Marital*
library(ggplot2)
datadt |> ggplot(aes(marital)) +
  geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`

## *Bảng tần suất biến default*
table(datadt$default)
## 
##   no  yes 
## 9904  223
## *Bảng tần suất biến default  theo %*
table(datadt$default)/sum(table(datadt$default))
## 
##         no        yes 
## 0.97797966 0.02202034

Dựa theo kết quả thống kê thì số khách hàng có khoản vỡ nợ khi sử dụng dịch vụ tín dụng của ngân hàng chiếm tỉ lệ rất thấp chỉ khoảng 2,2%.

## *Đồ thị cột biến Default*
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar(olor = 'blue', fill = 'green')
## Warning in geom_bar(olor = "blue", fill = "green"): Ignoring unknown
## parameters: `olor`

## *Bảng tần suất biến loan*
table(datadt$loan)
## 
##   no  yes 
## 8638 1489
## *Bảng tần suất biến loan theo %*
table(datadt$loan)/sum(table(datadt$loan))
## 
##        no       yes 
## 0.8529673 0.1470327

Theo bảng tần suất về khoản vay cá nhân của khách hàng thì tỉ lệ khách hàng có khoản vay cá nhân chiếm khá thấp khoảng 14.7% và tỉ lệ khách hàng không có khoản vay cá nhân chiếm khá cao 85.29%

## *Đồ thị cột của biến Loan*
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar(olor = 'blue', fill = 'yellow')
## Warning in geom_bar(olor = "blue", fill = "yellow"): Ignoring unknown
## parameters: `olor`

## *Bảng tần số biến term_deposit*
table(datadt$term_deposit)
## 
##   no  yes 
## 9770  357

Theo bảng tần số của biến có tài khoản tiết kiệm có kì hạn, số người chưa có tài khoản chiếm khá lớn 9770 trong 10128 người, chỉ có 357 người đã có tài khoản tiết kiệm có kì hạn.

## *Đồ thị cột của biến term_deposit
library(ggplot2)
library(ggplot2)
datadt |> ggplot(aes(default)) +
  geom_bar()

Lập bảng ngẫu nhiên hai chiều phân tích biến Loan và biến marital

tmp <-  table(datadt$loan, datadt$marital)
tmp
##      
##       divorced married single
##   no      1035    5190   2413
##   yes      177     981    331

Dựa vào bảng ta thấy:

ggplot(datadt, aes(marital, fill = loan)) + geom_bar(position = 'dodge')

Lập bảng ngẫu nhiên hai chiều phân tích biến term_deposit và Total_Relationship_Count

tmp <-  table(datadt$term_deposit, datadt$Total_Relationship_Count)
tmp
##      
##          1    2    3    4    5    6
##   no   856 1196 2234 1857 1829 1798
##   yes   54   47   71   55   62   68
ggplot(datadt, aes(Total_Relationship_Count, fill =term_deposit )) + geom_bar(position = 'dodge')