1.Tìm một dataset có dữ liệu định tính, dữ liệu định lượng, có trên 5 biến và nhiều hơn 300 quan sát

Dữ liệu nghiên cứu về việc ngày càng có nhiều khách hàng rời bỏ việc sử dụng thẻ tín dụng của ngân hàng vì vậy ngân hàng cần dự đoán được ai là khách hàng tiềm năng để chủ động cung cấp dịch vụ tốt hơn và xoay chuyển quyết định của khách hàng trong trường hợp ngược lại. Bộ dữ liệu được lấy từ https://www.kaggle.com/datasets/whenamancodes/credit-card-customers-prediction?select=BankChurners.csv

Dữ liệu nghiên cứu bao gồm 639 quan sát với 10 biến gồm 5 biến định tính và 5 biến đinh lượng.

Giải thích biến

Customer_status: Tình trạng khách hàng

Gender: Giới tính

Education_Level: Trình độ học vấn

Marital_Status: Tình trạng hôn nhân

Income: Thu nhập hàng năm

Card: Thẻ (xanh, bạc, vàng, bạch kim)

Credit_Limit: Hạn mức tín dụng trên thẻ tín dụng

Total_Trans_Amt: Tổng số tiền giao dịch

Total_Trans_Ct: Tổng số giao dịch

Avg_Utilization_Ratio: Tỷ lệ trung bình sử dụng thẻ

Nhập dữ liệu

setwd("C:/Users/Asus/Downloads") 
data <- read.csv("BankChurners.csv")
View(data)
head(data)
##   STT Gender Education_Level Marital_Status Income_Category Card_Category
## 1   1      M     High School        Married     $60K - $80K          Blue
## 2   2      F        Graduate         Single  Less than $40K          Blue
## 3   3      M        Graduate        Married    $80K - $120K          Blue
## 4   4      F     High School        Unknown  Less than $40K          Blue
## 5   5      M      Uneducated        Married     $60K - $80K          Blue
## 6   6      M        Graduate        Married     $40K - $60K          Blue
##   Months_Inactive_12_mon Credit_Limit Total_Trans_Amt Total_Trans_Ct
## 1                      1        12691            1144             42
## 2                      1         8256            1291             33
## 3                      1         3418            1887             20
## 4                      4         3313            1171             20
## 5                      1         4716             816             28
## 6                      1         4010            1088             24
##   Avg_Utilization_Ratio
## 1                 0.061
## 2                 0.105
## 3                 0.000
## 4                 0.760
## 5                 0.000
## 6                 0.311

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.