TIỂU LUẬN: NGÔN NGỮ LẬP TRÌNH TRONG PHÂN TÍCH DỮ LIỆU

GIỚI THIỆU VỀ DỮ LIỆU

Bộ dữ liệu được sử dụng trong tiểu luận được lấy từ nền tảng Kaggle, một kho dữ liệu trực tuyến phổ biến trong nghiên cứu và các dự án phân tích dữ liệu. Dữ liệu phản ánh thông tin khách hàng trong lĩnh vực bảo hiểm nhân thọ, bao gồm đặc điểm nhân khẩu học, hành vi sử dụng dịch vụ và tình trạng rời bỏ.

Mục tiêu của việc sử dụng bộ dữ liệu này là phân tích và xác định những yếu tố ảnh hưởng đến khả năng rời bỏ của khách hàng, từ đó xây dựng mô hình dự báo có độ chính xác cao. Kết quả phân tích giúp doanh nghiệp nhận diện nhóm khách hàng có nguy cơ rời bỏ và đề xuất các chính sách chăm sóc, duy trì khách hàng hiệu quả hơn.

Nghiên cứu đồng thời thể hiện tính ứng dụng của phân tích dữ liệu trong lĩnh vực bảo hiểm nhân thọ, góp phần nâng cao hiệu quả hoạt động và năng lực cạnh tranh của doanh nghiệp.

THÔNG TIN CƠ BẢN VỀ BỘ DỮ LIỆU

Đọc dữ liệu từ file Excel

library(readxl)
df <- read_excel("Customer.xlsx")

Ý nghĩa kỹ thuật:

Dòng [1] Tải thư viện cần thiết để đọc dữ liệu từ file Exce.

Dòng [3 ] Đọc dữ liệu file excel và lưu vào df.

Ý nghĩa thống kê:

Chuẩn bị môi trường R, nhập dữ liệu thô vào để chuẩn bị cho quá trình làm sạch và phân tích.

Số biến, số quan sát

dim(df)

## [1] 200000     12

Ý nghĩa kỹ thuật:

Dòng [1] Kiểm tra kích thước của bộ dữ liệu

Ý nghĩa thống kê:

Bộ dữ liệu có 12 biến và 200000 quan sát.

Ý nghĩa các biến

library(knitr)
variable_meaning <- data.frame(
  Variable = c(
    "Index",
    "Customer Name",
    "Customer Address",
    "Company Name",
    "Claim Reason",
    "Data confidentiality",
    "Claim Amount",
    "Category Premium",
    "Premium/Amount Ratio",
    "Claim Request output",
    "BMI",
    "Churn"
  ), 
  Meaning = c(
    "Số thứ tự của khách hàng trong bộ dữ liệu",
    "Tên khách hàng",
    "Địa chỉ khách hàng",
    "Tên công ty bảo hiểm quản lý hợp đồng",
    "Lý do khách hàng yêu cầu bồi thường",
    "Mức độ bảo mật dữ liệu của khách hàng",
    "Số tiền khách hàng yêu cầu bồi thường",
    "Mức phí bảo hiểm của khách hàng",
    "Tỷ lệ giữa phí bảo hiểm và số tiền yêu cầu bồi thường",
    "Kết quả xử lý yêu cầu bồi thường ",
    "Chỉ số khối cơ thể",
    "Khách hàng có rời công ty bảo hiểm hay không"
  ),
  stringsAsFactors = FALSE
)
kable(variable_meaning, col.names = c("Variable", "Meaning"))

Variable	Meaning
Index	Số thứ tự của khách hàng trong bộ dữ liệu
Customer Name	Tên khách hàng
Customer Address	Địa chỉ khách hàng
Company Name	Tên công ty bảo hiểm quản lý hợp đồng
Claim Reason	Lý do khách hàng yêu cầu bồi thường
Data confidentiality	Mức độ bảo mật dữ liệu của khách hàng
Claim Amount	Số tiền khách hàng yêu cầu bồi thường
Category Premium	Mức phí bảo hiểm của khách hàng
Premium/Amount Ratio	Tỷ lệ giữa phí bảo hiểm và số tiền yêu cầu bồi thường
Claim Request output	Kết quả xử lý yêu cầu bồi thường
BMI	Chỉ số khối cơ thể
Churn	Khách hàng có rời công ty bảo hiểm hay không

Ý nghĩa kỹ thuật:

Dòng [1] Tải thư viện knitr, thường dùng để tạo các báo cáo động, đặc biệt là hàm kable().

Dòng [2] Tạo một data frame tên là variable_meaning với hai cột: Variable (Tên biến tiếng Anh) và Meaning (Ý nghĩa tiếng Việt).

Dòng [31] Đảm bảo các chuỗi ký tự trong cột không tự động được chuyển thành factor khi tạo data frame.

Dòng [33] Sử dụng hàm kable để hiển thị data frame vừa tạo dưới dạng bảng định dạng đẹp.

Ý nghĩa thống kê:

Cung cấp ý nghĩa cho 12 biến.

Kiểu dữ liệu các biến

library(tibble)
data_types_summary <- tibble(
  Ten_Cot = c("Index", "Customer Name", "Customer Address", "Company Name", 
              "Claim Reason", "Data confidentiality", "Claim Amount", 
              "Category Premium", "Premium/Amount Ratio", "Claim Request output", 
              "BMI", "Churn"),
  Loai_Du_lieu_trong_R = c("num", "chr", "chr", "chr", "chr", 
                           "chr", "num", "num", "num", "chr", 
                           "num", "chr")
)
kable(data_types_summary,
      caption = "Bảng Tóm Tắt Loại Dữ liệu",
      col.names = c("Tên Cột", "Loại Dữ liệu trong R")
)

Bảng Tóm Tắt Loại Dữ liệu
Tên Cột	Loại Dữ liệu trong R
Index	num
Customer Name	chr
Customer Address	chr
Company Name	chr
Claim Reason	chr
Data confidentiality	chr
Claim Amount	num
Category Premium	num
Premium/Amount Ratio	num
Claim Request output	chr
BMI	num
Churn	chr

Ý nghĩa kỹ thuật:

Dòng [1] Tải thư viện tibble là một gói R cung cấp phiên bản hiện đại, thông minh hơn của data.frame truyền thống, giúp in ấn và chọn cột an toàn, dễ đoán hơn.

Dòng [2] Tạo bảng tóm tắt, liệt kê Tên cột và Kiểu dữ liệu trong R.

Dòng [11] Hiển thị bảng tóm tắt kiểu dữ liệu.

Ý nghĩa thống kê:

Có 5 biến định lượng (num) và 7 biến định tính (chr).

Thống kê mô tả các biến định lượng

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

summary(df$Index)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0   50000  100000  100000  149999  199999

Ý nghĩa kỹ thuật:

Dòng [1] Tóm tắt thống kê mô tả biến Index.

Ý nghĩa thống kê:

Đây là biến số thứ tự, nó không mang ý nghĩa thống kê.

summary(df$`Claim Amount`)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1     245    1390    1120    1844    2299

Ý nghĩa kỹ thuật:

Dòng [1] Tóm tắt thống kê mô tả biến Claim Amount.

Ý nghĩa thống kê:

Phát hiện phân phối lệch trái (Median=1390 lớn hơn Mean=1120) của số tiền bồi thường. Điều này cho thấy phần lớn các ca bồi thường có giá trị cao, nhưng có một số ca bồi thường giá trị rất thấp đã kéo giá trị trung bình chung đi xuống.

summary(df$`Category Premium`)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     399    1875   14390    8964   14390   14390

Ý nghĩa kỹ thuật:

Dòng [1] Tóm tắt thống kê mô tả biến Category Premium.

Ý nghĩa thống kê:

Phát hiện phân phối cực kỳ lệch trái Median=14390 lớn hơn nhiều so với Mean=896,hơn một nửa quan sát tập trung tại mức phí tối đa, nửa còn lại có giá trị rất thấp đã kéo giá trị trung bình thấp hơn so với trung vị.

df$'Premium/Amount Ratio' <- as.numeric(df$'Premium/Amount Ratio')
summary(df$`Premium/Amount Ratio`)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.002506 0.106741 0.125122 0.125024 0.143155 0.248120

Ý nghĩa kỹ thuật:

Dòng [1] Chuyển đổi biến từ kiểu character sang kiểu numeric vì R hiểu sai.

Dòng [2] Tóm tắt thống kê mô tả biến Premium/Amount Ratio.

Ý nghĩa thống kê:

Phát hiện phân phối đối xứng Median xấp xỉ Mean quanh mức 0.125, điều này cho thấy dữ liệu được phân bố đồng đều ở hai phía trung tâm.

summary(df$BMI)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   20.00   23.00   23.01   26.00   28.00

Ý nghĩa kỹ thuật:

Dòng [1] Tóm tắt thống kê mô tả biến BMI.

Ý nghĩa thống kê:

Phát hiện phân bố rất đối xứng Median xấp xỉ Mean (23.00) nằm trong ngưỡng “cân nặng bình thường”.

Thống kê mô tả các biến định tính

Các biến Customer Name, Customer Address và Company Name không mang ý nghĩa thống kê.

table(df$'Claim Reason')

## 
## Medical   Other   Phone  Travel 
##  109863   30187   30016   29934

Ý nghĩa kỹ thuật:

Dòng [1] Tạo bảng tần suất cho biến Claim Reason.

Ý nghĩa thống kê:

Xác định Medical(Y tế) là lý do phổ biến nhất.

table(df$`Data confidentiality`)

## 
##     High      Low   Medium Very low 
##   109863    29934    30016    30187

Ý nghĩa kỹ thuật:

Dòng [1] Tạo bảng tần suất cho biến Data confidentiality.

Ý nghĩa thống kê:

Dữ liệu cho thấy có một sự phân cực rõ rệt: phần lớn tập trung ở có mức độ bảo mật cao(High), trong khi ba mức độ còn lại (Low, Medium, Very low) có số lượng thấp hơn đáng kể so với mức High.

table(df$`Claim Request output`)

## 
##     No    Yes 
## 192994   7006

Ý nghĩa kỹ thuật:

Dòng [1] Tạo bảng tần suất cho biến Claim Request output.

Ý nghĩa thống kê:

Phát hiện mất cân bằng nghiêm trọng, từ chối lớn hơn nhiều so với chấp thuận.

Số lượng yêu cầu bị từ chối (No) (129994) lớn hơn rất nhiều so với số lượng yêu cầu được chấp thuận (Yes) (7006).

table(df$Churn)

## 
##     No    Yes 
##  72728 127272

Ý nghĩa kỹ thuật:

Dòng [1] Tạo bảng tần suất cho biến Churn.

Ý nghĩa thống kê:

Kết quả cho thấy số lượng khách hàng rời bỏ (Yes) (127272) lớn hơn đáng kể so với số lượng khách hàng duy trì (No) (72728).

Điều này chỉ ra rằng công ty đang đối mặt với một tỷ lệ khách hàng rời bỏ rất cao.

Kiểm tra dữ liệu bị thiếu

colSums(is.na(df))

##                Index        Customer Name     Customer_Address 
##                    0                    0                    0 
##         Company Name         Claim Reason Data confidentiality 
##                    0                    0                    0 
##         Claim Amount     Category Premium Premium/Amount Ratio 
##                    0                    0                    0 
## Claim Request output                  BMI                Churn 
##                    0                    0                    0

Ý nghĩa kỹ thuật:

Dòng [1] Đếm tổng số giá trị bị thiếu của từng cột.

Ý nghĩa thống kê:

Bộ dữ liệu không có giá trị bị thiếu.

Kiểm tra trùng lặp

sum(duplicated(df))

## [1] 0

Ý nghĩa kỹ thuật:

Dòng [1] Đếm tổng số hàng bị trùng lặp hoàn toàn.

Ý nghĩa thống kê:

Xác nhận bộ dữ liệu sạch (không có hàng trùng lặp).

Đếm xem có bao nhiêu tên khách hàng và tên công ty là duy nhất

df %>%
  summarise(
    số_khách_hàng_duy_nhất = n_distinct(`Customer Name`),
    số_công_ty_duy_nhất = n_distinct(`Company Name`)
  )

Ý nghĩa kỹ thuật:

Dòng [1] Tải bộ thư viện (bao gồm gói dplyr) để R hiểu các hàm toán tử và summarise.

Dòng [2] Tóm tắt toàn bộ 200.000 dòng df của thành một bảng duy nhất có 1 dòng và 2 cột.

Dòng [3] Đếm số lượng tên khách hàng không trùng lặp.

Dòng [4] Đếm số lượng tên công ty không trùng lặp.

Ý nghĩa thống kê:

Cho thấy có nhiều khách hàng đã khiếu nại nhiều lần và công tý cũng xuất hiện nhiều lần. Tuy nhiên khi kiểm tra hàng trùng lặp là 0 vậy nên khách hàng đó sẽ đại diện cho nhiều khiếu nại khác nhau.

XỬ LÝ VÀ MÃ HÓA

library(dplyr)
library(stringr)
library(readr)
library(tibble)
data_start <- df
data_start

Ý nghĩa kỹ thuật:

Dòng [1] đến dòng [4] tải lại các thư viện.

Dòng[5], [6] Tạo bản sao data_start từ df gốc, xem 10 dòng đầu của bảng.

Ý nghĩa thống kê:

Đảm bảo luôn có thể quay lại dữ liệu gốc (df) nếu các bước xử lý gặp lỗi.

Tách các bang, tiểu bang trong Customer Address

data_step_1 <- data_start %>%
  mutate(`State_Zip_Block` = str_extract(`Customer_Address`, pattern = "[A-Z]{2}\\s*\\d{5}")) %>%
  mutate(State = str_sub(`State_Zip_Block`, 1, 2)) %>%
  mutate(State = ifelse(is.na(State), "Unknown", State)) %>%
  select(-State_Zip_Block)
print(data_step_1)

## # A tibble: 200,000 × 13
##    Index `Customer Name`   Customer_Address        `Company Name` `Claim Reason`
##    <dbl> <chr>             <chr>                   <chr>          <chr>         
##  1     0 Christine Payne   7627 Anderson Rest Apt… Williams, Hen… Travel        
##  2     1 Tony Fernandez    3953 Cindy Brook Apt. … Moore-Goodwin  Medical       
##  3     2 Christopher Kim   8693 Walters Mountains… Smith-Holmes   Phone         
##  4     3 Nicole Allen      56926 Webster Coves,Sh… Harrell-Perez  Phone         
##  5     4 Linda Cruz        489 Thomas Forges Apt.… Simpson, Kram… Phone         
##  6     5 Jennifer Kim      USCGC Brown,FPO AE 321… Pace-Nelson    Medical       
##  7     6 James Nguyen      621 Heath Place,North … Smith LLC      Medical       
##  8     7 Desiree Ponce     652 Lisa Trafficway,La… Porter Ltd     Other         
##  9     8 Jordan Johnston   1553 Sherry Forest Apt… Eaton, Maddox… Phone         
## 10     9 Michelle Williams 1973 Martin Stravenue … Hughes-Hernan… Medical       
## # ℹ 199,990 more rows
## # ℹ 8 more variables: `Data confidentiality` <chr>, `Claim Amount` <dbl>,
## #   `Category Premium` <dbl>, `Premium/Amount Ratio` <dbl>,
## #   `Claim Request output` <chr>, BMI <dbl>, Churn <chr>, State <chr>

print(data_step_1 %>% count(State, sort = TRUE))

## # A tibble: 54 × 2
##    State     n
##    <chr> <int>
##  1 AE     7189
##  2 AA     7051
##  3 AP     7029
##  4 TX     3633
##  5 ME     3620
##  6 CA     3611
##  7 MO     3596
##  8 NJ     3584
##  9 VT     3581
## 10 WA     3581
## # ℹ 44 more rows

Ý nghĩa kỹ thuật:

Dòng [1] Lấy dữ liệu data_start, thực hiện các yêu cầu rồi lưu kết quả vào data_step_1.

Dòng [2] Tạo cột tạm State_Zip_Block bằng cách trích xuất khối Mã Bang + Mã ZIP từ Customer_Address.

Dòng [3] Tạo cột State mới bằng cách lấy 2 ký tự đầu tiên từ cột State_Zip_Block.

Dòng [4] Kiểm tra cột State, nếu giá trị nào bị NA (không tìm thấy), thì thay bằng chữ “Unknown”.

Dòng [5] Xóa cột tạm State_Zip_Block (vì đã dùng xong).

Dòng [6] In 10 dòng đầu của kết quả data_step_1 để kiểm tra.

Dòng [7] Đếm số lần xuất hiện của mỗi State) và in ra bảng tần suất đã sắp xếp.

Ý nghĩa thống kê:

Tạo ra cột State mới chứa mã bang, tiểu bang của khách hàng.

Xóa cột Index và Address để làm sạch

data_step_2 <- data_step_1 %>%
  select(-Index, -Customer_Address)
data_step_2

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_1 rồi gán kết quả vào data_step_2.

Dòng [2] Xóa cột Index và Customer Address.

Dòng [3] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Giảm số lượng biến, làm sạch dữ liệu

Chuẩn hóa tên các công ty

data_step_3 <- data_step_2 %>%
  mutate('Company Name' = str_to_title(`Company Name`))
data_step_3

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_2 rồi gán kết quả vào data_step_3.

Dòng [2] Chuẩn hóa Company Name (viết hoa chữ cái đầu mỗi từ).

Dòng [3] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Đảm bảo tính nhất quán trong dữ liệu định tính.

Đổi tên cột

data_step_4 <- data_step_3 %>%
  rename(Customer_Name = 'Customer Name',
         Company_Name='Company Name',
         Claim_Request_Output = 'Claim Request output',
         Data_Confidentiality = 'Data confidentiality',
         Claim_Reason = 'Claim Reason',
         Claim_Amount = 'Claim Amount',
         Category_Premium = 'Category Premium')
data_step_4

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_3 rồi gán kết quả vào data_step_4.

Dòng [2] Đổi tên các cột có dấu cách.

Dòng [9] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Tăng tính dễ đọc và thuận tiện khi làm việc với R, đặc biệt khi sử dụng các thư viện như dplyr.

Chuyển kiểu dữ liệu đảm bảo biến Claim Amount là số nguyên

data_step_5 <- data_step_4 %>%
  mutate(Claim_Amount = as.integer(Claim_Amount))
data_step_5

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_4 rồi gán kết quả vào data_step_5.

Dòng [2] Ép kiểu cột Claim Amount thành số nguyên.

Dòng [3] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Đảm bảo kiểu dữ liệu phù hợp với bản chất của biến (số tiền bồi thường thường được xử lý dưới dạng số nguyên).

Mã hóa nhị phân ở Churn

data_step_6 <- data_step_5 %>%
  mutate(Churn_Encoded = ifelse(Churn == "Yes", 1, 0))
data_step_6

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_5 rồi gán kết quả vào data_step_6.

Dòng [2] Mã hóa nhị phân biến Churn: Yes=1 , No=0 trên cột mới.

Dòng [3] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Chuyển biến mục tiêu Churn từ định tính sang dạng nhị phân.

Mã hóa thứ bậc cho Data Confidentiality

confidentiality_levels <- c("Very low", "Low", "Medium", "High", "Very high")
data_step_7 <- data_step_6 %>%
  mutate(Data_Conf_Encoded = factor(Data_Confidentiality,
                                    levels = confidentiality_levels,
                                    labels = 1:5,
                                    ordered = TRUE))
data_step_7

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_6 rồi gán kết quả vào data_step_7.

Dòng [2] Mã hóa thứ bậc cho Data Confidentiality (Gán nhãn số 1-5 theo thứ tự từ rất thấp đến rất cao).

Dòng [7] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Mã hóa biến định tính có thứ bậc Data Confidentiality thành số để thể hiện rõ ràng mức độ quan trọng tăng dần, phù hợp cho phân tích hoặc mô hình hóa có tính đến thứ bậc.

Tạo cột tỷ lệ Claim_Amount/Category_Premium

data_step_8 <- data_step_7 %>%
  mutate(Claim_Premium_Ratio = Claim_Amount / Category_Premium)
data_step_8

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_7 rồi gán kết quả vào data_step_8.

Dòng [2] Tạo biến mới Claim_Premium_Ratio=Claim Amount/Category Premium.

Dòng [3] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Tạo một biến đặc trưng mới quan trọng, thể hiện mức độ rủi ro mà công ty bảo hiểm phải chi trả so với khoản thu từ khách hàng đó.

Phân nhóm cho BMI

data_step_9 <- data_step_8 %>%
mutate(BMI_Status = cut(BMI,
                          breaks = c(0, 18.5, 25, 30, Inf),
                          labels = c("Underweight", "Normal", "Overweight", "Obese"), 
                          include.lowest = TRUE,
                          right = FALSE))
print(data_step_9 %>% count(BMI_Status))

## # A tibble: 3 × 2
##   BMI_Status       n
##   <fct>        <int>
## 1 Underweight  18293
## 2 Normal      108979
## 3 Overweight   72728

Ý nghĩa kỹ thuật:

Dòng [1] Thực hiện trên data_step_8 rồi gán kết quả vào data_step_9.

Dòng [2] Phân loại BMI thành 4 nhóm định tính (Underweight, Normal, Overweight, Obese).

Dòng [7] Xem bảng phân loại.

Ý nghĩa thống kê:

Chuyển đổi một biến số liên tục thành biến phân loại, giúp phân tích các nhóm khách hàng theo tình trạng sức khỏe dễ dàng hơn, kết quả cho thấy không có khách hàng bị tình trạng béo phì(Obese).

Rút gọn danh mục cho Claim Reason

library(forcats) 
data_step_10 <- data_step_9 %>%
  mutate(
    Reason_Simple = fct_lump_n(Claim_Reason, n = 4, other_level = "Other")
  )
data_step_10

Ý nghĩa kỹ thuật:

Dòng [1] Tải gói thư viện forcats vào phiên làm việc hiện tại của R.

Dòng [2] Thực hiện trên data_step_9 rồi gán kết quả vào data_step_10.

Dòng [3] Tạo một cột mới.

Dòng [4] Trên cột mới giữ lại 4 giá trị phổ biến, giữ các giá trị khác vào nhóm Other.

Dòng [6] Xem 10 dòng đầu.

Ý nghĩa thống kê:

Để làm giảm nhiễu và tăng tính ổn định khi trong biến có nhiều nhóm.

CÁC THỐNG KÊ CƠ BẢN, PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

library(dplyr)    
library(ggplot2)  
library(tidyr)    
library(corrplot)

## corrplot 0.95 loaded

library(scales)

## 
## Attaching package: 'scales'

## The following object is masked from 'package:readr':
## 
##     col_factor

library(knitr)
library(showtext)

## Loading required package: sysfonts

## Loading required package: showtextdb

showtext_auto()
library(sysfonts)
theme_set(theme_minimal(base_family = "Arial"))
dff <- data_step_10
dff

knitr::opts_chunk$set(
  fig.width = 5,     # chiều rộng biểu đồ (inch)
  fig.height = 4,    # chiều cao biểu đồ (inch)
  out.width = '60%', # thu nhỏ khi hiển thị trong PDF
  dpi = 300         # độ phân giải biểu đồ
)

Ý nghĩa kỹ thuật:

Dòng [1] đến dòng [9] là chuẩn bị lại các thư viện cần thiết.

Dòng [11] Gán bộ dữ liệu data_step_10 vào dff.

Dòng [12] Xem 10 dòng đầu.

Dòng [13] Thiết lập mặc định cho biểu đồ.

Ý nghĩa thống kê:

Dễ dàng quay lại sửa lỗi.

Thống kê tỷ lệ khách hàng rời bỏ (Churn Rate)

Tỷ lệ khách hàng rời bỏ

library(dplyr)
churn_rate <- dff %>%
  summarise(
    Total_Customers = n(),
    Churned_Customers = sum(Churn_Encoded),
    Churn_Rate = mean(Churn_Encoded) * 100
  )
churn_rate

Ý nghĩa kỹ thuật:

Dòng [1] Lấy data frame dff và sử dụng nó làm đầu vào cho hàm tiếp theo (toán tử %>%).

Dòng [2] Thực hiện tính toán tóm tắt trên toàn bộ data frame dff.

Dòng [3] Tạo cột Total_Customers chứa hàm đếm tổng số hàng.

Dòng [4] Tạo cột Churned_Customers bằng cách tính tổng của cột Churn_Encode.

Dòng [5] Tạo cột Churn_Rate bằng cách tính giá trị trung bình của cột Churn_Enco và nhân 100 để chuyển thành phần trăm.

Dòng [7] Xem bảng.

Ý nghĩa thống kê:

Cung cấp tỷ lệ khách hàng rời bỏ bảo hiểm tổng thể 63.6636%, khẳng định công ty đang đối mặt với vấn đề khách hàng rời bỏ nhiều.

Phân bố khách hàng rời bỏ

ggplot(dff, aes(x = Churn, fill = Churn)) +
  geom_bar() +
  labs(title = "Phân Bố Khách Hàng Rời Bỏ (Churn)",
       x = "Trạng Thái Rời bỏ",
       y = "Số Lượng Khách Hàng") + 
  scale_fill_manual(values = c("Yes" = "#E41A1C", "No" = "#377EB8")) + 
  geom_text(stat = 'count', aes(label = after_stat(count)), vjust = -0.5, size = 4) +  
  theme_minimal() +    
  expand_limits(y = 130000)

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo một đối tượng biểu đồ là dữ liệu nguồn, thiết lập ánh xạ thẩm mỹ, cột Churn được dùng cho trục X và cũng được dùng để quyết định màu tô .

Dòng [2] Chỉ định loại biểu đồ là biểu đồ cột. Hàm này tự động đếm số lần xuất hiện của mỗi giá trị trên trục X.

Dòng [3] Thiết lập các nhãn cho tiêu đề , trục X (x), và trục Y (y).

Dòng [6] Tùy chỉnh (manual) màu tô bằng tay. Gán giá trị “Yes” là màu đỏ và “No” là màu xanh.

Dòng [7] Thêm một lớp văn bản vào biểu đồ. Yêu cầu geom_text tự động thực hiện thống kê đếm. Lấy kết quả đếm (biến count) làm nhãn. Điều chỉnh vị trí của nhãn văn bản lên phía trên cột 0.5 đơn vị.

Dòng [8] Áp dụng một chủ đề có sẵn tên.

Dòng [9] Mở rộng giới hạn của trục Y lên đến 130,000, đảm bảo có đủ khoảng trống cho nhãn văn bản không bị cắt.

Ý nghĩa thống kê:

Biểu đồ cho thấy sự chênh lệch rõ rệt giữa hai nhóm khách hàng “Rời bỏ” và “Không rời bỏ”. Cụ thể, có 127272 khách hàng đã rời bỏ so với 72728 khách hàng còn ở lại, chiếm tỷ lệ rời bỏ khoảng 63,636 % tổng số khách hàng. Điều này cho thấy mức độ rời bỏ khách hàng khá cao, phản ánh khả năng giữ chân khách hàng của doanh nghiệp chưa hiệu quả.

Phân bố chỉ số khối cơ thể (BMI)

Bảng tần số BMI

bmi_freq <- dff %>%
  mutate(BMI_group = cut(BMI, breaks = seq(floor(min(BMI)), ceiling(max(BMI)), by = 1))) %>%
  group_by(BMI_group) %>%
  summarise(TanSuat = n()) %>%
  arrange(BMI_group)
bmi_freq

Ý nghĩa kỹ thuật:

Dòng [2] Tạo một cột mới tên là BMI_group. Hàm cut() được dùng để chia cột BMI thành các khoảng. breaks = seq(…): Tạo ra một chuỗi (sequence) các điểm ngắt (breaks) bắt đầu từ giá trị nhỏ nhất của BMI đến giá trị lớn nhất, với mỗi điểm ngắt cách nhau 1 đơn vị (by = 1).

Dòng [3] Nhóm tất cả các hàng lại dựa trên giá trị của cột BMI_group vừa tạo.

Dòng [4] Đếm số lượng hàng trong mỗi nhóm và lưu kết quả vào cột TanSuat.

Dòng [5] Sắp xếp bảng kết quả theo thứ tự tăng dần của cột BMI_group.

Dòng [6] In bảng kết quả.

Ý nghĩa thống kê:

Bảng tần số BMI cho thấy đa số khách hàng có chỉ số cơ thể nằm trong mức trung bình hợp lý, phản ánh phân bố tương đối cân đối và không có sự chênh lệch cực đoan trong mẫu dữ liệu.

Trực quan hóa phân bố BMI

ggplot(dff, aes(x = BMI)) +
  geom_histogram(binwidth = 1, fill = "#4DAF4A", color = "white") + 
  labs(title = "Phân Bố Chỉ Số Khối Cơ Thể (BMI)",
       x = "Chỉ số BMI",
       y = "Tần suất") +
  geom_vline(aes(xintercept = mean(BMI)), color = "red", 
             linetype = "dashed", linewidth = 1) + 
  annotate("text", x = mean(dff$BMI) + 2, y = 30000,
           label = paste("Mean =",round(mean(dff$BMI), 2)), 
           color = "red") + # Layer 4
  theme_classic()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, ánh xạ cột BMI vào trục X.

Dòng [2] Chỉ định loại biểu đồ là histogram (biểu đồ tần suất). binwidth = 1 quy định độ rộng của mỗi cột là 1 đơn vị BMI.

Dòng [3] Đặt tiêu đề và nhãn.

Dòng [6] Thêm một đường thẳng đứng đặt vị trí của đường thẳng tại giá trị trung bình của cột BMI, làm cho nó thành đường gạch nối.

Dòng [7] Thêm một chú thích văn bản cố định lên biểu đồ. Chỉ định tọa độ (vị trí) của văn bản. Tạo nội dung văn bản nối chuỗi “Mean =” với giá trị trung bình của BMI đã được làm tròn.

Dòng [8] Áp dụng chủ đề classic.

Ý nghĩa thống kê:

Phân bố Chỉ Số Khối Cơ Thể (BMI) của tập dữ liệu cho thấy BMI trung bình là 23.01. Giá trị này nằm trong ngưỡng BMI bình thường theo tiêu chuẩn chung, cho thấy phần lớn đối tượng nghiên cứu có tình trạng cân nặng khỏe mạnh.

So sánh lượng bồi thường theo trạng thái rời bỏ

Bảng thống kê phân bố

summary_list <- tapply(dff$Claim_Amount, dff$Churn, summary)
summary_table_base_r <- do.call(rbind, summary_list)
print(summary_table_base_r)

##     Min. 1st Qu. Median     Mean 3rd Qu. Max.
## No     1     245   1390 1119.940    1844 2299
## Yes    1     246   1389 1120.787    1844 2299

Ý nghĩa kỹ thuật:

Dòng 1 Chia dữ liệu thành các nhóm và tính toán thống kê cho từng nhóm.

Dòng 2 Lấy các kết quả riêng lẻ từ list đó và xếp chúng lại thành một bảng duy nhất, dễ đọc.

Dòng 3 Hiển thị bảng.

Ý nghĩa thống kê:

Với các số xấp xỉ gần bằng nhau cho thấy số lượng khách hàng rời bỏ hay ở lại đều có hành vi yêu cầu bồi thường với số tiền như nhau.

Trực quan hóa lượng bồi thường theo trạng thái rời bỏ

ggplot(dff, aes(x = Churn, y = Claim_Amount, fill = Churn)) +
  geom_boxplot() +
  labs(title = "Phân Bố Số Tiền Yêu Cầu Bồi Thường Theo Trạng Thái Rời Bỏ",
       x = "Khách hàng rời bỏ",
       y = "Số tiền Bồi thường") + 
  coord_flip() + # Layer 3
  scale_fill_manual(values = c("Yes" = "#E41A1C", "No" = "#377EB8")) + 
  theme_bw()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ. Churn được ánh xạ vào trục X, Claim_Amount vào trục Y, và Churn cũng vào màu tô .

Dòng [2] Chỉ định loại biểu đồ là biểu đồ hộp (box plot).

Dòng [3] Đặt tiêu đề và nhãn.

Dòng [6] Hoán đổi trục X và Y. Biểu đồ hộp sẽ nằm ngang thay vì nằm dọc.

Dòng [7] Tùy chỉnh màu tô.

Dòng [8] Áp dụng chủ đề “black and white”.

Ý nghĩa thống kê:

Biểu đồ so sánh lượng bồi thường (Claim Amount) theo trạng thái rời bỏ (Churn) cho thấy khách hàng đã rời bỏ có hành vi đòi bồi thường rất giống với một khách hàng còn ở lại.

Tỷ lệ rời bỏ theo mức độ bảo mật dữu liệu

Bảng tỷ lệ

churn_by_conf_table <- dff %>%
  group_by(Data_Confidentiality) %>%
  summarise(
    Total_Customers = n(),
    Churned_Customers = sum(Churn_Encoded),
    Churn_Rate = mean(Churn_Encoded) * 100
  ) %>%
  mutate(
    Data_Confidentiality = 
      factor(Data_Confidentiality, 
     levels = c(
       "Very low", "Low", "Medium", "High", "Very high"))) %>%
  arrange(Data_Confidentiality) %>%
  mutate(Churn_Rate = round(Churn_Rate, 2))
kable(churn_by_conf_table, 
      caption = "Bảng tỷ lệ rời bỏ theo mức độ bảo mật dữu liệu")

Bảng tỷ lệ rời bỏ theo mức độ bảo mật dữu liệu
Data_Confidentiality	Total_Customers	Churned_Customers	Churn_Rate
Very low	30187	19203	63.61
Low	29934	19180	64.07
Medium	30016	18988	63.26
High	109863	69901	63.63

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm dữ liệu theo các giá trị trong cột Data_Confidentiality.

Dòng [3] Tính toán các chỉ số tóm tắt cho mỗi nhóm bảo mật.

Dòng [8] Chuyển đổi cột Data_Confidentiality từ kiểu văn bản sang kiểu factor.

Dòng [13] Sắp xếp lại bảng kết quả dựa trên thứ tự factor đã định nghĩa ở trên.

Dòng [14] Làm tròn giá trị ở cột Churn_Rate còn 2 chữ số thập phân.

Dòng [15] Sử dụng hàm kable để định dạng bảng và thêm tiêu đề cho bảng.

Ý nghĩa thống kê:

Mặc dù mức độ bảo mật dữ liệu có sự phân bố không đồng đều về số lượng khách hàng (tập trung ở mức “High”), nhưng dữ liệu này chỉ ra rằng mức độ bảo mật dữ liệu không phải là động lực chính gây ra sự khác biệt về tỷ lệ rời bỏ. Khách hàng rời bỏ dịch vụ với tỷ lệ cao, bất kể mức độ bảo mật dữ liệu của họ là “Very low” hay “High”.

Trực quan hóa tỷ lệ khách hàng rời bỏ theo mức độ bảo mật

ggplot(churn_by_conf_table, aes(x = Data_Confidentiality, y = Churn_Rate)) +
  geom_col(fill = "#FF7F00") + 
  geom_text(aes(label = paste0(round(Churn_Rate, 2), "%")), 
            vjust = -0.5,
            size = 4) + 
  labs(
    title = "Tỷ lệ khách hàng rời bỏ theo mức độ bảo mật dữ liệu",
    x = "Mức độ Bảo mật",
    y = "Tỷ lệ rời bỏ (%)"
  ) +
  scale_y_continuous(limits = c(0, max(churn_by_conf_table$Churn_Rate) * 1.1)) +
  theme_minimal()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng dữ liệu từ bảng tóm tắt churn_by_conf_table.

Dòng [2] Chỉ định loại biểu đồ là cột. geom_col sử dụng giá trị y để xác định chiều cao cột.

Dòng [3] Thêm nhãn văn bản, tạo nhãn bằng cách lấy giá trị Churn_Rate, làm tròn, và thêm ký tự “%” vào sau.

Dòng [11] Tùy chỉnh trục Y, đặt giới hạn trục Y từ 0 đến 110% giá trị Churn_Rate cao nhất (để có khoảng trống cho nhãn).

Ý nghĩa thống kê:

Kết quả trực quan và thống kê cho thấy mức độ bảo mật dữu liệu dường như không phải là yếu tố phân biệt hoặc là động lực chính gây ra sự khác biệt đáng kể về việc khách hàng rời bỏ.

Phân bố phí bảo hiểm

ggplot(dff, aes(x = Category_Premium)) +
  geom_density(fill = "#984EA3", alpha = 0.7) + 
  labs(title = "Phân Bố Mức Phí Bảo Hiểm",
       x = "Mức Phí Bảo hiểm",
       y = "Mật độ") + 
  geom_rug(alpha = 0.5) + 
  geom_vline(aes(xintercept = median(Category_Premium)), 
  color = "darkgreen", linetype = "solid", linewidth = 1) + 
  theme_light()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, ánh xạ Category_Premium vào trục X.

Dòng [2] Chỉ định loại biểu đồ là biểu đồ mật độ alpha = 0.7 làm cho màu tô trong suốt 30%.

Dòng [5] Thêm một lớp các vạch nhỏ dưới chân biểu đồ, hiển thị vị trí của từng điểm dữ liệu.

Dòng [6] Thêm một đường thẳng đứng tại vị trí trung vị của Category_Premium.

Dòng [7] Áp dụng chủ đề light.

Ý nghĩa thống kê:

Biểu đồ mật độ này cho thấy sự phân bố đa mô hình của Mức Phí Bảo Hiểm, với ba đỉnh rõ rệt, ngụ ý dữ liệu thuộc về ba nhóm khác nhau. Đỉnh thứ ba, gần mức phí 15000, có mật độ cực kỳ cao, chỉ ra rằng phần lớn các trường hợp có mức phí tập trung ở mức tối đa này. Đường Trung Vị (Median) màu xanh đậm nằm sát đỉnh cao nhất (khoảng 14000-15000), xác nhận rằng hơn 50% mức phí bảo hiểm có giá trị cao. Phân bố này bị lệch trái nghiêm trọng, nhấn mạnh sự cần thiết phải điều tra nguyên nhân khiến một lượng lớn phí bảo hiểm tập trung tại giá trị cao nhất.

Tỷ lệ khách hàng rời bỏ theo kết quả yêu cầu bồi thường

Bảng Dữ Liệu

churn_by_claim_output <- dff %>%
  group_by(Claim_Request_Output) %>%
  summarise(Churn_Rate = mean(Churn_Encoded) * 100)
print(churn_by_claim_output)

## # A tibble: 2 × 2
##   Claim_Request_Output Churn_Rate
##   <chr>                     <dbl>
## 1 No                         63.6
## 2 Yes                        63.5

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm dữ liệu thành hai nhóm (“Yes” và “No”) dựa trên cột Claim_Request_Output.

Dòng [3] Tính toán Churn_Rate (trung bình của Churn_Encoded) cho từng nhóm.

Dòng [4] In kết quả bảng tóm tắt.

Ý nghĩa thống kê:

Khách hàng vẫn rời đi với tỷ lệ gần như nhau (khoảng 63.5%) bất kể kết quả yêu cầu bồi thường của họ như thế nào.

Trực quan hóa

ggplot(churn_by_claim_output, aes(x = Claim_Request_Output, 
  y = Churn_Rate, fill = Claim_Request_Output)) +
  geom_col() + # Layer 1
  labs(title =
  "Tỷ lệ khách hàng rời bỏ khi yêu cầu bồi thường được hoặc không chấp nhận",
       x = "Kết quả yêu cầu bồi thường",
       y = "Tỷ lệ Churn (%)") + # Layer 2
  scale_fill_manual(values = c("No" = "#E41A1C", "Yes" = "#4DAF4A")) + # Layer 3
  geom_text(aes(label = paste0(round(Churn_Rate, 2), "%")),
            vjust = -1.5, size = 6) + 
  coord_cartesian(ylim = c(0, 75)) +
  theme_bw() # Layer 5

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng bảng tóm tắt churn_by_claim_output.

Dòng [2] Vẽ biểu đồ cột dựa trên giá trị Churn_Rate.

Dòng [7] Thêm nhãn văn bản. vjust = -1.5 đẩy nhãn lên cao hơn.

Dòng [8] Đặt giới hạn trục Y (từ 0 đến 75).

Ý nghĩa thống kê:

Việc giải quyết yêu cầu bồi thường thành công hầu như không có tác động tích cực đáng kể nào đến việc giữ chân khách hàng.

Số tiền yêu cầu bồi thường trung bình theo lý do bồi thường

Tính toán bồi thường trung bình cho từng lý do

mean_claim_by_reason_fixed <- dff %>%
  group_by(Reason_Simple) %>%
  summarise(Mean_Claim_Amount = mean(Claim_Amount)) %>%
  rename(Claim_Reason_Fixed = Reason_Simple) 
mean_claim_by_reason_fixed

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm dữ liệu theo cột Reason_Simple.

Dòng [3] Tính giá trị trung bình của Claim_Amount cho từng nhóm lý do.

Dòng [4] Đổi tên (rename) cột Reason_Simple thành Claim_Reason_Fixed.

Ý nghĩa thống kê:

Các yêu cầu bồi thường liên quan đến Y Tế (Medical) là những yêu cầu tốn kém nhất đối với công ty bảo hiểm trên cơ sở trung bình mỗi lần bồi thường.

Trực quan hóa

ggplot(mean_claim_by_reason_fixed, aes(x = Claim_Reason_Fixed, 
  y = Mean_Claim_Amount, fill = Claim_Reason_Fixed)) +
  geom_bar(stat = "identity") +
  labs(title = "Số tiền bồi thường trung bình theo lý do yêu cầu bồi thường ",
       x = "Lý do yêu cầu bồi thường",
       y = "Số tiền bồi thường trung bình") +
  scale_fill_brewer(palette = "Set1") +
  geom_text(aes(label = round(Mean_Claim_Amount, 0)), vjust = -0.5, size = 4) +
  scale_y_continuous(expand = expansion(mult = c(0, 0.1))) +
  theme_classic() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng bảng tóm tắt mean_claim_by_reason_fixed.

Dòng [2] Vẽ biểu đồ cột, yêu cầu ggplot sử dụng giá trị y (Mean_Claim_Amount) làm chiều cao cột, thay vì tự đếm.

Dòng [6] Sử dụng một bảng màu (palette) có sẵn tên là “Set1” để tô màu các cột.

Dòng [9] Tùy chỉnh các yếu tố của theme.

Ý nghĩa thống kê:

Các yêu cầu bồi thường liên quan đến Y Tế (Medical) là nguồn chi phí bồi thường trung bình lớn nhất của công ty, gần gấp ba lần chi phí trung bình của loại cao thứ hai là Du lịch (Travel).

Phân tích Tương quan giữa các biến số (Correlation Plot)

Chọn các biến số và tính ma trận tương quan

cor_data <- dff %>%
  select(Claim_Amount, Category_Premium, 
         BMI, Claim_Premium_Ratio, Churn_Encoded) %>%
  mutate(across(everything(), as.numeric))
M <- cor(cor_data, use = "complete.obs") 
correlation_table <- M %>%
  as.data.frame() %>%
  round(3) 
print(correlation_table)

##                     Claim_Amount Category_Premium    BMI Claim_Premium_Ratio
## Claim_Amount               1.000            0.959  0.001               0.160
## Category_Premium           0.959            1.000  0.001              -0.001
## BMI                        0.001            0.001  1.000              -0.003
## Claim_Premium_Ratio        0.160           -0.001 -0.003               1.000
## Churn_Encoded              0.001            0.000 -0.836               0.001
##                     Churn_Encoded
## Claim_Amount                0.001
## Category_Premium            0.000
## BMI                        -0.836
## Claim_Premium_Ratio         0.001
## Churn_Encoded               1.000

Ý nghĩa kỹ thuật:

Dòng [2] Chọn (select) một tập con, chỉ bao gồm 5 cột được liệt kê.

Dòng [4] Áp dụng hàm as.numeric cho tất cả (everything) các cột đã chọn, ép kiểu chúng thành số (numeric) để đảm bảo hàm cor() hoạt động.

Dòng [5] Tính toán ma trận tương quan cho data frame cor_data và lưu kết quả vào biến M. use = “complete.obs” chỉ thị hàm cor() bỏ qua các hàng có chứa giá trị NA (thiếu) khi tính toán.

Dòng [6] Chuyển đổi ma trận M thành một data.frame và làm tròn các giá trị đến 3 chữ số thập phân.

Dòng [9] In bảng tương quan.

Ý nghĩa thống kê:

Biến Claim_Amount và Category_Premium có mối tương quan cực kỳ mạnh r = 0.959. Điều này ngụ ý rằng hai biến này đo lường một điều tương tự hoặc một biến là hàm số của biến kia. Trong các mô hình dự đoán, việc sử dụng cả hai biến này cùng lúc có thể gây ra vấn đề đa cộng tuyến.

Trực quan hóa

corrplot::corrplot(M,
                   method = "circle", # Layer 1
                   type = "upper", # Layer 2
                   order = "hclust", # Layer 3
                   tl.col = "black", # Layer 4
                   tl.srt = 45, # Layer 5
                   diag = FALSE)

Ý nghĩa kỹ thuật:

Dòng [1] Gọi hàm corrplot từ thư viện corrplot (ký hiệu ::) để vẽ ma trận M.

Dòng [2] Chỉ định phương thức hiển thị là hình tròn.

Dòng [3] Chỉ hiển thị nửa trên của ma trận .

Dòng [4] Sắp xếp lại thứ tự các biến dựa trên thuật toán phân cụm thứ bậc, giúp các nhóm biến tương quan cao ở gần nhau.

Dòng [5] Tùy chỉnh màu và góc xoay của nhãn.

Dòng [7] Ẩn (FALSE) các giá trị trên đường chéo chính (luôn bằng 1 ).

Ý nghĩa thống kê:

Mối quan hệ giữa Claim_Amount và Category_Premium là rất mạnh (gần 1), số tiền bồi thường cao có liên quan mật thiết đến mức phí bảo hiểm cao.

Mối quan hệ giữa Churn_Encoded và Premium/Amount Ratio là mạnh và dương. Điều này cho thấy khi tỷ lệ Phí bảo hiểm trên Số tiền bồi thường tăng, tỷ lệ khách hàng rời bỏ (Churn) cũng có xu hướng tăng theo.

Mối quan hệ giữa Churn_Encoded và BMI là mạnh và âm. Điều này ngụ ý rằng khi chỉ số BMI tăng, tỷ lệ khách hàng rời bỏ (Churn) có xu hướng giảm.

Phân bố Claim_Premium_Ratio

Lập bảng tần suất

bin_width <- 0.005
min_val <- 0
max_val <- 0.5
breaks <- seq(min_val, max_val, by = bin_width)
dff_filtered <- dff %>%
  filter(Claim_Premium_Ratio > 0 & Claim_Premium_Ratio <= 0.5)
frequency_table <- dff_filtered %>%
  mutate(Bin = cut(Claim_Premium_Ratio,
                   breaks = breaks,
                   include.lowest = TRUE,
                   right = TRUE,
                   labels = FALSE)) %>%
  mutate(Bin_Center = breaks[Bin] + bin_width / 2) %>%
  count(Bin, Bin_Center, name = "Frequency") %>%
  select(Bin_Center, Frequency) %>%
  rename(`Claim/Premium Ratio Center` = Bin_Center, `Tần Suất` = Frequency)
head(frequency_table, 10)

Ý nghĩa kỹ thuật:

Dòng [1] Thiết lập các tham số để chia khoảng.

Dòng [5] Tạo một data frame mới (dff_filtered) bằng cách lọc dff, chỉ giữ lại các hàng có Claim_Premium_Ratio trong khoảng (0, 0.5].

Dòng [8] Sử dụng hàm cut() để phân loại từng giá trị Claim_Premium_Ratio vào các khoảng (bins) đã định nghĩa ở breaks. labels = FALSE trả về chỉ số của khoảng thay vì tên khoảng.

Dòng [13] Tạo cột Bin_Center bằng cách tính giá trị trung tâm của mỗi khoảng.

Dòng [15] Chọn và đổi tên các cột để ra bảng kết quả cuối cùng.

Dòng [18] In 10 dòng đầu tiên của bảng tần suất.

Ý nghĩa thống kê:

Phân bố Tương đối Đồng đều: Ngoại trừ khoảng giá trị thấp nhất (0.0025) có tần suất thấp hơn đáng kể (297), các khoảng giá trị còn lại (từ 0.0075 đến 0.0475) đều có tần suất tương đối đồng đều và cao hơn.

Trực quan hóa tần suất Claim_Premium_Ratio

ggplot(dff, aes(x = Claim_Premium_Ratio)) +
  geom_freqpoly(binwidth = 0.005, color = "#FF7F00", linewidth = 1.2) +
  labs(title = "Phân bố tỷ lệ bồi thường trên phí bảo hiểm",
       x = "Tỷ lệ bồi thường trên phí bảo hiểm",
       y = "Số lượng") + 
  geom_density(aes(y = after_stat(count)*0.005),alpha = 0.2, fill = "#FF7F00") + 
  geom_vline(aes(xintercept = median(Claim_Premium_Ratio)),
             color = "blue", linetype = "dashed") + 
  theme_minimal() +
  xlim(0, 0.5)

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_path()`).

Ý nghĩa kỹ thuật:

Dòng [2] Vẽ biểu đồ tần suất dạng đường.

Dòng [6] Thêm một lớp biểu đồ mật độ, aes(y = after_stat(count) * 0.005): Đây là một kỹ thuật điều chỉnh. geom_density thường có trục Y là “mật độ” (tổng diện tích = 1). Mã này lấy số lượng trong mỗi bin và nhân với binwidth (0.005) để chuyển trục Y từ “mật độ” sang “số lượng”, giúp nó khớp với geom_freqpoly.

Dòng [9] Giới hạn (zoom) trục X chỉ hiển thị trong phạm vi từ 0 đến 0.5.

Ý nghĩa thống kê:

Phân bố cho thấy rằng: Đa số khách hàng yêu cầu bồi thường với số tiền chỉ bằng khoảng 10% mức phí bảo hiểm họ đã đóng. Điều này là một chỉ dấu tích cực về rủi ro tổng thể của danh mục bảo hiểm.

Tỷ lệ khách hàng rời bỏ theo phân nhóm BMI

Tỷ lệ Churn theo BMI

churn_by_bmi <- dff %>%
  group_by(BMI_Status) %>%
  summarise(Churn_Rate = mean(Churn_Encoded) * 100)
print(churn_by_bmi)

## # A tibble: 3 × 2
##   BMI_Status  Churn_Rate
##   <fct>            <dbl>
## 1 Underweight        100
## 2 Normal             100
## 3 Overweight           0

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm dữ liệu theo cột BMI_Status.

Dòng [3] Tính Churn_Rate cho từng nhóm BMI.

Ý nghĩa thống kê:

Underweight và Normal: Tất cả khách hàng được phân loại là trọng lượng thiếu và bình thường đều rời bỏ công ty.

Trực quan hóa

ggplot(churn_by_bmi, aes(x = BMI_Status, y = Churn_Rate, fill = BMI_Status)) +
  geom_col() + # Layer 1
  labs(title = "Tỷ lệ rời bỏ theo tình trạng BMI",
       x = "Tình trạng BMI",
       y = "Tỷ lệ Churn (%)") + # Layer 2
  scale_fill_brewer(palette = "Dark2") + # Layer 3
  geom_text(aes(label = paste0(round(Churn_Rate, 2), "%")),
            vjust = -0.5, size = 4) + 
  theme_void() + # Layer 5
  theme(plot.title = element_text(hjust = 0.5)) # Căn giữa tiêu đề

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng bảng tóm tắt churn_by_bmi.

Dòng [7] Áp dụng chủ đề “trống” (void), xóa tất cả các yếu tố nền, trục, nhãn trục, và lưới.

Dòng [8] Tùy chỉnh lại theme. Cụ thể, căn giữa (hjust = 0.5) tiêu đề của biểu đồ .

Ý nghĩa thống kê:

Nhóm Underweight và Normal không có sự giữ chân khách hàng nào.

Phân bố phí bảo hiểm theo trạng thái khách hàng rời bỏ

ggplot(dff, aes(x = Churn, y = Category_Premium, fill = Churn)) +
  geom_violin(trim = FALSE) + # Layer 1
  geom_boxplot(width = 0.1, color = "black", alpha = 0.8) + # Layer 2
  labs(title = "Phân bố phí bảo hiểm theo trạng thái rời bỏ",
       x = "Trạng thái rời bỏ",
       y = "Phí Bảo hiểm") + # Layer 3
  scale_fill_manual(values = c("Yes" = "#E41A1C", "No" = "#377EB8")) + # Layer 4
  theme_minimal() # Layer 5

Ý nghĩa kỹ thuật:

Dòng [2] Vẽ biểu đồ violin (kết hợp giữa box plot và density plot). trim = FALSE yêu cầu ggplot vẽ toàn bộ hình dạng phân bố.

Dòng [3] Thêm một lớp (layer) biểu đồ hộp (box plot) chồng lên trên biểu đồ violin. width = 0.1 làm cho box plot rất hẹp, vừa vặn bên trong violin.

Ý nghĩa thống kê:

Mức phí bảo hiểm (Category Premium) không phải là yếu tố phân biệt mạnh giữa khách hàng rời bỏ và khách hàng ở lại.

Phân bố số tiền khách hàng yêu cầu bồi thường theo lý do yêu cầu

Chuyển đổi dữ liệu và xử lý lỗi kiểu dữ liệu

claim_data_long <- dff %>%
  count(Reason_Simple) %>%
  rename(Claim_Reason_Fixed = Reason_Simple, Num_Claims = n)
print(claim_data_long)

## # A tibble: 4 × 2
##   Claim_Reason_Fixed Num_Claims
##   <fct>                   <int>
## 1 Medical                109863
## 2 Other                   30187
## 3 Phone                   30016
## 4 Travel                  29934

Ý nghĩa kỹ thuật:

Dòng [2] Đếm số lần xuất hiện của mỗi giá trị trong cột Reason_Simple.

Dòng [3] Đổi tên cột Reason_Simple thành Claim_Reason_Fixed và cột n (do count() tạo ra) thành Num_Claims.

Ý nghĩa thống kê:

Yêu cầu bồi thường liên quan đến Y tế (Medical) là nguồn rủi ro và chi phí lớn nhất (109863 yêu cầu), vượt xa các loại hình khác (Other, Phone, Travel) chỉ ở mức khoảng 30 nghìn yêu cầu.

Trực quan hóa

ggplot(dff, aes(x = Reason_Simple, y = Claim_Amount, fill = Reason_Simple)) +
  geom_boxplot(outlier.shape = NA) + # Layer 1 (ẩn outlier để gọn)
  labs(title = "Phân Bố Claim Amount theo Lý do Yêu cầu",
       x = "Lý do Bồi thường",
       y = "Số tiền Bồi thường (Claim Amount)") + # Layer 2
  scale_fill_brewer(palette = "Set2") + # Layer 3
  theme_bw() + # Layer 4
  theme(legend.position = "none") # Layer 5

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng data frame dff gốc.

Dòng [2] Vẽ biểu đồ hộp. outlier.shape = NA ẩn (không vẽ) các điểm dữ liệu ngoại lai (outliers), giúp biểu đồ gọn gàng hơn.

Dòng [8] Ẩn phần chú giải (legend) của biểu đồ (vì màu sắc và trục X (Reason_Simple) là trùng lặp thông tin).

Ý nghĩa thống kê:

Cùng với tần suất cao, y tế (Medical) là lĩnh vực tạo ra rủi ro tài chính lớn nhất, đòi hỏi sự giám sát và quản lý chi phí chặt chẽ nhất.

Phân bố địa lý của khách hàng (Top 10)

Tạo bảng dữ liệu

top_10_states <- dff %>%
  count(State, sort = TRUE) %>%
  head(10)
top_10_states

Ý nghĩa kỹ thuật:

Dòng [1]: Đếm số lượng khách hàng theo từng State, sắp xếp giảm dần, và lọc lấy 10 hàng đầu tiên.

Ý nghĩa thống kê:

Dữ liệu cho thấy AE, AA, AP là những bang quan trọng nhất cần được ưu tiên trong mọi chiến lược kinh doanh và phân tích sâu hơn về hành vi khách hàng.

Trực quan hóa biểu đồ

ggplot(top_10_states, aes(x = reorder(State, n), y = n, fill = State)) +
  geom_col() + # Layer 1
  labs(title = "Top 10 bang, tiểu bang có nhiều khách hàng",
       x = "Bang, tiểu bang",
       y = "Số lượng Khách hàng") +
  coord_flip() + # Layer 3
  scale_fill_hue(l = 50) + # Layer 4
  geom_text(aes(label = n), hjust = 1.1, vjust = 0.5, size = 4, color = "white") +
  theme_light()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo ánh xạ thiết lập biểu đồ, sắp xếp cột theo n, ánh xạ State (X), n (Y) và màu sắc.

Dòng [2]Vẽ các cột với chiều cao bằng chính giá trị n.

Dòng [5] Biến cột dọc thành cột ngang.

Dòng [8] Gắn nhãn bên trong: Đặt nhãn số liệu (n) bên trong cột và căn giữa.

Dòng [9] Áp dụng giao diện sáng .

Ý nghĩa thống kê:

Biểu đồ xác định rõ ràng rằng các hoạt động kinh doanh và rủi ro của công ty đang tập trung mạnh mẽ tại ba bang đầu tiên.

Tương tác đa chiều 4 biến

ggplot(dff, aes(x = Category_Premium, y = Claim_Amount)) +
  geom_point(aes(color = Claim_Premium_Ratio), alpha = 0.3) + # Layer 1
  scale_color_viridis_c() + # Layer 2
  facet_grid(Claim_Request_Output ~ Churn, scales = "free") + # Layer 3
  geom_smooth(method = "lm", color = "red", se = FALSE, linewidth = 1) + # Layer 4
  labs(title = "Tương tác Premium và Claim, phân tách theo Churn và Claim Output",
       x = "Phí bảo hiểm (Category Premium)",
       y = "Số tiền bồi thường (Claim Amount)") + 
theme_bw()

## `geom_smooth()` using formula = 'y ~ x'

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ scatter plot, Category_Premium (X) vs Claim_Amount (Y).

Dòng [2] Vẽ các điểm. aes(color = Claim_Premium_Ratio) tô màu mỗi điểm dựa trên giá trị Claim_Premium_Ratio. alpha = 0.3 làm mờ các điểm để thấy rõ sự chồng chéo.

Dòng [3] Sử dụng thang màu Viridis cho color.

Dòng [4] Chia biểu đồ thành một lưới (grid) 2x2. Claim_Request_Output : Các giá trị của biến này sẽ quyết định các hàng của lưới. Churn: Các giá trị của biến này sẽ quyết định các cột của lưới. scales = “free”: Cho phép trục X và Y của mỗi ô trong 4 ô có phạm vi (scale) riêng, không bị ép buộc theo một trục chung.

Dòng [5] Thêm một đường xu hướng. method = “lm” (linear model) vẽ đường hồi quy tuyến tính. se = FALSE ẩn dải lỗi.

Ý nghĩa thống kê:

Sự rời bỏ không phụ thuộc vào phí bảo hiểm hay quy mô bồi thường mà phụ thuộc vào việc công ty đã làm sai điều gì đó với nhóm khách hàng có yêu cầu bồi thường nhỏ, khiến họ thất vọng và rời đi.

Sự thay đổi trung vị của phí bảo hiểm

Tạo bảng tóm tắt

slope_data <- dff %>%
  group_by(BMI_Status, Churn) %>%
  summarise(Median_Premium = median(Category_Premium), .groups = 'drop')
slope_data

Ý nghĩa kỹ thuật:

Dòng [1] Tạo bảng tóm tắt slope_data. Tính toán giá trị trung vị (median) của Category_Premium cho mọi tổ hợp của BMI_Status và Churn.

Ý nghĩa thống kê:

Mức phí bảo hiểm ở giữa của ba nhóm khách hàng này là như nhau.

Trực quan hóa

ggplot(
  slope_data, aes(x = BMI_Status, 
                  y = Median_Premium, 
                  group = Churn, color = Churn)) +
  geom_line(linewidth = 1.5) + # Layer 1
  geom_point(size = 4) + # Layer 2
  labs(title = "Sự thay đổi trung vị phí bảo hiểm theo BMI Status và Churn",
       x = "Tình trạng BMI", 
       y = "Trung vị phí Bảo hiểm (Category Premium)") + # Layer 3
  scale_color_manual(values = c("Yes" = "#E41A1C", "No" = "#377EB8")) + # Layer 4
  theme_bw() + # Layer 5
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Ý nghĩa kỹ thuật:

Dòng [1] Sử dụng bảng slope_data đã tóm tắt. group = Churn: Quan trọng. Chỉ thị này bảo ggplot rằng các điểm dữ liệu thuộc cùng một nhóm Churn, tạo thành hai đường riêng biệt.

Dòng [6] (geom_line(…)): Vẽ các đường nối (slope).

Dòng [7] (geom_point(…)): Vẽ các điểm (markers) tại mỗi điểm dữ liệu.

Ý nghĩa thống kê:

Kết quả này cho thấy phí bảo hiểm không phải là biến quan trọng trong dự đoán hành vi Churn hay phân biệt khách hàng theo BMI, mà có thể đã được chuẩn hóa hoặc áp dụng mức giá chung, không phản ánh sự khác biệt về rủi ro sức khỏe hay ảnh hưởng đến quyết định rời bỏ dịch vụ.

Phân bố Claim_Premium_Ratio theo BMI Status và Churn

dff_filtered_ratio_bmi <- dff %>% 
  filter(Claim_Premium_Ratio <= 0.5) %>%
  mutate(BMI_Status = factor(BMI_Status, 
levels = c("Underweight", "Normal", "Overweight", "Obese")))
ggplot(dff_filtered_ratio_bmi, aes(x = Claim_Premium_Ratio, fill = Churn)) +
  geom_density(alpha = 0.6) +
  facet_wrap(~ BMI_Status, scales = "fixed", ncol = 2) +
  labs(title = 
         "Phân bố Tỷ lệ Claim Premium Ratio theo BMI Status và Trạng thái Churn",
       x = "Tỷ lệ Claim Premium Ratio (Giới hạn < 0.5)",
       y = "Mật độ",
       fill = "Rời bỏ") +
  scale_fill_manual(values = c("Yes" = "#E41A1C", "No" = "#377EB8")) + 
  geom_vline(data = dff_filtered_ratio_bmi %>% 
               group_by(BMI_Status, Churn) %>% 
               summarise(median_ratio = median
                         (Claim_Premium_Ratio), .groups = 'drop'), 
             aes(xintercept = median_ratio, color = Churn), 
             linetype = "dashed", 
             linewidth = 1) +
  theme_bw() +
  theme(legend.position = "bottom")

Ý nghĩa kỹ thuật:

Dòng [1] Lọc dữ liệu dff (chỉ giữ Ratio <= 0.5) và chuyển BMI_Status thành factor có thứ tự đúng.

Dòng [5] Khởi tạo biểu đồ, yêu cầu 2 biểu đồ mật độ (“Yes” và “No”) cho Claim_Premium_Ratio.

Dòng [7] Hàm quan trọng. Chia biểu đồ thành nhiều ô nhỏ (facets), mỗi ô tương ứng với một giá trị của BMI_Status. ncol = 2 sắp xếp các ô thành 2 cột. scales = “fixed” đảm bảo trục X và Y của tất cả các ô đều giống nhau (dễ so sánh).

Dòng [13] Thêm đường trung vị. Tính toán giá trị trung vị cho từng tổ hợp. Hàm geom_vline sẽ tự động vẽ đường trung vị này vào đúng ô (facet) tương ứng.

Ý nghĩa thống kê:

Phân tích Biểu đồ Mật độ Phân mặt cho thấy Tỷ lệ Claim PremiumRatio chỉ là yếu tố dự đoán Churn mạnh mẽ đối với những nhóm BMI Status mà đường mật độ “Yes” (Churn) dịch chuyển rõ rệt sang phải, và không phải là yếu tố phân biệt quan trọng nếu các đường mật độ chồng lấp nhau.

Bảng tứ phân vị của số tiền yêu cầu bồi thường theo trạng thái rời bỏ

claim_quantile_table <- dff %>%
  group_by(Churn) %>%
  summarise(
    Min = min(Claim_Amount),
    Q1 = quantile(Claim_Amount, 0.25),
    Median = median(Claim_Amount),
    Q3 = quantile(Claim_Amount, 0.75),
    Max = max(Claim_Amount),
    Mean = mean(Claim_Amount)
  ) %>%
  tidyr::pivot_longer(cols = Min:Mean, 
                      names_to = "Statistic", values_to = "Value") %>%
  tidyr::pivot_wider(names_from = Churn, values_from = Value) %>%
  mutate(across(c("No", "Yes"), ~round(.x, 2)))

knitr::kable(claim_quantile_table, 
caption = 
  "Bảng so sánh thống kê Tứ phân vị (Quantile) của Claim Amount theo Churn",
             col.names = c("Chỉ số", "Duy Trì (No)", "Rời Bỏ (Yes)"))

Bảng so sánh thống kê Tứ phân vị (Quantile) của Claim Amount theo Churn
Chỉ số	Duy Trì (No)	Rời Bỏ (Yes)
Min	1.00	1.00
Q1	245.00	246.00
Median	1390.00	1389.00
Q3	1844.00	1844.00
Max	2299.00	2299.00
Mean	1119.94	1120.79

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm theo Churn và tính toán các chỉ số thống kê.

Dòng [11] (tidyr::pivot_longer(…)): Chuyển đổi bảng từ dạng rộng (wide) sang dạng dài (long). Các tên cột (Min, Q1, Median…) được gom vào một cột Statistic, và giá trị của chúng được gom vào cột Value.

Dòng [12] Chuyển đổi bảng từ dạng dài trở lại dạng rộng), nhưng lần này, các giá trị trong cột Churn (“Yes”, “No”) được dùng để tạo các cột mới.

Dòng [13] Làm tròn các giá trị trong hai cột “No” và “Yes”.

Dòng [15] Hiển thị bảng, và tùy chỉnh (col.names) tên của các cột trong bảng kết quả.

Ý nghĩa thống kê:

Củng cố mạnh mẽ kết luận về mối quan hệ giữa hành vi yêu cầu bồi thường và việc hủy hợp đồng.

Phân bố số tiền bồi thường theo trung vị của top 5 bang, tiểu bang

Top 5 bang, tiểu bang có số tiền bồi thường cao nhất

top_5_states_list <- (dff %>% count(State, sort = TRUE) %>% head(5))$State
median_claim_by_state <- dff %>%
  filter(State %in% top_5_states_list) %>%
  group_by(State) %>%
  summarise(Median_Claim_Amount = median(Claim_Amount))
top_5_states_list

## [1] "AE" "AA" "AP" "TX" "ME"

Ý nghĩa kỹ thuật:

Dòng [1] Lấy Top 5 bang

Dòng [3]Lọc data frame dff gốc, chỉ giữ lại các hàng mà cột State nằm trong danh sách top_5_states_list.

Dòng [4-5] Tính toán giá trị trung vị (median) của Claim_Amount cho 5 bang này.

Ý nghĩa thống kê:

Tìm ra 5 bang, tiểu bang có số tiền bồi thường theo trung vị cao nhất.

Trực quan hóa

ggplot(median_claim_by_state, aes(x = reorder(State, Median_Claim_Amount), 
                                  y = Median_Claim_Amount, fill = State)) +
  geom_col() + # Layer 1
  labs(title = "Số tiền bồi thường theo trung vị trong Top 5 Bang",
       x = "Bang, tiểu bang",
       y = "Số tiền bồi thường theo trung vị") + # Layer 2
  coord_flip() + # Layer 3
  scale_fill_brewer(palette = "Pastel1") + # Layer 4
 geom_text(aes(label = round(Median_Claim_Amount, 0)), 
            hjust = 1.2, 
            color = "black", 
            size = 4) +
  theme_minimal()

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ, sử dụng bảng tóm tắt median_claim_by_state.

Dòng [1] Sắp xếp các bang trên trục X theo giá trị Median_Claim_Amount (tăng dần).

Ý nghĩa thống kê:

AE và AA được xác định là hai bang có chi phí bồi thường trung tâm cao nhất (1416 và 1411), cho thấy rủi ro chi phí tại hai khu vực này là cao nhất.

Phân bố lý do bồi thường đã rút gọn (Reason_Simple)

Tính tỷ lệ các lý do

reason_summary <- dff %>%
  count(Reason_Simple) %>%
  mutate(
    fraction = n / sum(n),
    percentage = paste0(round(fraction * 100, 2), "%"),
    ymax = cumsum(fraction),
    ymin = c(0, head(ymax, -1)),
    label_position = (ymin + ymax) / 2
  ) %>%
  arrange(desc(Reason_Simple))
reason_summary

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm dữ liệu theo các giá trị duy nhất trong cột Reason_Simple và sau đó đếm số lượng quan sát cho mỗi nhóm, tạo ra một cột mới tên là n (count).

Dòng [3] Tính toán các giá trị

Dòng [10] Sắp xếp các hàng của dataframe theo cột Reason_Simple theo thứ tự giảm dần.

Ý nghĩa thống kê:

Lập bảng tỷ lệ phân bố cho biểu đồ.

Trực quan hóa

pie_reason <- ggplot(reason_summary, aes(ymax = ymax, ymin = ymin, xmax = 4,
                                         xmin = 3, fill = Reason_Simple)) +
  geom_rect() +
  geom_text(x = 3.5, aes(y = label_position, label = percentage), size = 4) +
  labs(title = "Phân bố lý do yêu cầu bồi thường chính", fill = "Lý do ") +
  coord_polar(theta = "y") +
  theme_void() +
  theme(legend.position = "bottom")
print(pie_reason)

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo đối tượng đồ họa và cung cấp data frame reason_summary làm nguồn dữ liệu.

Dòng [2] Vẽ các hình chữ nhật cơ bản.

Dòng [3] Đặt nhãn để nằm gọn trong vòng Donut.

Ý nghĩa thống kê:

Tập trung xử lý yêu cầu và kiểm soát rủi ro vào nhóm Medical. Nhận thấy các nhóm Phone, Other, và Travel có tỷ lệ gần như nhau, cần theo dõi sát sao để phát hiện sự thay đổi hoặc tăng trưởng đột biến trong các nhóm này.

Tỷ lệ khách hàng rời bỏ theo Data Confidentiality

Bảng tỷ lệ khách hàng rời bỏ theo Data_Confidentiality

churn_by_conf_slope_data <- dff %>%
  group_by(Data_Confidentiality, Data_Conf_Encoded) %>% # Group theo cả hai cột
  summarise(
    Churn_Rate = mean(Churn_Encoded) * 100,
    .groups = 'drop'
  ) %>%
  arrange(Data_Conf_Encoded)
churn_by_conf_slope_data

Ý nghĩa kỹ thuật:

Dòng [2] Nhóm theo cả tên và mã số.

Dòng [3-6] Tính Churn_Rate cho từng nhóm.

Dòng [7] Sắp xếp bảng theo cột mã số (đảm bảo thứ tự logic “Very low” -> “Very high”).

Ý nghĩa thống kê:

Tạo bảng tỷ lệ theo thứ tự từ thấp đến cao.

Trực quan hóa

churn_by_conf_slope_data$Data_Conf_Encoded <- 
  as.numeric(as.character(churn_by_conf_slope_data$Data_Conf_Encoded))
ggplot(churn_by_conf_slope_data, aes(x = Data_Conf_Encoded, 
                                     y = Churn_Rate, group = 1)) +
  geom_line(color = "gray", linewidth = 1) + 
  geom_point(aes(color = Churn_Rate), size = 4) +
  geom_text(aes(label = paste0(round(Churn_Rate, 2), "%")), 
            vjust = -1.5, size = 4) + 
  labs(
    title = "Sự thay đổi tỷ lệ khách hàng rời bỏ theo mức độ Bảo mật Dữ liệu",
    x = "Mức độ Bảo mật",
    y = "Tỷ lệ Rời bỏ (%)"
  ) +
  scale_x_continuous(breaks = churn_by_conf_slope_data$Data_Conf_Encoded, 
                     labels = churn_by_conf_slope_data$Data_Confidentiality) +
  scale_color_gradient(low = "#377EB8", high = "#E41A1C") + 
  coord_cartesian(ylim = c(min(churn_by_conf_slope_data$Churn_Rate) * 0.95, 
                           max(churn_by_conf_slope_data$Churn_Rate) * 1.15)) +
  theme_minimal() +
  theme(legend.position = "none") # Bỏ chú thích màu

Ý nghĩa kỹ thuật:

Dòng [3] Sử dụng cột số (Data_Conf_Encoded) cho trục X.

Dòng [4] Vẽ đường nối các điểm.

Dòng [5] Vẽ các điểm.

Dòng [12] Kỹ thuật tùy chỉnh trục X.

Dòng [14] Áp dụng một thang màu cho color, từ màu xanh (giá trị thấp) đến màu đỏ (giá trị cao).

Ý nghĩa thống kê:

Biểu đồ này làm nổi bật sự thiếu mối liên hệ giữa mức độ bảo mật dữ liệu được công bố và quyết định Khách hàng rời bỏ.

Phân bố số lượng khách hàng rời bỏ theo nhóm tiền bồi thườn

Phân nhóm số tiền bồi thường

dff_claim_group <- dff %>%
  mutate(
    Claim_Group = cut(
      Claim_Amount,
      breaks = c(0, 245, 1390, Inf),
      labels = c("Low", "Medium", "High"), 
      include.lowest = TRUE,
      right = FALSE
    )
  ) %>%
  filter(Reason_Simple != "Other")
dff_claim_group

Ý nghĩa kỹ thuật:

Dòng [2] Tạo cột mới Claim_Group.

Dòng [11] Lọc dữ liệu để chỉ giữ lại các hàng mà cột Reason_Simple không mang giá trị “Other”.

Ý nghĩa thống kê:

Phân bố nhóm tiền bồi thường và loại bỏ những giá trị khồn nằm trong đó.

Trực quan hóa

ggplot(dff_claim_group, aes(x = Claim_Group, fill = Churn)) +
  geom_bar(position = "stack") +
  facet_wrap(~ Reason_Simple, scales = "free_y", ncol = 3) +
  geom_text(
    stat = 'count', 
    aes(label = after_stat(count)), 
    position = position_stack(vjust = 0.5),
    size = 3, color = "white", fontface = "bold"
  ) +
  labs(
    title = "Phân bố số lượng khách hàng rời bỏ theo nhóm tiền bồi thường",
    x = "Nhóm Số tiền Bồi thường", 
    y = "Số lượng Khách hàng",
    fill = "Trạng thái Rời bỏ"
  ) +
  scale_fill_manual(values = c("Yes" = "#CC0000", "No" = "#0072B2")) +
  scale_y_continuous(labels = scales::comma) + 
  theme_minimal() + 
  theme(
    legend.position = "bottom",
    plot.title = element_text(face = "bold", hjust = 0.5),
    # angle = 0 và size = 9 để tối ưu nhãn ngang
    axis.text.x = element_text(angle = 0, hjust = 0.5, size = 9), 
    strip.text = element_text(face = "bold")
  )

Ý nghĩa kỹ thuật:

Dòng [1] Khởi tạo biểu đồ.

Dòng [2] Tạo các biểu đồ chồng.

Dòng [3] Chia biểu đồ thành nhiều ô nhỏ.

Dòng [4] Thêm nhãn số lượng vào bên trong mỗi phần của cột.

Dòng [16] Thiết lập bảng màu thủ công, định dạng trục .

Dòng [19] Tùy chỉnh chi tiết thẩm mỹ của theme.

Ý nghĩa thống kê:

Biểu đồ này giúp cách ly và định lượng các nhóm khách hàng rủi ro cao để đưa ra chiến lược giữ chân khách hàng mục tiêu.

GIỚI THIỆU VỀ BỘ DỮ LIỆU

Bộ dữ liệu “bctc abs.xlsx” là báo cáo tài chính tóm tắt của Tổng Công ty cổ phần Bia - Rượu - Nước giải khát Sài Gòn (SABECO)(mã chứng khoán: SAB) trong giai đoạn 2015–2024. Dữ liệu được tổng hợp theo từng năm, bao gồm các chỉ tiêu tài chính chủ yếu như: tài sản ngắn hạn, tài sản dài hạn, tổng tài sản, tổng nợ phải trả, vốn chủ sở hữu, doanh thu thuần, lợi nhuận gộp và doanh thu hoạt động tài chính. Những chỉ tiêu này phản ánh bức tranh tổng thể về quy mô, cơ cấu tài sản – nguồn vốn và hiệu quả kinh doanh của doanh nghiệp qua 10 năm hoạt động. Thông qua bộ dữ liệu, có thể đánh giá được xu hướng tăng trưởng, khả năng sinh lời và mức độ ổn định tài chính của SAB, làm cơ sở cho việc phân tích, so sánh và dự báo tình hình tài chính trong bài tiểu luận.

THÔNG TIN CƠ BẢN VỀ BỘ DỮ LIỆU

Đọc dữ liệu Excel

bctcabs <- read_excel("bctcabs.xlsx", sheet = "bctc abs")

Ý nghĩa kỹ thuật:

Dòng [1] Hàm read_excel() của gói readxl để đọc dữ liệu tài chính từ file Excel.

Ý nghĩa thống kê:

Bước đầu tiên để nhập dữ liệu thô về Sabeco — cung cấp nguồn dữ liệu chính cho toàn bộ phân tích thống kê sau.

Gán đối tượng dữ liệu

bc <- bctcabs
bc

Ý nghĩa kỹ thuật:

Dòng [1] gán dữ liệu gốc vào đối tượng bc để thao tác nhanh, tránh thay đổi dữ liệu

Ý nghĩa thống kê:

Đảm bảo dữ liệu gốc luôn được bảo toàn trong quá trình xử lý và phân tích.

Kiểm tra cấu trúc dữ liệu

ktbc <- sapply(bc, class)
print(ktbc)

##                                        Năm/Biến 
##                                       "numeric" 
##                                Tài sản ngắn hạn 
##                                       "numeric" 
##              Tiền và các khoản tương đương tiền 
##                                       "numeric" 
##             Các khoản đầu tư tài chính ngắn hạn 
##                                       "numeric" 
##                                 Tài sản dài hạn 
##                                       "numeric" 
##                                    Tổng tài sản 
##                                       "numeric" 
##                                Tổng nợ phải trả 
##                                       "numeric" 
##                                  Vốn chủ sở hữu 
##                                       "numeric" 
## Doanh thu thuần về bán hàng và cung cấp dịch vụ 
##                                       "numeric" 
##   Lợi nhuận gộp về bán hàng và cung cấp dịch vụ 
##                                       "numeric" 
##                   Doanh thu hoạt động tài chính 
##                                       "numeric"

Ý nghĩa kỹ thuật:

Dòng [1] hiển thị cấu trúc dataset – kiểu dữ liệu, số dòng và số cột.

Ý nghĩa thống kê:

Tất cả đều là biến định lượng.

Xem 10 dòng đầu tiên

head(bc, 10)

Ý nghĩa kỹ thuật:

Dòng [1] hiển thị 10 dòng đầu tiên để kiểm tra dữ liệu thực tế.

Ý nghĩa thống kê:

Quan sát nhanh giá trị ban đầu giúp phát hiện lỗi nhập liệu hoặc ký hiệu không hợp lệ.

Kiểm tra kích thước dữ liệu

dim(bc)

## [1] 10 11

Ý nghĩa kỹ thuật:

Dòng [1] Trả về số hàng (quan sát) và cột (biến) trong bộ dữ liệu

Ý nghĩa thống kê:

Có 10 năm và 11 biến trong bộ dữ liệu

Liệt kê tên biến

names(bc)

##  [1] "Năm/Biến"                                       
##  [2] "Tài sản ngắn hạn"                               
##  [3] "Tiền và các khoản tương đương tiền"             
##  [4] "Các khoản đầu tư tài chính ngắn hạn"            
##  [5] "Tài sản dài hạn"                                
##  [6] "Tổng tài sản"                                   
##  [7] "Tổng nợ phải trả"                               
##  [8] "Vốn chủ sở hữu"                                 
##  [9] "Doanh thu thuần về bán hàng và cung cấp dịch vụ"
## [10] "Lợi nhuận gộp về bán hàng và cung cấp dịch vụ"  
## [11] "Doanh thu hoạt động tài chính"

Ý nghĩa kỹ thuật:

Dòng [1] Xem tên biến.

Ý nghĩa thống kê:

Giúp nắm rõ nội dung dữ liệu gồm những chỉ tiêu tài chính nào

Kiểm tra kiểu dữ liệu từng biến

sapply(bc, class)

##                                        Năm/Biến 
##                                       "numeric" 
##                                Tài sản ngắn hạn 
##                                       "numeric" 
##              Tiền và các khoản tương đương tiền 
##                                       "numeric" 
##             Các khoản đầu tư tài chính ngắn hạn 
##                                       "numeric" 
##                                 Tài sản dài hạn 
##                                       "numeric" 
##                                    Tổng tài sản 
##                                       "numeric" 
##                                Tổng nợ phải trả 
##                                       "numeric" 
##                                  Vốn chủ sở hữu 
##                                       "numeric" 
## Doanh thu thuần về bán hàng và cung cấp dịch vụ 
##                                       "numeric" 
##   Lợi nhuận gộp về bán hàng và cung cấp dịch vụ 
##                                       "numeric" 
##                   Doanh thu hoạt động tài chính 
##                                       "numeric"

Ý nghĩa kỹ thuật:

Dòng [1] áp dụng hàm class() cho từng cột để xem kiểu dữ liệu (numeric, character…).

Ý nghĩa thống kê:

Giúp xác định biến nào cần chuyển đổi kiểu dữ liệu để phân tích chính xác hơ, tất cả đều là num.

Kiểm tra giá trị bị thiếu (NA)

colSums(is.na(bc))

##                                        Năm/Biến 
##                                               0 
##                                Tài sản ngắn hạn 
##                                               0 
##              Tiền và các khoản tương đương tiền 
##                                               0 
##             Các khoản đầu tư tài chính ngắn hạn 
##                                               0 
##                                 Tài sản dài hạn 
##                                               0 
##                                    Tổng tài sản 
##                                               0 
##                                Tổng nợ phải trả 
##                                               0 
##                                  Vốn chủ sở hữu 
##                                               0 
## Doanh thu thuần về bán hàng và cung cấp dịch vụ 
##                                               0 
##   Lợi nhuận gộp về bán hàng và cung cấp dịch vụ 
##                                               0 
##                   Doanh thu hoạt động tài chính 
##                                               0

Ý nghĩa kỹ thuật:

Dòng [1] s.na() phát hiện giá trị trống, colSums() đếm tổng số NA của từng cột.

Ý nghĩa thống kê:

Giúp đánh giá mức độ đầy đủ của dữ liệu và xác định có cần xử lý dữ liệu bị thiếu hay không. Bộ dữ liệu không có giá trị NA.