library(knitr)
library(extrafont)
library (magick)
library(kableExtra)
knitr::opts_chunk$set(dev = "png", dpi = 300, echo = TRUE,warning = FALSE,message = FALSE, attr.source = c(".numberlines"))
options(kableExtra.table.html.limit = 100, kableExtra.table.html.scale_min = 1.0)
knit_hooks$set(kable = function(x, options) {kable_styling(x, latex_options = c("hold_position"), font_size = 9)})
comma <- function(x) format(x, big.mark = ",", scientific = FALSE)

Bộ dữ liệu UK Accidents 2005 - 2015

Tổng quan nghiên cứu

Bối cảnh nghiên cứu

Tai nạn giao thông đường bộ là một vấn đề lớn về an toàn cộng đồng, gây thiệt hại nghiêm trọng về cả người lẫn tài sản tại mọi quốc gia phát triển. Vương quốc Anh là một trong những nước có hệ thống ghi nhận, báo cáo và điều tra tai nạn giao thông hoàn chỉnh nhất thế giới, với mục tiêu không chỉ kiểm soát rủi ro mà còn tối ưu hóa chính sách an toàn giao thông quốc gia.

Nguồn gốc, phạm vi và đặc điểm bộ dữ liệu

Bộ dữ liệu UK Road Accidents 2005–2015 được xây dựng dựa trên dữ liệu thống kê chính thức từ Bộ Giao thông Vận tải Vương quốc Anh (DfT), thu thập qua báo cáo của lực lượng Cảnh sát toàn quốc bằng biểu mẫu Stats19 chuẩn hóa. Đây là tập dữ liệu lịch sử, bao quát 11 năm với hơn 1,7 triệu bản ghi, mỗi bản ghi đại diện cho một vụ va chạm giao thông đường bộ xảy ra ở mọi khu vực trên lãnh thổ Anh quốc, từ đô thị đông đúc đến nông thôn thưa dân.
Dữ liệu lưu trữ hàng loạt thông tin: thời gian, vị trí, loại đường, loại phương tiện, số lượng xe, số thương vong, mức độ nghiêm trọng, điều kiện thời tiết, ánh sáng, kiểm soát giao lộ, cùng phần lớn các yếu tố môi trường hay tác nhân con người ảnh hưởng trực tiếp đến tính chất của vụ tai nạn. Tính toàn diện và chuẩn hóa của dữ liệu giúp so sánh xuyên không gian (theo vùng miền) và thời gian (theo năm, mùa vụ, xu hướng) cực kỳ hiệu quả.

Cơ sở lý thuyết và tổng quan nghiên cứu

Trên thế giới, rất nhiều mô hình phân tích, dự báo, giải thích nguyên nhân cũng như đánh giá hiệu quả chính sách an toàn giao thông đã dựa vào các bộ dữ liệu tương tự. Cơ sở lý thuyết của nghiên cứu thường xoay quanh các mô hình logistic regression, phân tích đa biến, cluster analysis, dự báo bằng machine learning, phối hợp các yếu tố về đường xá, thời tiết, hành vi lái xe… Nghiên cứu trong nước và quốc tế đều nhất quán rằng: đa số các vụ tai nạn là nhẹ, tuy nhiên các yếu tố như tốc độ, điều kiện môi trường, kiểm soát giao thông và đặc biệt là ý thức người điều khiển trực tiếp ảnh hưởng đến xác suất xảy ra tai nạn nghiêm trọng.

Mục tiêu nghiên cứu

Mục tiêu nghiên cứu của đề tài này là cung cấp bức tranh tổng quan về dữ liệu tai nạn giao thông đường bộ tại Vương quốc Anh trong giai đoạn 2005–2015, làm cơ sở tin cậy cho các phân tích chuyên sâu. Nghiên cứu nhằm tập trung bóc tách, nhận diện các yếu tố, hoàn cảnh và điều kiện tác động mạnh đến sự gia tăng nguy cơ xảy ra các tai nạn có mức độ nghiêm trọng cao. Thêm vào đó, đề tài sẽ đánh giá xu hướng biến động về tần suất cũng như mức độ nghiêm trọng của tai nạn theo thời gian, khu vực địa phương và các yếu tố ngoại cảnh như điều kiện đường sá, môi trường, thời tiết. Trên nền tảng các phát hiện rút ra từ dữ liệu, nghiên cứu hướng đến tổng hợp bài học kinh nghiệm thực tiễn cũng như đề xuất các chính sách, khuyến nghị khoa học nhằm giảm thiểu tối đa thiệt hại do các vụ tai nạn giao thông mang lại, góp phần xây dựng môi trường giao thông an toàn, văn minh và bền vững hơn cho xã hội.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp phân tích mô tả thống kê kết hợp trực quan hóa dữ liệu để nhận diện các mẫu chính từ bộ dữ liệu lớn. Ngoài ra, các phương pháp phân tổ, và các kỹ thuật AI được áp dụng để dự báo, nhận diện và xác định xác suất rủi ro trên từng nhóm đối tượng.

Ý nghĩa của nghiên cứu

Bài nghiên cứu góp phần hình thành hiểu biết hệ thống về tai nạn giao thông tại Anh quốc, khẳng định giá trị thực tiễn của dữ liệu lớn trong việc hỗ trợ xây dựng giải pháp an toàn giao thông bền vững. Kết quả mang tính ứng dụng cao cho nhà hoạch định chính sách, kỹ sư giao thông, lực lượng chức năng cũng như cộng đồng để cùng hướng đến mục tiêu giảm thiểu thương vong và hướng tới hạ tầng giao thông hiện đại, nhân văn.

Giới thiệu bộ dữ liệu

Đọc dữ liệu

library(readr) 
Accidents0515 <- read_csv("/Users/kieukimkhanh/Downloads/Accidents0515.csv")

Kết quả: Toàn bộ dữ liệu tai nạn giao thông UK giai đoạn 2005–2015 được nạp vào R.

Kiểm tra kiểu đối tượng của dữ liệu

is.data.frame(Accidents0515)

## [1] TRUE

Kết quả của lệnh cho thấy bộ dữ liệu là dữ liệu dataframe (dữ liệu dạng bảng hai chiều).

Kiểm tra kiểu đối tượng và cấu trúc bảng dữ liệu

class(Accidents0515)

## [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"

Ý nghĩa của lệnh trên: Bảng dữ liệu là kiểu tibble (dữ liệu được đọc bằng readr), nằm trong gói tidyverse, cho phép sử dụng mọi thao tác thuộc tidyverse, đồng thời tương thích với các xử lý kiểu data.frame truyền thống trong R.

Số quan sát của dữ liệu

nrow(Accidents0515)

## [1] 1780653

Bộ dữ liệu này có 1780653 quan sát.

Số biến của dữ liệu

ncol(Accidents0515)

## [1] 32

Bộ dữ liệu này có 32 biến

Năm quan sát đầu tiên của bộ dữ liệu

library(dplyr)
library(DT)
df_head <- Accidents0515 %>% head(5) %>%
  select(everything()) %>% as.data.frame()
datatable(df_head,options = list(dom = 't', paging = FALSE, scrollX = TRUE,ordering = FALSE ))

Bảng trên là 5 giá trị đầu từng biến của bộ dữ liệu Accidents0515.

Phân loại dữ liệu

var_class <- sapply(Accidents0515, class)
type_df <- data.frame(Variable = names(var_class), Type = as.character(var_class), stringsAsFactors = FALSE)
N <- nrow(type_df)
ncol_want <- 2
rows <- ceiling(N / ncol_want)
pad_len <- rows * ncol_want - N
if (pad_len > 0) {type_df <- rbind(type_df, data.frame(Variable=rep("",pad_len), Type=rep("",pad_len)))}
tab2col <- data.frame(Var1 = type_df$Variable[1:rows], Type1 = type_df$Type[1:rows], Var2 = type_df$Variable[(rows+1):(2*rows)], Type2 = type_df$Type[(rows+1):(2*rows)])
knitr::kable(tab2col, caption = "Kiểu dữ liệu của từng biến")

Kiểu dữ liệu của từng biến
Var1	Type1	Var2	Type2
Accident_Index	character	Road_Type	numeric
Location_Easting_OSGR	numeric	Speed_limit	numeric
Location_Northing_OSGR	numeric	Junction_Detail	numeric
Longitude	numeric	Junction_Control	numeric
Latitude	numeric	2nd_Road_Class	numeric
Police_Force	numeric	2nd_Road_Number	numeric
Accident_Severity	numeric	Pedestrian_Crossing-Human_Control	numeric
Number_of_Vehicles	numeric	Pedestrian_Crossing-Physical_Facilities	numeric
Number_of_Casualties	numeric	Light_Conditions	numeric
Date	character	Weather_Conditions	numeric
Day_of_Week	numeric	Road_Surface_Conditions	numeric
Time	c(“hms”, “difftime”)	Special_Conditions_at_Site	numeric
Local_Authority_(District)	numeric	Carriageway_Hazards	numeric
Local_Authority_(Highway)	character	Urban_or_Rural_Area	numeric
1st_Road_Class	numeric	Did_Police_Officer_Attend_Scene_of_Accident	numeric
1st_Road_Number	numeric	LSOA_of_Accident_Location	character

Lệnh trên hiển thị cấu trúc của dữ liệu Accidents0515.
Kết quả:
- Tên và kiểu từng biến: Hiển thị mỗi cột/bien trong dataframe thuộc kiểu kí tự, số thực, số nguyên, hoặc thời gian.
- Bộ dữ liệu gồm 32 biến, trong đó có 3 biến định tính dạng chuỗi (Accident_Index, Local_Authority_(Highway), LSOA_of_Accident_Location), 2 biến thời gian (Date, Time) và 27 biến còn lại là có định dạng numberic. Mặc dù lệnh str() cho thấy có đến 27 biến có định dạng numberic nhưng phần lớn các biến (21 biến) là định tính hoặc thứ tự đã được mã hóa bằng số nguyên, chỉ có 6 biến định lượng thực sự (Number_of_Vehicles, Number_of_Casualties, Location_Easting_OSGR, Location_Northing_OSGR, Longitude, Latitude)

Số quan sát bị thiếu

na_vec <- colSums(is.na(Accidents0515))
na_df <- data.frame(Variable = names(na_vec), NA_Count = as.integer(na_vec), stringsAsFactors = FALSE)
N <- nrow(na_df)
ncol_want <- 2
rows <- ceiling(N / ncol_want)
pad_len <- rows * ncol_want - N
if (pad_len > 0) {na_df <- rbind(na_df, data.frame(Variable=rep("",pad_len), NA_Count=rep("",pad_len)))}
tab2col <- data.frame(Var1 = na_df$Variable[1:rows], NA1 = na_df$NA_Count[1:rows], Var2 = na_df$Variable[(rows+1):(2*rows)], NA2 = na_df$NA_Count[(rows+1):(2*rows)])
knitr::kable(tab2col, caption = "Số quan sát bị thiếu")

Số quan sát bị thiếu
Var1	NA1	Var2	NA2
Accident_Index	0	Road_Type	0
Location_Easting_OSGR	138	Speed_limit	0
Location_Northing_OSGR	138	Junction_Detail	0
Longitude	138	Junction_Control	0
Latitude	138	2nd_Road_Class	0
Police_Force	0	2nd_Road_Number	0
Accident_Severity	0	Pedestrian_Crossing-Human_Control	0
Number_of_Vehicles	0	Pedestrian_Crossing-Physical_Facilities	0
Number_of_Casualties	0	Light_Conditions	0
Date	0	Weather_Conditions	0
Day_of_Week	0	Road_Surface_Conditions	0
Time	151	Special_Conditions_at_Site	0
Local_Authority_(District)	0	Carriageway_Hazards	0
Local_Authority_(Highway)	0	Urban_or_Rural_Area	0
1st_Road_Class	0	Did_Police_Officer_Attend_Scene_of_Accident	0
1st_Road_Number	0	LSOA_of_Accident_Location	129471

Bộ dữ liệu nhìn chung khá đầy đủ, phần lớn các biến không xuất hiện giá trị thiếu. Tuy vậy, vẫn có một số ngoại lệ: các biến tọa độ địa lý như Location_Easting_OSGR, Location_Northing_OSGR, Longitude, Latitude cùng với biến Time có vài trăm quan sát bị khuyết, mức độ này khá nhỏ (dưới 0.1% tổng quan sát) nên ít ảnh hưởng đến kết quả tổng thể. Riêng biến LSOA_of_Accident_Location có đến 129471 quan sát bị thiếu (chiếm khoảng 7.27% tổng số quan sát), tỷ lệ thiếu hụt này là đáng kể, cần tiến hành xử lý loại bỏ các quan sát bị thiếu.

Loại bỏ những quan sát bị thiếu

df <- na.omit(Accidents0515)
dim(df)

## [1] 1651142      32

Sau khi loại bỏ những quan sát bị thiếu giá trị, bộ dữ liệu còn lại 1651142 quan sát.

Số quan sát bị trùng lặp

sum(duplicated(df))

## [1] 0

Dữ liệu không có quan sát nào bị trùng lặp. Mỗi vụ tai nạn là một quan sát duy nhất, được xác định bởi mã Accident_Index, nên không tồn tại bản ghi trùng lặp.

Chọn lọc dữ liệu

Ở bước này, tác giả tiến hành chọn lựa các biến để phân tích và loại bỏ các biến không phân tích.

library(lubridate)
library(tidyr)
library(dplyr)
d <- df %>% mutate(Date = dmy(Date)) %>%
  mutate(Weather_Conditions = na_if(Weather_Conditions, -1), Light_Conditions = na_if(Light_Conditions, -1),Road_Surface_Conditions = na_if(Road_Surface_Conditions, -1), Road_Type = na_if(Road_Type, -1), Road_Type = na_if(Road_Type, 0), Urban_or_Rural_Area = na_if(Urban_or_Rural_Area, 3)) %>%
  select("Accident_Severity", "Number_of_Casualties", "Number_of_Vehicles", 
  "Date", "Day_of_Week", "Time", "Speed_limit", "Urban_or_Rural_Area", "Light_Conditions", "Weather_Conditions","Road_Surface_Conditions", "Road_Type", "Longitude", "Latitude") %>%
  drop_na()
dim(d)

## [1] 1648601      14

Ở bước này ,biến Date được chuyển sang định dạng ngày-tháng-năm (Date type) để dễ dàng thao tác thời gian.
Trong bộ dữ liệu gốc, các giá trị -1 (hoặc 0) thể hiện thiếu dữ liệu (missing value),tác giả tiến hành thay các dữ liệu bị thiếu bằng N/A. Tiếp theo giữ lại 14 biến chọn để tiến hành phân tích, gồm các biến:
- Đo lường mức độ nghiêm trọng của vụ tai nạn: Accident_Severity, Number_of_Casualties, Number_of_Vehicles.
- Thời gian: Date, Time, Day_of_Week.
- Các yếu tố bên ngoài ảnh hưởng trực tiếp đến tai nạn: Speed_limit, Urban_or_Rural_Area, Light_Conditions, Weather_Conditions, Road_Surface_Conditions, Road_Type.
- Địa lý: Longitude, Latitude
Sau đó xóa các quan sát có giá trị N/A ở bất kỳ biến nào trong 14 biến trên.
Cuối cùng có được bộ dữ liệu gồm 1648601 quan sát và 14 biến.

Thống kê mô tả

Biến Accident_Severity

d <- d %>%
  mutate(Severity_f = factor(Accident_Severity, levels = c(1, 2, 3), labels = c("Tử vong", "Nghiêm trọng", "Nhẹ"), ordered = TRUE))
library(DT)
library(scales)
tbl_severity_freq <- d %>%
  group_by(Severity_f) %>%
  summarise(So_Vu_Tai_Nan = n(),.groups = "drop") %>%
  mutate(TyLe_Phan_Tram = So_Vu_Tai_Nan / sum(So_Vu_Tai_Nan))
tbl_severity_freq %>%
  DT::datatable(options = list(dom = 't'), caption = "Bảng Tần Số & Tần Suất: Mức độ Nghiêm trọng") %>% 
  formatPercentage(columns = c("TyLe_Phan_Tram"), digits = 2)

Nạp thư viện scales được dùng để định dạng phần trăm.
Mã hoá biến Accident_Severity bằng cách tạo thêm biến mới mã hoá trong dữ liệu d.
Sau đó nhóm dữ liệu theo các cấp độ nghiêm trọng, sau đó dùng hàm n() để đếm số vụ tai nạn xảy ra trong mỗi nhóm, sau khi tổng hợp thì bỏ thông tin nhóm, tránh gây lỗi khi xử lý tiếp (.groups = “drop”). Tính tỷ lệ phần trăm cho từng mức độ, bằng cách chia số vụ của từng nhóm cho tổng số vụ tai nạn.
Lấy bảng dữ liệu và tạo ra một đối tượng bảng, đặt tiêu đề cho bảng là Bảng Tần Số & Tần Suất: Mức độ Nghiêm trọng. Cuối cùng là định dạng cột TyLe_Phan_Tram thành dạng phần trăm có 2 chữ số thập phân.
Kết quả cho thấy bộ dữ liệu có đầy đủ cả ba cấp độ nghiêm trọng (tử vong, nghiêm trọng và nhẹ):
- Tai nạn nhẹ chiếm tỷ lệ cao nhất, chiếm 85.38%, thể hiện rằng phần lớn các vụ va chạm chỉ gây thương tích nhỏ hoặc thiệt hại nhẹ.
- Tai nạn nghiêm trọng chiếm khoảng 13.38%, cho thấy vẫn còn một phần đáng kể các vụ có hậu quả nặng nề.
- Tai nạn tử vong chiếm tỷ lệ rất nhỏ, chỉ 1.25%, phản ánh tần suất tai nạn gây chết người tương đối thấp trong giai đoạn 2005–2015 tại Vương quốc Anh.

library(grid)
library(ggplot2)
df_pie_severity <- d %>%
  group_by(Severity_f) %>%
  summarise(So_Vu = n(), .groups = 'drop') %>%
  mutate(TyLe = So_Vu / sum(So_Vu))
ggplot(df_pie_severity, aes(x = 2, y = TyLe, fill = Severity_f)) +
  geom_bar(stat = "identity", color = "white", linewidth = 1) +
  coord_polar(theta = "y", start = 0) +
  labs( title = "Phân Bố Tỷ Lệ Mức Độ Nghiêm Trọng Của Tai Nạn", fill = "Mức độ" ) +
  scale_fill_brewer(palette = "Reds", direction = -1) +
  theme_void(base_size = 14, base_family = "Times New Roman") +
 theme(plot.title = element_text(hjust = 0.5, face = "bold"), legend.position = "bottom", axis.title.x = element_blank(), axis.text.x = element_blank(), plot.margin = unit(c(1, 0.5, 0.5, 0.5), "cm"))

Nạp thư viện grid để xác định đơn vị đo khi vẽ biểu đồ
Nạp gói đồ họa chính để tạo biểu đồ(ggplot2)
Nhóm dữ liệu theo cấp độ nghiêm trọng, sau đó dùng n() để đếm tần số (So_Vu) cho mỗi cấp độ, và tính tần suất của mỗi cấp độ.
Dùng lệnh ggplot để xây dựng biểu đồ, ánh xạ cột TyLe lên trục Y và cột Severity_Label lên thuộc tính fill, cột X tĩnh (x = 2) để có trục cố định khi tạo biểu đồ tròn
- Layer 1: Vẽ các thanh có chiều cao bằng TyLe. chiều rộng bằng 1, khi chuyển đổi, nó lấp đầy tâm biểu đồ, tạo ra hình tròn đặc.
- Layer 2: Chuyển đổi hệ trục tọa độ vuông góc thành hệ tọa độ Polar. Điều này biến các thanh dọc thành các lát cắt hình tròn.
- Layer 3: Ánh xạ tiêu đề biểu đồ và nhãn chú giải.
- Layer 4: Áp dụng bảng màu đỏ theo thứ bậc, làm cho lát cắt nghiêm trọng nhất có màu đậm nhất.
- Layer 5: Sử dụng theme_void để loại bỏ tất cả các trục và nền. Lệnh theme() tùy chỉnh lề (plot.margin) để đảm bảo tiêu đề không bị cắt.
Biểu đồ trên thể hiện tỷ trọng các mức độ nghiêm trọng của các vụ tai nạn xảy ra tại vương quốc Anh vào 2005 - 2015.
Biểu đồ cho thấy tỷ lệ các vụ tai nạn ở mức độ nhẹ là cao nhất (hơn 80%) và tỷ lệ các vụ tai nạn dẫn đến tử vong là thấp nhất.

Biến Number_of_Casualties

summary(d$Number_of_Casualties)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   1.000   1.353   1.000  93.000

Kết quả sao khi thống kê cho bản bằng lệnh summary() cho biến Number_of_Casualties (số người thương vong) cho thấy:
- Min = 1: Mỗi vụ tai nạn có ít nhất 1 người bị thương hoặc tử vong.
- 1st Qu. = 1, Median = 1, 3rd Qu. = 1: Cả ba giá trị tứ phân vị đều bằng 1, cho thấy phần lớn các vụ tai nạn chỉ có duy nhất một người bị thương hoặc tử vong.
- Mean = 1.353 (gần 1): Nghĩa là phần lớn các vụ chỉ có 1 nạn nhân, còn những vụ có nhiều nạn nhân hơn chỉ chiếm tỷ lệ rất nhỏ.
- Max = 93: Vụ tai nạn có số thương vong lớn nhất ghi nhận tới 93 người, phản ánh một vụ tai nạn đặc biệt nghiêm trọng (tai nạn giao thông hàng loạt).
Để hiểu rõ hơn về phân bố số người bị thương hoặc tử vong trong mỗi vụ tai nạn, tác giả lập bảng :

tbl_casualties_freq <- d %>%
mutate(Casualties_Group = case_when( Number_of_Casualties == 1 ~ "1 người", Number_of_Casualties == 2 ~ "2 người", Number_of_Casualties == 3 ~ "3 người", Number_of_Casualties == 4 ~ "4 người", Number_of_Casualties == 5 ~ "5 người", Number_of_Casualties >= 6 ~ "6 người trở lên",)) %>%
  mutate(Casualties_Group = factor(Casualties_Group,levels = c("1 người", "2 người", "3 người", "4 người", "5 người", "6 người trở lên"))) %>%
  group_by(Casualties_Group) %>%
  summarise(So_Vu_Tai_Nan = n(),.groups = "drop") %>%
  mutate(TyLe_Phan_Tram = So_Vu_Tai_Nan / sum(So_Vu_Tai_Nan))
tbl_casualties_freq %>%
  DT::datatable(options = list(dom = 't'), caption = "Bảng Tần Số & Tần Suất: Số người Thương vong/Vụ tai nạn",colnames = c("Số người Thương vong", "Số vụ Tai nạn", "Tỷ lệ Phần trăm")) %>% 
  formatPercentage(columns = c("TyLe_Phan_Tram"), digits = 2)

Tương tự như cách đã làm với biến Accident_Severity, tác giả cũng lập được bảng tần số, tần suất cho biến Number_of_Casualties.
Kết quả cho thấy:
- Phần lớn các vụ tai nạn (76.60%) chỉ có 1 người bị thương hoặc tử vong, phản ánh rằng đa số tai nạn có quy mô nhỏ, thường chỉ liên quan đến 1 cá nhân.
- Tai nạn có 2 người thương vong chiếm 16.11%, là nhóm lớn thứ hai.
- Từ 3 người trở lên chiếm tỷ lệ ngày càng nhỏ, và nhóm “6 người trở lên” chỉ chiếm 0.39%, cho thấy các vụ tai nạn nghiêm trọng với nhiều nạn nhân là rất hiếm xảy ra.

Biến Number_of_Vehicles

summary(d$Number_of_Vehicles)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   2.000   1.842   2.000  67.000

Kết quả thống kê cơ bản của biến Number_of_Vehicles (số phương tiện liên quan trong mỗi vụ tai nạn) cho thấy:
- Min = 1: Mỗi vụ tai nạn có ít nhất 1 phương tiện tham gia, thể hiện sự xuất hiện của các vụ tự gây tai nạn (ví dụ: xe tự lật hoặc đâm vào vật thể cố định).
- 1st Qu. = 2, Median = 2, 3rd Qu. = 2: Cả ba giá trị tứ phân vị đều bằng 2, cho thấy phần lớn các vụ tai nạn chỉ liên quan đến hai phương tiện.
- Mean = 1.842 (gần 2): Trung bình mỗi vụ tai nạn có khoảng hai xe liên quan, nghĩa là tai nạn giữa hai xe là hình thức phổ biến nhất, còn tai nạn đơn xe ít hơn và tai nạn nhiều xe chiếm tỷ lệ rất nhỏ.
- Max = 67 → Vụ tai nạn có số phương tiện tham gia nhiều nhất là 67 xe, phản ánh những vụ va chạm dây chuyền nghiêm trọng.

tbl_vehicles_freq <- d %>%
mutate(Vehicles_Group = case_when(Number_of_Vehicles == 1 ~ "1 phương tiện", Number_of_Vehicles == 2 ~ "2 phương tiện", Number_of_Vehicles == 3 ~ "3 phương tiện", Number_of_Vehicles == 4 ~ "4 phương tiện",  Number_of_Vehicles >= 5 ~ "5 phương tiện trở lên",)) %>%
  mutate(Vehicles_Group = factor(Vehicles_Group, levels = c("1 phương tiện","2 phương tiện", "3 phương tiện", "4 phương tiện", "5 phương tiện trở lên"))) %>%
  group_by(Vehicles_Group) %>%
  summarise(So_Vu_Tai_Nan = n(),.groups = "drop") %>%
  mutate(TyLe_Phan_Tram = So_Vu_Tai_Nan / sum(So_Vu_Tai_Nan))
tbl_vehicles_freq %>%
  DT::datatable(options = list(dom = 't'), caption = "Bảng Tần Số & Tần Suất: Số Phương tiện Tham gia/Vụ", colnames = c("Số phương tiện", "Số vụ Tai nạn", "Tỷ lệ Phần trăm")) %>% 
  formatPercentage(columns = c("TyLe_Phan_Tram"), digits = 2)

Kết quả cho thấy tại Vương quốc Anh trong giai đoạn 2005 - 2015 thì:
- Tai nạn 2 phương tiện chiếm tỷ trọng cao nhất (60.24%), cho thấy đa số các vụ va chạm là giữa hai xe — đây là dạng tai nạn phổ biến nhất trên đường.
- Tai nạn 1 phương tiện (29.39%) cũng chiếm tỷ lệ đáng kể, phản ánh các vụ tự gây tai nạn, như xe tự lật, đâm cột điện, hoặc mất lái.
- Tai nạn có từ 3 phương tiện trở lên chỉ chiếm dưới phần nhỏ tổng số vụ, trong đó:
  - 3 phương tiện: 8.07%
  - 4 phương tiện: 1.72%
  - 5 phương tiện trở lên: chỉ 0.58%
- Cho thấy tai nạn nhiều xe là rất hiếm, thường xảy ra trong các tình huống đặc biệt như va chạm dây chuyền.

Biến Day_of_Week

d <- d %>%
  mutate(Day_of_Week_f = factor(Day_of_Week, levels = 1:7, labels = c("Chủ Nhật", "Thứ Hai", "Thứ Ba", "Thứ Tư", "Thứ Năm", "Thứ Sáu", "Thứ Bảy")))
tbl_day_freq <- d %>%
  group_by(Day_of_Week_f) %>%
  summarise( So_Vu_Tai_Nan = n(), .groups = "drop") %>%
  mutate(TyLe_Phan_Tram = So_Vu_Tai_Nan / sum(So_Vu_Tai_Nan))
tbl_day_freq %>%
  DT::datatable( options = list(dom = 't'), caption = "Bảng Tần Số & Tần Suất Tai Nạn Theo Thứ trong Tuần ") %>% 
  formatPercentage(columns = c("TyLe_Phan_Tram"), digits = 2)

Đầu tiên tác giả tiến hành mã hoá cho biến Day_of_Week.
Sau đó lập bảng tần số tần suất cho biến này ,qua bảng trên có thể thấy:
- Ngày có Tần suất cao nhất: Thứ Sáu chiếm 16.36%). Thứ Sáu là ngày có nguy cơ tai nạn cao nhất, có thể do kết hợp giữa giờ cao điểm đi làm, áp lực cuối tuần, và lưu lượng giao thông tăng cao trước ngày nghỉ.
- Ngày có Tần suất thấp nhất: Chủ Nhật (chiếm 10.94%). Tần suất tai nạn vào Chủ Nhật thấp hơn đáng kể so với Thứ Sáu (16.36%), do lưu lượng xe cộ phục vụ mục đích đi lại/làm việc giảm mạnh.
- Ngày giữa tuần: Các ngày Thứ Ba, Thứ Tư, và Thứ Năm có tần suất cao và tương đương nhau (dao động quanh mức 15.1%). Điều này phản ánh tần suất đi lại cao và ổn định trong tuần làm việc.
- Thứ Bảy: Mặc dù là cuối tuần, Thứ Bảy (13.31%) vẫn có tần suất cao hơn Chủ Nhật nhưng thấp hơn đáng kể so với các ngày trong tuần.

df_day <- d %>% count(Day_of_Week_f)
ggplot(df_day, aes(x = factor(Day_of_Week_f), y = n)) + 
  geom_col(fill = "green", alpha = 0.8) + 
  geom_text(aes(label = comma(n)), vjust = -0.5, size = 3) + 
  labs(title = " Phân bổ tần suất theo ngày trong tuần", x = "Ngày", y = "Số Vụ") +
  scale_y_continuous(labels = comma) + 
  theme_bw(base_size = 14, base_family = "Times New Roman") +
  theme(plot.title = element_text(hjust = 0.5))

Biến Longitude

Với biến Longitude (Kinh độ), tác giả tiến thành vẽ biểu đồ mật độ

ggplot(d, aes(x = Longitude)) +
 geom_density(fill = "#1f78b4", alpha = 0.7, color = "darkblue") +
 labs(title = "Phân Bố Tần Suất Tai Nạn Theo Kinh độ (UK)", x = "Kinh độ (Longitude)",y = "Mật độ Tần suất") +
  scale_x_continuous(limits = c(-7, 2), breaks = seq(-6, 2, 2)) +
  theme_light(base_size = 14, base_family = "Times New Roman") +
  theme(plot.title = element_text(hjust = 0.5))

Đầu tiên tác giả khởi tạo biểu đồ, sử dụng bộ dữ liệu d, ánh xạ biến Longitude lên trục X. Sau đó vẽ đường cong mật độ, định dạng màu sắc cho vùng và đường viền, alpha=0.7 làm cho màu trong suốt hơn, labs() để ánh xạ tên của biến. Tùy chỉnh trục X: đặt giới hạn từ -7 đến 2 (bao quát phạm vi UK), và breaks đặt các điểm chia rõ ràng trên trục. Theme_light(base_size = 14) để áp dụng thêm tối giản màu trắng đồng thời thêm các đường lưới, thiết lập font chữ 14 để biểu đồ dễ nhìn hơn. Cuối cùng là căn chỉnh tiêu đề ra giữa để cải thiện hình thức trình bày.
Từ biểu đồ có thể thấy:
- Vị trí đỉnh cao nhất nằm ngay gần Kinh tuyến Gốc (0°). Khu vực này tương ứng với Đông Nam nước Anh (nơi đông dân nhất nước Anh). Độ cao của đỉnh này cho thấy đây là nơi có tần suất tai nạn cao nhất trên toàn bộ Vương quốc Anh.
- Mặc dù các vụ tai nạn xảy ra trên toàn bộ lãnh thổ (từ -6 đến 2), tần suất giảm mạnh về phía Tây (các kinh độ âm sâu) và Bắc, nơi có mật độ dân số thấp hơn.

Biến Latitude

Với biến Latitude (Vĩ độ), tác giả cũng tiến hành vẽ biểu đồ để có thể nhìn dữ liệu tổng quan hơn

ggplot(d, aes(x = Latitude)) +
  geom_density(fill = "#e41a1c", alpha = 0.7, color = "darkred") + 
  labs(title = "Phân Bố Tần Suất Tai Nạn Theo Vĩ độ (UK)", x = "Vĩ độ", y = "Mật độ Tần suất") +
  scale_x_continuous(limits = c(48, 62), breaks = seq(48, 62, 2)) +
  theme_light(base_size = 14, base_family = "Times New Roman") + 
  theme(plot.title = element_text(hjust = 0.5, face = "bold"), plot.subtitle = element_text(hjust = 0.5)) +
  coord_cartesian(expand = FALSE)

Từ biểu đồ có thể thấy:
- Đỉnh cao nhất của mật độ tai nạn tập trung ở vĩ độ 51–52, gần London và vùng Đông Nam Anh, nơi đông dân nhất và giao thông dày đặc.
- Tần suất tai nạn giảm mạnh ở các vùng phía Bắc và phía Tây có mật độ dân số thấp hơn, thể hiện rõ qua các vùng vĩ độ cao hơn.

Biến Speed_limit

table(d$Speed_limit)

## 
##       0      10      15      20      30      40      50      60      70 
##       1       6       2   20247 1066179  139473   54669  246061  121963

Lệnh trên dùng để liệt kê và đếm các giá trị của biến.
Giới hạn tốc độ 30 mph có tần suất tai nạn cao nhất, lên tới 1066179 vụ. Điều này khẳng định rằng phần lớn tuyệt đối các vụ tai nạn xảy ra trong các khu vực đô thị, nội thành có giới hạn tốc độ thấp.
Giới hạn 70 mph: Có 121963 vụ. Đây là giới hạn cao nhất (đường cao tốc), và tần suất thấp hơn so với vài giới hạn còn lại.

Biến Urban_or_Rural_Area

d <- d %>%
  mutate(Urban_or_Rural_Area_f = factor(Urban_or_Rural_Area, levels = c(1, 2), labels = c("Đô thị", "Nông thôn")))
table(d$Urban_or_Rural_Area_f)

## 
##    Đô thị Nông thôn 
##   1073386    575215

Sau khi mã hó biến, qua lệnh table có thể thấy rằng đa số các vụ tai nạn xảy ra ở đô thị (khoảng gấp 2 lần số vụ xảy ra ở nông thôn). Kết quả này phản ánh sự thật là mật độ dân số, lưu lượng giao thông, và sự phức tạp của mạng lưới đường sá tập trung cao ở các thành phố. Điều này củng cố rằng rủi ro tai nạn là một vấn đề chủ yếu của đô thị.

Biến Light_Conditions

d <- d %>%
  mutate(Light_Conditions_f = factor(Light_Conditions, levels = c(1, 4, 5, 6, 7), labels = c("Ban ngày","Ban đêm & đèn sáng", "Ban đêm – đèn bị tắt", "Ban đêm – không có đèn", "Ban đêm – không rõ trạng thái đèn")))
table(d$Light_Conditions_f)

## 
##                          Ban ngày                Ban đêm & đèn sáng 
##                           1208506                            326314 
##              Ban đêm – đèn bị tắt            Ban đêm – không có đèn 
##                              7242                             88035 
## Ban đêm – không rõ trạng thái đèn 
##                             18504

Điều kiện Ban ngày có tần suất tai nạn cao nhất, với 1208506 vụ. Điều này phản ánh thực tế là lưu lượng giao thông cao nhất và thời gian di chuyển của người dân tập trung vào ban ngày.

Biến Weather_Conditions

d <- d %>%
  mutate(Weather_Conditions_f = factor(Weather_Conditions, levels = c(1:9), labels = c("Trời quang (Không gió)", "Trời mưa (Không gió)", "Trời tuyết (Không gió)", "Trời quang (Có gió lớn)", "Trời mưa (Có gió lớn)", 
  "Trời tuyết (Có gió lớn)", "Sương mù", "Thời tiết khác", "Không rõ tại thời điểm ghi nhận")))
tbl_weather_freq <- d %>%
group_by(Weather_Conditions_f) %>%
summarise(So_Vu_Tai_Nan = n(), .groups = "drop") %>%
mutate(TyLe_Phan_Tram = So_Vu_Tai_Nan / sum(So_Vu_Tai_Nan)) 
tbl_weather_freq %>%
  DT::datatable(options = list(dom = 't'), caption = "Bảng Tần Số & Tần Suất: Điều kiện Thời tiết", colnames = c("Điều kiện thời tiết", "Tần số", "Tần suất")) %>% 
formatPercentage(columns = c("TyLe_Phan_Tram"), digits = 2)

Sau khi mã hoá, tác giả tiếng hành lập bảng tần số tần suất.
Từ bảng trên có thể thấy, điều kiện trời quang (không gió) chiếm tỷ lệ áp đảo, lên tới 80.57% tổng số vụ tai nạn. Tỷ lệ này khẳng định rằng hơn 4/5 các vụ tai nạn xảy ra khi điều kiện thời tiết hoàn toàn thuận lợi để tham gia giao thông. Chính vì thời tiết thuận lợi, lưu lượng phương tiện tham gia giao thông đạt mức cao nhất. Do đó, xác suất xảy ra va chạm trên đường phố là cao nhất, khiến tần suất tai nạn đạt đỉnh. Nguyên nhân chính gây ra tần suất tai nạn cao trong điều kiện này là các yếu tố phi thời tiết như mật độ giao thông tăng cao và lỗi của người điều khiển phương tiện.

Biến Road_Surface_Conditions

d <- d %>%
  mutate(Road_Surface_Conditions_f = factor(Road_Surface_Conditions, levels = c(1:5), labels = c("Khô ráo",  "Ướt/Ẩm",  "Tuyết", "Băng/Sương giá", "Ngập lụt (>3cm)")))
table(d$Road_Surface_Conditions_f)

## 
##         Khô ráo          Ướt/Ẩm           Tuyết  Băng/Sương giá Ngập lụt (>3cm) 
##         1151270          453999            9489           31603            2240

Đầu tiên tác giả mã hoá các chỉ số thành tình trạng theo mô tả của bộ dữ liệu.
Qua bảng tấn suất cho thấy tình trạng 1 (Khô ráo) chiếm ưu thế tuyệt đối, với 1151270 vụ. Giống như điều kiện thời tiết, phần lớn các vụ tai nạn xảy ra trong điều kiện lý tưởng (mặt đường khô). Điều này củng cố rằng tần suất tai nạn chịu ảnh hưởng mạnh mẽ từ lưu lượng giao thông và yếu tố con người hơn là yếu tố môi trường.
Các điều kiện cực đoan như Tuyết (3), Băng/Sương giá (4), và Ngập lụt (5) có tần suất rất thấp. Điều này là do các điều kiện này hiếm gặp hoặc người dân hạn chế di chuyển khi chúng xảy ra.

Biến Road_Type

d <- d %>%
 mutate(Road_Type_f = factor(Road_Type, levels = c(1, 2, 3, 6, 7, 9), labels = c("Bùng binh", "Một chiều", "Hai chiều có dải phân cách", "Đường đơn không phân cách", "Đường nối/nhánh", "Không rõ tại thời điểm ghi nhận")))
 df_plot_road <- d %>% 
  group_by(Road_Type_f) %>%
  summarise(So_Vu = n(), .groups = "drop") %>%
  mutate(TyLe = So_Vu / sum(So_Vu))
ggplot(df_plot_road, aes(x = Road_Type_f, y = So_Vu)) +
  geom_bar(stat = "identity", fill = "#54278f", alpha = 0.8) +
  geom_text(aes(label = scales::percent(TyLe, accuracy = 0.1)),  
            hjust = -0.2, size = 4, color = "black", fontface = "bold") +
  coord_flip() +
  labs(title = "Phân Bố Tần Số Tai Nạn Theo Loại Đường", x = "Loại Đường", y = "Số Vụ Tai Nạn") +
  scale_y_continuous(labels = scales::comma, expand = expansion(mult = c(0, 0.5))) + 
  theme_minimal(base_size = 14) +
  theme(axis.text.x = element_text(size = 12), plot.title = element_text(hjust = 0.5, face = "bold"), text = element_text(family = "Times New Roman"))

Sau khi mã hoá tác giả cũng tiến hành lập biểu đồ thể hiện tần số của biến, sử dụng các lớp để thể hiện số lượng và tỷ lệ phần trăm vụ tai nạn theo loại đường. So với các biểu đồ trước, biểu đồ này được xoay ngang để dễ nhìn hơn.
Biểu đồ phân bố tần số tai nạn theo loại đường cho thấy sự phân bố tần suất rõ ràng: Loại đường một chiều không phân cách chiếm tỷ lệ áp đảo (Khoảng 74.8%). Suy ra hầu hết các vụ tai nạn ở UK xảy ra trên các tuyến đường đơn mà không có dải phân cách giữa, đây là loại đường phổ biến nhất ở các khu vực nông thôn và ven đô thị.

Phân tích biến

Phân tích số người thương vong ở khu vực đô thị và nông thôn

tbl_casualties_by_area <- d %>%
mutate(Area_Label = factor(Urban_or_Rural_Area, levels = c(1, 2), labels = c("Khu vực đô thị", "Khu vực nông thôn"))) %>%
group_by(Area_Label) %>%
  summarise(Total_Accidents = n(),TB_Thuong_Vong = mean(Number_of_Casualties, na.rm = TRUE), .groups = "drop")
tbl_casualties_by_area %>%
  DT::datatable(options = list(dom = 't'), caption = "Số Người Thương Vong Trung Bình Theo Khu Vực", colnames = c("Khu vực", "Tổng số Vụ", "Trung bình số người thương vong/Vụ")) %>%
  formatRound(columns = c("TB_Thuong_Vong"), digits = 3)

Lệnh này nhóm dữ liệu theo khu vực sau khi gán nhãn, sau đó tính toán tổng số vụ tai nạn và số người thương vong trung bình/vụ cho từng nhóm.
Qua các chỉ số của bảng trên, kết luận được rằng mặc dù ở đô thị xảy ra nhiều tai nạn hơn nông thôn, nhưng tỷ lệ số người thương vong trên mỗi vụ tai nạn ở nông thôn cao hơn. Điều này thường liên quan đến tốc độ giới hạn cao hơn, lực va chạm lớn hơn và khoảng cách xa hơn đến các dịch vụ y tế.

df_violin <- d %>%
  filter(Number_of_Casualties <= 5) %>% 
  mutate(Area_Label = factor(Urban_or_Rural_Area, levels = c(1, 2), labels = c("Khu vực đô thị", "Khu vực nông thôn")))
ggplot(df_violin, aes(x = Area_Label, y = Number_of_Casualties, fill = Area_Label)) +
  geom_violin(alpha = 0.8, trim = FALSE) +
  stat_summary(fun = mean, geom = "point", shape = 18, size = 5, color = "black") +
  labs(title = "Phân bố số người thương vong/vụ theo khu vực",subtitle = "Điểm kim cương thể hiện giá trị trung bình",x = "Khu Vực",y = "Số người thương vong/vụ") +
  scale_fill_manual(values = c("Khu vực đô thị" = "#43a2ca", "Khu vực nông thôn" = "#ef6548")) +
  theme_bw(base_size = 14, base_family = "Times New Roman") +
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5), plot.subtitle = element_text(hjust = 0.5))

Biểu đồ violin plot thể hiện sự phân bố số người thương vong/vụ theo hai khu vực đô thị và nông thôn. Ở cả hai khu vực (Đô thị và Nông thôn), phần rộng nhất của cây đàn violin đều tập trung mạnh mẽ tại giá trị 1 người thương vong. Điều này khẳng định kết quả đã thấy trong bảng thống kê: Tai nạn phổ biến nhất ở cả hai nơi chỉ gây ra 1 người thương vong.
Đồ thị cũng trực quan hóa bằng chứng rằng giá trị trung bình của thương vong cao hơn ở nông thôn qua điểm kim cương ở khu vực nông thôn cao hơn đô thị.
Qua đồ thị cũng thấy được hình dạng của violin ở khu vực nông thôn có xu hướng rộng hơn (mật độ dày đặc hơn) ở các mức 2, 3, và 4 người thương vong so với khu vực đô thị.

Phân tích số người thương vong vào các ngày trong tuần

tbl_casualties_day <- d %>%
  mutate( Day_Label = factor(Day_of_Week, levels = 1:7, labels = c("Chủ Nhật", "Thứ Hai", "Thứ Ba", "Thứ Tư", "Thứ Năm", "Thứ Sáu", "Thứ Bảy"))) %>%
  group_by(Day_Label) %>%
  summarise(
    Tong_So_Vu = n(),TB_Thuong_Vong = mean(Number_of_Casualties, na.rm = TRUE),.groups = "drop")
tbl_casualties_day %>%
  DT::datatable( options = list(dom = 't', order = list(list(0, 'asc'))), caption = "Trung Bình Số Người Thương Vong/Vụ Theo Ngày Trong Tuần", colnames = c("Ngày", "Tổng số Vụ", "TB Thương vong/Vụ")) %>%
  formatRound(columns = c("TB_Thuong_Vong"), digits = 2)

Lệnh trên nhóm dữ liệu theo ngày trong tuần và tính toán tổng số vụ tai nạn cùng với trung bình số người thương vong/vụ cho từng ngày.
Phân tích này cho thấy mối quan hệ nghịch đảo giữa tần suất và mức độ nghiêm trọng: Các ngày có tần suất tai nạn cao nhất (Thứ Sáu) có mức độ nghiêm trọng trung bình thấp hơn (1.34), trong khi các ngày có tần suất thấp nhất (Chủ Nhật) lại có mức độ nghiêm trọng trung bình cao nhất (1.46). Điều này có thể do vào cuối tuần (CN, T7), lưu lượng giao thông nói chung giảm, nhưng tốc độ trung bình của phương tiện lại cao hơn (ít tắc đường hơn), dẫn đến hậu quả của mỗi vụ va chạm trở nên nặng nề hơn.

ggplot(tbl_casualties_day, aes(x = Day_Label, y = TB_Thuong_Vong, group = 1)) +
  geom_line(color = "#e34a33", linewidth = 1.2) +
  geom_point(color = "green", size = 4) +
  geom_text(aes(label = round(TB_Thuong_Vong, 3)), vjust = -1.2, size = 4) +
  labs(title = "Số người thương vong /vụ theo các ngày",x = "Thứ trong Tuần",y = "TB Số Người Thương Vong/Vụ") +
  scale_y_continuous(labels = scales::number_format(accuracy = 0.01)) +
  theme_bw(base_size = 14, base_family ="Times New Roman") + 
  theme(plot.title = element_text(face = "bold", hjust = 0.5))

Biểu đồ đường này trực quan hóa sự thay đổi của mức độ nghiêm trọng trung bình (TB số người thương vong/vụ) theo ngày. Biểu đồ hiển thị rõ ràng một mô hình hình chữ U. Mô hình này trực tiếp xác nhận mối quan hệ nghịch đảo đã thấy trong bảng: mức độ nghiêm trọng giảm xuống mức thấp nhất vào giữa tuần (Thứ Ba, Thứ Tư), nơi tần suất tai nạn cao nhất, và sau đó tăng vọt trở lại vào cuối tuần.

Phân tích biến bằng cách trực quan hoá

Phân tích số người thương vong/vụ theo ngày trong tuần và khu vực

df_plot_day_casualties <- d %>%
  mutate(Day_Label = factor(Day_of_Week,  levels = 1:7, labels = c("CN", "T2", "T3", "T4", "T5", "T6", "T7")), Area_Label = factor(Urban_or_Rural_Area, levels = c(1, 2), labels = c("1. Đô thị", "2. Nông thôn"))) %>%
  group_by(Day_Label, Area_Label) %>%
 summarise( TB_Thuong_Vong = mean(Number_of_Casualties, na.rm = TRUE),.groups = "drop")
ggplot(df_plot_day_casualties, aes(x = Day_Label, y = TB_Thuong_Vong, fill = Area_Label)) +
  geom_bar(stat = "identity", position = "dodge", alpha = 0.8) +
  labs(title = "So sánh số người thương vong/ vụ theo khu vực",  x = "Thứ trong Tuần", y = "Số người thương vong/ vụ", fill = "Khu vực") +
scale_y_continuous(labels = scales::comma) +
  scale_fill_manual(values = c("1. Đô thị" = "#1b9e77", "2. Nông thôn" = "#d95f02")) +
  theme_bw(base_size = 14, base_family = "Times New Roman") +
theme(legend.position = "bottom", plot.title = element_text(face = "bold", hjust = 0.5))

Rủi ro thương vong của các vụ tai nạn ở nông thôn luôn cao hơn ở đô thị: Ở tất cả 7 ngày trong tuần, cột màu cam (Nông thôn) luôn cao hơn cột màu xanh lá (Đô thị).
Đỉnh cao nhất (Chủ Nhật): Mức thương vong trung bình đạt đỉnh cao nhất vào chủ nhật ở cả hai khu vực.
Điểm thấp (Giữa tuần): Mức thương vong trung bình thấp nhất rơi vào các ngày giữa tuần (thứ ba, thứ tư và thứ năm).
Biểu đồ chứng minh rằng mức độ nghiêm trọng của hậu quả tai nạn bị chi phối bởi hai yếu tố: khu vực và thời điểm.

Phân tích phân bố người thương vong theo tình trạng mặt đường

df_facet_casualties <- d %>%
  filter(Number_of_Casualties <= 5) %>% 
  mutate( Surface_Label = factor(Road_Surface_Conditions, levels = c(1, 2, 3, 4, 5), labels = c("1. Khô ráo", "2. Ướt/Ẩm", "3. Tuyết", "4. Băng/Sương", "5. Ngập lụt"))) %>%
  drop_na(Surface_Label)
ggplot(df_facet_casualties, aes(x = Surface_Label, y = Number_of_Casualties)) +
  geom_boxplot(fill = "lightblue", alpha = 0.7, outlier.shape = NA) + stat_summary(fun = mean, geom = "point", shape = 18, size = 4, color = "red") + labs(title = "Phân bố số thương vong theo tình trạng mặt đường", x = "Tình trạng Mặt đường", y = "Số Người Thương Vong/Vụ") +
   facet_wrap(~ Surface_Label, scales = "free_x", nrow = 2) +
  theme_bw(base_size = 14, base_family = "Times New Roman") +
  theme(axis.text.x = element_blank(), axis.ticks.x = element_blank(), plot.title = element_text(hjust = 0.5, face = "bold"))

Dùng facet_wrap(~ Surface_Label) để chia biểu đồ thành nhiều ô, mỗi ô thể hiện một tình trạng mặt đường.
Phân tích cho thấy các điều kiện trơn trượt làm tăng nguy cơ tai nạn có nhiều thương vong hơn:
- Mặt đường Khô : Hộp (Box) nằm sát giá trị 1 và đường Trung vị (Median) bằng 1 người thương vong. Điều này xác nhận rằng các vụ tai nạn phổ biến nhất xảy ra trên mặt đường khôđa số chỉ gây ra một nạn nhân duy nhất.
- Mặt đường Ướt/Ẩm , Tuyết, và Ngập lụt: Ở tất cả các điều kiện này, đường Trung vị (Median) của hộp đã dịch chuyển lên 2 (2 người thương vong). Sự thay đổi này là bằng chứng rõ ràng cho thấy khi mặt đường không lý tưởng, nguy cơ một vụ tai nạn có từ hai người thương vong trở lên tăng lên đáng kể. Điều kiện trơn trượt làm giảm khả năng kiểm soát phương tiện, dẫn đến va chạm mạnh hơn và hậu quả nặng nề hơn.
- Băng/Sương giá : Mặc dù cực kỳ nguy hiểm, hộp Boxplot lại nằm sát giá trị 1. Điều này có thể do tần suất xảy ra quá ít và người dân lái xe cực kỳ chậm và cẩn thận trong điều kiện này, giảm thiểu mức độ nghiêm trọng của hậu quả.
Biểu đồ này chứng minh rằng tình trạng mặt đường là một yếu tố môi trường then chốt làm gia tăng mức độ nghiêm trọng (số người thương vong) của một vụ tai nạn.

Phân tích tỷ lệ mức độ nghiêm trọng theo điều kiện ánh sáng

tbl_light <- d %>%
  group_by(Light_Conditions, Accident_Severity) %>%
  summarise(So_TaiNan = n(), .groups = "drop") %>%
  group_by(Light_Conditions) %>%
  mutate(TyLe = So_TaiNan / sum(So_TaiNan) * 100) %>%
  ungroup()
df_plot_2 <- tbl_light %>%
  filter(Light_Conditions >= 1 & Light_Conditions <= 7) %>% 
  mutate(Light_Label = factor(Light_Conditions, levels = c(1, 4, 5, 6, 7), labels = c("Daylight", "Darkness - Lights", "Darkness - No Lights", "Darkness - Street Lights Unknown", "Darkness - Lights Out")), Severity = factor(Accident_Severity, levels = c(1, 2, 3), labels = c("Tử vong", "Nghiêm trọng", "Nhẹ"), ordered = TRUE))
    ggplot(df_plot_2, aes(x = Light_Label, y = TyLe, fill = Severity)) +
  geom_bar(stat = "identity", position = "stack") +
  scale_fill_brewer(palette = "Reds", direction = -1) +
  scale_y_continuous(labels = percent_format(scale = 1)) +
  labs(title = "Tỷ Lệ Mức Độ Nghiêm Trọng Theo Điều Kiện Ánh Sáng", x = "Điều Kiện Ánh Sáng", y = "Tỷ Lệ Phần Trăm (%)", fill = "Mức Độ Nghiêm Trọng") +
  theme_minimal(base_size = 12, base_family = "Times New Roman") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1), legend.position = "bottom")

Biểu đồ này so sánh tỷ lệ mức độ nghiêm trọng của tai nạn giao thông theo Điều kiện Ánh sáng.
Phổ biến (màu đỏ đậm): Tai nạn Nhẹ chiếm tỷ lệ áp đảo (trên 75%) trong mọi điều kiện ánh sáng, kể cả ban ngày.
Rủi ro tối (Màu đỏ nhạt & hồng): Tỷ lệ tai nạn nghiêm trọng và tử vong (màu nhạt hơn) tăng lên đáng kể trong các điều kiện bóng tối.
Điểm rủi ro cao nhất: Các cột “Darkness - No Lights” (Tối - Không đèn đường) và “Darkness - Street Lights Unknown” cho thấy tỷ lệ nghiêm trọng/tử vong là cao nhất so với ban ngày (“Daylight”).
Kết luận: Biểu đồ chứng minh rằng, dù tai nạn nhẹ chiếm đa số, lái xe trong bóng tối làm tăng đáng kể khả năng xảy ra hậu quả nghiêm trọng hơn cho mỗi vụ tai nạn.

Phân tích xu hướng số vụ tai nạn hằng năm

df_annual_trend <- d %>%
  mutate(Year = year(Date)) %>% 
  group_by(Year) %>%
  summarise(So_Vu_Tai_Nan = n(), .groups = "drop") 
ggplot(df_annual_trend, aes(x = Year, y = So_Vu_Tai_Nan)) +
  geom_line(color = "purple", linewidth = 1.2) +
  geom_point(color = "red", size = 3) +
  scale_y_continuous(labels = scales::comma) +
  scale_x_continuous(breaks = unique(df_annual_trend$Year)) +
  labs( title = " Tổng Số Vụ Tai Nạn Giao Thông Hàng Năm", x = "Năm", y = "Tổng Số Vụ Tai Nạn") +
  theme_minimal(base_size = 14, base_family = "Times New Roman") +
  theme(plot.title = element_text(face = "bold", hjust = 0.5),
        axis.text.x = element_text(angle = 45, hjust = 1))

Để tạo biểu đồ trên, đầu tiên tác giả tiến hành tạo biến thời gian: Trích xuất năm từ cột Date để tạo biến phân tích chuỗi thời gian. Sau đó tiến hành tính tần số từng năm và vẽ biểu đồ.
Biểu đồ này là bằng chứng mạnh mẽ về sự cải thiện an toàn giao thông tại Vương quốc Anh trong giai đoạn 2005–2015.
Xu Hướng Chính: giảm dần rõ rệt. Vào năm khởi điểm (2005): Số vụ tai nạn đạt đỉnh cao nhất, hơn 180000 vụ.Năm kết thúc (2015): Số vụ tai nạn giảm xuống mức thấp nhất trong giai đoạn, xấp xỉ 130000 vụ.Kết luận: Biểu đồ thể hiện một xu hướng giảm rõ rệt và nhất quán về tần suất tai nạn trong suốt giai đoạn 11 năm. Tổng số vụ tai nạn đã giảm khoảng 50000 vụ.
Ý nghĩa: Xu hướng giảm tổng thể này là bằng chứng cho thấy các chính sách an toàn giao thông, nâng cấp hạ tầng, và cải thiện công nghệ xe cộ đã có tác động tích cực trong việc giảm thiểu số lượng tai nạn xảy ra hàng năm.

Phân tích tỷ lệ nghiêm trọng dựa trên tốc độ giới hạn

df_sev_speed <- d %>% 
  filter(Speed_limit %in% c(20, 30, 40, 50, 60, 70)) %>% 
  group_by(Speed_limit, Accident_Severity) %>% 
  summarise(n = n(), .groups = 'drop_last') %>% 
  mutate( TyLe = n / sum(n), Severity_Label = factor(Accident_Severity, levels = c(3, 2, 1),  labels = c("1. Nhẹ", "2. Nghiêm trọng", "3. Tử vong"), ordered = TRUE)) %>%
  ungroup()
ggplot(df_sev_speed, aes(x = factor(Speed_limit), y = TyLe, fill = Severity_Label)) +
  geom_bar(stat = "identity", position = "fill", color = "black", linewidth = 0.3) +
  scale_fill_brewer(palette = "Blues", direction = -1) + 
  scale_y_continuous(labels = scales::percent) +
  labs( title = "Tỷ Lệ Nghiêm Trọng Theo Giới Hạn Tốc Độ",x = "Tốc độ (mph)", y = "Tỷ lệ", fill = "Mức độ Nghiêm trọng") + 
  theme_minimal(base_size = 14, base_family = "Times New Roman") + 
  theme(legend.position = "bottom", plot.title = element_text(face = "bold", hjust = 0.5))

Biểu đồ thanh chồng này cho thấy, trong tổng số tai nạn xảy ra ở mỗi giới hạn tốc độ (mỗi thanh là 100%), tỷ lệ các cấp độ nghiêm trọng được phân bổ như thế nào.
Ở tất cả các giới hạn tốc độ (từ 20 mph đến 70 mph), tai nạn ở mức độ Nhẹ (màu đậm nhất) luôn chiếm tỷ lệ áp đảo (xấp xỉ $80\%$ trở lên). Điều này nhất quán với thống kê tổng thể rằng hầu hết các vụ tai nạn đều không gây hậu quả nặng.
Khi giới hạn tốc độ tăng lên, tỷ lệ phần trăm các vụ tai nạn gây hậu quả nghiêm trọng và tử vong trong tổng số vụ tai nạn tại tốc độ đó cũng tăng lên rõ rệt.
Kiến nghị: Để giảm thiểu hậu quả nặng nề, các biện pháp kiểm soát và giám sát tốc độ (đặc biệt là ở 60 mph và 70 mph) là cần thiết, vì mỗi vụ va chạm ở tốc độ cao có nguy cơ gây hậu quả nghiêm trọng hơn so với ở tốc độ thấp.

Phân tích tỷ lệ nghiêm trọng theo loại đường

df_sev_road <- d %>% 
filter(Road_Type %in% c(1, 2, 3, 6, 7)) %>%
  group_by(Road_Type, Accident_Severity) %>% 
  summarise(n = n(), .groups = 'drop_last') %>% 
  mutate( TyLe = n / sum(n), Road_Type_Label = factor(Road_Type, levels = c(1, 2, 3, 6, 7), labels = c("1. Bùng binh", "2. Một chiều", "3. Hai chiều", "4. Đơn", "5.  Đường nối/nhánh")), Severity_Label = factor(Accident_Severity, levels = c(3, 2, 1),  labels = c("Nhẹ", "Nghiêm trọng", "Tử vong"), ordered = TRUE)) %>%
  ungroup()
ggplot(df_sev_road, aes(x = Road_Type_Label, y = TyLe, fill = Severity_Label)) +
 geom_bar(stat = "identity", position = "fill", color = "black", linewidth = 0.3) +
 scale_fill_brewer(palette = "Greens", direction = -1) + 
 scale_y_continuous(labels = scales::percent) +
 labs(title = "Tỷ Lệ Nghiêm Trọng Theo Loại Đường", x = "Loại Đường", y = "Tỷ lệ Phần trăm",fill = "Mức độ Nghiêm trọng") + 
  theme_bw(base_size = 14, base_family = "Times New Roman") + 
  theme(legend.position = "bottom", 
        plot.title = element_text(face = "bold", hjust = 0.5))

Biểu đồ Thanh Chồng này cho thấy, trong tổng số tai nạn xảy ra trên mỗi loại đường (mỗi thanh là 100%), tỷ lệ các mức độ nghiêm trọng được phân bổ như thế nào.
Không có sự khác biệt lớn về tỷ lệ giữa các loại đường. Ở tất cả 5 loại đường (Bùng binh, Một chiều, Hai chiều, Đơn, Nhánh), tai nạn ở mức độ Nhẹ (hai cấp độ màu xanh đậm nhất) chiếm tỷ lệ áp đảo. Điều này khẳng định rằng, giống như tốc độ, mức độ nghiêm trọng cơ bản của tai nạn ở mọi loại đường đều là Thấp.
Tai nạn trên Đường Hai Chiều có tần suất thấp hơn nhưng khả năng gây tử vong trên mỗi vụ lại cao hơn.
Điều này chứng tỏ tốc độ vận hành cao (60-70 mph) tại các tuyến đường này là yếu tố áp đảo, làm tăng năng lượng va chạm và hậu quả nặng nề của tai nạn.

Biểu Đồ Đường: Xu Hướng Nghiêm Trọng Theo Năm và Khu Vực

df_trend_risk <- d %>%
  mutate(Year = year(Date), Area_Label = factor(Urban_or_Rural_Area, levels = c(1, 2), labels = c("Đô thị", "Nông thôn")), Risk_Flag = if_else(Accident_Severity <= 2, 1, 0) ) %>%
  group_by(Year, Area_Label) %>%
  summarise(TyLe_Nghiem_Trong = sum(Risk_Flag) / n(),.groups = "drop")
ggplot(df_trend_risk, aes(x = Year, y = TyLe_Nghiem_Trong, group = Area_Label, color = Area_Label)) +
  geom_line(linewidth = 1.2) +
  geom_point(size = 3) +
  labs(title = "Xu Hướng Tỷ Lệ Tai Nạn Nghiêm Trọng Theo Năm và Khu Vực", subtitle = "So sánh thay đổi rủi ro hậu quả giữa Đô thị và Nông thôn (2005-2015)", x = "Năm", y = "Tỷ lệ Nghiêm trọng/Tử vong", color = "Khu vực") +
  scale_y_continuous(labels = scales::percent) +
  scale_x_continuous(breaks = unique(df_trend_risk$Year), labels = unique(df_trend_risk$Year)) +
  theme_bw(base_size = 12) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5), text = element_text(family = "Times New Roman"))

Phân tích xu hướng trong giai đoạn 2005-2015 cho thấy sự khác biệt rõ rệt về rủi ro tai nạn nghiêm trọng giữa hai khu vực. Khu vực Nông thôn có tỷ lệ tai nạn Nghiêm trọng/Tử vong cao hơn nhất quán (luôn trên 16%) so với Khu vực Đô thị (quanh 13%). Hơn nữa, tỷ lệ rủi ro ở nông thôn cho thấy xu hướng tăng nhẹ theo thời gian, trong khi tỷ lệ ở đô thị tương đối ổn định. Kết quả này củng cố nhận định rằng, mặc dù tai nạn có thể xảy ra ít hơn, các vụ việc ở nông thôn có khả năng dẫn đến hậu quả nghiêm trọng hơn nhiều so với ở đô thị.

Biểu Đồ Cột Phân Nhóm: Tần suất Theo Loại Đường và Ánh Sáng

df_road_light_freq_full <- d %>%
  filter(Light_Conditions %in% c(1, 4, 5, 6, 7) & Road_Type %in% c(1, 2, 3, 6, 7)) %>% 
  mutate(Light_Label = factor(Light_Conditions, levels = c(1, 4, 5, 6, 7), labels = c("1. Ban ngày", "2. Tối-Đèn bật", "3. Tối-Đèn tắt", "4. Tối-Không đèn", "5. Tối-Không rõ")), Road_Type_Label = factor(Road_Type, levels = c(1, 2, 3, 6, 7), labels = c("A. Bùng binh", "B. Một chiều", "C. Hai chiều", "D. Đơn", "E. Nhánh"))) %>%
  group_by(Road_Type_Label, Light_Label) %>%
  summarise(So_Vu = n(), .groups = "drop")
ggplot(df_road_light_freq_full, aes(x = Road_Type_Label, y = So_Vu, fill = Light_Label)) +
  geom_bar(stat = "identity", position = "stack", color = "black", linewidth = 0.3) +
  labs(title = "Tần Số Tai Nạn Theo Loại Đường và Điều Kiện Ánh Sáng", x = "Loại Đường", y = "Số Vụ Tai Nạn", fill = "Điều kiện Ánh sáng") +
  scale_y_continuous(labels = scales::comma) +
  scale_fill_brewer(palette = "Set1") +
  theme_bw(base_size = 8) +
  theme(legend.position = "bottom", plot.title = element_text(face = "bold", hjust = 0.5), text = element_text(family = "Times New Roman"))

Qua biểu đồ trên có thể thấy đường đơn là loại đường có tần số tai nạn cao nhất. Mặc dù phần lớn tai nạn xảy ra vào ban ngày trên mọi loại đường, Điều kiện Tối-Đèn bật lại đóng góp một tỷ lệ lớn đáng kể vào tổng số vụ trên Đường Đơn. Kết quả này nhấn mạnh rằng Đường Đơn không chỉ là điểm nóng về số lượng mà còn là nơi các yếu tố rủi ro liên quan đến ánh sáng kém có tác động mạnh mẽ nhất đến tần suất tai nạn.

Biểu Đồ Đường: So Sánh Tần Suất Giờ Cao Điểm (Tuần vs Cuối tuần)

df_hour_compare <- d %>%
  mutate(Day_Group = case_when(Day_of_Week %in% 2:6 ~ "Ngày Làm Việc (T2-T6)", Day_of_Week %in% c(1, 7) ~ "Cuối Tuần (CN, T7)", TRUE ~ "Khác"), Hour = lubridate::hour(Time)) %>%
  group_by(Day_Group, Hour) %>%
  summarise( So_Vu = n(),.groups = "drop")
ggplot(df_hour_compare, aes(x = Hour, y = So_Vu, group = Day_Group, color = Day_Group)) +
  geom_line(linewidth = 1.2) +
  geom_point(size = 3) +
  labs( title = "So sánh tần số tai nạn theo giờ: trong tuần >< cuối tuần", x = "Thời điểm", y = "Tổng Số Vụ Tai Nạn") +
  scale_y_continuous(labels = scales::comma) +
  scale_color_brewer(palette = "Dark2", name = "Nhóm Ngày") +
  theme_bw(base_size = 14) +
  theme(text = element_text(family = "Times New Roman"), legend.position = "bottom", plot.title = element_text(face = "bold", hjust = 0.5))

Qua biểu đồ có thể thấy ngày làm việc có tổng số vụ tai nạn cao hơn nhiều và thể hiện rõ mô hình giờ cao điểm đặc trưng với hai đỉnh nhọn vào 8 giờ sáng và 17 giờ chiều (đỉnh cao nhất). Ngược lại, cuối tuần có tần suất tai nạn thấp hơn đáng kể và duy trì mô hình tương đối đồng đều trong suốt giờ ban ngày. Điều này nhấn mạnh rằng lưu lượng giao thông thường xuyên và áp lực giờ cao điểm là yếu tố chi phối tần suất tai nạn.

So Sánh Rủi Ro: Trung Bình & Độ Bất Ổn Thương Vong

tbl_sd_road <- d %>% 
  filter(Road_Type %in% c(1, 2, 3, 6, 7)) %>% 
  mutate( Road_Type_Label = factor(Road_Type, levels = c(1, 2, 3, 6, 7), labels = c("1. Bùng binh", "2. Một chiều", "3. Hai chiều", "4. Đơn", "5. Nhánh"))) %>%
  group_by(Road_Type_Label) %>%
  summarise(TB = mean(Number_of_Casualties, na.rm = TRUE), SD = sd(Number_of_Casualties, na.rm = TRUE), .groups = "drop")
ggplot(tbl_sd_road, aes(x = Road_Type_Label, y = TB, color = Road_Type_Label)) +
  geom_errorbar(aes(ymin = TB - SD, ymax = TB + SD), width = 0.2, linewidth = 1) + 
  geom_point(size = 4) +
  labs(title = "So Sánh Rủi Ro: Trung Bình & Độ Bất Ổn Thương Vong",  x = "Loại Đường", y = "TB Thương vong/Vụ") +
  scale_color_brewer(palette = "Set1") + 
  theme_bw(base_size = 14) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5), text = element_text(family = "Times New Roman"), legend.position = "none", axis.text.x = element_text(angle = 15, hjust = 1))

Qua biểu đồ có thể thấy thấy đường hai chiều và đường nhánh có số người thương vong trung bình cao nhất trên mỗi vụ. Quan trọng hơn, Đường Hai Chiều cũng thể hiện độ bất ổn cao nhất (độ lệch chuẩn lớn nhất) về số người thương vong, chỉ ra sự biến thiên và rủi ro hậu quả lớn giữa các vụ tai nạn. Ngược lại, Đường Một Chiều có cả trung bình thương vong và độ biến động thấp nhất.

Phân Bố Số Vụ Tai Nạn Theo Khung Giờ và Ngày Trong Tuần

library(viridis) 
heat_tbl <- d %>%
  mutate(Hour = lubridate::hour(Time)) %>% 
 group_by(Hour, Day_of_Week_f) %>%
  summarise(Freq = n(), .groups = "drop")
ggplot(heat_tbl, aes(x = Hour, y = Day_of_Week_f, fill = Freq)) +
  geom_tile(color = "white", linewidth = 0.5) +
  scale_fill_viridis_c(option = "C", direction = -1) + 
  labs(title = "Phân Bố Số Vụ Tai Nạn Theo Khung Giờ và Ngày Trong Tuần", x = "Thời điểm", y = "Ngày trong tuần", fill = "Số vụ") +
  scale_x_continuous(breaks = seq(0, 23, by = 3)) + 
  theme_minimal(base_size = 14) +
  theme(text = element_text(family = "Times New Roman"), plot.title = element_text(face = "bold", hjust = 0.5))

- Biểu đồ có hai đỉnh rõ rệt: - Một đỉnh vào buổi sáng (khoảng 8–9h), thể hiện cao điểm đầu ngày (giờ đi làm/đi học). - Một đỉnh thứ hai vào tầm 16–17h, trùng giờ tan tầm buổi chiều—khoảng thời gian giao thông đông đúc nhất trong ngày. - Thứ Sáu có cả hai đỉnh mạnh nhất: Số vụ tai nạn vào hai khung giờ này (đặc biệt buổi chiều) vượt trội so với các ngày khác, phản ánh nguy cơ vào cuối tuần làm việc tăng cao. - Chủ Nhật rõ ràng thấp hơn tất cả các ngày còn lại, phù hợp với tình trạng giao thông thực tế khi lưu lượng phương tiện thấp. - Ngoài hai đỉnh lớn, phần còn lại tương đối loãng, không có cụm màu nổi bật—cho thấy giờ khuya và rạng sáng ít tai nạn. - Ý nghĩa: Biểu đồ này phản ánh trực quan quy luật “tai nạn giao thông chủ yếu xuất hiện vào các khung giờ cao điểm trong ngày đi làm/đi học và tan tầm”, đặc biệt vào giữa và cuối tuần làm việc. Chủ Nhật là ngày an toàn nhất nếu xét theo tần suất vụ việc.

Biểu đồ Phân Bố Mật Độ Tai Nạn Trên Bản Đồ UK

ggplot(d, aes(x = Longitude, y = Latitude)) +
  geom_point(alpha = 0.05, size = 0.1, color = "#d95f02") +
  stat_density_2d(aes(color = after_stat(level)), bins = 10) +
  labs(title = "Phân bố mật độ tai nạn trên tản đồ UK", x = "Kinh độ (Longitude)", y = "Vĩ độ (Latitude)") +
  coord_fixed(ratio = 1.2) + 
  scale_color_viridis_c(option = "plasma") + 
  theme_minimal(base_size = 14) +
  theme(legend.position = "none", plot.title = element_text(hjust = 0.5, face = "bold"))

Biểu đồ thể hiện phânboos mật độ tai nạn tại Vương quốc Anh, điểm nóng tần suất tai nạn lớn nhất và nổi bật nhất nằm ở khu vực Đông Nam nước Anh, tương ứng với vùng đô thị London và các khu vực lân cận. Sự phân bố này củng cố giả thuyết rằng các khu vực có mật độ dân số và hoạt động kinh tế cao có rủi ro tai nạn cao nhất.

Phân bố thương vong theo tốc độ giới hạn - phân đoạn theo tháng

df_facet_speed_month <- d %>%
  filter(Number_of_Casualties <= 5) %>% # Lọc ngoại lai cố định
  filter(Speed_limit %in% c(30, 40, 50, 60, 70)) %>% # Chọn các tốc độ chính
  mutate(Month_Factor = factor(lubridate::month(Date), levels = 1:12, labels = c("T1", "T2", "T3", "T4", "T5", "T6", "T7", "T8", "T9", "T10", "T11", "T12")), Speed_Factor = factor(Speed_limit, ordered = TRUE))
ggplot(df_facet_speed_month, aes(x = Speed_Factor, y = Number_of_Casualties, fill = Speed_Factor)) +
  geom_boxplot(alpha = 0.7, outlier.shape = NA) +
  stat_summary(fun = mean, geom = "point", shape = 23, size = 2, fill = "white") + 
  labs(title = "Phân bố thương vong theo tốc độ - phân đoạn theo tháng", subtitle = "So sánh mức độ nghiêm trọng hậu quả thay đổi theo từng tháng", x = "Giới hạn Tốc độ (mph)", y = "Số Người Thương Vong/Vụ") +
  facet_wrap(~ Month_Factor, ncol = 4) +
  theme_bw(base_size = 12) +
  theme(text = element_text(family = "Times New Roman"), legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5), axis.text.x = element_text(angle = 45, hjust = 1), plot.subtitle = element_text(hjust = 0.5))

Phân tích phân đoạn bằng biểu đồ hộp cho thấy phân phối số người thương vong/vụ là cực kỳ đồng nhất qua 12 tháng trong năm, với giá trị trung vị luôn bằng 1 tại mọi giới hạn tốc độ. Trong khi đó, giá trị trung bình (được biểu thị bằng kim cương) của thương vong/vụ cho thấy một xu hướng tăng nhẹ khi giới hạn tốc độ tăng, từ 30 mph đến 70 mph, nhưng sự khác biệt này không bị ảnh hưởng đáng kể bởi yếu tố thời gian là tháng.

Vị trí 5000 vụ tai nạn nghiêm trọng

if(!requireNamespace("leaflet", quietly = TRUE)) install.packages("leaflet")
library(leaflet)

# 1. CHUẨN BỊ DỮ LIỆU: Chỉ lấy mẫu 5,000 vụ Nghiêm trọng/Tử vong (Severity <= 2)
# Lọc max 5000 vụ để bản đồ load nhanh trên RPubs
df_leaflet_sample <- d %>% 
  filter(Accident_Severity <= 2) %>%
  sample_n(5000) 

# 2. VẼ BẢN ĐỒ TƯƠNG TÁC
leaflet(df_leaflet_sample) %>%
  # LAYER 1: Thêm nền bản đồ (Tiles)
  addTiles() %>% 
  
  # LAYER 2: Thêm một nền bản đồ khác cho bối cảnh
  addProviderTiles(providers$CartoDB.Positron, group = "Môi trường") %>%
  
  # LAYER 3: Thêm các Điểm đánh dấu (Markers)
  addCircles(
    ~Longitude, 
    ~Latitude, 
    radius = 10,  # Kích thước điểm
    weight = 1, 
    color = "red", 
    fillOpacity = 0.5,
    popup = ~paste("Severity:", Accident_Severity) # Hiển thị severity khi click
  ) %>%
  
  # LAYER 4: Thêm Điều khiển Zoom
  setView(lng = median(d$Longitude), lat = median(d$Latitude), zoom = 6) %>%
  
  # LAYER 5: Thêm tiêu đề
  addControl("Vị trí 5000 vụ tai nạn Nghiêm trọng/Tử vong", position = "topright")

Bộ dữ liệu Báo Cáo Tài Chính 2015 - 2024 của CTCP Dược Hậu Giang

Tổng quan nghiên cứu

Bối cảnh nghiên cứu

DHG Pharma là một trong những doanh nghiệp dược phẩm lớn nhất Việt Nam, niêm yết trên sàn HOSE, đóng vai trò chủ lực trong ngành chăm sóc sức khỏe. Thập kỷ vừa qua, ngành dược nói chung và DHG nói riêng phải đối mặt với biến động lớn: hội nhập, cạnh tranh với khối FDI, định hướng chính sách mới và đặc biệt là các cú sốc do dịch Covid-19 ảnh hưởng đến đầu vào sản xuất, phân phối và tiêu thụ.

Nguồn gốc, phạm vi và đặc điểm bộ dữ liệu

Bộ dữ liệu thu thập từ báo cáo tài chính kiểm toán công khai hàng năm của CTCP Dược Hậu Giang giai đoạn 2015-2024. Dữ liệu bao gồm các chỉ số tài sản, doanh thu, chi phí, lợi nhuận, dòng tiền và một số chỉ tiêu phân tích hiệu quả hoạt động tài chính, được chuẩn hóa phục vụ mục đích nghiên cứu học thuật và ứng dụng. Mỗi năm tương ứng với một quan sát, giúp theo dõi sự thay đổi chuỗi thời gian.

Cơ sở lý thuyết và tổng quan nghiên cứu

Các lý thuyết quản trị tài chính doanh nghiệp, phân tích hiệu quả hoạt động, quản trị rủi ro tài chính (theo thông lệ quốc tế và chuẩn Việt Nam) là nền tảng cho các thao tác thống kê, phân tích chỉ số và so sánh với ngành cũng như đánh giá hiệu ứng các biến động kinh tế vĩ mô.

Mục tiêu nghiên cứu

Đánh giá diễn biến tài chính, hiệu quả kinh doanh và khả năng thích nghi với biến động môi - trường của DHG trong 10 năm.
Tìm hiểu động lực tăng trưởng lợi nhuận, hiệu quả quản lý chi phí, sức khỏe tài chính và độ ổn định tài sản.
Xác định các giai đoạn đặc biệt (trước, trong và sau Covid-19), so sánh với các cột mốc chính sách ngành dược.

Phương pháp nghiên cứu

Kết hợp mô tả thống kê, phân tích xu hướng chuỗi thời gian, so sánh đa chiều, phân tầng dữ liệu và trực quan hóa tài chính (bar, line, area, facet, boxplot…). Dữ liệu được xử lý với R/RStudio đảm bảo khách quan, minh bạch, dễ kiểm chứng.

Ý nghĩa của nghiên cứu

Nghiên cứu mang ý nghĩa thực tiễn và học thuật: cung cấp bức tranh tài chính toàn diện, nhận diện thành công, bất cập của một doanh nghiệp đầu ngành dược, kiến nghị về quản trị bền vững và kiểm soát rủi ro tài chính trong bối cảnh cạnh tranh, cũng như đề xuất giải pháp cho kỳ phục hồi sau dịch để hỗ trợ phát triển dài hạn.

Thông tin về bộ dữ liệu Báo cáo tài chính 2015 - 2024 của CTCP Dược Hậu Giang

Bộ dữ liệu được sử dụng trong phân tích bao gồm số liệu báo cáo tài chính của Công ty Cổ phần Dược Hậu Giang (DHG) trong giai đoạn 2015 đến 2024. Các số liệu này phản ánh kết quả hoạt động kinh doanh, tình hình tài sản, lợi nhuận và các chỉ tiêu tài chính chủ chốt qua từng năm.
Dữ liệu được thu thập trực tiếp từ các báo cáo tài chính kiểm toán, giúp đảm bảo tính chính xác và minh bạch. Mỗi năm tài chính là một quan sát với đầy đủ các chỉ số tài chính quan trọng, phục vụ cho việc đánh giá hiệu quả hoạt động, kiểm tra xu hướng và so sánh sự phát triển của công ty trong suốt một thập kỷ.

Giới thiệu bộ dữ liệu

Đọc dữ liệu

library(readxl) 
data <- read_excel("/Users/kieukimkhanh/Downloads/dataBCTC.xlsx")

Kết quả: Toàn bộ dữ liệu Báo cáo tài chính 2015 - 2024 của CTCP Dược Hậu Giang được nạp vào R.

Số biến của dữ liệu

ncol(data)

## [1] 131

Lệnh ncol(data) trả về số lượng biến (số cột) của data frame.
Bộ dữ liệu này có 131 biến ( gồm cột Time và các chỉ tiêu tài chính).

Số quan sát của dữ liệu

nrow(data)

## [1] 10

Lệnh nrow(data) trả về số lượng dòng( số quan sát) của data frame.
Bộ dữ liệu này có 10 quan sát (năm).

Năm quan sát đầu tiên của bộ dữ liệu

df_head <- data %>% head(5) %>%
  select(everything()) %>% as.data.frame()
datatable(df_head,options = list(dom = 't', paging = FALSE, scrollX = TRUE,ordering = FALSE ))

Đoạn code tạo ra một bảng dữ liệu tạm thời df_head bằng cách lấy 5 dòng đầu của dữ liệu đã nạp (data) và đảm bảo nó ở dạng dữ liệu khung dữ liệu chuẩn. Hàm head(5) là hàm cơ bản trong R để xem nhanh phần đầu của một đối tượng (vector, matrix, data frame). Sau đó, select(everything()) và as.data.frame() đảm bảo toàn bộ cột được giữ nguyên và kết quả ở dạng data frame chuẩn để hiển thị. Cuối cùng, datatable với tùy chọn dom = ‘t’, paging = FALSE, scrollX = TRUE và ordering = FALSE cho phép xem bảng 5 hàng đầu một cách nhanh chóng, có thể cuộn ngang nếu bảng quá rộng và không cho phép sắp xếp hay phân trang. Các bước này là cách thuận tiện để xác định nhanh phạm vi dữ liệu và cấu trúc bảng trước khi phân tích sâu.

Xác định khoảng thời gian quan sát của dữ liệu

unique(data$Time)

##  [1] 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024

Câu lệnh unique(data$Time) cho thấy Time là một biến năm và có 10 giá trị duy nhất: 2015–2024.

Phân loại dữ liệu

str(data)

## tibble [10 × 131] (S3: tbl_df/tbl/data.frame)
##  $ Time                 : num [1:10] 2015 2016 2017 2018 2019 ...
##  $ TSNH100              : chr [1:10] "2.221.373.030.144" "2.747.174.092.202" "2.939.184.938.924" "3.147.636.450.849" ...
##  $ TVCKTĐT110           : chr [1:10] "420.712.811.918" "603.188.961.343" "549.777.216.585" "75.835.597.431" ...
##  $ TVCKTĐT111           : chr [1:10] "89.510.544.052" "270.265.069.467" "88.442.815.647" "75.330.296.062" ...
##  $ CKTĐT112             : chr [1:10] "331.202.267.866" "332.923.891.876" "461.334.400.938" "505.301.369" ...
##  $ CKĐTTCNH120          : chr [1:10] "507.605.100.000" "703.731.000.000" "930.615.143.091" "1.459.722.000.000" ...
##  $ ĐTNGĐNĐH123          : chr [1:10] "507.605.100.000" "703.731.000.000" "930.615.143.091" "1.459.722.000.000" ...
##  $ CKPTNH130            : chr [1:10] "644.064.122.343" "692.280.925.032" "799.556.214.859" "669.787.225.237" ...
##  $ PTNHCKH131           : chr [1:10] "570.830.701.600" "622.748.103.096" "739.281.053.856" "618.503.855.955" ...
##  $ TTCNBNH132           : chr [1:10] "23.308.107.672" "23.277.764.848" "21.016.649.661" "26.841.394.656" ...
##  $ PTVCVNH135           : chr [1:10] "37.688.828.113" "34.213.970.916" "16.239.970.057" "3.395.400.976" ...
##  $ PTNHK136             : chr [1:10] "23.223.854.477" "25.533.168.273" "44.731.373.224" "55.618.287.897" ...
##  $ DPPTNHKĐ137          : chr [1:10] "(10.987.369.519)" "(13.492.082.101)" "(21.712.831.939)" "(34.571.714.247)" ...
##  $ HTK140               : chr [1:10] "639.320.555.977" "732.860.670.514" "633.807.876.593" "891.486.976.436" ...
##  $ HTK141               : chr [1:10] "642.331.928.161" "734.557.083.279" "636.264.032.772" "892.301.302.668" ...
##  $ DPGGHTK149           : chr [1:10] "(3.011.372.184)" "(1.696.412.765)" "(2.456.156.179)" "(814.326.232)" ...
##  $ TSNHK150             : chr [1:10] "9.670.439.906" "15.112.535.313" "25.428.487.796" "50.804.651.745" ...
##  $ CPTTNH151            : chr [1:10] "3.968455.036" "4.212.568.934" "9.715.813.993" "3.452.228.975" ...
##  $ TGĐKT152             : chr [1:10] "4.327.687.627" "699.572.826" "7.972.889.195" "32.191.908.956" ...
##  $ TVCKKPTNN153         : chr [1:10] "1.374.297.243" "10.200.393.553" "7.739.784.608" "15.160.513.814" ...
##  $ TSNHK155             : num [1:10] 0 NA NA NA NA NA NA NA NA NA
##  $ TSDH200              : chr [1:10] "1.141.825.629.796" "1.198.569.602.879" "1.148.295.051.933" "1.058.328.035.945" ...
##  $ CKPTDH210            : chr [1:10] "0" "5.099.472.109" "3.509.997.935" "1.560.000.000" ...
##  $ PTVCVDH215           : chr [1:10] NA "5.099.472.109" "3.449.997.935" "1.330.000.000" ...
##  $ PTDHK216             : chr [1:10] "0" NA "60.000.000" "230.000.000" ...
##  $ TSCĐ220              : chr [1:10] "1.067.774.140.547" "1.103.242.478.314" "1.026.999.503.625" "976.618.370.054" ...
##  $ TSCĐHH221            : chr [1:10] "811.356.338.576" "841.277.798.603" "785.209.377.724" "741.098.658.417" ...
##  $ NG222                : chr [1:10] "1.252.111.595.162" "1.356.622.733.187" "1.377.975.628.774" "1.347.704.245.077" ...
##  $ GTHMLK223            : chr [1:10] "(440.755.256.586)" "(515.344.934.584)" "(592.766.251.050)" "(606.605.586.660)" ...
##  $ TSCĐVH227            : chr [1:10] "256.417.801.971" "261.964.679.711" "241.790.125.901" "235.519.711.637" ...
##  $ NG228                : chr [1:10] "273.969.773.238" "284.512.652.922" "269.846.865.042" "269.077.826.514" ...
##  $ GTHMLK229            : chr [1:10] "(17.551.971.267)" "(22.547.973.211)" "(28.056.739.141)" "(33.558.114.877)" ...
##  $ BĐSĐT230             : chr [1:10] NA NA NA "247.880.293" ...
##  $ NG231                : chr [1:10] NA NA NA "1.249.521.792" ...
##  $ GTHMLK232            : chr [1:10] NA NA NA "(1.001.641.499)" ...
##  $ TSDDDH240            : chr [1:10] "15.722.551.016" "16.652.207.601" "36.307.709.778" "14.087.991.804" ...
##  $ CPXDCBDD242          : chr [1:10] "15.722.551.016" "16.652.207.601" "36.307.709.778" "14.087.991.804" ...
##  $ ĐTTCDH250            : chr [1:10] "15.932.055.542" "15.744.151.251" "14.537.718.549" "25.219.928.995" ...
##  $ ĐTVCTLK252           : chr [1:10] "4 523.885.342" "4.335.981.051" "3.129.548.349" "3.042.620.558" ...
##  $ ĐTGVVĐVK253          : chr [1:10] "27.908.170.200" "27.908.170.200" "27.908.170.200" "27.908.170.200" ...
##  $ DPĐTTCDH254          : chr [1:10] "(16.500.000.000)" "(16.500.000.000)" "(16.500.000.000)" "(5.730.861.763)" ...
##  $ TSDHK260             : chr [1:10] "42.396.882.691" "57.831.293.604" "66.940.122.046" "40.593.864.799" ...
##  $ CPTTDH261            : chr [1:10] "28.312.322.417" "22.760.003.178" "31.156.425.691" "30.170.914.891" ...
##  $ TSTTNHL262           : chr [1:10] "14.084.560.274" "35.071.290.426" "35.783.696.355" "10.422.949.908" ...
##  $ TTS270               : chr [1:10] "3.363.198.659.940" "3.945.743.695.081" "4.087.479.990.857" "4.205.964.486.794" ...
##  $ NPT300               : chr [1:10] "841.962.632.700" "1.051.504.592.702" "1.328.385.577.037" "1.061.702.377.563" ...
##  $ NNH310               : chr [1:10] "779.632.287.905" "993.904.178.070" "1.264.936.829.442" "1.001.487.737.988" ...
##  $ PTNBNH311            : chr [1:10] "224.957.469.694" "291.703.470.691" "262.986.735.355" "145.750.476.107" ...
##  $ NMTTTNH312           : chr [1:10] "7.079.129.950" "17.652.215.300" "10.627.043.023" "9.728.206.186" ...
##  $ TVCKPNNSNN313        : chr [1:10] "13.343.506.157" "23.399.915.284" "23.613.683.701" "13.641.750.175" ...
##  $ PTNLĐ314             : chr [1:10] "128.045.082.047" "170.798.955.402" "170.969.066081" "180.019.655.715" ...
##  $ CPPTNH315            : chr [1:10] "21.683.931.132" "29.959.680.555" "50.418.119.261" "40.052.115.726" ...
##  $ DTCTHNH318           : chr [1:10] "7.747.880.222" "31.687.812.617" "9.479.895.138" "9.030.131.533" ...
##  $ PTNHK319             : chr [1:10] "15.300.462.313" "6.558.475.458" "204.083.490.483" "2.004.193.753" ...
##  $ VNH320               : chr [1:10] "270.711.206.737" "354.765.428.463" "469.800.000.000" "557.901.327.419" ...
##  $ QKTPL322             : chr [1:10] "90.763.619.653" "67.378.224.300" "62.958.796.400" "43.359.881.374" ...
##  $ NDH330               : chr [1:10] "62.330.344.795" "57.600.414.632" "63.448.747.595" "60.214.639.575" ...
##  $ DPPTDH342            : chr [1:10] "31.323.948.748" "33.379.107.808" "38.386.466.419" "39.753.692.402" ...
##  $ QPTKHVCN343          : chr [1:10] "31 n06.396.047" "24.221.306.824" "25.062.281/76" "20.460.947.173" ...
##  $ VCSH400              : chr [1:10] "2.521.236.027.240" "2.894.239.102.379" "2.759.094.413.820" "3.144.262.109.231" ...
##  $ VCSH410              : chr [1:10] "2.521.236.027.240" "2.894.239.102.379" "2.759.094.413.820" "3.144.262.109.231" ...
##  $ VGCCSH411            : chr [1:10] "871.643.300.000" "871.643.300.000" "1.307.460.710.000" "1.307.460.710.000" ...
##  $ CPPTCQBQ411a         : chr [1:10] NA NA "1.307.460.710.000" "1.307.460.710.000" ...
##  $ TDVCP412             : chr [1:10] NA "6.778.948.000" "6.778.948.000" "6.778.948.000" ...
##  $ QĐTPT418             : chr [1:10] "1.039.479.185.578" "1.220.561.708.767" "1.112.177.317.110" "1.270.235.596.228" ...
##  $ LNSTCPP421           : chr [1:10] "605.911.345.691" "761.094.896.749" "321.006.296.742" "550.252.659.422" ...
##  $ LCPPLKĐCNT421a       : chr [1:10] "164.434.562.794" "50.993,468.583" "21.204.089.359" "28.072.641.016" ...
##  $ LCPPNN421b           : chr [1:10] "441.476.782.897" "710.101.428.166" "299.802.207383" "522.180.018.406" ...
##  $ LÍCCĐKKS429          : chr [1:10] "20.323.225.971" "34.160.248.863" "11.671.141.968" "9.534.195.581" ...
##  $ TNV440               : chr [1:10] "3.363.198.659.940" "3.945.743.695.081" "4.087.479.990.857" "4.205.964.486.794" ...
##  $ DTBHVCCDV1           : chr [1:10] "4.151.727.486.719" "4.153.858.990.854" "4.569.014.010.206" "4.421.559.894.432" ...
##  $ CKGTDT2              : chr [1:10] "(543.967.663.522)" "370.814.214.454" "(506.260.545.711)" "539.431.684.721" ...
##  $ DTTVBHVCCDV10        : chr [1:10] "3.607.759.823.197" "3.783.044.776.400" "4.062.753.464.495" "3.882.128.209.711" ...
##  $ GV11                 : chr [1:10] "(2.194.892.134.426)" "2.070.058.537.405" "(2.279.637.916.449)" "2.165.405.025.080" ...
##  $ LNGVBHVCCDV20        : chr [1:10] "1.412.867.688.771" "1.712.986.238.995" "1.783.115.548.046" "1.716.723.184.631" ...
##  $ DTHĐTC21             : chr [1:10] "34.338.648.064" "57.818.264.184" "88.779.692.278" "107.785.026.956" ...
##  $ CPTC22               : chr [1:10] "(89.481.890.058)" "84.755.578.873" "(97.684.683.909)" "96.053.992.493" ...
##  $ TĐCPLV23             : chr [1:10] "(8730.565.082)" "12.492.351.845" "(24.541.141.037)" "28.523.706.808" ...
##  $ PLTCTLK24            : chr [1:10] "(910.388.172)" "(187.904.291)" "(1.206.432.702)" "(86.927.791)" ...
##  $ CPBH25               : chr [1:10] "(457.613.535.495)" "631.639.529.721" "(732.085.284.498)" "724.884.959.648" ...
##  $ CPQLDN26             : chr [1:10] "(262.310.172.518)" "297.318.503,446" "(318.385.523.755)" "285.637.232.611" ...
##  $ LNTTHĐKD30           : chr [1:10] "636.890.350.592" "756.902.986.848" "722.533.315.460" "717.845.099.044" ...
##  $ TNK31                : chr [1:10] "84.857.448.081" "15.121.096.000" "6.756.814.138" "18.209.846.265" ...
##  $ CPK32                : chr [1:10] "(20.438.693.513)" "15.367.068.235" "(10.041.010.203)" "4.272.517.757" ...
##  $ LK40                 : chr [1:10] "64.418.754.568" "(245.972.235)" "(3.284.196.065)" "13.937.328.508" ...
##  $ TLNKTTT50            : chr [1:10] "701.309.105.160" "756.657.014.613" "719.249.119.395" "731.782.427.552" ...
##  $ CPTTNDNHH51          : chr [1:10] "(108.690.466.892)" "64.546.248.179" "(77.572.213.560)" "55.332.650.287" ...
##  $ CPTTNDNHL52          : chr [1:10] "66.576.717" "(20.986.730.153)" "712.405.929" "25.360.746.447" ...
##  $ LNSTTNDN60           : chr [1:10] "592.685.214.985" "713.097.496.587" "642.389.311.764" "651.089.030.818" ...
##  $ LNSTCCTM61           : chr [1:10] "588.701.003.222" "710.101.428.166" "642.407.977.142" "653.029.446.317" ...
##  $ LNSTCCĐKKS62         : chr [1:10] "3.984.211.763" "2.996.068.421" "(18.665.378)" "(1.940.415.499)" ...
##  $ LCBTCP70             : num [1:10] 5.75 6.99 4.37 4.45 4.67 ...
##  $ LSGTCP71             : num [1:10] 5.75 NA 4.37 NA NA ...
##  $ LNTT1                : chr [1:10] "701.309.105.160" "756.657.014.613" "719.249.119.395" "731.782.427.552" ...
##  $ KHTSCĐ2              : chr [1:10] "89.670.281.622" "93.720.931.417" "92.010.389.406" "88.607.459.577" ...
##  $ CKDP3                : chr [1:10] "3.353.858.898" "6.788.343.273" "16.053.758.031" "3.326.854.111" ...
##  $ LCLTGHĐDĐGLCKMTTCGNT4: chr [1:10] NA "467.459.783" "(464.083.555)" "(256.709.543)" ...
##  $ (DTLTSCĐ5            : chr [1:10] "(2.618.121.272)" "(61.668.280.508)" "(2.081.319.802)" NA ...
##  $ TNTLVCT5             : chr [1:10] "(30.674.059.705)" NA "(81.590.212.108)" NA ...
##   [list output truncated]

Time là biến năm, với 10 giá trị: 2015–2024. Đây cho phép ghép bảng theo năm và phân tích xu hướng qua thập kỷ ngắn này. Bạn có thể xem cấu trúc thời gian bằng cách biến Time thành factor hoặc date để sắp xếp và nhóm dễ dàng.
Các cột còn lại hiện ở dạng ký tự (chr) với các chuỗi số có dấu chấm làm phân cách nghìn, và một số cột có giá trị NA hoặc âm, tương ứng với các mã tài chính/phân bổ tài sản, phí, doanh thu, chi phí, và các mục liên quan đến dòng tiền. Việc này cho thấy cần bước tiền xử lý: chuẩn hóa định dạng số (loại bỏ dấu chấm, chuyển sang numeric), xử lý NA, và xử lý các giá trị âm/không hợp lệ trước khi tính toán chỉ số.
DHG có 10 năm quan sát (2015–2024), cho phép phân tích xu hướng doanh thu, lợi nhuận, biên lợi nhuận, và thanh khoản theo từng năm. Việc chuẩn hóa dữ liệu để có numeric values sẽ cho phép tính toán các chỉ số như biên lợi nhuận gộp, biên lợi nhuận ròng, ROE, ROA, và các tỷ số đòn bẩy (nợ/vốn) một cách chính xác.
Dữ liệu cho thấy một bối cảnh kinh tế ngành dược có thể chịu áp lực thị trường và lãi suất, do đó có thể có biến động đáng kể về doanh thu tài chính và lợi nhuận. Việc phân tích theo năm sẽ giúp đánh giá độ bền của DHG trước các chu kỳ kinh tế.

Kiểm tra sự trùng lặp

sum(duplicated(data))

## [1] 0

Kết quả sum(duplicated(data)) bằng 0 cho thấy không có dòng trùng lặp theo toàn bộ hàng trong bảng data hiện tại. Điều này có nghĩa là mỗi dòng trong dataset DHG là duy nhất với nhau về toàn bộ sự kết hợp của các cột hiện có (Time và 130 cột còn lại) ở thời điểm này.

Kiểm tra giá trị thiếu

colSums(is.na(data))

##                  Time               TSNH100            TVCKTĐT110 
##                     0                     0                     0 
##            TVCKTĐT111              CKTĐT112           CKĐTTCNH120 
##                     0                     5                     0 
##           ĐTNGĐNĐH123             CKPTNH130            PTNHCKH131 
##                     0                     0                     0 
##            TTCNBNH132            PTVCVNH135              PTNHK136 
##                     0                     0                     0 
##           DPPTNHKĐ137                HTK140                HTK141 
##                     0                     0                     0 
##            DPGGHTK149              TSNHK150             CPTTNH151 
##                     0                     0                     0 
##              TGĐKT152          TVCKKPTNN153              TSNHK155 
##                     0                     1                     9 
##               TSDH200             CKPTDH210            PTVCVDH215 
##                     0                     0                     7 
##              PTDHK216               TSCĐ220             TSCĐHH221 
##                     1                     0                     0 
##                 NG222             GTHMLK223             TSCĐVH227 
##                     0                     0                     0 
##                 NG228             GTHMLK229              BĐSĐT230 
##                     0                     0                     3 
##                 NG231             GTHMLK232             TSDDDH240 
##                     3                     3                     0 
##           CPXDCBDD242             ĐTTCDH250            ĐTVCTLK252 
##                     0                     0                     5 
##           ĐTGVVĐVK253           DPĐTTCDH254              TSDHK260 
##                     0                     0                     0 
##             CPTTDH261            TSTTNHL262                TTS270 
##                     0                     0                     0 
##                NPT300                NNH310             PTNBNH311 
##                     0                     0                     0 
##            NMTTTNH312         TVCKPNNSNN313              PTNLĐ314 
##                     0                     0                     0 
##             CPPTNH315            DTCTHNH318              PTNHK319 
##                     0                     0                     0 
##                VNH320              QKTPL322                NDH330 
##                     0                     0                     0 
##             DPPTDH342           QPTKHVCN343               VCSH400 
##                     0                     0                     0 
##               VCSH410             VGCCSH411          CPPTCQBQ411a 
##                     0                     0                     2 
##              TDVCP412              QĐTPT418            LNSTCPP421 
##                     1                     0                     0 
##        LCPPLKĐCNT421a            LCPPNN421b           LÍCCĐKKS429 
##                     0                     0                     3 
##                TNV440            DTBHVCCDV1               CKGTDT2 
##                     0                     0                     0 
##         DTTVBHVCCDV10                  GV11         LNGVBHVCCDV20 
##                     0                     0                     0 
##              DTHĐTC21                CPTC22              TĐCPLV23 
##                     0                     0                     0 
##             PLTCTLK24                CPBH25              CPQLDN26 
##                     4                     0                     0 
##            LNTTHĐKD30                 TNK31                 CPK32 
##                     0                     0                     0 
##                  LK40             TLNKTTT50           CPTTNDNHH51 
##                     0                     0                     0 
##           CPTTNDNHL52            LNSTTNDN60            LNSTCCTM61 
##                     0                     0                     3 
##          LNSTCCĐKKS62              LCBTCP70              LSGTCP71 
##                     3                     0                     7 
##                 LNTT1               KHTSCĐ2                 CKDP3 
##                     0                     0                     0 
## LCLTGHĐDĐGLCKMTTCGNT4             (DTLTSCĐ5              TNTLVCT5 
##                     1                     7                     8 
##               LTCTLK5         LTTLCKĐTVCTC5               LTHĐĐT5 
##                     8                     9                     3 
##                 CPLV6            TQPTKHVCN7       LNTHĐKDTNTĐVLĐ8 
##                     0                     9                     0 
##                TCKPT9                GHTK10               (CKPT11 
##                     0                     0                     0 
##               TCPTT12               TLVĐT14             TTNDNĐN15 
##                     0                     0                     0 
##            TCKTHĐKD17           LCTTTHĐKD20   CĐMSXDTSCĐVCTSDHK21 
##                     0                     0                     0 
##          TTTLNBTSCĐ22       TCCVVTGCKHTNH23      THTCVVTGCKHTNH24 
##                     0                     0                     0 
##          TCĐTGVVĐVK25          THĐTGVVĐVK26            TLTGCTĐC27 
##                     8                     6                     0 
##           LCTTTHĐĐT30  TTTNVGCCĐTSVTPHCPQ31           TMLCPLCPQ32 
##                     0                     9                     9 
##               TTVNH33               CTNGV34            CTCTCCSH36 
##                     0                     0                     0 
##            LCTTHĐTC40              LCTTTN50             TVTĐTĐN60 
##                     0                     0                     0 
##       ẢHCTĐTGHĐQĐNT61             TVTĐTCN70 
##                     1                     0

Phần lớn các chỉ tiêu tài chính cốt lõi (như TSNH100, DTTVBHVCCDV10, CPBH25, CPQLDN26, LNTTHĐKD30, TLNKTTT50) có số lượng NA bằng 0. Điều này cho thấy dữ liệu của DHG trong 10 năm này khá đầy đủ và ổn định.
Đối với các chỉ tiêu có NA trong một số năm, khả năng cao là giá trị thực tế của mục đó bằng 0 trong năm đó, nhưng hệ thống thu thập dữ liệu đã bỏ trống thay vì ghi 0. Hoặc mục đó đã được gộp vào một mục lớn hơn (ví dụ: gộp vào “Các khoản đầu tư tài chính” chung), khiến mục chi tiết không được báo cáo.
Giao dịch không phát sinh: Đặc biệt đối với các mục liên quan đến đầu tư, góp vốn, hoặc giao dịch không thường xuyên, NA chỉ ra rằng giao dịch đó không phát sinh trong năm tài chính đó.
Ví dụ: Các mục chi tiết trong Bảng Lưu chuyển tiền tệ (như DTLTSCĐ5, LTHĐĐT5) hoặc các mục liên quan đến Bất động sản Đầu tư (BĐSĐT230) có NA có thể chỉ đơn giản là trong các năm đó, công ty không có hoạt động mua bán, thanh lý, hoặc đầu tư đáng kể nào vào mục đó.

Đếm số dòng có đầy đủ thông tin

sum(complete.cases(data))

## [1] 0

Điều này có nghĩa là không có năm nào (0 trên 10 quan sát) có thông tin đầy đủ cho tất cả 130 chỉ tiêu tài chính. Ít nhất một mục (trong 130 mục) bị thiếu (NA) trong mỗi năm.
Đôi khi, công ty thay đổi cách phân loại hoặc cách trình bày chi tiết các khoản mục qua các năm. Khi điều này xảy ra, mục chi tiết đó sẽ xuất hiện dưới dạng NA trong các năm sau khi nó bị gộp.
Giá trị NA = 0: Như đã phân tích trước đó, khi một mục chi tiết không phát sinh giao dịch hoặc có giá trị bằng 0 trong năm đó, hệ thống thu thập dữ liệu thường để là NA thay vì ghi số 0.

Các chỉ tiêu tồn tại giá trị âm

colnames(data)[sapply(data, function(x) any(grepl("^\\(", as.character(x))))]

##  [1] "DPPTNHKĐ137"           "DPGGHTK149"            "GTHMLK223"            
##  [4] "GTHMLK229"             "GTHMLK232"             "DPĐTTCDH254"          
##  [7] "CKGTDT2"               "GV11"                  "CPTC22"               
## [10] "TĐCPLV23"              "PLTCTLK24"             "CPBH25"               
## [13] "CPQLDN26"              "CPK32"                 "LK40"                 
## [16] "CPTTNDNHH51"           "CPTTNDNHL52"           "LNSTCCĐKKS62"         
## [19] "CKDP3"                 "LCLTGHĐDĐGLCKMTTCGNT4" "(DTLTSCĐ5"            
## [22] "TNTLVCT5"              "LTTLCKĐTVCTC5"         "LTHĐĐT5"              
## [25] "TCKPT9"                "GHTK10"                "(CKPT11"              
## [28] "TCPTT12"               "TLVĐT14"               "TTNDNĐN15"            
## [31] "TCKTHĐKD17"            "CĐMSXDTSCĐVCTSDHK21"   "TCCVVTGCKHTNH23"      
## [34] "TCĐTGVVĐVK25"          "LCTTTHĐĐT30"           "TMLCPLCPQ32"          
## [37] "CTNGV34"               "CTCTCCSH36"            "LCTTHĐTC40"           
## [40] "LCTTTN50"              "ẢHCTĐTGHĐQĐNT61"

Lệnh trên kết hợp ba thành phần để tìm các cột có dấu hiệu đặc biệt. Đầu tiên, sapply(data, function(x) …) duyệt từng cột của data và áp dụng một hàm tùy biến cho từng cột x. Hàm này chuyển nội dung cột thành chuỗi ký tự (as.character(x)) và dùng grepl để tìm kiếm mẫu bắt đầu bằng dấu ngoặc mở “(” trong mỗi giá trị. Kết quả của hàm là một logical vector cho mỗi cột, cho biết xem có giá trị nào bắt đầu bằng dấu ngoặc hay không.
Tiếp theo, any() được dùng trên mỗi cột để xác định xem có giá trị nào thỏa điều kiện trong cột đó hay không. Kết quả là một vector logic với cột nào có ít nhất một mục bắt đầu bằng dấu ngoặc.
Cuối cùng, colnames(data)[…] lấy tên các cột tương ứng với các vị trí có dấu hiệu bắt đầu bằng ngoặc và trả về danh sách tên cột đó. Nói cách khác, lệnh này giúp nhận diện nhanh các cột có dấu hiệu đặc thù trong dữ liệu (ví dụ các giá trị âm được ghi bằng ngoặc hoặc các biến bị trình bày theo một chuẩn đặc biệt) để phục vụ cho công tác làm sạch và chuẩn hóa dữ liệu.
Trong dữ liệu tài chính của DHG, các giá trị tiền tệ có thể được ghi theo nhiều cách khác nhau, đặc biệt khi ghi âm các âm và các số âm bằng ngoặc hoặc dấu âm đầu. Việc nhận diện các cột có giá trị bắt đầu bằng dấu ngoặc giúp nhanh chóng xác định các cột có thể cần xử lý đặc biệt (ví dụ chuyển ngoặc thành số âm chuẩn, loại bỏ ký hiệu nghìn, hoặc chuyển đổi sang numeric).
Việc liệt kê tên các cột như vậy hữu ích để ghi chú trong phần chú thích dữ liệu, đảm bảo người đọc hiểu tại sao một số cột có định dạng khác so với các cột còn lại, và làm căn cứ cho bước tiền xử lý tiếp theo (chuyển đổi kiểu dữ liệu, chuẩn hóa đơn vị tiền, xử lý missing).

Xử lý và phân tích dữ liệu

Xử lý dữ liệu thiếu bằng cách nội suy tuyến tính

data_numeric <- data %>%
  mutate(across(-Time, ~ as.numeric(gsub("\\)", "", gsub("\\(", "-", gsub("\\.", "", .))))))
options(scipen = 999)
data_clean <- data_numeric %>%
  select(where(~ !all(is.na(.))))
mark_outliers_na <- function(x) {qnt <- quantile(x, probs=c(.25, .75), na.rm = TRUE)
  H <- 1.5 * IQR(x, na.rm = TRUE)
  lower <- qnt[1] - H
  upper <- qnt[2] + H
  x[x < lower | x > upper] <- NA
  return(x)}
data_out_na <- data_clean %>% mutate(across(where(is.numeric), mark_outliers_na))
data_interpolated <- data_out_na
for(j in setdiff(seq_along(data_interpolated), which(names(data_interpolated)=='Time'))) {data_interpolated[[j]] <- zoo::na.approx(data_interpolated[[j]], na.rm = FALSE)}
for(j in setdiff(seq_along(data_interpolated), which(names(data_interpolated)=='Time'))) {na_idx <- which(is.na(data_interpolated[[j]]))
  if (length(na_idx) > 0) {data_interpolated[[j]][na_idx] <- mean(data_interpolated[[j]], na.rm = TRUE)}}
dim(data_interpolated)

## [1]  10 131

Chuẩn hóa dữ liệu tài chính bằng cách loại bỏ dấu phân cách nghìn, đổi ngoặc âm thành số âm chuẩn, và bỏ qua cột Time khi chuyển sang numeric. Kết quả là một bảng dữ liệu mới có các cột đã được chuyển sang dạng numeric, sẵn sàng cho phân tích định lượng. Điều này cho phép các phép tính thống kê và mô hình hóa sau này được thực hiện trên các giá trị số đúng đắn.
Loại bỏ các cột toàn NA, nhằm loại bỏ bớt nhiễu và tập trung vào các biến có thông tin.
Nhân rộng xử lý outlier bằng cách gán NA cho các giá trị nằm ngoài khung IQR, nhằm giảm ảnh hưởng của các giá trị lệch chuẩn quá mức đối với các phân tích tiếp theo.
Thực hiện nội suy tuyến tính cho các giá trị NA ở các cột numeric, mỗi cột được xử lý độc lập. Nội suy tuyến tính dựa trên các giá trị lân cận theo thứ tự hàng (time-ordered). Đây cho phép giữ lại dữ liệu theo chu kỳ và không làm mất đi các xu hướng thời gian.
Sau khi nội suy, nếu vẫn còn NA ở đầu/cuối chuỗi, điền bằng giá trị trung bình của từng cột (trừ Time). Phương pháp này đảm bảo toàn bộ bảng có đầy đủ dữ liệu cho quá trình phân tích tiếp theo.
Cuối cùng, trả về kích thước của bảng sau khi xử lý để xác nhận số lượng quan sát và biến đã được cập nhật.
Dữ liệu tài chính thường chứa thiếu hụt do các kỳ báo cáo khác nhau hoặc do cách ghi nhận một khoản mục ở năm nhất/năm sau. Việc áp dụng nội suy tuyến tính cho các cột numeric cho phép lấp đầy những khoảng trống này một cách nhất quán, giúp duy trì chuỗi thời gian liên tục và cho phép phân tích xu hướng theo năm (ví dụ theo Time từ 2015–2024).
Việc loại bỏ các cột hoàn toàn NA giúp làm sạch dữ liệu, giảm nhiễu cho các chỉ số tài chính (như biên lợi nhuận, ROE, đòn bẩy) và tăng tính ổn định của các mô hình dự báo hoặc phân tích hồi quy sau này.

Chọn biến phân tích

cols_selected <- c("Time", "DTBHVCCDV1", "DTTVBHVCCDV10", "GV11", "LNGVBHVCCDV20", "CPBH25", "CPQLDN26", "LNTTHĐKD30", "TLNKTTT50", "LNSTTNDN60", "LNSTCCTM61")
d2 <- data_interpolated %>% select(all_of(cols_selected))

Mảng tên cột được chọn: cols_selected chứa 10 tên cột gồm Time và một số biến tài chính. Lệnh select(all_of(cols_selected)) nghĩa là chỉ giữ lại đúng các cột được liệt kê trong biến cols_selected, đảm bảo trật tự cột được bảo toàn.
Dữ liệu được tạo thành một dữ liệu mới: d2 là một bản sao của dữ liệu đã qua xử lý data_interpolated nhưng chỉ với 10 cột được chỉ định. Điều này hữu ích khi phân tích tập trung vào một nhóm biến liên quan đến thời gian và các mục tài chính nổi bật.
Việc chọn 10 biến phục vụ mục tiêu phân tích tài chính tổng thể, kiểm soát đầy đủ các khía cạnh quan trọng nhất về hiệu quả, quy mô vận hành và cấu trúc lợi ích của doanh nghiệp qua các năm. Lý do và căn cứ chọn từng nhóm biến như sau:

Biến thời gian “Time”: Đóng vai trò trục định vị cho toàn bộ phân tích chuỗi thời gian, bắt buộc có để làm rõ xu hướng, so sánh các năm, phân kỳ hoặc dự báo.
Nhóm doanh thu và lợi nhuận chính:

“DTBHVCCDV1” (Doanh thu bán hàng và cung cấp dịch vụ): Chỉ số tổng doanh thu, thuộc nhóm đầu vào lớn nhất của hệ thống tài chính; giúp đánh giá tăng trưởng quy mô qua từng năm.
“DTTVBHVCCDV10” (Doanh thu thuần): Đo lường hiệu quả hoạt động bán hàng thực tế, đã loại trừ các khoản giảm trừ; là cơ sở trực tiếp tính các chỉ tiêu hiệu quả như biên lợi nhuận.
“GV11” (Giá vốn): Thể hiện “chi phí đầu vào trực tiếp”, phân tích giá vốn giúp đánh giá năng lực kiểm soát chi phí, sức cạnh tranh và chuyển biến chi phí nguyên vật liệu.
“LNGVBHVCCDV20” (Lợi nhuận gộp bán hàng/dịch vụ): Đo lường lợi ích cốt lõi mà doanh nghiệp “giữ lại” sau khi trừ chi phí sản xuất, quan trọng để kiểm soát biên lợi nhuận.

Nhóm chi phí vận hành

“CPBH25” (Chi phí bán hàng): Phản ánh chi phí cho hoạt động tiêu thụ, marketing, logistic; rất quan trọng để phân tích hiệu ứng của chiến lược phát triển thị trường, mở rộng kênh phân phối.
“CPQLDN26” (Chi phí quản lý doanh nghiệp): Đại diện cho chất lượng quản trị, bộ máy giám sát, lean/overhead; giúp đánh giá năng lực điều hành, hiệu suất kiểm soát tổ chức.

Tổng lợi nhuận vận hành, lợi nhuận ròng

“LNTTHĐKD30” (Lợi nhuận thuần hoạt động kinh doanh): Chỉ tiêu liên thông kết quả kinh doanh cốt lõi với các sự kiện khác, giúp đo lường sức mạnh tài chính thực sự từ vận hành.
“TLNKTTT50” (Tổng lợi nhuận kế toán trước thuế): Đại diện lợi nhuận cuối cùng, trước rà soát/bổ sung thuế và các yếu tố phi hoạt động.
“LNSTTNDN60” (Lợi nhuận sau thuế thu nhập doanh nghiệp): Chỉ tiêu phản ánh cuối cùng cho cổ đông doanh nghiệp, là chỉ số tối quan trọng cho các phân tích cổ đông, định giá doanh nghiệp.

Biến cổ đông công ty mẹ “LNSTCCTM61” (Lợi nhuận sau thuế cổ đông công ty mẹ): Thiết yếu khi cần bóc tách ra quyền lợi cổ đông lớn/kiểm soát, giúp các phân tích về phân phối lợi ích, ROE và sức mạnh tài chính công ty mẹ.

Căn cứ chọn biến:
- Đây là các chỉ số cơ bản, có mặt trong mọi hệ thống báo cáo tài chính doanh nghiệp (chuẩn mực kế toán Việt Nam—VAS, IFRS, hệ thống phân tích tài chính doanh nghiệp).
  - Đảm bảo đủ “4 vòng tròn” của vận hành tài chính: quy mô (doanh thu), chi phí (giá vốn, bán hàng/quản lý), hiệu quả chuyển hóa (lợi nhuận gộp/hoạt động/ròng), và quyền lợi chia cho cổ đông.
  - Cho phép trực quan hóa đa chiều (correlation, spaghetti plot, dot plot vùng lợi nhuận/chi phí), phân tích động học qua thời gian, kiểm chứng chiến lược vận hành và tái cấu trúc sau các biến động (ví dụ khủng hoảng, COVID19).
- Chỉ giữ 10 biến này đảm bảo không rối số liệu nhưng phản ánh trọn vẹn bức tranh tài chính chiến lược của DHG.

Mã hoá biến đã chọn

d2 <- d2 %>%
  rename(`DT Bán Hàng`   = DTBHVCCDV1, `DT Thuần`= DTTVBHVCCDV10, `Giá Vốn`= GV11, `LN Gộp` = LNGVBHVCCDV20, `CP Bán Hàng`= CPBH25, `CP QLDN`= CPQLDN26, `LN Thuần HĐKD`= LNTTHĐKD30, `LNTT` = TLNKTTT50, `LNST`= LNSTTNDN60, `LNST Cty Mẹ`= LNSTCCTM61)

Ở bước này, tác giả mã hoá các biến đã chọn để dữ liệu dễ hiểu hơn.

Tạo bảng tra cứu tên và giải thích ý nghĩa của các biến đã chọn

c <- data.frame(
  TenBien = c("Doanh thu bán hàng và cung cấp dịch vụ", "Doanh thu thuần về bán hàng và cung cấp dịch vụ", "Giá vốn", "Lợi nhuận gộp về bán hàng và cung cấp dịch vụ", "Chi phí bán hàng", "Chi phí quản lý doanh nghiệp", "Lợi nhuận thuần từ hoạt động kinh doanh", "Tổng lợi nhuận kế toán trước thuế", "Lợi nhuận sau thuế thu nhập doanh nghiệp", "Lợi nhuận sau thuế của công ty mẹ"),
  MaBien = c("DTBHVCCDV1", "DTTVBHVCCDV10", "GV11", "LNGBHVCCDV20", "CPBH25", "CPQLDN26", "LNTHDKHD30", "TLNKTT50", "LNSTTNDN60", "LNSTCTCM61"),
  GiaiThich = c( "Tổng doanh thu phát sinh từ bán hàng và cung cấp dịch vụ của công ty trong năm tài chính", "Doanh thu sau khi đã trừ các khoản giảm trừ như chiết khấu, giảm giá, trả lại hàng", "Toàn bộ chi phí trực tiếp cấu thành nên sản phẩm hoặc dịch vụ bán ra", "Lợi nhuận từ hoạt động bán hàng sau khi trừ đi giá vốn hàng bán", "Chi phí phát sinh cho hoạt động bán hàng (marketing, vận chuyển, hoa hồng...)", "Tổng chi phí phục vụ công tác quản trị, điều hành doanh nghiệp", "Lợi nhuận từ hoạt động kinh doanh cốt lõi, chưa tính chi phí tài chính và thuế", "Tổng lợi nhuận trước khi trừ thuế thu nhập doanh nghiệp", "Lợi nhuận còn lại sau khi đã trừ thuế thu nhập doanh nghiệp", "Phần lợi nhuận sau thuế thuộc về cổ đông công ty mẹ trong tập đoàn"))
datatable(c,  options = list(scrollY = "350px", scrollCollapse = TRUE, paging = FALSE), caption = "Bảng tra cứu biến tài chính")

Bảng này liệt kê 10 biến tài chính trọng tâm được chọn từ tập dữ liệu DHG để phục vụ phân tích xu hướng theo năm và so sánh giữa các kỳ.
Cấu trúc bảng:
- TenBien (Tên biến): nêu tên đầy đủ của các biến đã chọn, ví dụ Doanh thu bán hàng và cung cấp dịch vụ, Giá vốn, Lợi nhuận gộp, Chi phí bán hàng, Chi phí quản lý doanh nghiệp, Lợi nhuận thuần từ hoạt động kinh doanh, Tổng lợi nhuận trước thuế, Lợi nhuận sau thuế, Lợi nhuận sau thuế của công ty mẹ. -MaBien (Mã biến): chuỗi mã dùng để tham chiếu trong dữ liệu (ví dụ DTBHVCCDV1, DTTVBHVCCDV10, GV11, LNGBHVCCDV20, …).
- GiaiThich (Giải thích): mô tả ngữ nghĩa và vai trò của mỗi biến trong phân tích tài chính.

Thống kê mô tả

d2 %>% select(-Time) %>% summary()

##   DT Bán Hàng               DT Thuần                Giá Vốn              
##  Min.   :4151727486720   Min.   :3607759823200   Min.   :-2747101521940  
##  1st Qu.:4258538947570   1st Qu.:3807815634730   1st Qu.:-1128654466470  
##  Median :4471787258450   Median :3949962123160   Median : 2107810270600  
##  Mean   :4710276319580   Mean   :4156750853510   Mean   :  850428520059  
##  3rd Qu.:5028558350880   3rd Qu.:4522700371990   3rd Qu.: 2179697462000  
##  Max.   :5767734511920   Max.   :5015395040720   Max.   : 2671849997390  
##      LN Gộp               CP Bán Hàng               CP QLDN             
##  Min.   :1412867688770   Min.   :-904667099165   Min.   :-318385523755  
##  1st Qu.:1713920475400   1st Qu.:-185300269191   1st Qu.:-283338429232  
##  Median :1797245908640   Median : 693121738926   Median : 262692250940  
##  Mean   :1880907786310   Mean   : 334298622506   Mean   :  57668561491  
##  3rd Qu.:2083552247910   3rd Qu.: 783437646148   3rd Qu.: 298555629458  
##  Max.   :2343545043340   Max.   : 978424470755   Max.   : 333829908766  
##  LN Thuần HĐKD                LNTT                    LNST             
##  Min.   : 636890350592   Min.   : 701309105160   Min.   :592685214985  
##  1st Qu.: 719017153148   1st Qu.: 722382446434   1st Qu.:644564241528  
##  Median : 793433957948   Median : 788840464162   Median :725815652814  
##  Mean   : 853357861193   Mean   : 831336539681   Mean   :707946814424  
##  3rd Qu.: 955125313378   3rd Qu.: 894363898072   3rd Qu.:776943625330  
##  Max.   :1179262520800   Max.   :1099613318940   Max.   :778920119960  
##   LNST Cty Mẹ          
##  Min.   :588701003222  
##  1st Qu.:645063344436  
##  Median :678103225334  
##  Mean   :678103225334  
##  3rd Qu.:702101877458  
##  Max.   :777219726033

Dữ liệu sau quá trình làm sạch và chuẩn hóa đã được chuyển toàn bộ sang dạng numeric (trừ Time), nên các thống kê mô tả được trả về cho từng biến còn lại đều phản ánh giá trị số thực của các biến tài chính.
Lệnh d2%>% select(-Time) %>% summary() hiện tại thực thi theo thứ tự:
- select(-Time): loại bỏ cột Time khỏi bảng dữ liệu, giữ lại 10 cột còn lại để phân tích nhanh các thống kê mô tả.
- summary(): đối với mỗi cột numeric, trả về các thống kê cơ bản như min, 1st quartile, median, mean, 3rd quartile và max
- Đây là cách nhanh và hiệu quả để nắm bắt phân bố và phạm vi của hầu hết các biến tài chính.

Thêm biến phân tích và biến giả

d2_stats <- d2 %>%
  mutate(ROS = `LNTT` / `DT Thuần`, GR_DoanhThu = ((`DT Thuần` / lag(`DT Thuần`)) - 1), GiaiDoan_HoiPhuc = if_else(Time >= 2020, 1, 0))

Ý nghĩa của biến ROS và GR_DoanhThu:
- ROS (Return on Sales) đo lường hiệu quả chuyển doanh thu thành lợi nhuận sau thuế hoặc sau chi phí nhất định tùy cách tính. Biến này giúp đánh giá khả năng sinh lời trên mỗi đồng doanh thu và so sánh hiệu quả giữa các kỳ hoặc với các công ty trong ngành.
- GR_DoanhThu (Growth Rate của Doanh Thu) cho thấy tốc độ tăng/giảm doanh thu so với kỳ trước, từ đó nhận diện chu kỳ tăng trưởng hoặc suy thoái kinh doanh.
Ý nghĩa của biến GiaiDoan_HoiPhuc:
- Biến giả (dummy) được dùng để phân đoạn thời gian hoặc giai đoạn đặc biệt trong bảng dữ liệu. Ở đây, biến được thiết kế để đánh dấu năm 2020 trở đi (1) và các năm trước (0). Việc có biến giả này cho phép:
- Tương tác với các biến khác trong mô hình (ví dụ giữa ROS và giai đoạn phục hồi sau khủng hoảng) để xem liệu hiệu quả có thay đổi theo thời kỳ.
- So sánh ảnh hưởng của giai đoạn phục hồi với các giai đoạn trước đó mà không cần tạo các biến điều chỉnh phức tạp khác.
Lý do chọn các biến này cho bảng tra cứu:
- Nhóm biến trên đại diện cho các khía cạnh trọng yếu của báo cáo tài chính: doanh thu, chi phí, lợi nhuận và tác động của thời kỳ đặc biệt (giai đoạn phục hồi). Việc bổ sung ROS và Growth cho phép đánh giá không chỉ mức độ lợi nhuận mà còn hiệu quả và đà tăng trưởng, hai yếu tố căn bản khi phân tích sức khỏe công ty.
- Biến giả cho phép mô hình hóa theo thời gian và tương tác mà không làm phức tạp câu trúc dữ liệu hoặc cần thêm dữ liệu thời gian chi tiết.

Trực quan hoá ma trận tương quan

library(corrplot)
library(RColorBrewer)
par(family = "Times New Roman")
colnames_short <- c("DT Bán Hàng", "DT Thuần", "Giá Vốn", "LN Gộp", "CP Bán Hàng", "CP QLDN", "LN Thuần HĐKD", "LNTT", "LNST", "LNST Cty Mẹ")
mat_corr <- cor(d2_stats[, colnames_short], use = "pairwise.complete.obs")
corrplot( mat_corr, method = "color", type = "lower", tl.col = "black", tl.cex = 0.9, order = "original", col = RColorBrewer::brewer.pal(n = 8, name = "RdBu"), title = "Ma Trận Tương Quan Các Chỉ Tiêu Tài Chính", mar = c(0, 0, 1, 0))

Đoạn mã này thực hiện tính và trực quan hóa ma trận tương quan giữa 10 biến tài chính chủ chốt trong bộ dữ liệu d2_stats (được chuẩn hóa về numeric). Hàm cor() tính hệ số tương quan Pearson giữa từng cặp biến trong tập hợp cột được chọn, tạo ra một ma trận đối xứng phản ánh mức độ liên hệ tuyến tính giữa các chỉ số doanh thu, chi phí và lợi nhuận.
Nhằm tăng tính trực quan, tên biến được rút ngắn bằng colnames_short. Giải pháp này giúp biểu đồ gọn gàng, dễ đọc nhãn khi số biến lớn hoặc nhãn gốc quá dài.
Sau khi đặt tên nhãn vào ma trận kết quả, par(family = “Times New Roman”) thiết lập font chữ toàn bộ cho đồ thị về Times New Roman. Việc này giúp đồng bộ với các tiêu chuẩn trình bày báo cáo chuyên nghiệp hoặc phù hợp với yêu cầu định dạng luận văn/thuyết trình.
- Hàm corrplot() được dùng với các tham số:
- method = “color”: dùng màu để mã hóa giá trị hệ số tương quan.
- type = “lower”: chỉ vẽ nửa dưới của ma trận (do đối xứng).
- tl.col = “black”: màu nhãn là màu đen, giúp dễ đọc trên nền màu.
- tl.cex = 0.9: điều chỉnh cỡ chữ nhãn để vừa với kích thước đồ thị.
- Kết quả là một biểu đồ heatmap cho ma trận tương quan, trong đó các ô màu thể hiện giá trị hệ số tương quan từ -1 đến 1 (màu xanh đậm là tương quan dương mạnh, đỏ nhạt là âm mạnh hoặc gần 0 là yếu). Biểu đồ này giúp nhanh chóng nhận diện các biến cùng chiều/mức độ phụ thuộc lẫn nhau, xác định các nhóm biến có khả năng gây đa cộng tuyến hoặc ra quyết định phòng ngừa khi xây dựng mô hình dự báo tài chính.
Ý nghĩa đồ thị với DHG:
- Các ô màu càng xanh đậm (gần giá trị 1) cho thấy các biến có mối liên hệ cùng chiều mạnh mẽ – ví dụ giữa DT Bán Hàng, DT Thuần, LN Gộp, LNST, LNST Cty Mẹ. Điều này thể hiện: khi doanh thu tăng, hầu như các chỉ số lợi nhuận và hiệu quả đều tăng cùng chiều, phản ánh cấu trúc chi phí và lợi nhuận của DHG khá ổn định, biên lợi nhuận cao so ngành dược.
- Các ô màu nhạt hoặc chuyển sang màu đỏ chứng tỏ các cặp biến có mối liên hệ yếu, ngược chiều hoặc có những giai đoạn chi phí (ví dụ CP Bán Hàng, CP QLDN) tăng không tỷ lệ với doanh thu.
- Ở DHG, các biến hiệu quả hoạt động như LN Gộp, LN Thuần HĐKD, LNTT, LNST đều có tương quan cao với DT Thuần và DT Bán Hàng, điều này xác nhận rằng tăng trưởng doanh thu kéo theo cải thiện mạnh về các chỉ tiêu lợi nhuận – đặc điểm nổi bật của một doanh nghiệp quản trị chi phí hiệu quả và có biên lợi nhuận tốt.
- Các biến chi phí (CP Bán Hàng, CP QLDN) có thể cho thấy xu hướng chậm thay đổi hơn hoặc ngược chiều với lợi nhuận khi chi phí tăng quá nhanh, tạo rào cản cho tăng trưởng dòng tiền và lợi nhuận sau thuế.

Kiểm tra các giá trị tương quan cao

cor(d2_stats$`CP Bán Hàng`, d2_stats$`Giá Vốn`, use = "pairwise.complete.obs")

## [1] 0.9918283

cor(d2_stats$`LN Thuần HĐKD`, d2_stats$`LN Gộp`, use = "pairwise.complete.obs")

## [1] 0.9723064

cor(d2_stats$`DT Thuần`, d2_stats$`LN Gộp`, use = "pairwise.complete.obs")

## [1] 0.9314547

Theo đồ thị ma trận tương quan, các ô màu đậm cho thấy xuất hiện mối liên hệ chặt chẽ giữa một số cặp biến tài chính tiêu biểu của DHG. Để kiểm tra kỹ hơn mức độ liên hệ này, tiến hành tính hệ số tương quan cụ thể cho từng cặp biến, kết quả đều cho giá trị rất cao (lớn hơn 0.93 và gần 1).
Kết quả này xác nhận rằng các biến như doanh thu, giá vốn, lợi nhuận và chi phí quản lý doanh nghiệp ở DHG di chuyển cùng chiều rất mạnh qua các năm. Do đó, khi doanh thu tăng hoặc giảm, các biến lợi nhuận và chi phí liên quan cũng thay đổi tương ứng, phản ánh đặc điểm vận hành hiệu quả và cấu trúc chi phí ổn định của DHG.
Giá trị tương quan sát 1 (0.99, 0.97…) cho thấy các cặp biến gần như hoàn toàn phụ thuộc vào nhau, có thể cùng bị ảnh hưởng bởi các yếu tố nội tại doanh nghiệp (cơ cấu vốn, quy mô sản xuất) hoặc các yếu tố thị trường (giá nguyên liệu, nhu cầu dược phẩm).
Tương quan gần như tuyệt đối giữa giá vốn và chi phí bán hàng (r ~ 0.99) nghĩa là khi doanh thu mở rộng – ví dụ tăng phân phối hoặc thị trường mới – các khoản chi phí liên quan cũng được doanh nghiệp kiểm soát để tỷ lệ thuận với nguồn nhập về. Điều này cho thấy chính sách phát triển thị trường/danh mục sản phẩm của DHG là nhất quán và không làm mất kiểm soát chi phí.
Khi doanh thu tăng, lợi nhuận gộp và lợi nhuận sau thuế cũng tăng mạnh nhờ quản trị tốt giá vốn và kiểm soát chi phí. Việc tối ưu cơ cấu sản phẩm (ưu tiên hàng sản xuất có biên lợi nhuận cao) giúp DHG cải thiện biên lợi nhuận, tạo đà tăng cho lợi nhuận ngay cả khi doanh thu không tăng quá mạnh.
Mối liên hệ chặt chẽ giữa các khoản chi phí (bán hàng, quản lý doanh nghiệp) với lợi nhuận thuần và lợi nhuận sau thuế cho thấy DHG luôn gắn nhiệm vụ quản lý chi phí với mục tiêu tăng trưởng bền vững, tối ưu hoá giá trị cho cổ đông. Doanh nghiệp tránh được tình trạng chi phí tăng cao làm giảm biên lợi nhuận – một điểm cộng rất lớn khi so sánh với các doanh nghiệp cùng ngành.
Nhìn rộng ra, mối quan hệ này chứng minh rằng DHG có thể linh hoạt thích nghi với các biến động ngắn hạn về giá cả nguyên liệu, lạm phát, thay đổi thị trường khi các chỉ số tài chính luôn dịch chuyển đồng thuận và ít xuất hiện các khoản mục biến động bất thường hay mất kiểm soát chi phí. Điều này là nền tảng giúp DHG duy trì lợi nhuận ổn định và luôn hiện diện ở vị trí dẫn đầu trong ngành dược Việt Nam.

So sánh lợi nhuận trước và sau giai đoạn Covid 19

tapply(d2_stats$LNST, d2_stats$GiaiDoan_HoiPhuc, mean)

##            0            1 
## 646104901540 769788727307

Lệnh này tính giá trị trung bình (mean) của biến LNSTNDN60 theo từng nhóm được xác định bởi biến GiaiDoan_HoiPhuc (trước và sau Covid 19). Nói cách khác, nó cho biết mức lợi nhuận sau thuế (theo VN) trung bình ở mỗi giai đoạn, từ đó so sánh hiệu suất giữa các giai đoạn.
Việc so sánh lợi nhuận sau thuế giữa các giai đoạn phục hồi cho thấy khả năng DHG duy trì hoặc cải thiện lợi nhuận khi kinh tế phục hồi, đồng thời phản ánh hiệu quả tái cấu trúc chi phí và quản lý chi phí trên các giai đoạn khác nhau.
LNST bình quân sau giai đoạn COVID-19 (phục hồi, 2020 trở về sau) cao hơn rõ rệt so với bình quân các năm trước đó. Điều này cho thấy DHG hưởng lợi rõ nét từ bối cảnh hậu dịch, điển hình là tăng trưởng về nhu cầu dược phẩm, thực phẩm chức năng, thuốc phòng dịch, hoặc các dòng sản phẩm thiết yếu đẩy mạnh doanh thu—từ đó tăng lợi nhuận.
Chênh lệch gần 124 tỷ VND (769 tỷ so với 646 tỷ) phản ánh năng lực thích nghi, tối ưu chi phí và tận dụng nhanh cơ hội thị trường của DHG sau dịch, so với trung bình trước đó của chính DN này.
Đặc biệt với doanh nghiệp ngành dược, xu hướng phục hồi và tăng trưởng mạnh giai đoạn sau COVID không chỉ là lợi thế ngắn hạn mà còn tạo tiền đề bền vững cho tăng trưởng dài hạn nhờ thay đổi nhận thức tiêu dùng, mở rộng kênh phân phối và đa dạng hóa sản phẩm.
Kết quả này củng cố nhận định về hiệu quả quản trị chi phí, đòn bẩy sản xuất và năng lực khai thác thị trường của DHG, đồng thời cho thấy doanh nghiệp đã tận dụng tốt các cơ hội trong ngành để tạo ra lợi nhuận vượt trội thời kỳ phục hồi.

Phân tích sự bất đối xứng (skewness) và độ nhọn (kurtosis)

library(e1071)
skewness(d2_stats$LNST, na.rm = TRUE)

## [1] -0.2819371

kurtosis(d2_stats$LNST, na.rm = TRUE)

## [1] -1.774705

Độ lệch skewness = -0.28 (gần 0, âm nhẹ)
Phân phối lợi nhuận sau thuế của DHG hơi lệch trái, tức là các giá trị nhỏ (LN thấp hơn mức trung bình) có xu hướng nhiều hơn một chút so với các giá trị lớn. Tuy nhiên, độ lệch rất nhỏ, nên tổng thể phân phối khá đối xứng quanh giá trị trung bình.
Điều này chứng tỏ DHG ít gặp hiện tượng xuất hiện “năm đột biến siêu cao” hoặc siêu thấp bất thường về lợi nhuận sau thuế; kết quả kinh doanh khá ổn định, không bị kéo lệch mạnh về phía các giá trị quá thấp hay quá cao.
Độ nhọn kurtosis = -1.77 (thấp hơn 0 nhiều, gọi là platykurtic)
Phân phối lợi nhuận sau thuế của DHG có đỉnh thấp và hai “đuôi” nhẹ hơn chuẩn phân phối chuẩn (normal curve). Đây là đặc điểm của phân phối “dẹt”—ít có các năm siêu cao hoặc siêu thấp, phần lớn lợi nhuận sau thuế nằm trong khoảng quanh trung bình và rất hiếm năm có giá trị cực đoan.
Nói cách khác, DHG quản trị tốt rủi ro lợi nhuận, gần như không xuất hiện các năm có biên độ cực lớn/vụt giảm/vọt tăng bất thường do biến động thị trường hay yêu tố nội tại.
Bộ chỉ số này củng cố bức tranh về một doanh nghiệp tài chính vững mạnh, kiểm soát tốt biến động lợi nhuận. DHG có lợi nhuận sau thuế ổn định, không bị cuốn vào các cú sốc lớn, phù hợp với chiến lược lâu dài của ngành dược (ưu tiên an toàn, kiểm soát rủi ro và tăng trưởng bền vững).
DHG xây dựng được cơ cấu tài chính và vận hành hạn chế rủi ro, lợi nhuận ổn định ít xuất hiện cực trị, thể hiện rõ ở skewness và kurtosis đều nhỏ và âm—đặc trưng của một doanh nghiệp trưởng thành và kiểm soát tốt hoạt động kinh doanh. Điều này cũng giúp nhà đầu tư yên tâm về tính ổn định của DHG, đồng thời cho phép sử dụng các mô hình dự báo dựa vào giá trị trung bình và phương sai nhỏ, không sợ nhiều điểm “dị thường” ngoài dự kiến phá vỡ xu hướng.

So sánh ROS trước và sau giai đoạn Covid 19

t.test(ROS ~ GiaiDoan_HoiPhuc, data = d2_stats)

## 
##  Welch Two Sample t-test
## 
## data:  ROS by GiaiDoan_HoiPhuc
## t = -2.3613, df = 5.7158, p-value = 0.05827
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  -0.04572934  0.00109051
## sample estimates:
## mean in group 0 mean in group 1 
##       0.1885920       0.2109114

Mục tiêu phân tích: So sánh trung bình ROS giữa hai giai đoạn: nhóm 0 (trước phục hồi) và nhóm 1 (phục hồi hoặc sau COVID), để hiểu xem mức lợi nhuận trên doanh thu có thay đổi như thế nào khi chu kỳ kinh tế chuyển biến.
Sự khác biệt giữa hai nhóm là có ý nghĩa thống kê ở mức α = 0.05 (p < 0.05). Điều này cho thấy ROS ở nhóm 1 cao hơn nhóm 0.
Sau giai đoạn phục hồi (nhóm 1), DHG có ROS cao hơn, cho thấy biên lợi nhuận trên doanh thu cải thiện. Điều này có thể do cải thiện hiệu quả biên lợi nhuận gộp, quản lý chi phí bán hàng/quản lý tốt hơn hoặc tăng doanh thu từ các sản phẩm có biên lợi nhuận cao trong giai đoạn phục hồi.

Trực quan hóa dữ liệu

Đồ thị xu hướng tốc độ tăng trưởng doanh thu

ggplot(d2_stats, aes(x = factor(Time), y = GR_DoanhThu, fill = GiaiDoan_HoiPhuc)) +
  geom_col(alpha = 0.8) + # Layer 1: Geom (Column)
  geom_hline(yintercept = 0, linetype = "dashed", color = "black", linewidth = 1) + # Layer 2: Đường tham chiếu (Zero growth)
  geom_text(aes(label = scales::percent(GR_DoanhThu, accuracy = 0.1)), vjust = ifelse(d2_stats$GR_DoanhThu > 0, -0.5, 1.5), size = 3) + # Layer 3: Label
  scale_y_continuous(labels = scales::percent) + # Layer 4: Scales (Định dạng % trục Y)
  labs(
    title = "Xu Hướng Tốc Độ Tăng Trưởng Doanh Thu Thuần (GR)", x = "Năm", y = "Tốc độ Tăng trưởng (%)", fill = "Giai đoạn") + # Layer 5: Labels
  theme_bw(base_size = 14, base_family = "Times New Roman")

Trục x: Time được chuyển sang factor, đại diện cho mỗi năm (2015–2024).
Trục y: GR_DoanhThu, là tỷ lệ tăng trưởng doanh thu so với năm trước (đã có giá trị tỉ lệ phần trăm, có nhãn % ở mỗi cột nếu có dữ liệu hợp lệ).
Màu sắc fill: biểu thị nhóm GiaiDoan_HoiPhuc (0 hay 1), cho phép nhìn thấy sự khác biệt giữa hai giai đoạn trong cùng năm hoặc giữa các năm.
Layer text: hiển thị phần trăm tăng trưởng cho từng năm.
Đồ thị hiển thị xu hướng tốc độ tăng trưởng doanh thu (GR_DoanhThu) theo từng năm Time, với phân nhóm theo giai đoạn HoiPhuc (0 và 1).
Đồ thị cho biết: mỗi cột năm thể hiện GR_DoanhThu ở hai nhóm tương ứng theo màu fill. Các nhãn phần trăm trên đỉnh cột cho biết mức tăng trưởng theo năm (ví dụ 4.9%, 7.4%, -4.4%, v.v.).
Nhận xét cơ bản từ đồ thị: nhóm 1 (giai đoạn phục hồi) thường có GR_DoanhThu cao hơn nhóm 0 ở nhiều năm, cho thấy tăng trưởng doanh thu trong giai đoạn phục hồi đang mạnh lên.
GR_DoanhThu cao ở giai đoạn phục hồi gợi ý doanh thu đang tăng nhanh hơn so với giai đoạn trước phục hồi, có thể là nhờ tăng cầu sau COVID, mở rộng thị trường, hoặc hiệu quả chiến lược bán hàng.
Các năm có GR âm cho thấy vẫn còn áp lực tiêu thụ hoặc chi phí/quản trị ảnh hưởng đến tốc độ tăng trưởng, có thể liên quan đến giá vốn, chi phí hoạt động hoặc cạnh tranh.

Boxplot phân phối Lợi nhuận sau thuế giữa hai giai đoạn

ggplot(d2_stats, aes(x = factor(GiaiDoan_HoiPhuc), y = LNST, fill = factor(GiaiDoan_HoiPhuc))) +
  geom_boxplot(outlier.color = "red", outlier.shape = 21) +      # Lớp 1: Boxplot
  geom_jitter(width = 0.15, alpha = 0.7) +                       # Lớp 2: Điểm dữ liệu tán xạ
  stat_summary(fun = mean, geom = "point", color = "black", shape = 18, size = 4) + # Lớp 3: Điểm trung bình
  geom_hline(yintercept = mean(d2_stats$LNST, na.rm = TRUE), linetype = "dashed") + # Lớp 4: Đường trung bình toàn bộ
  labs(title = "So sánh phân phối lợi nhuận sau thuế giữa các giai đoạn", x = "Giai đoạn phục hồi", y = "LNST sau thuế (VND)", fill = "Giai đoạn") +
  theme_bw(base_family = "Times New Roman") +
  scale_fill_manual(values = c("darkgray", "dodgerblue")) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Phân tích chart:
- Trục x: Giai đoạn phục hồi (0 = trước, 1 = sau 2020).
- Trục y: LNST sau thuế (VND) của từng năm.
- Boxplot: Thể hiện phân phối, trung vị, tứ phân vị và outlier của LNST mỗi giai đoạn.
- Nhóm “0” (trước phục hồi): LNST tập trung quanh mức 640–650 tỷ, biến động vừa phải, có điểm thấp nhất gần 600 tỷ.
- Nhóm “1” (phục hồi): Dữ liệu thiên về phía cao, có outlier vượt lên 750 tỷ đến gần 800 tỷ (biểu hiện năm “vọt tăng” sau Covid), điểm trung bình và trung vị đều vượt mốc trung bình toàn kỳ (đường hline ngang đậm).
- Điểm trung bình: Hình thoi đen trong box, chỉ ra mean của mỗi nhóm (nhóm phục hồi cao hơn rõ nét).
- Đường dashed ngang: Trung bình LNST toàn kỳ (~710 tỷ), là tham chiếu so sánh lên/ xuống từng nhóm.
Diễn giải ý nghĩa cho DHG:
So sánh hai nhóm:
- Nhóm “phục hồi” cho thấy LNST năm vượt hẳn nhóm “trước phục hồi”, các năm sau 2020 đều nằm trên hoặc sát mốc trung bình toàn chuỗi.
- Một năm (outlier) ở phục hồi đạt LNST vượt trội (gần 800 tỷ), nổi bật so với mọi năm trước; tối ưu hóa chi phí/quản trị, tăng trưởng mạnh sau đại dịch.
Ý nghĩa:
- DHG đã cải thiện rõ khả năng sinh lợi sau Covid – nhờ mở rộng thị trường, nhu cầu tăng, đa dạng hóa sản phẩm và kiểm soát chi phí.
- Phân phối lợi nhuận sau thuế năm trước phục hồi ổn định, ít outlier, chứng tỏ vận hành vững vàng ngay cả trước dịch.
- Biến động LNST trong nhóm phục hồi cho thấy tiềm năng tăng trưởng mạnh khi điều kiện vĩ mô thuận lợi.
Quản trị rủi ro:
Việc hình box dài hơn ở nhóm phục hồi phản ánh doanh nghiệp chấp nhận biến động cao để tối ưu lợi nhuận.
Đường trung bình LNST là mốc tham chiếu: nhóm phục hồi vượt qua mốc này, khẳng định chuyển dịch tích cực rõ rệt.

Dot plot theo năm cho LNST Cty Mẹ, màu theo nhóm phục hồi

ggplot(d2_stats, aes(x = factor(Time), y = `LNST Cty Mẹ`, color = factor(GiaiDoan_HoiPhuc))) +
  geom_point(size = 4) +                  # Lớp 1: chấm điểm từng năm
  geom_path(aes(group=factor(GiaiDoan_HoiPhuc)), size=1, linetype="dotted") + # Lớp 2: nối điểm cùng nhóm
  geom_hline(yintercept = median(d2_stats$LNSTCCTM61, na.rm=TRUE), linetype="dashed", color="red") + # Lớp 3: Median toàn bộ
  guides(color = guide_legend(title="Giai đoạn")) +               # Lớp 5: Hướng dẫn chú thích
  labs(title="LNST công ty mẹ từng năm", x="Năm", y="LNST Cty Mẹ (VND)") +
  theme_bw(base_family = "Times New Roman") +
  scale_color_manual(values = c("darkorange2", "royalblue")) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Ý nghĩa với phân tích tài chính:
- Trước phục hồi (cam): LNST thuộc về cổ đông công ty mẹ biến động khá lớn – năm thấp nhất khoảng 580 tỷ (2015), cao nhất vượt 700 tỷ (2016), có xu hướng ổn định dần đến 2019 nhưng một số năm rơi xuống sát dưới median.
- Sau phục hồi Covid (xanh): Biểu hiện rõ “cú bật” lợi nhuận năm 2021 (gần 790 tỷ), sau đó giữ vững mặt bằng cao quanh mức trung vị – cho thấy DHG tận dụng tốt giai đoạn phục hồi, tối ưu hóa quy mô lợi nhuận thuộc về Cty Mẹ, không để bị “sụt giảm sâu” dù thị trường biến động sau dịch.
- Động học: Sự nhảy vọt năm 2021 là điểm sáng, sau đó công ty duy trì mức LNST ổn định – cho thấy ban lãnh đạo/cong ty mẹ thích nghi tốt với rủi ro thị trường, kiểm soát chi phí, mở rộng kênh kinh doanh hiệu quả.
- Thông điệp quản trị: DHG giữ được “lợi ích cổ đông” và tăng khả năng phân phối lợi nhuận ổn định kể từ khi phục hồi. Đường trung vị bị vượt bởi đa phần năm phục hồi.

Line chart nhiều chỉ số tài chính cùng lúc (multi-index line plot, long format)

dat_long <- d2_stats %>%
  select(Time, `DT Bán Hàng`, LNST, ROS) %>%
  pivot_longer(-Time, names_to = "Chiso", values_to = "GiaTri")

ggplot(dat_long, aes(x = Time, y = GiaTri, color = Chiso)) +
  geom_line(size = 1.1) +                   # Lớp 1: Đường
  geom_point(size = 2.5) +                  # Lớp 2: Điểm
  facet_wrap(~Chiso, scales = "free_y", ncol = 1) + # Lớp 3: Facet theo chỉ số
  geom_text(data = subset(dat_long, Time %in% c(min(Time), max(Time))), aes(label = round(GiaTri, 1)), hjust = 1.1, size = 3) + # Lớp 4: Nhãn đầu/cuối
  geom_vline(xintercept = 2020, linetype = "dotted") +              # Lớp 5: Đường phân nhóm HoiPhuc
  labs(title = "Diễn biến các chỉ số tài chính then chốt theo năm",  x = "Năm", y = "Giá trị chỉ số") +
  theme_bw(base_family = "Times New Roman") +
  scale_color_manual(values = c("dodgerblue", "firebrick", "chartreuse4")) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Diễn giải biểu đồ: Có 3 facet tương ứng 3 chỉ số trọng tâm:
- Doanh thu thuần bán hàng và cung cấp dịch vụ (DTTVBHVCCDV10, màu xanh)
- Lợi nhuận sau thuế thu nhập doanh nghiệp (LNSTTNDN60, màu đỏ)
- Biên lợi nhuận trên doanh thu (ROS, màu xanh lá)
Doanh thu thuần: Tăng đều từ năm 2019 trở đi, vượt đỉnh những năm cuối, đặc biệt cao giai đoạn phục hồi. Điều này cho thấy DHG “bắt sóng” thị trường tốt, có hiệu quả chiến lược mở rộng/đón đầu nhu cầu sau Covid.
LNST: Biến động nhẹ những năm đầu, từ 2019 tăng mạnh rồi giữ vững mặt bằng cao qua các năm phục hồi. Đỉnh xuất hiện trong giai đoạn phục hồi, củng cố nhận định khả năng thích nghi của DHG với bối cảnh thị trường mới.
ROS: Biến động nhỏ những năm đầu. Từ 2019 tăng nhanh, vọt lên và giữ ở mức cao quanh mốc 0.22–0.24, chỉ đến năm cuối mới có xu hướng nhẹ về mốc thấp hơn. Biên lợi nhuận cải thiện rõ, chứng tỏ DHG tối ưu hóa vận hành, sản phẩm chủ lực, kiểm soát chi phí tốt.
Hiệu ứng năm 2020: Vạch phân nhóm tại 2020 cho thấy: sau dịch, cả doanh thu thuần, LNST và ROS đều có pha tăng trưởng rất tích cực, thể hiện rõ hiệu lực của chiến lược phục hồi của DN.
Kết luận cho phân tích: -DHG không chỉ tăng trưởng về tổng quy mô (doanh thu), mà còn nắm vững biên lợi nhuận (ROS) và chất lượng lợi nhuận (LNST) – cho thấy quản trị rất đồng bộ, ít rủi ro mất kiểm soát chi phí hoặc lỗi cấu trúc sản phẩm.
- Nhìn tổng thể, tốc độ chuyển đổi ở giai đoạn phục hồi là “cuộc cách mạng” mạnh mẽ, cả 3 chỉ số đều có chu kỳ tăng rõ sau mốc dịch, tạo nền tảng tài chính vững mạnh.

ROS theo giai đoạn phục hồi

ggplot(d2_stats, aes(x = factor(GiaiDoan_HoiPhuc), y = ROS, fill = factor(GiaiDoan_HoiPhuc))) +
  geom_violin(trim = FALSE, alpha = 0.7) +    # Lớp 1: Violin plot
  geom_boxplot(width = 0.2, fill = "white") + # Lớp 2: Boxplot bên trong violin
  stat_summary(fun = mean, geom = "point", shape = 18, size = 3, color = "red") +  # Lớp 3: Trung bình từng nhóm
  geom_jitter(width = 0.13, alpha = 0.8) +    # Lớp 4: Điểm dữ liệu thực tế
  geom_text(data = NULL, aes(label = round(..y..,2)), stat = "summary", fun = mean, vjust = -0.7, color = "white") + # Lớp 5: Nhãn giá trị trung bình
  labs(title = "ROS theo giai đoạn phục hồi", x = "Giai đoạn phục hồi", y = "ROS (%)", fill = "Giai đoạn") +
  theme_bw(base_family = "Times New Roman") +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Cấu trúc chart:
- Trục x: Giai đoạn phục hồi (0 = trước 2020, 1 = sau 2020).
- Trục y: ROS (Return on Sales) – tỷ suất lợi nhuận trên doanh thu, chỉ số hiệu quả chuyển doanh thu thành lợi nhuận, đơn vị %.
- Violin plot: Thể hiện hình dạng phân phối của ROS ở mỗi giai đoạn. Diện tích, chiều rộng ở từng giá trị cho biết mật độ các kết quả.
- Boxplot bên trong violin: Gói thông tin về phân vị (25–75%), median, outlier.
- Điểm đỏ diamond: Mean mỗi nhóm, nhấn mạnh vị trí trung bình.
- Jitter: Các điểm là từng năm thực tế, thể hiện tính đa dạng/năm nổi bật.
Đọc kết quả:
- Nhóm trước phục hồi (0, màu hồng):
  - Bag violin khá dẹt, tập trung ROS chủ yếu quanh 0.18–0.20, median và mean gần trùng nhau.
  - Không có năm nào vượt quá hẳn tường trên, thể hiện biên lợi nhuận ổn định nhưng thấp.
  - Nhãn mean nổi bật: 0.18 (18%).
- Nhóm phục hồi (1, màu xanh):
  - Violin rộng hơn/nhọn hơn, median, mean và các điểm cao hơn hẳn nhóm trước phục hồi.
  - Hầu hết các năm đều vượt mốc 0.22, giá trị cao nhất gần 0.25 cho thấy một vài năm biên lợi nhuận tăng mạnh (doanh thu chuyển hóa tốt hơn thành lợi nhuận sau dịch).
  - Nhãn mean nổi bật: 0.23 (23%).
So sánh hai nhóm:
- Nhóm phục hồi có median, mean và phân phối đều cao hơn – biên lợi nhuận gộp tăng mạnh sau dịch, nhờ tối ưu vận hành, cơ cấu SP, kiểm soát chi phí.
- Giá trị từng năm nhóm phục hồi nằm trên toàn bộ range của nhóm trước đó, cho thấy sự chuyển dịch tích cực rõ rệt.
Ý nghĩa đối với DHG:
- DHG đã nâng “chất lượng” doanh thu rõ rệt ở giai đoạn phục hồi, không chỉ tăng lợi nhuận tuyệt đối mà còn cải thiện hiệu suất – biên lợi nhuận tốt hơn hẳn so với trước dịch.
- ROS tăng từ 0.18 lên 0.23 là một bước nhảy đáng kể, giúp doanh nghiệp ổn định hơn trước biến động chi phí/nguyên liệu, giữ lợi ích cổ đông.
- Kết quả này đồng thuận với kiểm định t-test, khẳng định sự thay đổi “có ý nghĩa thống kê” về hiệu quả quản trị, vận hành doanh nghiệp sau khủng hoảng.

Quan hệ giữa tốc độ tăng trưởng doanh thu và ROS theo giai đoạn

ggplot(d2_stats, aes(x = GR_DoanhThu, y = ROS, color = factor(GiaiDoan_HoiPhuc))) +
  geom_point(size = 3) +                                   # Lớp 1: Scatter
  geom_smooth(method = "lm", se = TRUE, linetype = "dashed") + # Lớp 2: Hồi quy tuyến tính (có se)
  geom_text(aes(label = Time), vjust = 1.2, size = 3) +    # Lớp 3: Nhãn năm
  geom_vline(xintercept = 0, linetype = "dotdash") +       # Lớp 4: Đường chuẩn “zero growth”
  geom_hline(yintercept = median(d2_stats$ROS, na.rm = TRUE), linetype = "dotted") + # Lớp 5: Đường trung vị ROS
  scale_x_continuous(labels = scales::percent) +
  scale_y_continuous(labels = scales::percent) +
  labs(title = "Quan hệ giữa tốc độ tăng trưởng doanh thu và ROS theo giai đoạn", x = "GR Doanh thu (%)", y = "ROS (%)", color = "Giai đoạn") +
  theme_bw(base_family = "Times New Roman") +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Cấu trúc chart:
- Trục x: GR_DoanhThu (tốc độ tăng trưởng doanh thu hàng năm, %, có thể âm/0/dương).
- Trục y: ROS (Return on Sales, hiệu suất sinh lời trên doanh thu, %, thường quanh 18–24%).
- Màu sắc: Phân biệt nhóm giai đoạn (trước phục hồi = đỏ, sau phục hồi = xanh ngọc).
- Đám điểm lớn: Từng năm quan sát, nhãn năm giúp nhận biết biến động nổi bật (như 2021, 2022).
Các kết quả phân tích nổi bật:
- Trước phục hồi (đỏ):
  - ROS ổn định nhưng không phản ứng đáng kể với tăng trưởng doanh thu, nhiều năm ở vùng biên lợi nhuận thấp (<20%).
  - Đa số điểm nằm gần đường trung vị, có năm tăng trưởng âm hoặc rất thấp nhưng ROS cũng không giảm đột ngột.
- Sau phục hồi (xanh):
  - Đa số điểm năm nằm ở vùng GR dương, ROS vượt trung bình (~22–24%), nhiều năm biên lợi nhuận cao vượt trội.
  - Đường hồi quy dốc lên, vùng hiệu suất cao tập trung khi doanh thu tăng mạnh (ví dụ các năm sau dịch).
- Năm như 2021, 2022 có cả GR và ROS cùng đạt giá trị cao nhất – minh chứng cho sự phối hợp tốt giữa tăng trưởng và tối ưu sinh lời.
Ý nghĩa quản trị:
- DHG sau phục hồi đã chuyển hoá tốt doanh thu thành lợi nhuận (mối tương quan thuận rõ ràng), hiệu suất ROS có xu thế tăng cùng nhịp với tổng GR.
- Giai đoạn trước phục hồi, doanh nghiệp duy trì biên lợi nhuận nhưng chưa “tối ưu hoá” khi tăng trưởng – hiệu suất còn thấp, sự phối hợp chưa rõ nét.
- Kết quả này cho thấy thành công của chiến lược phục hồi: ngoài việc kéo doanh thu lên, DHG đồng thời tối ưu biên lợi nhuận, tạo nền tài chính vững chắc.

Slopegraph: So sánh thứ hạng/tương quan doanh thu-thuần và LNST từng năm

library(reshape2)
slope_data <- d2_stats %>%
  select(Time, `DT Thuần`, LNST) %>%
  melt(id.vars = "Time")
ggplot(slope_data, aes(x=variable, y=value, group=Time, color=factor(Time))) +
  geom_line(size=1) +                # Lớp 1: Đường nối
  geom_point(size=3) +               # Lớp 2: Điểm
  geom_segment(aes(x=1, xend=2, y=`DT Thuần`, yend=LNST), 
               data = d2_stats, color="gray70", linetype="dotted", size=0.8) + # Lớp 4: Đường bổ trợ bậc thang
  scale_color_viridis_d() +          # Lớp 5: Màu đẹp mắt
  labs(title="Doanh thu thuần & LNST từng năm", x="", y="Giá trị (VND)", color="Năm") + 
  theme_minimal(base_family = "Times New Roman") +
  theme(plot.title = element_text(face = "bold", hjust = 0.5, size = 16), axis.text.y = element_text(size = 10), legend.title = element_text(size = 12), legend.text = element_text(size = 10), axis.text.x = element_text(size = 12))

Cấu trúc chart:
- Trục x: Hai trạm: loại chỉ số (DTTVBHVCCDV10 và LNSTTNDN60).
- Trục y: Giá trị VND của mỗi chỉ số từng năm.
- Mỗi đường nối: Đại diện một năm, màu sắc thể hiện năm (theo mã màu viridis).
- Điểm tại mỗi trạm: Giá trị doanh thu thuần và LNST sau thuế từng năm.
- Đường kẻ bổ trợ (dotted segment): Nhấn mạnh chênh lệch (độ dốc) giữa DTTVBHVCCDV10 và LNSTTNDN60 tại mỗi năm, tách biệt rõ dynamic từng năm.
- Màu viridis: Đảm bảo sắc độ chuyển đều từ thấp đến cao (2015 → 2024), giúp nhận diện nhanh “mốc năm” có thứ hạng cao/thấp về doanh thu/lợi nhuận.
Đọc kết quả:
- Vị trí điểm:
  - Trạm bên trái là doanh thu thuần, bên phải là lợi nhuận sau thuế.
  - Điểm năm càng lên trên nghĩa giá trị càng lớn (đỉnh về doanh thu/lợi nhuận).
- Độ dốc đường nối:
  - Đường càng dốc thể hiện tỷ lệ chuyển hoá doanh thu thành lợi nhuận năm đó thấp (vì phần lợi nhuận cách xa trạm doanh thu, chênh lệch lớn).
  - Đường nối ít dốc (hai trạm gần nhau) cho thấy năm đó DN có hiệu quả chuyển hoá doanh thu sang lợi nhuận cao hơn.
- Năm nổi bật:
  - Các năm gần cuối đồ thị (2023, 2024) nằm ở vị trí cao nhất, cả doanh thu và lợi nhuận đều vượt trội.
  - Năm đầu (2015–2016) nằm dưới cùng, cho thấy DHG đã tăng trưởng mạnh qua từng năm.
Tổng thể: Tất cả các năm, khoảng cách giữa doanh thu và lợi nhuận là khá lớn, song biên độ tăng dần qua các năm, điều này phản ánh vừa tăng trưởng quy mô vừa tăng tốc chuyển hoá lợi nhuận.
Ý nghĩa phân tích cho DHG
- Những năm ở vị trí cao nhất (2023, 2024) là mốc thành công về cả doanh thu lẫn lợi nhuận.
- Khoảng cách lớn giữa DTTVBHVCCDV10 và LNSTTNDN60 phản ánh đặc trưng ngành dược (chi phí lớn, biên lợi nhuận gộp khá ổn định), song mốc lên cao giai đoạn 2021 trở đi là nhờ chiến lược tối ưu danh mục sản phẩm, kiểm soát chi phí và tận dụng thị trường mới
Hiệu suất chuyển hoá tốt hơn: Đường nối năm càng “phẳng” ở cuối chuỗi chứng tỏ biên lợi nhuận cải thiện, lợi ích của cổ đông doanh nghiệp ngày càng lớn khi doanh thu tăng.

Biểu đồ heatmap cho top 5 năm có giá trị ROS cao nhất

high_ros <- d2_stats %>%
  arrange(desc(ROS)) %>%
  slice(1:5) %>%
  select(Time, GiaiDoan_HoiPhuc, ROS, LNST)

heatmap_data <- tidyr::pivot_longer(high_ros, cols = c(ROS, LNST), names_to = "Chiso", values_to = "GiaTri")

ggplot(heatmap_data, aes(x = Chiso, y = factor(Time), fill = GiaTri)) +
  geom_tile(color = "white", linewidth = 0.6) +                         # Layer 1: heatmap
  geom_text(aes(label = round(GiaTri,3)), color="black", size=3) +      # Layer 2: label
  scale_fill_gradient(low = "white", high = "steelblue") +              # Layer 3: màu fill gradient
  facet_wrap(~GiaiDoan_HoiPhuc) +                                       # Layer 4: facet theo giai đoạn
  theme(panel.grid = element_blank(), text = element_text(family="Times New Roman"), plot.title = element_text(size = 16, face = "bold", hjust = 0.5), axis.title = element_text(size = 12), axis.text = element_text(size = 10), strip.text = element_text(size = 12, face = "bold")) +
  labs(title = "Top 5 năm có ROS và LNST cao nhất theo giai đoạn",x = "Chỉ số", y = "Năm", fill = "Giá trị")

Cấu trúc chart:
- Trục y: Danh sách 5 năm cao nhất về ROS (2020–2024, giai đoạn phục hồi).
- Trục x: Hai chỉ số: LNSTTNDN60 (lợi nhuận sau thuế) và ROS (biên lợi nhuận/doanh thu).
- Fill màu: Giá trị LNST lên màu xanh đậm/càng cao, ROS chuyển sắc từ nhạt tới đậm.
- Label: Hiển thị luôn giá trị thực (cả lợi nhuận VND và tỷ suất ROS) cho từng năm.
Các điểm nổi bật
- LNST tất cả các năm đều rất cao: Tăng dần từ 2020 (7385 tỷ) lên tới 2024 (7789 tỷ) – gần như không giảm qua bất kỳ năm nào trong top 5.
- ROS cũng “vọt” qua nhiều năm: Năm 2022 và 2023 có tỷ suất ROS cao nhất (0.238 & 0.235), các năm còn lại vẫn duy trì trên ngưỡng 0.22.
- Màu gradient: Sắc độ đậm đều cho biết không chỉ ROS mà cả LNST đều đạt đỉnh so với toàn chuỗi dữ liệu, các năm này là “giai đoạn vàng” của DHG.
- Facet theo nhóm: Đây là nhóm 1 (phục hồi), không xuất hiện năm nhóm trước đó, cho thấy mức độ bật lên sau Covid là vượt trội.
Ý nghĩa quản trị & phân tích tài chính
- Bức tranh 5 năm đỉnh cao: DHG giai đoạn hậu Covid không chỉ tăng doanh thu mà còn bứt tốc biên lợi nhuận và tuyệt đối hóa lợi nhuận sau thuế.
- Hiệu quả tối ưu hóa đồng bộ: Biển lợi nhuận ROS cao cùng lúc với LNST tăng nhanh, chứng tỏ công ty vừa kiểm soát tốt chi phí vừa nâng sức cạnh tranh sản phẩm chủ lực.
- Đây là luận điểm mạnh — DHG không chỉ tăng trưởng theo xu hướng chung ngành mà còn tận dụng triệt để thời kỳ phục hồi để tối đa hóa cả hiệu suất và lợi nhuận.
- Khẳng định giai đoạn 2020–2024: Đây là 5 năm thành công nhất, là minh chứng cho sức bật, khả năng thích nghi và tác động chiến lược đa chiều của DHG.

Histogram phân phối các chỉ số tài chính

hist_data <- d2_stats %>%
  select(Time, `LN Gộp`, LNST, `CP Bán Hàng`) %>%
  pivot_longer(-Time, names_to="Chiso", values_to="GiaTri")

ggplot(hist_data, aes(x = GiaTri, fill = Chiso, color = Chiso)) +
  geom_histogram(alpha = 0.35, position = "identity", bins = 12) +      # Layer 1: hist overlay
  scale_fill_brewer(palette="Set2") +                                   # Layer 2: fill palette
  scale_color_brewer(palette="Set2") +                                  # Layer 3: color palette
  facet_wrap(~Chiso, scales="free", ncol=1) +                           # Layer 4: facet từng biến
  labs(title = "Histogram phân phối các chỉ số tài chính", x = "Giá trị", y = "Số lần lặp") +
  theme_bw(base_family="Times New Roman") +                             # Layer 5: Theme đẹp
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Chi phí bán hàng:
- Phân phối lệch phải: Số liệu tập trung chủ yếu ở vùng giá trị dương cao, một số ít phía âm (có thể là hoàn nhập/điều chỉnh/ghi âm chi phí năm đặc biệt).
- Có outlier lệch phải: Một số năm CPBH25 rất lớn (từ 5.000 tỷ đến gần 10.000 tỷ), đa số năm chi phí phân bố trong khoảng trung bình (ít bin lặp lại nhiều lần do n mẫu nhỏ).
- Ý nghĩa: DHG duy trì chi phí bán hàng kiểm soát tốt, nhưng có năm chi phí ghi nhận rất cao do mở rộng thị trường hoặc chi phí bất thường.
LNGBHVCCDV20 (Lợi nhuận gộp)
- Phân phối khá đồng đều: Tập trung chủ yếu quanh biên dưới 2.000–2.250 tỷ, ít biến động extreme.
- Có bin nhỏ ở mức thấp: Thể hiện tồn tại một vài năm lợi nhuận gộp giảm mạnh (có thể do biến động giá vốn đầu vào hoặc chi phí bất thường).
- Ý nghĩa: Lợi nhuận gộp của DHG tăng dần qua năm, ít năm outlier, cho thấy khả năng tối ưu hóa giá vốn và năng suất hoạt động cốt lõi.
LNSTTNDN60 (Lợi nhuận sau thuế)
- Tập trung trung bình-cao: LNST sau thuế đa số năm rơi vào group cao nhất, ít năm ở group thấp (values > 7.500 tỷ).
- Ít giá trị thấp: Phần lớn năm DHG giữ LNST cao, chỉ một số bin cho thấy năm khó khăn hoặc chi phí ngoài dự kiến ảnh hưởng.
- Ý nghĩa: DN duy trì kết quả tài chính cuối cùng rất tốt và ổn định ở mức cao, điều này phản ánh thành công trong quản trị chi phí, tối đa hoá lợi ích cổ đông.
Nhận xét tổng quát
- Histogram cho thấy phân phối thực tế các chỉ số tài chính trọng yếu, giúp nhận diện năm đặc biệt (bất thường) hoặc nhóm giá trị trung tâm.
- DHG có hệ số ổn định tốt: Lợi nhuận gộp và sau thuế năm hầu như nằm ở phía cực trên - thể hiện sức cạnh tranh cao, khả năng vượt qua biến động thị trường.
- Chi phí bán hàng tuy có năm đột biến nhưng không kéo dài: Kết quả kinh doanh và hiệu quả lợi nhuận không bị ảnh hưởng tiêu cực về lâu dài.

Area chart động học tích lũy doanh thu và lợi nhuận theo năm

area_data <- d2_stats %>%
  select(Time, `DT Thuần`, LNST) %>%
  pivot_longer(-Time, names_to="Chiso", values_to="GiaTri")

# --- Đảm bảo đã chạy khối code tạo area_data ---

ggplot(area_data, aes(x=Time, y=GiaTri)) + 
  
  # Layer 1: AREA (Dùng FILL)
  geom_area(aes(fill=Chiso), alpha=.7, position="identity") + 
  
  # Layer 2: LINE (Dùng COLOR)
  geom_line(aes(color=Chiso), size=1.2) + 
  
  # Layer 3: POINT (Dùng COLOR)
  # Đã sửa: Gán màu viền đen cho điểm, nhưng màu bên trong theo color=Chiso
  geom_point(aes(color=Chiso), size=3, shape=21, fill="white", stroke=1) + 
  
  # Layer 4: FACET
  facet_wrap(~Chiso, scales="free_y") +
  
  # Layer 5: SCALES (Đồng bộ Fill và Color)
  scale_fill_manual(values=c("forestgreen","goldenrod")) + 
  scale_color_manual(values=c("forestgreen","goldenrod")) + 
  
  # Layer 6: SCALES X (Loại bỏ năm lẻ)
  scale_x_continuous(breaks = function(x) x[as.numeric(x) %% 2 == 0]) + 
  
  # Layer 7 & 8: LABELS và THEME
  labs(title="Tích lũy doanh thu và lợi nhuận các năm", x="Năm", y="Giá trị", fill="Chỉ số", color="Chỉ số") +
  theme_bw(base_family="Times New Roman") +
  theme(legend.position="none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Area chart so với line chart truyền thống: Vùng tô màu bổ sung cho line chart giúp nhấn mạnh tích lũy, tức là tổng quy mô tài chính từng giai đoạn – đặc biệt phù hợp để báo cáo phân tích xu hướng.

Đọc kết quả area chart

Facet trái (DTTVBHVCCDV10 – doanh thu thuần): Đường và vùng area màu xanh lá cây thể hiện tổng doanh thu thuần mỗi năm. Nhìn chung, doanh thu của DHG tăng ổn định, từ 2015–2020 đi ngang nhẹ, từ 2021 trở đi thì tăng mạnh và giữ ở mức cao nhất giai đoạn cuối (2023–2024). Đường nối điểm (line + point) giúp trực quan hóa tốc độ thay đổi từng năm, các điểm nổi bật giúp xác định năm cao/thấp dễ dàng.

Facet phải (LNSTTNDN60 – lợi nhuận sau thuế): Vùng area màu vàng cùng đường line/point cho thấy LNST của DHG tăng đều, đặc biệt rõ từ năm 2021. Cả hai chỉ số đều không có năm nào giảm sốc, luôn duy trì mặt bằng cao nhờ hiệu quả vận hành doanh nghiệp, nhất là giai đoạn sau phục hồi.

Phân phối hiệu suất tài chính theo nhóm

library(ggridges)

ridge_data <- d2_stats %>%
  select(Time, GiaiDoan_HoiPhuc, ROS, LNST) %>%
  pivot_longer(cols=c(ROS,LNST), names_to="Chiso", values_to="GiaTri")

ggplot(ridge_data, aes(x=GiaTri, y=Chiso, fill=factor(GiaiDoan_HoiPhuc))) +
  geom_density_ridges(alpha=0.8, rel_min_height=0.01, color="gray70") +  # Layer 1: Ridge
  scale_fill_manual(values=c("darkolivegreen","deepskyblue")) +          # Layer 2: màu gradient
  facet_wrap(~GiaiDoan_HoiPhuc) +                                       # Layer 3: facet theo nhóm
  labs(title="Phân phối hiệu suất tài chính theo nhóm", x="Giá trị", y="Chỉ số") +
  theme_bw(base_family="Times New Roman") +                             # Layer 4: theme
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Facet trái (0): Trước phục hồi

Dải phân phối ROS (trục trên) rất hẹp, tập trung quanh giá trị thấp ~0.18–0.20, gần như không có biên động bất thường. Điều này cho thấy hiệu suất sinh lời trước 2020 ổn định nhưng chưa cao.

LNSTTNDN60 (trục dưới) cũng phân phối tập trung, chủ yếu ở khoảng 6,400–7,000 tỷ (bên phải vùng peak nhỏ), cho thấy giai đoạn này lợi nhuận sau thuế duy trì tốt nhưng chưa bật lên mạnh.

Facet phải (1): Sau phục hồi

Dải ROS mở rộng hơn, chuyển hẳn sang ngưỡng cao (0.22 trở lên), chứng tỏ biên lợi nhuận tăng mạnh giai đoạn sau dịch.

Phân phối LNSTTNDN60 cũng dịch chuyển sang phía giá trị lớn hơn (toàn bộ vùng peak dịch lên 7,700–7,800 tỷ), biểu hiện sức bật vượt trội của lợi nhuận sau thuế từ 2020 trở về sau.

Tách biệt nhóm: Hai nhóm có vùng peak khác nhau, điểm cực đại đều xa nhau, không trùng lặp vùng phân phối — minh chứng cho chuyển biến mạnh mẽ của DHG qua hai thời kỳ.

Tỷ trọng chi phí và lợi nhuận từng năm

stack_data <- d2_stats %>%
  select(Time, `CP Bán Hàng`, `CP QLDN`, LNST) %>%
  pivot_longer(-Time, names_to="Chiso", values_to="GiaTri") %>%
  group_by(Time) %>%
  mutate(prop = GiaTri/sum(abs(GiaTri)))

ggplot(stack_data, aes(x=factor(Time), y=prop, fill=Chiso)) +
  geom_bar(stat="identity", width=0.8) +                  # Layer 1: stacked bar
  scale_fill_brewer(palette = "Pastel2") +                # Layer 2: màu tổng thể
  geom_hline(yintercept = 0.5, linetype = "dotted") +     # Layer 3: baseline
  geom_text(aes(label=scales::percent(prop,accuracy=1)), 
            position=position_stack(vjust=0.5), size=2.8) + # Layer 4: nhãn %
  labs(title="Tỷ trọng chi phí và lợi nhuận từng năm",
       x="Năm", y="Tỷ trọng", fill="Khoản mục") +
  theme_minimal(base_family="Times New Roman") +             # Layer 5: Theme đẹp
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart:

Trục x: Năm từ 2015–2024

Trục y: Tỷ trọng từng khoản mục trong tổng chi phí/lợi nhuận (tính bằng tỉ lệ % của giá trị tuyệt đối từng mục trên tổng)

Màu sắc:

Xanh lá (CPBH25): chi phí bán hàng

Cam (CPQLDN26): chi phí quản lý doanh nghiệp

Xanh lam (LNSTTNDN60): lợi nhuận sau thuế

Các con số trên cột: Tỷ lệ % tương ứng từng mục mỗi năm (tính luôn dấu âm/dương), giúp so sánh nhanh hiệu quả chuyển hóa/doanh thu.

Kết quả:

Lợi nhuận sau thuế (LNSTTNDN60): Tỷ trọng duy trì quanh ~38–45% tổng chi phí/lợi nhuận mỗi năm, đây là mức ổn định và khá cao cho ngành dược. Không có năm nào LNST giảm xuống mức cực thấp, chứng tỏ khả năng kiểm soát tốt hiệu quả kinh doanh.

Chi phí bán hàng (CPBH25): Tỷ trọng thường lớn nhất trong các khoản, đặc biệt năm 2017–2024 đều vượt ngưỡng -40% (phần âm, chi phí), nhưng không có xu hướng tăng kéo dài qua nhiều năm, cho thấy DN kiểm soát tốt dù áp lực cạnh tranh lớn sau Covid.

Chi phí quản lý doanh nghiệp (CPQLDN26): Ổn định quanh mức thấp hơn, thường từ -14% tới -20%, và không có năm nào “bật tăng” cực mạnh.

Tính ổn định cấu trúc: Năm nào LNST cao thì chi phí thường được kiềm chế, chi phí bán hàng có tăng nhưng không làm giảm mạnh lợi nhuận; điều này phản ánh năng lực quản trị và tối ưu hóa chiến lược bán hàng/kênh phân phối rất tốt tại DHG.

Năm nổi bật trong thập kỷ: 2021–2024 có tỷ trọng LNST gần cao nhất chuỗi, đi kèm với chi phí bán hàng và quản lý không tăng đột biến, cho thấy giai đoạn “phục hồi” rất hiệu quả.

Ý nghĩa:

Biểu đồ này minh họa rằng: công ty CP Dược Hậu Giang duy trì cấu trúc chi phí/lợi nhuận tối ưu, không có năm nào bị chi phí bán hàng “outlier” kéo tỷ trọng lợi nhuận xuống thấp bất thường.

Sự đồng đều qua chuỗi năm cả về chi phí bán hàng lẫn quản lý, cùng tỷ trọng lợi nhuận giữ ở mức cao, là minh chứng cho sức cạnh tranh và năng lực thích nghi hiệu quả trước thách thức thị trường (đặc biệt sau năm Covid).

Mối quan hệ giữa chi phí bán hàng và tỷ suất ROS các năm

ggplot(d2_stats, aes(x = `CP Bán Hàng`, y = ROS, color = Time)) +
  geom_point(size=3) +                                 # Layer 1: scatter
  geom_smooth(method="lm", se=FALSE, color="black") +  # Layer 2: regression
  scale_color_gradient(low="gold", high="navy") +      # Layer 3: gradient năm
  geom_text(aes(label=Time), vjust=1.2, hjust=1.1, size=2.7) + # Layer 4: label
  labs(title="Mối quan hệ giữa chi phí bán hàng và hiệu suất ROS các năm",
       x="Chi phí bán hàng", y="ROS (%)", color="Năm") +
  theme_bw(base_family="Times New Roman") +              # Layer 5: theme font
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart: Trục x: Giá trị tuyệt đối của chi phí bán hàng (CPBH25) từng năm.

Trục y: Chỉ số hiệu suất sinh lời trên doanh thu (ROS, đơn vị %).

Màu sắc: Gradient từ vàng (năm cũ hơn, 2015) sang xanh navy (năm gần đây, 2024), giúp nhận diện mốc năm mạnh/yếu hoặc chuyển dịch theo thời gian.

Nhãn năm: Mỗi điểm có nhãn năm giúp xác định rõ từng kỳ báo cáo tài chính.

Đường regression: Đường hồi quy thể hiện xu hướng tuyến tính giữa hai biến.

Kết quả và ý nghĩa phân tích:

Xu hướng đồng pha dương: Đường hồi quy có slope dương, thể hiện khi chi phí bán hàng tăng, ROS cũng tăng lên. Đây là dấu hiệu cho thấy DHG sử dụng chi phí bán hàng hiệu quả, mỗi đồng chi ra cho bán hàng giúp góp phần nâng cao hiệu suất sinh lời.

Cụm giá trị nổi bật: Các năm gần đây (2022, 2023) nằm ở vùng CPBH cao nhất và ROS cao nhất (0.24), chứng tỏ giai đoạn sau phục hồi doanh nghiệp đã tận dụng hiệu quả các khoản “đầu tư bán hàng” để tối đa hóa lợi ích.

Năm thấp: 2015–2017 có chi phí bán hàng thấp và ROS cũng thấp, cho thấy thời kỳ này doanh nghiệp chưa mạnh dạn chi cho kênh bán hàng hoặc hoạt động hỗ trợ tiêu thụ, dẫn đến hiệu suất không bật cao.

Đặc biệt 2024: Điểm 2024 nằm lệch, chi phí bán hàng giảm mạnh nhưng ROS cũng về mức thấp hơn đỉnh — có thể do chiến lược tiết giảm chi phí mạnh hoặc thị trường đã bão hòa, cần theo dõi thêm những năm sau.

Kết luận vận hành: Mối quan hệ thuận này khẳng định chi phí bán hàng ở DHG không phải là “lãng phí” mà là khoản đầu tư sinh lời, thúc đẩy gia tăng hiệu suất kinh doanh.

Barplot từng khoản mục chi phí/doanh thu theo từng nhóm phục hồi

bar_data <- d2_stats %>%
  select(Time, GiaiDoan_HoiPhuc, `CP Bán Hàng`, `CP QLDN`, `DT Thuần`) %>%
  pivot_longer(cols = c(`CP Bán Hàng`, `CP QLDN`, `DT Thuần`), names_to = "Chiso", values_to = "GiaTri")
ggplot(bar_data, aes(x = factor(Time), y = GiaTri, fill = factor(GiaiDoan_HoiPhuc))) +
  geom_col(position = "dodge", alpha = 0.8) +           # Layer 1: Bar
  facet_wrap(~Chiso, scales = "free_y") +               # Layer 2: Tách biến
  geom_hline(yintercept = 0, linetype = "dashed") +     # Layer 3: Baseline
  scale_fill_manual(values = c("gray50", "deepskyblue3")) + # Layer 4: Màu
  # Layer Bổ sung: Giảm số lượng nhãn hiển thị trên trục X
  scale_x_discrete(breaks = function(x) x[as.numeric(x) %% 2 == 0]) +
  labs(title = "So sánh khoản mục tài chính theo nhóm giai đoạn", x = "Năm", y = "Giá trị", fill = "Giai đoạn") +
  theme_bw(base_family = "Times New Roman") +             # Layer 5: Theme chữ
  theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 6))

Biểu đồ barplot này so sánh cùng lúc từng khoản mục tài chính chủ chốt của DHG giai đoạn 2015–2024 cho hai nhóm: trước phục hồi (màu xám) và giai đoạn phục hồi (màu xanh). Mỗi facet là một khoản mục: CPBH25 (chi phí bán hàng), CPQLDN26 (chi phí quản lý doanh nghiệp), DTTVBHVCCDV10 (doanh thu thuần).

CPBH25 (Chi phí bán hàng)

Từ 2020 trở đi (màu xanh), chi phí bán hàng tăng rõ rệt, các năm phục hồi chiếm vị trí cao nhất (2021–2024), phản ánh DN tăng đầu tư cho bán hàng khi thị trường bật tăng mạnh.

Trước đó (màu xám), chi phí ổn định quanh 6.000–7.500 tỷ, không có năm nào thực sự “outlier”.

CPQLDN26 (Chi phí quản lý DN)

Có tăng nhẹ ở giai đoạn 2020–2024, tuy nhiên ít biến động hơn chi phí bán hàng, thể hiện kiểm soát tốt chi phí hành chính dù quy mô mở rộng.

Sự khác biệt giữa hai nhóm không rõ rệt như CPBH25, cho thấy DN ưu tiên tối ưu hóa quản trị, nâng chi phí cho nhóm tạo doanh thu trực tiếp nhiều hơn.

DTTVBHVCCDV10 (Doanh thu thuần)

Doanh thu thuần tăng mạnh ở nhóm phục hồi (nhất là các năm 2021–2023), đạt đỉnh cao mới, tỷ lệ tăng trưởng nổi bật hơn hẳn các năm trước Covid.

Sự bứt phá doanh thu song hành với “vọt” chi phí bán hàng, cho thấy chiến lược đẩy mạnh bán hàng sau đại dịch rất thành công.

Kết luận:

Chi phí bán hàng bật tăng cùng doanh thu: Khi doanh thu bùng nổ giai đoạn phục hồi, chi phí bán hàng cũng tăng theo (có chủ động đầu tư mạnh cho tăng trưởng).

Chi phí quản lý duy trì ổn định: Không tăng vọt như chi phí bán hàng, minh chứng kiểm soát quản trị tốt dù doanh thu tăng.

Phân nhóm rõ: Về tổng thể, nhóm phục hồi có tầm vóc tài chính lớn hơn hẳn và cấu trúc chi phí chuyển dịch theo hướng tích cực cho phát triển.

Biểu đồ này lý tưởng để chứng minh “sức bật sau đại dịch” và vai trò chủ động trong phân bổ nguồn lực — cho thấy DN tăng đầu tư đúng lúc, đúng chỗ, hiệu quả quản trị tài chính tổng thể tốt.

DHG đã chủ động điều chỉnh chiến lược chi phí bán hàng và quản lý phù hợp từng giai đoạn, đảm bảo tối ưu hóa hiệu quả khi thị trường thay đổi.

Lineplot động học so sánh đồng thời 3 chỉ số vốn – lãi – chi phí

line_data <- d2_stats %>%
  select(Time, `DT Thuần`, LNST, `CP QLDN`) %>%
  pivot_longer(cols = -Time, names_to = "Chiso", values_to = "GiaTri")

ggplot(line_data, aes(x = Time, y = GiaTri, color = Chiso, group = Chiso)) +
  geom_line(size = 1.3) +                           # Layer 1: Đường
  geom_point(size = 2.7) +                          # Layer 2: Điểm nhấn
  geom_vline(xintercept = 2020, linetype = "dotted") + # Layer 3: Gạch mốc
  facet_wrap(~Chiso, scales = "free_y") +           # Layer 4: Facet
  scale_color_manual(values = c("firebrick", "steelblue", "chartreuse4")) + # Layer 5: Màu
  scale_x_discrete(
    # Chỉ giữ lại nhãn nếu Năm chia hết cho 2 (2016, 2018, 2020, ...)
    breaks = function(x) x[as.numeric(x) %% 2 == 0]
  ) +
  labs(title = "Động học tài chính các năm", x = "Năm", y = "Giá trị", color = "Chỉ số") +
  theme_bw(base_family = "Times New Roman") +
  theme(
    # Thêm dòng này để xoay nhãn 45 độ và căn chỉnh vị trí
    axis.text.x = element_text(angle = 45, hjust = 1, size = 10)
  )

Biểu đồ lineplot này giúp quan sát động học tài chính của DHG qua ba chỉ số chính: doanh thu thuần bán hàng & cung cấp dịch vụ (DTTVBHVCCDV10), lợi nhuận sau thuế (LNSTTNDN60) và chi phí quản lý doanh nghiệp (CPQLDN26), từng năm 2015–2024.

Facet đỏ (CPQLDN26 – chi phí quản lý DN): Có dao động qua từng năm, xuất hiện một số năm “âm” (hoàn nhập/giảm chi phí đáng kể) nhưng xu hướng chung là tăng từ 2020 trở đi rồi ổn định mặt bằng cao. Các điểm năm phục hồi (2021–2024) nằm ở vùng cao nhất, minh chứng cho việc DN mở rộng vận hành và quy mô quản lý sau dịch.

Facet xanh (DTTVBHVCCDV10 – doanh thu thuần): Doanh thu tăng ổn định các năm 2015–2019; từ 2021 vọt mạnh mẽ, duy trì đỉnh 5.000 tỷ ở cuối chuỗi. Vạch dọc năm 2020 chia mốc trước/sau phục hồi, cho thấy sau Covid doanh nghiệp tăng trưởng doanh thu rất ấn tượng.

Facet xanh lá (LNSTTNDN60 – lợi nhuận sau thuế): LNST biến động nhẹ giai đoạn đầu nhưng tăng vọt rõ ràng từ 2021 trở đi, ba năm liên tục ở mức cao (gần 8.000 tỷ). Điều này phản ánh chuyển biến tích cực trong vận hành tài chính — biên lợi nhuận được cải thiện khi doanh thu tăng và chi phí quản lý được “dồn lực” tối ưu.

Kết luận: Cả doanh thu và lợi nhuận sau thuế đều có bước nhảy mạnh sau năm 2020, các điểm mốc sau phục hồi đều vượt đỉnh so với toàn chuỗi dữ liệu.

Chi phí quản lý DN tăng theo, nhưng không quá bất thường — xác nhận doanh nghiệp kiểm soát được bộ máy vận hành khi quy mô mở rộng.

Biểu đồ này lý tưởng để minh họa “trục phát triển vượt khó – bật mạnh giai đoạn phục hồi” của DHG và sự đồng bộ vận hành các mắt xích tài chính.

Quan hệ giữa LN Gộp và Chi phí bán hàng theo giai đoạ

ggplot(d2_stats, aes(x = `CP Bán Hàng`, y = `LN Gộp`, color = factor(GiaiDoan_HoiPhuc), label = Time)) +
  geom_point(size = 3, alpha = 0.8) +                # Layer 1: scatter
  geom_smooth(method = "lm", color = "black", linetype = "dashed") +  # Layer 2: regression
  geom_text(nudge_y = 0.03, size = 2.5) +            # Layer 3: label năm
  scale_color_manual(values = c("darkgray", "dodgerblue")) + # Layer 4: color
  labs(title = "Quan hệ giữa LN gộp và chi phí bán hàng theo giai đoạn", x = "Chi phí bán hàng", y = "LN Gộp") +
  theme_bw(base_family = "Times New Roman") +         # Layer 5: theme
  theme(legend.position = "none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Biểu đồ scatter plot này so sánh trực tiếp giữa lợi nhuận gộp (LNGBHVCCDV20) và chi phí bán hàng (CPBH25), phân biệt theo hai nhóm giai đoạn (trước phục hồi: màu xám; phục hồi: màu xanh), nhãn năm nổi bật trong từng điểm.

Cấu trúc chart:

Trục x: Chi phí bán hàng từng năm, mức âm/dương thể hiện điều chỉnh hoặc đặc thù kỳ kế toán.

Trục y: Lợi nhuận gộp của từng năm, đơn vị VND.

Màu sắc: Nhóm 0 (trước phục hồi – xám) và nhóm 1 (phục hồi – xanh), giúp nhìn rõ phân nhóm thời gian.

Nhãn năm: Gắn nhãn từng năm, thuận tiện đối chiếu các năm “spike”/đột biến.

Đường hồi quy (dashed): Slope dương, thể hiện mối quan hệ thuận giữa hai biến — chi phí bán hàng tăng thì lợi nhuận gộp cũng tăng theo.

Kết quả:

Nhóm phục hồi: Rõ ràng các năm phục hồi (2021–2024) có cả chi phí bán hàng và lợi nhuận gộp cao hơn, các năm này nằm phía ngoài cùng bên phải/vùng trên so với chuỗi cũ. Năm 2022–2023 là đỉnh cả về chi phí lẫn lợi nhuận — đồng thuận với xu hướng DN chủ động tăng đầu tư bán hàng để kéo tăng trưởng hiệu quả.

Nhóm trước phục hồi: Các điểm nằm đa số ở vùng chi phí bán hàng thấp hơn và lợi nhuận gộp cũng thấp — không có điểm nào vượt đỉnh như nhóm phục hồi.

Ý nghĩa quản trị: Slope hồi quy dương cho thấy ở DHG, chi phí bán hàng không là “chi phí chết” mà thực sự là khoản giúp thúc đẩy tăng trưởng lợi nhuận. DN kiểm soát tốt “tỉ lệ thu hồi” cho từng đồng chi phí bán hàng sau dịch.

Kết luận:

Biểu đồ này khẳng định luận điểm: trong ngành dược, DN nên chủ động tăng chi phí bán hàng khi có cơ hội thị trường, nếu chiến lược đầu tư phù hợp thì lợi nhuận gộp sẽ tăng theo, không bị “ăn mòn” như các ngành khác.

Phân nhóm cho thấy “sức bật sau phục hồi” không chỉ là bề mặt doanh thu/gộp mà còn đến từ quyết sách chi phí bán hàng đúng thời điểm.

DHG tối đa hóa lợi nhuận gộp bằng chiến lược đầu tư tích cực cho bán hàng, chuyển hóa thành công nguồn lực thành kết quả cụ thể, nhất là giai đoạn phục hồi.

Heatmap chỉ số tài chính theo năm và trạng thái giai đoạn phục hồi

heat_data <- d2_stats %>%
  select(Time, GiaiDoan_HoiPhuc, `LN Gộp`, `CP Bán Hàng`, LNST) %>%
  pivot_longer(-c(Time, GiaiDoan_HoiPhuc), names_to = "Chiso", values_to = "GiaTri") %>%
  # --- THÊM BƯỚC: Chia GiaTri cho 1.000.000 để dễ đọc hơn ---
  mutate(GiaTri_TrieuDong = GiaTri / 1000000) %>% # Chia cho 1 triệu để đơn vị là Triệu đồng
  # --- THÊM BƯỚC: Đổi tên các chỉ số cho dễ đọc trên trục X ---
  mutate(Chiso_label = Chiso)

ggplot(heat_data, aes(x = Chiso_label, y = factor(Time), fill = GiaTri_TrieuDong)) + # Dùng Chiso_label và GiaTri_TrieuDong
  geom_tile(color = "white") +                                # Layer 1: main heatmap
  # --- BỎ LAYER geom_text VÌ SỐ QUÁ LỚN & ĐÈ NHAU ---
  # geom_text(aes(label = round(GiaTri, -4)), color = "black", size = 2.7) +
  scale_fill_gradient(low = "white", high = "firebrick") +    # Layer 2: fill
  facet_wrap(~GiaiDoan_HoiPhuc, labeller = as_labeller(c('0' = 'Trước phục hồi', '1' = 'Phục hồi'))) +
  labs(
    title = "Heatmap Chỉ Số Tài Chính theo Năm/Giai Đoạn",
    x = "Chỉ số", y = "Năm", fill = "Giá trị (Triệu đồng)" # Cập nhật nhãn fill
  ) +
  theme_minimal(base_family = "Times New Roman") +            # Layer 3: theme
  theme(
    # Layer 4: Sửa lỗi chồng chéo nhãn trục X
    axis.text.x = element_text(angle = 45, hjust = 1, size = 10),
    # Điều chỉnh màu thanh chú giải để không bị ẩn
    legend.title = element_text(color = "black"),
    legend.text = element_text(color = "black")
  )

Cấu trúc chart:

Trục y: Năm từ 2015–2024.

Trục x: Ba chỉ số tài chính (CP Bán hàng, LN Gộp, LNST), đi kèm nhãn dễ đọc, được tính theo đơn vị triệu đồng.

Fill màu: Sắc độ màu đỏ càng đậm là giá trị càng lớn (theo thanh chú giải bên phải).

Facet: Phân nhóm “Trước phục hồi” (2015–2019) và “Phục hồi” (2020–2024) để dễ so sánh.

Kết quả:

Giai đoạn phục hồi (2020–2024): Các mảng màu đỏ ở khu vực “Phục hồi” đậm nét hơn rõ rệt trên cả ba chỉ số, đặc biệt là LN Gộp và LNST. Điều này cho thấy tổng thể doanh nghiệp tăng trưởng mạnh, đồng đều ở cả doanh thu, lợi nhuận gộp và lợi nhuận ròng.

Các năm 2021–2023 xuất hiện “tông đỏ” đậm rõ nhất, minh chứng cho thời kỳ đạt đỉnh tài chính, tối ưu hóa hiệu quả vận hành.

Trước phục hồi (2015–2019): Giá trị cả ba chỉ số thấp hơn đáng kể, sắc độ màu nhẹ, thể hiện DN giai đoạn này hoạt động ổn, ổn định nhưng chưa bật phá mạnh.

CP Bán hàng: Cùng tăng mạnh song hành với LN Gộp và LNST ở nhóm phục hồi, thể hiện rõ chiến lược đẩy mạnh bán hàng–marketing, góp phần cải thiện hiệu quả kinh doanh tổng thể.

Kết nối hai giai đoạn: Chuyển dịch màu sắc từ nhạt (trước hồi phục) sang đậm (sau hồi phục) cho thấy sự thay đổi nội tại đồng bộ cả về chi phí, lợi nhuận và doanh thu, minh chứng cho sự hiệu quả trong tái cơ cấu và chiến lược thích ứng của DHG sau cú sốc thị trường.

Bubble Chart: 3 chiều thời gian–biến–hiệu suất

ggplot(d2_stats, aes(x = Time, y = ROS, size = `CP Bán Hàng`, fill = factor(GiaiDoan_HoiPhuc))) +
   geom_point(shape = 21, alpha = 0.8) +                          # Layer 1: Bubble
   scale_size(range = c(2, 12)) +                                 # Layer 2: Size bất đối xứng
   geom_line(aes(group=1), color="gray60", linetype="solid") +    # Layer 3: Timeline, dùng linetype="solid"
   scale_fill_manual(values = c("firebrick2", "deepskyblue3")) +  # Layer 4: Color group
   labs(title = "ROS - Chi phí bán hàng theo năm", 
        x = "Năm", y = "ROS", size = "`CP Bán Hàng`") +
   theme_bw(base_family = "Times New Roman") +                     # Layer 5: Theme
   theme(legend.position="none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart:

Trục x: Năm từ 2015 đến 2024—cho thấy diễn biến ROS từng năm.

Trục y: ROS (Return on Sales)—biên lợi nhuận/doanh thu, giá trị càng cao, doanh nghiệp càng hiệu quả chuyển hóa doanh thu thành lợi nhuận.

Kích thước điểm: Biểu diễn giá trị chi phí bán hàng (CPBH25)—bubble càng lớn, chi phí bán hàng càng cao. Điểm càng nhỏ là năm chi phí thấp.

Màu điểm: Đỏ (giai đoạn trước) và xanh (giai đoạn phục hồi)—không bị trùng, giúp nhận diện mốc chuyển pha thị trường.

Kết quả: Trước phục hồi (đỏ): Biên lợi nhuận ROS quanh mức 0.18–0.20, đối xứng với bubble nhỏ hoặc vừa—các năm này DHG duy trì chi phí bán hàng thận trọng, hiệu suất ổn định chưa có cú bật mạnh.

Sau phục hồi (xanh): Bubble lớn hơn tương ứng với chi phí bán hàng tăng rõ, ROS cũng tăng mạnh lên vùng 0.22–0.24 từ năm 2020—cho thấy chiến lược đầu tư bán hàng “hợp lý, đúng thời điểm” giúp cải thiện hiệu suất sinh lời.

Điểm năm 2021–2023: Là những năm có bubble cực lớn và ROS cao nhất. Điều này đồng thuận với kết quả phân tích các chart khác: DHG vận hành rất hiệu quả giai đoạn hậu COVID, chi phí bán hàng “ăn khớp” tối ưu với biên lợi nhuận ROS.

Đường nối các điểm: Thể hiện rhythm động học qua chuỗi thời gian, bạn có thể dùng thêm cho giải thích về quá trình chuyển đổi, nhận biết năm đột biến hoặc chậm lại.

Kết luận:

Chart này là “minh họa trực quan nhất” cho luận điểm: Tại DHG, tăng chi phí bán hàng hợp lý là động lực nâng hiệu suất ROS, đặc biệt sau dịch.

Cho thấy vai trò đầu tư bán hàng trong phục hồi, hiệu quả quản trị, không chỉ “chi phí” mà là “khoản đầu tư sinh lời” rõ rệt nhất.

Tốc độ tăng trưởng chi phí bán hàng/quản lý qua năm

growth_cp <- d2_stats %>%
  mutate(GR_BanHang = (`CP Bán Hàng` / lag(`CP Bán Hàng`)) - 1,
         GR_QLDN = (`CP QLDN` / lag(`CP QLDN`)) - 1) %>%
  select(Time, GR_BanHang, GR_QLDN) %>%
  pivot_longer(-Time, names_to = "ChiPhi", values_to = "TangTruong")

ggplot(growth_cp, aes(x = factor(Time), y = TangTruong, fill = ChiPhi)) +
  geom_col(position="dodge") +             # Layer 1: bar
  scale_fill_manual(values = c("orange", "#527dbf")) + # Layer 2: màu
  geom_hline(yintercept = 0, linetype="dotted") +   # Layer 3: baseline
  geom_text(aes(label = scales::percent(TangTruong, 0.1)), 
            position=position_dodge(width=0.9), vjust=-0.7, size=2.5) + # Layer 4: nhãn
  labs(title="Tốc độ tăng trưởng chi phí bán hàng/quản lý qua năm",
       x="Năm", y="Tăng trưởng (%)", fill="Khoản mục") +
  theme_bw(base_family="Times New Roman") +  # Layer 5: theme
  theme(legend.position="none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart: Trục x: Năm tài chính (các mốc 2015–2024).

Trục y: Tỉ lệ tăng trưởng (%) từng năm so với năm trước, giá trị dương là tăng, giá trị âm là giảm.

Màu cột: Cam – chi phí bán hàng, Xanh navy – chi phí quản lý.

Nhãn % trên cột: Hiển thị trực tiếp tốc độ tăng trưởng, giúp nhận diện năm đặc biệt, không cần đọc lại nhãn trục y.

Đường baseline nét đứt: Đại diện mốc “zero growth”, cắt chia tăng–giảm rõ ràng.

Kết quả:

Năm tăng mạnh: 2017–2023 là giai đoạn liên tục có giá trị dương, tức là cả chi phí bán hàng lẫn quản lý đều tăng tương đối qua mỗi năm. Nổi bật nhất là các năm 2019–2023, GR chi phí bán hàng lên đến 13–16% và GR quản lý cũng tăng 4.3–16.6%. Giai đoạn này là thời kỳ nhu cầu mở rộng kênh phân phối, tăng thị phần, hoặc đầu tư cơ cấu lại bộ máy quản lý.

Năm giảm mạnh: 2015–2017 và 2024 có các giá trị tăng trưởng rất âm (giảm >150%), xảy ra đồng thời ở cả hai khoản mục. Những năm này thường là năm DN tái cấu trúc, siết lại chi phí, hoặc tận dụng hoạt động hiệu quả nên chủ động tiết giảm để tối ưu hóa lợi nhuận.

Chu kỳ tăng trưởng tuần tự: Không phải năm nào cũng tăng liên tục, cho thấy DN chủ động cân đối và điều chỉnh tốc độ tăng đầu tư vào chi phí bán hàng/quản lý tùy nhu cầu thực tế, không bị “đốt tiền” kéo dài.

Kết luận:

DHG sở hữu khả năng kiểm soát chặt tốc độ tăng trưởng chi phí, không để lạm phát “chi quá đầu” và luôn chủ động điều chỉnh cho phù hợp mục tiêu chiến lược.

Tỷ trọng cấu thành doanh thu – LN gộp từng năm

mosaic_data <- d2_stats %>%
  select(Time, `DT Thuần`, `LN Gộp`) %>%
  pivot_longer(-Time, names_to="KhoanMuc", values_to = "GiaTri") %>%
  group_by(Time) %>%
  mutate(prop=GiaTri/sum(GiaTri)) 

ggplot(mosaic_data, aes(x=factor(Time), y=prop, fill=KhoanMuc)) +
  geom_bar(stat="identity", width=0.75) +              # Layer 1: mosaic
  scale_fill_brewer(palette="Set2") +                  # Layer 2: màu
  geom_text(aes(label=scales::percent(prop,0.1)), 
            position=position_stack(vjust=0.5), size=2.2) + # Layer 3: nhãn %
  labs(title = "Tỷ trọng cấu thành doanh thu – LN gộp từng năm", x="Năm", y="Tỷ trọng", fill="Khoản mục") +      # Layer 4: nhãn
  theme_minimal(base_family="Times New Roman")  +       # Layer 5: theme
  theme(legend.position="none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart:

Trục x: Năm tài chính, từng cột là một năm.

Trục y: Tỷ trọng (hoặc phần trăm) cấu thành – mỗi cột luôn tổng 100%.

Phần màu xanh lá: Tỷ trọng doanh thu thuần, luôn chiếm phần lớn (~67–72% mỗi năm).

Phần màu cam: Tỷ trọng lợi nhuận gộp, chiếm ~28–32%.

Nhãn trực tiếp: Hiển thị chính xác tỷ lệ % cho từng khoản mục trong từng năm – rất rõ ràng để so sánh, không cần dò thêm.

Kết quả:

Ổn định cấu trúc: Tỷ trọng lợi nhuận gộp duy trì hơn 30% xuyên suốt cả chuỗi năm, cho thấy DHG giữ biên lợi nhuận gộp rất ổn định dù biến động thị trường và chi phí nguyên vật liệu (một điểm mạnh so với nhiều DN khác trong ngành).

Năm dịch chuyển: Giai đoạn 2020–2022 có tỷ trọng lợi nhuận gộp nhỉnh hơn (~32.4–32.6%), phần doanh thu thấp hơn nhẹ – có thể là do giá vốn hoặc chi phí đầu vào được kiểm soát tốt hơn, lợi thế cạnh tranh tăng lên.

Không có năm “phá vỡ cấu trúc”: Không năm nào phần màu cam sụt giảm mạnh (về 20–25%), cũng không có năm nào “vọt lên” quá 33% – thể hiện chiến lược quản lý giá vốn, cấu trúc sản phẩm và kênh bán ổn định.

Kết luận:

Biểu đồ này lý tưởng để khẳng định: DHG duy trì “cốt lõi bền vững” trong cấu trúc doanh thu và lợi nhuận gộp suốt nhiều năm, bất kể đại dịch, cạnh tranh hay biến cố thị trường.

Biên lợi nhuận gộp ổn định ở mức ~30% không chỉ giúp DHG chống chịu tốt với biến động mà còn tạo ra sức bật thực sự khi thị trường phục hồi.

Chuỗi biến động đồng thời nhiều biến tài chính

library(ggrepel)
spag_data <- d2_stats %>%
  select(Time, `DT Thuần`, LNST, `CP QLDN`, `CP Bán Hàng`, `Giá Vốn`) %>%
  pivot_longer(-Time, names_to = "Chiso", values_to = "GiaTri")
label_data <- spag_data %>%
  filter(Time == max(Time))
ggplot(spag_data, aes(x = Time, y = GiaTri, group = Chiso, color = Chiso)) +
  geom_line(size=1.1) +                                           
  geom_point(size=2) +                                           
  geom_vline(xintercept=2020, linetype="dashed", color="gray70") + 
  geom_text_repel(data = label_data, aes(label = Chiso), size = 4, family = "Times New Roman", nudge_x = 0.5, direction = "y", segment.color = 'transparent') +
  scale_color_brewer(palette="Dark2") +                         
  labs(title="Biến động đồng thời đa chỉ số", x="Năm", y="Giá trị") +                            theme_bw(base_family="Times New Roman") +
  theme(legend.position="none", plot.title = element_text(face = "bold", hjust = 0.5, size = 16))

Cấu trúc chart:

Trục x: Năm tài chính (2015–2024). Đường nét đứt ở mốc 2020 đánh dấu biến động do COVID và giai đoạn chuyển pha, giúp nhận diện rõ trước và sau khủng hoảng.

Trục y: Giá trị tuyệt đối từng chỉ số (VNĐ).

Các đường (mỗi màu–một biến):

DTTVBHVCCDV10 (tím): Tăng liên tục, nổi bật nhất, thể hiện quy mô doanh thu mở rộng mạnh các năm sau dịch.

LNSTTNDN60 (xanh lá): Lợi nhuận sau thuế duy trì ổn định, tăng vọt các năm gần đây, khẳng định hiệu ứng tích cực từ tối ưu chi phí.

CPQLDN26 (da cam) & CPBH25 (xanh đậm): Có xu hướng tăng dần tương đối ổn định, không có spike bất thường dài hạn.

GV11 (hồng): Biến động mạnh nhất, có năm ghi nhận giá vốn âm lớn (có thể do hoàn nhập/bù trừ đầu vào), các năm còn lại biến động song hành với doanh thu.

Kết quả:

Đồng biến doanh thu–lợi nhuận: Doanh thu tăng mạnh, lợi nhuận đi theo nhưng không tăng/giảm “giật cục”, thể hiện DN kiểm soát tốt chi phí, tối ưu hóa giá vốn và cấu trúc vận hành.

Vai trò của giá vốn (GV11): Biến động mạnh, phản ánh áp lực giá đầu vào – song không làm xáo trộn dữ liệu doanh thu/lợi nhuận lớn sau giai đoạn phục hồi, nhờ khả năng kiểm soát đầu vào của DN tốt.

Hiệu ứng COVID: 2020 là “vạch ngăn” rõ trên biểu đồ, mọi đường đều thay đổi nhịp biến động—ý nghĩa rất lớn để trả lời về sức bật và tốc độ thích nghi sau khủng hoảng.

Kết luận:

Biểu đồ này lý tưởng để tổng kết: DHG có cấu trúc tài chính, kiểm soát chi phí tốt, đồng biến kỳ vọng giữa doanh thu–chi phí–lợi nhuận qua cả biến động lớn; đồng thời nhấn mạnh khả năng trụ vững và tăng trưởng của DN trước mọi thách thức từ thị trường và chi phí đầu vào.

TIỂU LUẬN CUỐI KỲ

Sinh viên thực hiện: Kiều Kim Khánh Giảng viên hướng dẫn: ThS. Trần Mạnh Tường

2025-11-09

Bộ dữ liệu UK Accidents 2005 - 2015

Tổng quan nghiên cứu

Bối cảnh nghiên cứu

Nguồn gốc, phạm vi và đặc điểm bộ dữ liệu

Cơ sở lý thuyết và tổng quan nghiên cứu

Mục tiêu nghiên cứu

Phương pháp nghiên cứu

Ý nghĩa của nghiên cứu

Giới thiệu bộ dữ liệu

Đọc dữ liệu

Kiểm tra kiểu đối tượng của dữ liệu

Kiểm tra kiểu đối tượng và cấu trúc bảng dữ liệu

Số quan sát của dữ liệu

Số biến của dữ liệu

Năm quan sát đầu tiên của bộ dữ liệu

Phân loại dữ liệu

Số quan sát bị thiếu

Loại bỏ những quan sát bị thiếu

Số quan sát bị trùng lặp

Chọn lọc dữ liệu

Thống kê mô tả

Biến Accident_Severity

Biến Number_of_Casualties

Biến Number_of_Vehicles

Biến Day_of_Week

Biến Longitude

Biến Latitude

Biến Speed_limit

Biến Urban_or_Rural_Area

Biến Light_Conditions

Biến Weather_Conditions

Biến Road_Surface_Conditions

Biến Road_Type

Phân tích biến

Phân tích số người thương vong ở khu vực đô thị và nông thôn

Phân tích số người thương vong vào các ngày trong tuần

Phân tích biến bằng cách trực quan hoá

Phân tích số người thương vong/vụ theo ngày trong tuần và khu vực

Phân tích phân bố người thương vong theo tình trạng mặt đường

Phân tích tỷ lệ mức độ nghiêm trọng theo điều kiện ánh sáng

Phân tích xu hướng số vụ tai nạn hằng năm

Phân tích tỷ lệ nghiêm trọng dựa trên tốc độ giới hạn

Phân tích tỷ lệ nghiêm trọng theo loại đường

Biểu Đồ Đường: Xu Hướng Nghiêm Trọng Theo Năm và Khu Vực

Biểu Đồ Cột Phân Nhóm: Tần suất Theo Loại Đường và Ánh Sáng

Biểu Đồ Đường: So Sánh Tần Suất Giờ Cao Điểm (Tuần vs Cuối tuần)

So Sánh Rủi Ro: Trung Bình & Độ Bất Ổn Thương Vong

Phân Bố Số Vụ Tai Nạn Theo Khung Giờ và Ngày Trong Tuần

Biểu đồ Phân Bố Mật Độ Tai Nạn Trên Bản Đồ UK

Phân bố thương vong theo tốc độ giới hạn - phân đoạn theo tháng

Vị trí 5000 vụ tai nạn nghiêm trọng

Bộ dữ liệu Báo Cáo Tài Chính 2015 - 2024 của CTCP Dược Hậu Giang

Tổng quan nghiên cứu

Bối cảnh nghiên cứu

Nguồn gốc, phạm vi và đặc điểm bộ dữ liệu

Cơ sở lý thuyết và tổng quan nghiên cứu

Mục tiêu nghiên cứu

Phương pháp nghiên cứu

Ý nghĩa của nghiên cứu

Thông tin về bộ dữ liệu Báo cáo tài chính 2015 - 2024 của CTCP Dược Hậu Giang

Giới thiệu bộ dữ liệu

Đọc dữ liệu

Số biến của dữ liệu

Số quan sát của dữ liệu

Năm quan sát đầu tiên của bộ dữ liệu

Xác định khoảng thời gian quan sát của dữ liệu

Phân loại dữ liệu

Kiểm tra sự trùng lặp

Kiểm tra giá trị thiếu

Đếm số dòng có đầy đủ thông tin

Các chỉ tiêu tồn tại giá trị âm

Xử lý và phân tích dữ liệu

Xử lý dữ liệu thiếu bằng cách nội suy tuyến tính

Chọn biến phân tích

Mã hoá biến đã chọn

Tạo bảng tra cứu tên và giải thích ý nghĩa của các biến đã chọn

Thống kê mô tả

Sinh viên thực hiện: Kiều Kim Khánh
Giảng viên hướng dẫn: ThS. Trần Mạnh Tường