Introduction

Vụ gian lận thi cử trong năm 2018 đã được nhiều báo chí đưa tin (ví dụ, ở đây). Với dữ liệu có được và cũng chỉ bằng hình ảnh hóa dữ liệu chúng ta có thể có cơ sở để nghi ngờ rằng có gian lận, ví dụ, ở điểm thi môn Toán ở Hà Giang:

Plot này chỉ ra rằng mức độ tập trung các thí sinh có điểm thi Toán cao của Hà Giang là cao hơn so với phần còn lại. Và thậm chí còn cao hơn so với Hà Nội. Đây rõ ràng là một bất thường.

Nếu chưa hiểu ý nghĩa của loại plot này bạn đọc có thể tham khảo ở đây.

R codes

Bộ dữ liệu về điểm thi quốc gia năm 2018 có thể download ở đây trong đó có một cột biến là SoBD là số báo danh của thí sinh. Hai số đầu tiên của số báo danh chính là mã tỉnh. Do vậy trước hết chúng ta lấy dữ liệu về mã tỉnh trong kì thi này:

# Load some R packages: 

library(rvest)
library(tidyverse)
library(stringi)

# URL for collecting data: 

base_url <- "https://thuvienphapluat.vn/cong-van/Giao-duc/Cong-van-417-BGDDT-KTKDCLGD-huong-dan-thuc-hien-Quy-che-thi-trung-hoc-pho-thong-quoc-gia-2017-339311.aspx"

# Collect data: 

base_url %>% 
  read_html() %>% 
  html_nodes(xpath = '//*[@id="divContentDoc"]/div/div/div/table[7]') %>% 
  html_table() %>% 
  .[[1]] -> df_sbd

# Convert text to Latin character: 

df_sbd %>% 
  mutate_all(function(x) {stri_trans_general(x, "Latin-ASCII")}) %>% 
  slice(-1) -> df_sbd_latin

# Select and rename for some columns: 

df_sbd_latin %>% 
  select(code = X1, province = X2) %>% 
  mutate(province = str_replace_all(province, "So GDDT ", "")) -> df_sbd_latin

Những thí sinh có số báo danh mà bắt đầu là 0 ở đầu thì sẽ bị xóa, do vậy chúng ta cần cho thêm số 0 vào những cases này để khôi phục lại số báo danh gốc:

# Load data: 

df_score <- read_csv("C:/Users/Admin/Documents/THPT 2018 Quoc gia.csv")

# Extract province code: 

df_score %>% 
  mutate(SoBD = as.character(SoBD)) %>% 
  mutate(SoBD = case_when(str_count(SoBD) == 7 ~ paste0("0", SoBD), TRUE ~ SoBD)) %>% 
  mutate(code = str_sub(SoBD, start = 1, end = 2)) -> df_score

# Join data sets: 

full_join(df_score, df_sbd_latin, by = "code") -> df_final

Với dữ liệu đã có chúng ta có thể dùng công cụ hình ảnh (Data Visualization) để so sánh phân bố điểm thi toán của Hà Giang và các tỉnh thành còn lại như sau:

# Prepare data for ploting: 

df_final %>% 
  select(Math, province) %>%
  na.omit() %>%  
  mutate(province = case_when(province == "Ha Giang" ~ "Ha Giang", TRUE ~ "Others")) -> math


math_mean_by_province <- math %>% 
  group_by(province) %>% 
  summarise(tb = mean(Math)) %>% 
  ungroup()

# Plot distribution of math scores: 

my_font <- "Ubuntu Condensed"
my_colors <- c("Tomato", "#377eb8")

math %>% 
  ggplot(aes(Math, fill = province, color = province)) + 
  geom_density(alpha = 0.2) -> draft

# Decor our draft plot: 

draft + 
  geom_vline(data = math_mean_by_province %>% filter(province == "Ha Giang"), 
             aes(xintercept = tb), linetype = "dashed", color = my_colors[1]) + 
  geom_vline(data = math_mean_by_province %>% filter(province != "Ha Giang"), 
             aes(xintercept = tb), linetype = "dashed", color = my_colors[2]) + 
  annotate("text", 
           label = "Math scores are\n  unusually high", family = my_font, 
           x = 8.2, y = 0.105, size = 4, hjust = -0.2, vjust = 1, color = "grey20") + 
  annotate("curve", 
           curvature = 0,
           x = 9, 
           xend = 9,
           y = 0.07, 
           yend = 0.019,
           arrow = arrow(angle = 20, length = unit(.3, "cm")), size = 0.3) + 
  scale_y_continuous(labels = scales::percent, 
                     breaks = seq(0, 0.4, 0.1), expand = c(0.07, 0)) + 
  labs(x = NULL, y = NULL, 
       title = "Math Score Distribution by Ha Giang and Others", 
       caption = "Data Source: Ministry of Education and Training") + 
  theme_minimal() + 
  theme(legend.position = "top") + 
  theme(panel.grid = element_line(size = 0.2)) + 
  theme(plot.title = element_text(family = my_font, size = 20)) + 
  theme(axis.text = element_text(family = my_font, size = 13)) + 
  theme(plot.caption = element_text(family = my_font, size = 10, vjust = -2, colour = "grey30", face = "italic")) + 
  theme(plot.margin = unit(rep(1, 4), "cm")) + 
  theme(legend.title = element_blank()) + 
  theme(legend.text = element_text(family = my_font, size = 11, color = "grey30")) + 
  theme(plot.background = element_rect(fill = "seashell", color = NA)) + 
  scale_color_manual(values = my_colors) + 
  scale_fill_manual(values = my_colors)

Conclusion

Chỉ bằng hình ảnh hóa dữ liệu chúng ta có thể tìm ra nhiều insights có ý nghĩa. Như trong trường hợp này là tìm ra bằng chứng để nghi ngờ rằng có sự gian lận một cách có hệ thống trong kì thi quốc gia 2018. Và thực tế đúng là vậy.

