
Motivations
Motivation 1. Mỗi tuần The Economist tạo ra chừng 40 graphs khác nhau cho các bài báo. Data visualization được sử dụng để đưa ra insight/fact tiềm ẩn trong dữ liệu. Bất cứ graph nào mà thất bại trong nhiệm vụ này như đưa ra các thông tin gây hiểu lầm, hiểu sai (misleading/confusing) thì coi như đó là một graph không đạt tiêu chuẩn. Sarah Leo - một visual data journalist tại The Economist đã chỉ ra và phân tích một số cases mà data visualization của chính tạp chí này thất bại trong việc truyền tải insight tiềm ẩn trong dữ liệu. Các cases này được phân tích chi tiết tại đây.
Một case về data visualization thất bại trong việc đưa ra insight của tạp chí này là sử dụng line graph. Khi khi nhìn vào plot (hình bên trái) chúng ta không thể nào nhận ra xu hướng rằng theo thời gian, càng nhiều người Anh cho rằng việc Anh rời bỏ EU là sai trái. Tuy nhiên nếu chúng ta sử dụng phương pháp hình ảnh hóa thích hợp thì chúng ta có thể đưa ra insight đúng cho người tiếp nhận thông tin (hình bên phải).
Một ví dụ khác về sự cẩu thả trong data visualization là các graphs của GSO - cơ quan thống kê quốc gia của Việt Nam. Ví dụ như graph dưới đây thì người tiếp nhận thông tin không tài nào (hoặc rất khó) nhận được một insight gì có ý nghĩa (chưa kể cả đơn giản và cũng là rất quan trọng là title cũng cẩu thả):

Motivation 2. Việc sử dụng màu sắc cũng không nên cẩu thả và tùy tiện. Graphs của các tạp chí như The Economist, Financial Times hay The Wall Street Journal đều sử dụng một style màu nhất quán và mang dấu ấn riêng của mỗi tạp chí mà không thể lẫn với bất kì tạp chí nào khác. Chúng ta có thể tham khảo tư vấn của Helen Atkinson - là một visual data journalist tại tạp chí The Economist tại đây về sử dụng màu sắc.
R Codes
R codes dưới đây mô phỏng lại phiên bản original của The Economist cũng như graph được hiệu chỉnh để insight đúng và không gây hiểu lầm cho người tiếp nhận thông tin:
#=====================================================================
# References:
# https://medium.economist.com/charting-new-territory-7f5afb293270
# https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368
#=====================================================================
# Clear R environment:
rm(list = ls())
# Load some packages:
library(tidyverse)
library(lubridate)
library(extrafont)
library(ggtext)
# Load data:
data <- read_csv("Economist_brexit.csv", skip = 3)
n_obs <- nrow(data)
# Rename for columns:
names(data) <- c("date", "Right", "Wrong")
# Convert to date time and long from:
data %>%
mutate(date = dmy(date), id = 1:n_obs) %>%
gather(response, percent, -date, -id) -> data
# Prepare for data visualization:
my_font <- "Roboto Condensed"
my_colors <- c("#00a4dc", "#f15a40")
bgr_color <- "#d9e9f0"
# Function create our theme:
our_theme <- function(...) {
theme(plot.background = element_rect(fill = bgr_color, color = NA)) +
theme(panel.background = element_rect(fill = "white")) +
theme(panel.grid.major.y = element_line(color = "grey85", size = 0.8)) +
theme(axis.title.y = element_blank()) +
theme(axis.text.y = element_blank()) +
theme(axis.ticks.y = element_blank()) +
theme(axis.title.x = element_blank()) +
theme(plot.margin = unit(c(0.3, 1, 0.5, 1), "cm")) +
theme(text = element_text(family = my_font))
}
# Simulate original version:
data %>%
ggplot(aes(date, percent, color = response)) +
geom_line(size = 1.3, show.legend = FALSE) +
scale_color_manual(values = my_colors) +
our_theme() +
scale_y_continuous(limits = c(38, 50.5), breaks = seq(38, 50, 2)) +
annotate("text", data$date %>% max() + 5, y = seq(38, 50, 2), label = seq(38, 50, 2),
hjust = -0.4, vjust = -0.5, size = 3.6, family = my_font, color = "grey40") +
labs(title = "Bremorse",
subtitle = "\"In hindsigh, do you think Britain was right or wrong\n to vote to leave the EU?\"",
caption = "Source: Natcen Social Research") +
theme(plot.title = element_text(size = 16)) +
theme(plot.subtitle = element_text(color = "grey30")) +
theme(plot.caption = element_text(color = "grey40", size = 10, vjust = -2)) +
annotate("text", data$date %>% max() - 250, y = 41, label = "Right", size = 4, family = my_font, color = "grey20") +
annotate("text", data$date %>% max() - 165, y = 48.5, label = "Wrong", size = 4, family = my_font, color = "grey20")
library(grid)
grid.rect(x = 0.015, y = 0.93, hjust = 1, vjust = 0, gp = gpar(fill = "#e5001c", lwd = 0))
grid.rect(x = 1, y = 1 - 0.005, hjust = 1, vjust = 0, gp = gpar(fill = "#e5001c", lwd = 0))
# Better version:
data %>%
ggplot(aes(date, percent, color = response)) +
geom_point(show.legend = FALSE, size = 2.5, alpha = 0.4) +
geom_smooth(show.legend = FALSE, size = 1.4, se = FALSE) +
scale_color_manual(values = my_colors) +
our_theme() +
scale_y_continuous(limits = c(38, 50.5), breaks = seq(38, 50, 2)) +
annotate("text", data$date %>% max() + 5, y = seq(38, 50, 2), label = seq(38, 50, 2),
hjust = -0.4, vjust = -0.5, size = 3.6, family = my_font, color = "grey40") +
labs(title = "Bremorse",
subtitle = "\"In hindsigh, do you think Britain was <b style='color:#00a4dc'>right</b> or <b style='color:#f15a40'>wrong</b> to vote to leave the EU?\"",
caption = "Source: Natcen Social Research") +
theme(plot.title = element_text(size = 16)) +
theme(plot.subtitle = element_markdown(color = "grey30")) +
theme(plot.caption = element_text(color = "grey40", size = 10, vjust = -2)) +
annotate("text", data$date %>% max() - 165, y = 41.5, label = "Right", size = 4, family = my_font, color = my_colors[1]) +
annotate("text", data$date %>% max() - 165, y = 46.6, label = "Wrong", size = 4, family = my_font, color = my_colors[2])
grid.rect(x = 0.015, y = 0.93, hjust = 1, vjust = 0, gp = gpar(fill = "#e5001c", lwd = 0))
grid.rect(x = 1, y = 1 - 0.005, hjust = 1, vjust = 0, gp = gpar(fill = "#e5001c", lwd = 0))
