Motivations
Chức năng của Graph là truyền tải các insights cho người tiếp nhận thông tin. Khi nào chức năng này mà không làm được, hoặc gây hiểu lầm, hoặc não người mất quá nhiều thời gian để hiểu insight trong graph được trình bày, thì coi như graph chưa làm được chức năng của nó. Một Graph tốt thì nên là self-explanatory (tự cái hình đã giải thích mọi thứ). Một trong những ví dụ như vậy là hình số 2 của báo cáo có tên ĐÁNH GIÁ TÁC ĐỘNG CỦA COVID-19 ĐẾN NỀN KINH TẾ VÀ CÁC KHUYẾN NGHỊ CHÍNH SÁCH (có thể xem tại đây).
R Codes
Chúng ta có thể cải tiến lại hình số 2 như sau:
# Load some packages:
library(tidyverse)
library(lubridate)
# Data links (source: https://github.com/CSSEGISandData/COVID-19):
rm(list = ls())
link1 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
# Clean and prepare data:
link1 %>%
read_csv() %>%
rename(Province = `Province/State`, Country = `Country/Region`) %>%
gather(Date, Confirmed, -Province, -Country, -Lat, -Long) %>%
mutate(Date = mdy(Date)) %>%
filter(Country == "Vietnam") -> df_confirmed
df_confirmed %>%
mutate(before = lag(Confirmed)) %>%
mutate(NewConfirmed = Confirmed - before) %>%
slice(-1) -> df_for_g1
end_stage1 <- dmy("13-02-2020")
start_stage2 <- dmy("06-03-2020")
end_stage2 <- dmy("21-03-2020")
df_for_g1 %>%
mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1",
Date > end_stage1 & Date < start_stage2 ~ "Standby",
Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2",
TRUE ~ "Stage 3")) -> df
df %>%
select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>%
gather(Type, Value, -Date) -> df_plot
df_plot$Date %>% unique() -> my_date
df_labels <- data.frame(Date = my_date)
df_labels %>%
mutate(label_x = case_when(Date == min(Date) ~ as.character(Date),
Date == end_stage1 ~ as.character(end_stage1),
Date == start_stage2 ~ as.character(start_stage2),
Date == end_stage2 ~ as.character(end_stage2),
Date == max(Date) ~ as.character(Date),
TRUE ~ "")) %>%
mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1",
Date > end_stage1 & Date < start_stage2 ~ "Standby",
Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2",
TRUE ~ "Stage 3")) %>%
mutate(label_x = case_when(label_x == "2020-01-23" ~ "23-01",
label_x == "2020-02-13" ~ "13-02",
label_x == "2020-03-06" ~ "06-03",
label_x == "2020-03-21" ~ "21-03",
label_x == "2020-04-04" ~ "04-04",
TRUE ~ label_x)) -> df_labels
df_for_line <- df_plot %>%
filter(Type == "TotalConfirmed")
df_for_bar <- df_plot %>%
filter(Type != "TotalConfirmed") %>%
filter(Value > 0) %>%
mutate(newValue = Value*5)
# Dual y-axis (https://www.r-graph-gallery.com/line-chart-dual-Y-axis-ggplot2.html,
# https://stackoverflow.com/questions/17148679/construct-a-manual-legend-for-a-complicated-plot,
# https://stackoverflow.com/questions/3099219/ggplot-with-2-y-axes-on-each-side-and-different-scales):
library(extrafont)
my_font <- "Ubuntu Condensed"
my_colors <- c("#377eb8", "#e41a1c")
fill_colors <- c("#fff5f0", "#fcbba1", "#fc9272", "#fb6a4a")
k <- -0.5
h <- 250
ggplot() +
theme_minimal() +
geom_rect(aes(xmin = min(my_date) - 0.5, xmax = end_stage1, ymin = -Inf, ymax = Inf, fill = "Stage 1"), fill = "#a1d99b", alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = end_stage1, xmax = start_stage2, ymin = -Inf, ymax = Inf, fill = "Standby"), fill = fill_colors[2], alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = start_stage2, xmax = end_stage2, ymin = -Inf, ymax = Inf, fill = "Stage 2"), fill = fill_colors[3], alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = end_stage2, xmax = max(my_date) + 0.5, ymin = -Inf, ymax = Inf, fill = "Stage 3"), fill = fill_colors[4], alpha = 0.3, show.legend = FALSE) +
# geom_col(data = df_for_bar, aes(Date, newValue), fill = my_colors[1], width = 0.9) +
# geom_line(data = df_for_line, aes(Date, Value), color = my_colors[2], size = 1.5) +
geom_col(data = df_for_bar, aes(Date, newValue, fill = "New", color = "New"), width = 0.8) +
geom_line(data = df_for_line, aes(Date, Value, color = "Total"), size = 1.5) +
scale_y_continuous(breaks = seq(0, 250, 25), name = "Total", sec.axis = sec_axis(~. / 5, name = "New", breaks = seq(0, 50, 5))) +
scale_colour_manual(name = "", values = my_colors, guide = guide_legend(override.aes = aes(fill = NA))) +
scale_fill_manual(name = "Bar", values = my_colors, guide = "none") +
# guides(color = guide_legend(reverse = TRUE)) +
theme(legend.position = "top") +
theme(panel.grid.minor.y = element_blank()) +
scale_x_date(limits = c(min(my_date) - 0.5, max(my_date) + 0.5), breaks = seq(min(my_date), max(my_date), 1), labels = df_labels$label_x, position = "top", expand = c(0, 0)) +
theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) +
# theme(axis.title.y = element_text(color = my_colors[2], size = 13), axis.title.y.right = element_text(color = my_colors[1], size = 13)) +
theme(axis.text.y = element_text(color = my_colors[2], size = 13), axis.text.y.right = element_text(color = my_colors[1], size = 13)) +
labs(x = NULL, y = NULL, title = "Figure 1: Coronavirus cases in Vietnam, as of 04-04-2020", caption = "Source: Ministry of Health of Vietnam") +
theme(axis.title = element_blank()) +
theme(plot.margin = unit(c(1, 1, 1, 1), "cm")) +
geom_text(data = data.frame(Date = ymd("2020-01-23") + 10, Value = h), aes(Date, Value), label = "Stage 1", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-02-13") + 11, Value = h), aes(Date, Value), label = "Standby", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-03-06") + 7, Value = h), aes(Date, Value), label = "Stage 2", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-03-21") + 7, Value = h), aes(Date, Value), label = "Stage 3", size = 4, vjust = k, family = my_font) +
theme(axis.text.x = element_text(size = 10, family = my_font)) +
theme(axis.text.y = element_text(size = 13, family = my_font)) +
theme(plot.title = element_text(family = my_font, size = 20)) +
theme(plot.caption = element_text(family = my_font, size = 10, color = "grey30")) +
theme(legend.text = element_text(family = my_font, size = 10, face = "bold", color = "grey30"))

