Motivations
Chức năng của Graph là truyền tải các insights cho người tiếp nhận thông tin. Khi nào chức năng này mà không làm được, hoặc gây hiểu lầm, hoặc não người mất quá nhiều thời gian để hiểu insight trong graph được trình bày, thì coi như graph chưa làm được chức năng của nó. Một Graph tốt thì nên là self-explanatory (tự cái hình đã giải thích mọi thứ). Một trong những ví dụ như vậy là hình số 2 của báo cáo có tên ĐÁNH GIÁ TÁC ĐỘNG CỦA COVID-19 ĐẾN NỀN KINH TẾ VÀ CÁC KHUYẾN NGHỊ CHÍNH SÁCH (có thể xem tại đây).
R Codes
Chúng ta có thể cải tiến lại hình số 2 như sau:
# Load some packages:
library(tidyverse)
library(lubridate)
# Data links (source: https://github.com/CSSEGISandData/COVID-19):
rm(list = ls())
link1 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
# Clean and prepare data:
link1 %>%
read_csv() %>%
rename(Province = `Province/State`, Country = `Country/Region`) %>%
gather(Date, Confirmed, -Province, -Country, -Lat, -Long) %>%
mutate(Date = mdy(Date)) %>%
filter(Country == "Vietnam") -> df_confirmed
df_confirmed %>%
mutate(before = lag(Confirmed)) %>%
mutate(NewConfirmed = Confirmed - before) %>%
slice(-1) -> df_for_g1
end_stage1 <- dmy("13-02-2020")
start_stage2 <- dmy("06-03-2020")
end_stage2 <- dmy("21-03-2020")
df_for_g1 %>%
mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1",
Date > end_stage1 & Date < start_stage2 ~ "Standby",
Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2",
TRUE ~ "Stage 3")) -> df
df %>%
select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>%
gather(Type, Value, -Date) -> df_plot
df_plot$Date %>% unique() -> my_date
df_labels <- data.frame(Date = my_date)
df_labels %>%
mutate(label_x = case_when(Date == min(Date) ~ as.character(Date),
Date == end_stage1 ~ as.character(end_stage1),
Date == start_stage2 ~ as.character(start_stage2),
Date == end_stage2 ~ as.character(end_stage2),
Date == max(Date) ~ as.character(Date),
TRUE ~ "")) %>%
mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1",
Date > end_stage1 & Date < start_stage2 ~ "Standby",
Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2",
TRUE ~ "Stage 3")) %>%
mutate(label_x = case_when(label_x == "2020-01-23" ~ "23-01",
label_x == "2020-02-13" ~ "13-02",
label_x == "2020-03-06" ~ "06-03",
label_x == "2020-03-21" ~ "21-03",
label_x == "2020-04-04" ~ "04-04",
TRUE ~ label_x)) -> df_labels
df_for_line <- df_plot %>%
filter(Type == "TotalConfirmed")
df_for_bar <- df_plot %>%
filter(Type != "TotalConfirmed") %>%
filter(Value > 0) %>%
mutate(newValue = Value*5)
# Dual y-axis (https://www.r-graph-gallery.com/line-chart-dual-Y-axis-ggplot2.html,
# https://stackoverflow.com/questions/17148679/construct-a-manual-legend-for-a-complicated-plot,
# https://stackoverflow.com/questions/3099219/ggplot-with-2-y-axes-on-each-side-and-different-scales):
library(extrafont)
my_font <- "Ubuntu Condensed"
my_colors <- c("#377eb8", "#e41a1c")
fill_colors <- c("#fff5f0", "#fcbba1", "#fc9272", "#fb6a4a")
k <- -0.5
h <- 250
ggplot() +
theme_minimal() +
geom_rect(aes(xmin = min(my_date) - 0.5, xmax = end_stage1, ymin = -Inf, ymax = Inf, fill = "Stage 1"), fill = "#a1d99b", alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = end_stage1, xmax = start_stage2, ymin = -Inf, ymax = Inf, fill = "Standby"), fill = fill_colors[2], alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = start_stage2, xmax = end_stage2, ymin = -Inf, ymax = Inf, fill = "Stage 2"), fill = fill_colors[3], alpha = 0.3, show.legend = FALSE) +
geom_rect(aes(xmin = end_stage2, xmax = max(my_date) + 0.5, ymin = -Inf, ymax = Inf, fill = "Stage 3"), fill = fill_colors[4], alpha = 0.3, show.legend = FALSE) +
# geom_col(data = df_for_bar, aes(Date, newValue), fill = my_colors[1], width = 0.9) +
# geom_line(data = df_for_line, aes(Date, Value), color = my_colors[2], size = 1.5) +
geom_col(data = df_for_bar, aes(Date, newValue, fill = "New", color = "New"), width = 0.8) +
geom_line(data = df_for_line, aes(Date, Value, color = "Total"), size = 1.5) +
scale_y_continuous(breaks = seq(0, 250, 25), name = "Total", sec.axis = sec_axis(~. / 5, name = "New", breaks = seq(0, 50, 5))) +
scale_colour_manual(name = "", values = my_colors, guide = guide_legend(override.aes = aes(fill = NA))) +
scale_fill_manual(name = "Bar", values = my_colors, guide = "none") +
# guides(color = guide_legend(reverse = TRUE)) +
theme(legend.position = "top") +
theme(panel.grid.minor.y = element_blank()) +
scale_x_date(limits = c(min(my_date) - 0.5, max(my_date) + 0.5), breaks = seq(min(my_date), max(my_date), 1), labels = df_labels$label_x, position = "top", expand = c(0, 0)) +
theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) +
# theme(axis.title.y = element_text(color = my_colors[2], size = 13), axis.title.y.right = element_text(color = my_colors[1], size = 13)) +
theme(axis.text.y = element_text(color = my_colors[2], size = 13), axis.text.y.right = element_text(color = my_colors[1], size = 13)) +
labs(x = NULL, y = NULL, title = "Figure 1: Coronavirus cases in Vietnam, as of 04-04-2020", caption = "Source: Ministry of Health of Vietnam") +
theme(axis.title = element_blank()) +
theme(plot.margin = unit(c(1, 1, 1, 1), "cm")) +
geom_text(data = data.frame(Date = ymd("2020-01-23") + 10, Value = h), aes(Date, Value), label = "Stage 1", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-02-13") + 11, Value = h), aes(Date, Value), label = "Standby", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-03-06") + 7, Value = h), aes(Date, Value), label = "Stage 2", size = 4, vjust = k, family = my_font) +
geom_text(data = data.frame(Date = ymd("2020-03-21") + 7, Value = h), aes(Date, Value), label = "Stage 3", size = 4, vjust = k, family = my_font) +
theme(axis.text.x = element_text(size = 10, family = my_font)) +
theme(axis.text.y = element_text(size = 13, family = my_font)) +
theme(plot.title = element_text(family = my_font, size = 20)) +
theme(plot.caption = element_text(family = my_font, size = 10, color = "grey30")) +
theme(legend.text = element_text(family = my_font, size = 10, face = "bold", color = "grey30"))

---
title: 'Coronavirus cases in Vietnam (Line + Bar Version)'
author: 'Author: Nguyen Chi Dung'
subtitle: "Daily Graph Series"
output:
  html_document: 
    code_download: true
    code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.width = 10, fig.height = 6)
```

# Motivations

Chức năng của Graph là truyền tải các insights cho người tiếp nhận thông tin. Khi nào chức năng này mà không làm được, hoặc gây hiểu lầm, hoặc não người mất quá nhiều thời gian để hiểu insight trong graph được trình bày, thì coi như graph chưa làm được chức năng của nó. Một Graph tốt thì nên là self-explanatory (tự cái hình đã giải thích mọi thứ). Một trong những ví dụ như vậy là hình số 2 của báo cáo có tên *ĐÁNH GIÁ TÁC ĐỘNG CỦA COVID-19 ĐẾN NỀN KINH TẾ VÀ CÁC KHUYẾN NGHỊ CHÍNH SÁCH* (có thể xem [tại đây](https://neu.edu.vn/Resources/Docs/SubDomain/HomePage/ThongBao/2020/2020_4/FormatFactory%20PDF%20Joiner%20BIA%201%20bao%20cao_1.pdf?fbclid=IwAR1f6YzdfSaDH69lfa05HnCwpAuEF25HSD0qkhnGJmSTMx-LZ2eADFqyWxs)). 

# R Codes

Chúng ta có thể cải tiến lại  hình số 2 như sau: 

```{r, fig.height=7}
# Load some packages: 
library(tidyverse)
library(lubridate)

# Data links (source: https://github.com/CSSEGISandData/COVID-19): 
rm(list = ls())
link1 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

# Clean and prepare data: 

link1 %>% 
  read_csv() %>% 
  rename(Province = `Province/State`, Country = `Country/Region`) %>% 
  gather(Date, Confirmed, -Province, -Country, -Lat, -Long) %>% 
  mutate(Date = mdy(Date)) %>% 
  filter(Country == "Vietnam") -> df_confirmed



df_confirmed %>% 
  mutate(before = lag(Confirmed)) %>% 
  mutate(NewConfirmed = Confirmed - before) %>% 
  slice(-1) -> df_for_g1

end_stage1 <- dmy("13-02-2020")
start_stage2 <- dmy("06-03-2020")
end_stage2 <- dmy("21-03-2020")

df_for_g1 %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) -> df

df %>% 
  select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>% 
  gather(Type, Value, -Date) -> df_plot

df_plot$Date %>% unique() -> my_date

df_labels <- data.frame(Date = my_date)

df_labels %>% 
  mutate(label_x = case_when(Date == min(Date) ~ as.character(Date), 
                             Date == end_stage1 ~ as.character(end_stage1), 
                             Date == start_stage2 ~ as.character(start_stage2), 
                             Date == end_stage2 ~ as.character(end_stage2), 
                             Date == max(Date) ~ as.character(Date), 
                             TRUE ~ "")) %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) %>% 
  mutate(label_x = case_when(label_x == "2020-01-23" ~ "23-01", 
                             label_x == "2020-02-13" ~ "13-02", 
                             label_x == "2020-03-06" ~ "06-03", 
                             label_x == "2020-03-21" ~ "21-03", 
                             label_x == "2020-04-04" ~ "04-04", 
                             TRUE ~ label_x)) -> df_labels



df_for_line <- df_plot %>% 
  filter(Type == "TotalConfirmed")

df_for_bar <- df_plot %>% 
  filter(Type != "TotalConfirmed") %>% 
  filter(Value > 0) %>% 
  mutate(newValue = Value*5)

# Dual y-axis (https://www.r-graph-gallery.com/line-chart-dual-Y-axis-ggplot2.html, 
# https://stackoverflow.com/questions/17148679/construct-a-manual-legend-for-a-complicated-plot, 
# https://stackoverflow.com/questions/3099219/ggplot-with-2-y-axes-on-each-side-and-different-scales): 


library(extrafont)
my_font <- "Ubuntu Condensed"

my_colors <- c("#377eb8", "#e41a1c")
fill_colors <- c("#fff5f0", "#fcbba1", "#fc9272", "#fb6a4a")
k <- -0.5
h <- 250

ggplot() + 
  theme_minimal() + 
  geom_rect(aes(xmin = min(my_date) - 0.5, xmax = end_stage1, ymin = -Inf, ymax = Inf, fill = "Stage 1"), fill = "#a1d99b", alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage1, xmax = start_stage2, ymin = -Inf, ymax = Inf, fill = "Standby"), fill = fill_colors[2], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = start_stage2, xmax = end_stage2, ymin = -Inf, ymax = Inf, fill = "Stage 2"), fill = fill_colors[3], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage2, xmax = max(my_date) + 0.5, ymin = -Inf, ymax = Inf, fill = "Stage 3"), fill = fill_colors[4], alpha = 0.3, show.legend = FALSE) + 
  # geom_col(data = df_for_bar, aes(Date, newValue), fill = my_colors[1], width = 0.9) +
  # geom_line(data = df_for_line, aes(Date, Value), color = my_colors[2], size = 1.5) +
  geom_col(data = df_for_bar, aes(Date, newValue, fill = "New", color = "New"), width = 0.8) +
  geom_line(data = df_for_line, aes(Date, Value, color = "Total"), size = 1.5) +  
  scale_y_continuous(breaks = seq(0, 250, 25), name = "Total", sec.axis = sec_axis(~. / 5, name = "New", breaks = seq(0, 50, 5))) + 
  scale_colour_manual(name = "", values = my_colors, guide = guide_legend(override.aes = aes(fill = NA))) + 
  scale_fill_manual(name = "Bar", values = my_colors, guide = "none") + 
  # guides(color = guide_legend(reverse = TRUE)) + 
  theme(legend.position = "top") + 
  theme(panel.grid.minor.y = element_blank()) + 
  scale_x_date(limits = c(min(my_date) - 0.5, max(my_date) + 0.5), breaks = seq(min(my_date), max(my_date), 1), labels = df_labels$label_x, position = "top", expand = c(0, 0)) + 
  theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) + 
  # theme(axis.title.y = element_text(color = my_colors[2], size = 13), axis.title.y.right = element_text(color = my_colors[1], size = 13)) +  
  theme(axis.text.y = element_text(color = my_colors[2], size = 13), axis.text.y.right = element_text(color = my_colors[1], size = 13)) + 
  labs(x = NULL, y = NULL, title = "Figure 1: Coronavirus cases in Vietnam, as of 04-04-2020", caption = "Source: Ministry of Health of Vietnam") + 
  theme(axis.title = element_blank()) + 
  theme(plot.margin = unit(c(1, 1, 1, 1), "cm")) + 
  geom_text(data = data.frame(Date = ymd("2020-01-23") + 10, Value = h), aes(Date, Value), label = "Stage 1", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-02-13") + 11, Value = h), aes(Date, Value), label = "Standby", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-06") + 7, Value = h), aes(Date, Value), label = "Stage 2", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-21") + 7, Value = h), aes(Date, Value), label = "Stage 3", size = 4, vjust = k, family = my_font) + 
  theme(axis.text.x = element_text(size = 10, family = my_font)) + 
  theme(axis.text.y = element_text(size = 13, family = my_font)) + 
  theme(plot.title = element_text(family = my_font, size = 20)) + 
  theme(plot.caption = element_text(family = my_font, size = 10, color = "grey30")) + 
  theme(legend.text = element_text(family = my_font, size = 10, face = "bold", color = "grey30"))
  


```

