Motivations

Chức năng của Graph là truyền tải các insights cho người tiếp nhận thông tin. Khi nào chức năng này mà không làm được, hoặc gây hiểu lầm, hoặc não người mất quá nhiều thời gian để hiểu insight trong graph được trình bày, thì coi như graph chưa làm được chức năng của nó. Một Graph tốt thì nên là self-explanatory (tự cái hình đã giải thích mọi thứ). Một trong những ví dụ như vậy là hình số 2 của báo cáo có tên ĐÁNH GIÁ TÁC ĐỘNG CỦA COVID-19 ĐẾN NỀN KINH TẾ VÀ CÁC KHUYẾN NGHỊ CHÍNH SÁCH (có thể xem tại đây). Chúng ta có thể cải tiến lại như sau:

R codes

R codes để thực hiện hình này như sau:

# Load some packages: 
library(tidyverse)
library(lubridate)

# Data links (source: https://github.com/CSSEGISandData/COVID-19): 
rm(list = ls())
link1 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
link2 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"
link3 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"

# Clean and prepare data: 

link1 %>% 
  read_csv() %>% 
  rename(Province = `Province/State`, Country = `Country/Region`) %>% 
  gather(Date, Confirmed, -Province, -Country, -Lat, -Long) %>% 
  mutate(Date = mdy(Date)) %>% 
  filter(Country == "Vietnam", Date <= ymd("2020-04-04")) -> df_confirmed

df_confirmed %>% 
  mutate(before = lag(Confirmed)) %>% 
  mutate(NewConfirmed = Confirmed - before) %>% 
  slice(-1) -> df_for_g1

end_stage1 <- dmy("13-02-2020")
start_stage2 <- dmy("06-03-2020")
end_stage2 <- dmy("21-03-2020")

df_for_g1 %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) -> df

df %>% 
  select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>% 
  gather(Type, Value, -Date) -> df_plot

df_plot$Date %>% unique() -> my_date

df_labels <- data.frame(Date = my_date)

df_labels %>% 
  mutate(label_x = case_when(Date == min(Date) ~ as.character(Date), 
                             Date == end_stage1 ~ as.character(end_stage1), 
                             Date == start_stage2 ~ as.character(start_stage2), 
                             Date == end_stage2 ~ as.character(end_stage2), 
                             Date == max(Date) ~ as.character(Date), 
                             TRUE ~ "")) %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) %>% 
  mutate(label_x = case_when(label_x == "2020-01-23" ~ "23-01", 
                             label_x == "2020-02-13" ~ "13-02", 
                             label_x == "2020-03-06" ~ "06-03", 
                             label_x == "2020-03-21" ~ "21-03", 
                             label_x == "2020-04-04" ~ "04-04", 
                             TRUE ~ label_x)) -> df_labels



df_for_g1 %>% 
  filter(Date == max(Date)) %>% 
  mutate(Date = Date + 2) %>% 
  select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>% 
  gather(Type, Value, -Date) %>% 
  mutate(label = case_when(Value == 4 ~ paste0(Value, "  "), 
                           TRUE ~ as.character(Value))) -> df_an 


fill_colors <- c("#fff5f0", "#fcbba1", "#fc9272", "#fb6a4a")
line_colors <- c("#e41a1c", "#1f78b4")
h <- 250
k <- -0.5
my_font <- "Ubuntu Condensed"

ggplot() + 
  theme_minimal() + 
  geom_rect(aes(xmin = min(my_date), xmax = end_stage1, ymin = -Inf, ymax = Inf, fill = "Stage 1"), fill = "#a1d99b", alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage1, xmax = start_stage2, ymin = -Inf, ymax = Inf, fill = "Standby"), fill = fill_colors[2], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = start_stage2, xmax = end_stage2, ymin = -Inf, ymax = Inf, fill = "Stage 2"), fill = fill_colors[3], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage2, xmax = max(my_date), ymin = -Inf, ymax = Inf, fill = "Stage 3"), fill = fill_colors[4], alpha = 0.3, show.legend = FALSE) + 
  geom_line(data = df_plot, aes(Date, Value, color = Type), size = 1.5) + 
  scale_color_manual(values = line_colors, name = "", labels = c("New", "Total")) + 
  scale_y_continuous(breaks = seq(0, 250, 25), limits = c(0, 250)) + 
  theme(panel.grid.minor.y = element_blank()) + 
  theme(legend.position = "top") + 
  scale_x_date(limits = c(min(my_date), max(my_date) + 3), breaks = seq(min(my_date), max(my_date), 1), 
               labels = df_labels$label_x, position = "top", expand = c(0, 0)) + 
  theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) + 
  geom_text(data = df_an, aes(Date, Value, label = label), show.legend = FALSE, color = line_colors[2:1], size = 4.5, 
            fontface = "bold", hjust = 0.6, family = my_font) +
  labs(x = NULL, y = NULL, 
       title = "Figure 1: Coronavirus cases in Vietnam, as of 04-04-2020", 
       caption = "Source: Ministry of Health of Vietnam") + 
  geom_text(data = data.frame(Date = ymd("2020-01-23") + 10, Value = h), aes(Date, Value), label = "Stage 1", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-02-13") + 11, Value = h), aes(Date, Value), label = "Standby", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-06") + 7, Value = h), aes(Date, Value), label = "Stage 2", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-21") + 7, Value = h), aes(Date, Value), label = "Stage 3", size = 4, vjust = k, family = my_font) + 
  theme(axis.text.x = element_text(size = 10, family = my_font)) + 
  theme(axis.text.y = element_text(size = 13, family = my_font)) + 
  theme(plot.margin = unit(c(1, 1, 1, 1), "cm")) + 
  theme(plot.title = element_text(family = my_font, size = 20)) + 
  theme(plot.caption = element_text(family = my_font, size = 10, color = "grey30")) + 
  theme(legend.text = element_text(family = my_font, size = 10, face = "bold", color = "grey30"))
---
title: 'Coronavirus cases in Vietnam'
author: 'Author: Nguyen Chi Dung'
subtitle: "Daily Graph Series"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.width = 10, fig.height = 6)
```


# Motivations

Chức năng của Graph là truyền tải các insights cho người tiếp nhận thông tin. Khi nào chức năng này mà không làm được, hoặc gây hiểu lầm, hoặc não người mất quá nhiều thời gian để hiểu insight trong graph được trình bày, thì coi như graph chưa làm được chức năng của nó. Một Graph tốt thì nên là self-explanatory (tự cái hình đã giải thích mọi thứ). Một trong những ví dụ như vậy là hình số 2 của báo cáo có tên *ĐÁNH GIÁ TÁC ĐỘNG CỦA COVID-19 ĐẾN NỀN KINH TẾ VÀ CÁC KHUYẾN NGHỊ CHÍNH SÁCH* (có thể xem [tại đây](https://neu.edu.vn/Resources/Docs/SubDomain/HomePage/ThongBao/2020/2020_4/FormatFactory%20PDF%20Joiner%20BIA%201%20bao%20cao_1.pdf?fbclid=IwAR1f6YzdfSaDH69lfa05HnCwpAuEF25HSD0qkhnGJmSTMx-LZ2eADFqyWxs)). Chúng ta có thể cải tiến lại như sau: 

![](C:\\Users\\ADMIN\\Desktop\\corona.jpg)

# R codes 

R codes để thực hiện hình này như sau: 


```{r, eval=FALSE}
# Load some packages: 
library(tidyverse)
library(lubridate)

# Data links (source: https://github.com/CSSEGISandData/COVID-19): 
rm(list = ls())
link1 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
link2 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"
link3 <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"

# Clean and prepare data: 

link1 %>% 
  read_csv() %>% 
  rename(Province = `Province/State`, Country = `Country/Region`) %>% 
  gather(Date, Confirmed, -Province, -Country, -Lat, -Long) %>% 
  mutate(Date = mdy(Date)) %>% 
  filter(Country == "Vietnam", Date <= ymd("2020-04-04")) -> df_confirmed

df_confirmed %>% 
  mutate(before = lag(Confirmed)) %>% 
  mutate(NewConfirmed = Confirmed - before) %>% 
  slice(-1) -> df_for_g1

end_stage1 <- dmy("13-02-2020")
start_stage2 <- dmy("06-03-2020")
end_stage2 <- dmy("21-03-2020")

df_for_g1 %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) -> df

df %>% 
  select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>% 
  gather(Type, Value, -Date) -> df_plot

df_plot$Date %>% unique() -> my_date

df_labels <- data.frame(Date = my_date)

df_labels %>% 
  mutate(label_x = case_when(Date == min(Date) ~ as.character(Date), 
                             Date == end_stage1 ~ as.character(end_stage1), 
                             Date == start_stage2 ~ as.character(start_stage2), 
                             Date == end_stage2 ~ as.character(end_stage2), 
                             Date == max(Date) ~ as.character(Date), 
                             TRUE ~ "")) %>% 
  mutate(Stage = case_when(Date <= end_stage1 ~ "Stage 1", 
                           Date > end_stage1 & Date < start_stage2 ~ "Standby", 
                           Date >= start_stage2 & Date <= end_stage2 ~ "Stage 2", 
                           TRUE ~ "Stage 3")) %>% 
  mutate(label_x = case_when(label_x == "2020-01-23" ~ "23-01", 
                             label_x == "2020-02-13" ~ "13-02", 
                             label_x == "2020-03-06" ~ "06-03", 
                             label_x == "2020-03-21" ~ "21-03", 
                             label_x == "2020-04-04" ~ "04-04", 
                             TRUE ~ label_x)) -> df_labels



df_for_g1 %>% 
  filter(Date == max(Date)) %>% 
  mutate(Date = Date + 2) %>% 
  select(TotalConfirmed = Confirmed, NewConfirmed, Date) %>% 
  gather(Type, Value, -Date) %>% 
  mutate(label = case_when(Value == 4 ~ paste0(Value, "  "), 
                           TRUE ~ as.character(Value))) -> df_an 


fill_colors <- c("#fff5f0", "#fcbba1", "#fc9272", "#fb6a4a")
line_colors <- c("#e41a1c", "#1f78b4")
h <- 250
k <- -0.5
my_font <- "Ubuntu Condensed"

ggplot() + 
  theme_minimal() + 
  geom_rect(aes(xmin = min(my_date), xmax = end_stage1, ymin = -Inf, ymax = Inf, fill = "Stage 1"), fill = "#a1d99b", alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage1, xmax = start_stage2, ymin = -Inf, ymax = Inf, fill = "Standby"), fill = fill_colors[2], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = start_stage2, xmax = end_stage2, ymin = -Inf, ymax = Inf, fill = "Stage 2"), fill = fill_colors[3], alpha = 0.3, show.legend = FALSE) + 
  geom_rect(aes(xmin = end_stage2, xmax = max(my_date), ymin = -Inf, ymax = Inf, fill = "Stage 3"), fill = fill_colors[4], alpha = 0.3, show.legend = FALSE) + 
  geom_line(data = df_plot, aes(Date, Value, color = Type), size = 1.5) + 
  scale_color_manual(values = line_colors, name = "", labels = c("New", "Total")) + 
  scale_y_continuous(breaks = seq(0, 250, 25), limits = c(0, 250)) + 
  theme(panel.grid.minor.y = element_blank()) + 
  theme(legend.position = "top") + 
  scale_x_date(limits = c(min(my_date), max(my_date) + 3), breaks = seq(min(my_date), max(my_date), 1), 
               labels = df_labels$label_x, position = "top", expand = c(0, 0)) + 
  theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) + 
  geom_text(data = df_an, aes(Date, Value, label = label), show.legend = FALSE, color = line_colors[2:1], size = 4.5, 
            fontface = "bold", hjust = 0.6, family = my_font) +
  labs(x = NULL, y = NULL, 
       title = "Figure 1: Coronavirus cases in Vietnam, as of 04-04-2020", 
       caption = "Source: Ministry of Health of Vietnam") + 
  geom_text(data = data.frame(Date = ymd("2020-01-23") + 10, Value = h), aes(Date, Value), label = "Stage 1", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-02-13") + 11, Value = h), aes(Date, Value), label = "Standby", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-06") + 7, Value = h), aes(Date, Value), label = "Stage 2", size = 4, vjust = k, family = my_font) + 
  geom_text(data = data.frame(Date = ymd("2020-03-21") + 7, Value = h), aes(Date, Value), label = "Stage 3", size = 4, vjust = k, family = my_font) + 
  theme(axis.text.x = element_text(size = 10, family = my_font)) + 
  theme(axis.text.y = element_text(size = 13, family = my_font)) + 
  theme(plot.margin = unit(c(1, 1, 1, 1), "cm")) + 
  theme(plot.title = element_text(family = my_font, size = 20)) + 
  theme(plot.caption = element_text(family = my_font, size = 10, color = "grey30")) + 
  theme(legend.text = element_text(family = my_font, size = 10, face = "bold", color = "grey30"))

```





