Giới thiệu
Một trong những động cơ thúc đẩy các bạn làm quen và chuyển sang dùng R, chính là vẻ đẹp quyến rũ của những biểu đồ thống kê mà R cung cấp. Khả năng đồ họa thống kê của R là không có giới hạn cả về mặt mỹ thuật và sáng tạo, nhờ vào nền tảng ngữ pháp đồ thị ggplot2 và rất nhiều packages khác phát triển dựa vào ggplot2.
Tuy nhiên, có một số việc mà ggplot2 cho đến nay vẫn chưa làm được, đó là
Trình bày biểu đồ tần suất và density curve của nhiều phân nhóm trên cùng một panel mà không chồng lắp chúng lên nhau
Áp dụng scale_fill_gradient trên density curve
Nếu việc thứ 2 chỉ có ý nghĩa mỹ thuật, thì việc thứ 1 có nhiều ý nghĩa khác về mặt ứng dụng, vì hiện nay cách duy nhất để so sánh phân phối giữa nhiều phân nhóm trong ggplot là sử dụng facet_wrap() hay facet_grid(); hoặc bạn phải dùng Box-plot, scatter plot.
Tháng 10 vừa qua, một package mới ra đời là ggridges đã giải quyết 2 vấn đề nêu trên một cách hoàn hảo. Sau đây Nhi xin được so sánh giữa những gì ggridges làm được so với ggplot2 làm trước kia:
Trước hết ta lấy thí dụ: Package birthwt : bộ số liệu về ảnh hưởng của sức khỏe người mẹ lên cân nặng của trẻ sơ sinh
library(viridis)
## Loading required package: viridisLite
library(ggridges)
## Loading required package: ggplot2
library(tidyverse)
## Loading tidyverse: tibble
## Loading tidyverse: tidyr
## Loading tidyverse: readr
## Loading tidyverse: purrr
## Loading tidyverse: dplyr
## Conflicts with tidy packages ----------------------------------------------
## filter(): dplyr, stats
## lag(): dplyr, stats
my_theme <- function(base_size =10, base_family = "sans"){
theme_bw(base_size = base_size, base_family = base_family) +
theme(
panel.grid.major = element_line(color = "gray"),
panel.grid.minor = element_blank(),
panel.background = element_rect(fill = "#f7faff"),
strip.background = element_rect(fill = "#001659", color = NA, size =0.5),
strip.text = element_text(face = "bold", size = 10, color = "white"),
legend.position = "bottom",
legend.justification = "center",
legend.background = element_blank(),
legend.margin = margin(0.5,0.5,0.5,0.5)
)
}
library(tidyverse)
df=read.csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/birthwt.csv")
df$smoke=df$smoke%>%recode_factor(.,`1` = "Smoke", `0` = "No_smoke")
df$ht=df$ht%>%recode_factor(.,`1` = "Hypertensive", `0` = "Normal")
df$race=df$race%>%recode_factor(.,`1` = "White", `2` = "Black", `3` = "Other")
Sử dụng histogram thay thế cho Box-plot:
# Pair 1
p1=ggplot(df, aes(x = bwt, y = race, fill= race)) +
geom_density_ridges(stat = "binline", scale = 1, bins=30,draw_baseline = FALSE,alpha=0.6) +
labs(x="Birthweight", y = "Race") + scale_fill_discrete(name = "Race") +
coord_flip() +
my_theme(8) +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+ggtitle("Histograms")
p2=ggplot(df, aes(y = bwt, x = race, fill= race)) +
geom_boxplot(alpha=0.8) +
labs(y="Birthweight", x = "Race")+
my_theme(8) +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+ggtitle("Tukey's Boxplot")
gridExtra::grid.arrange(p1,p2,ncol=2)

Hình này so sánh giữa 2 đồ thị dựng bằng ggridges (Trái) và ggplot2 cổ điển (Phải)
Trước hết, ggridges tạo ra một dạn biểu đồ mật độ phân phối mới, lai giữa histogram và density curve. Dạng này rất hữu dụng khi bạn đang khảo sát phân bố của 1 count data variable. Cả boxplot và density curve đều không hoàn toàn chính xác cho discrete và count data, vì thang đo của biến số là không liên tục.
Hơn thế nữa, ggridges cho phép các bạn biểu diễn 3 histogram density curve một cách tách biệt cho 3 phân nhóm chứ không chồng lắp chúng lên nhau, và thú vị hơn nữa, đó là nó cho phép áp dụng coord_flip() để xoay trục X/Y, cho phép trình bày density curve theo chiều dọc (trục Y).
Như vậy, nếu bạn đang có trong tay một countdata variable và 1 factor nhiều level, hình bên trái vừa đẹp hơn, vừa chính xác hơn so với boxplot.
Dĩ nhiên bạn cũng có thể dựng hình theo chiều ngang như thế này:
ggplot(df, aes(x = bwt, y = race, fill= race)) +
geom_density_ridges2(stat = "binline", draw_baseline = FALSE,alpha=0.6,scale = 0.9) +
geom_text(stat = "bin",
aes(y = group + 0.9*(..count../max(..count..)),
label = ifelse(..count..>0, ..count.., "")),size = 3, color = "black",vjust=1.5)+
labs(x="Birthweight", y = "Race")+
scale_x_continuous(expand = c(0.01,0))+
scale_y_discrete(expand = c(0.01, 0))+
my_theme(10) +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))
## `stat_binline()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Sử dụng density plot thay cho Boxplot
Trong trường hợp bạn có 1 biến liên tục, lúc này density curve là giải pháp rất hợp lý để biểu diễn phân phối của biến Y; Tuy nhiên nếu chỉ dùng ggplot2, bạn không thể so sánh đặc tính phân phối của nhiều phân nhóm mà không dùng facet plot.
ggridges cho phép bạn ghép 3 density curve theo chiều dọc hay chiều ngang trên cùng 1 panel;
Từ khi phát hiện ggridges, Nhi bắt đầu thay thế Boxplot bằng density plot theo chiều ngang hay dọc thế này:
So với Boxplot truyền thống, hình vẽ 3 densityplot bên trái mang lại nhiều thông tin hơn hẳn. Boxplot chỉ cho ta biết thông tin tóm tắt về tứ phân vị,trung vị trong khi density plot cho ta hình ảnh về phân phối một cách trung thực và chi tiết đến từng bách phân vị. Việc thể hiện outlier trên Boxplot là có ích, nhưng - đôi khi những giá trị này không phải là outliers, mà chỉ là phần cực tiểu hay cực đại của mộ quy luật phân phối lệch trái hay phải, thí dụ Gamma…
q1=ggplot(df, aes(x = bwt, y = smoke, fill= smoke)) +
geom_density_ridges(scale = 1.5,alpha=0.6) +
labs(x="Birthweight", y = "Smoking status") + scale_fill_discrete(name = "Smoking") +
my_theme(8) +
geom_rug(aes(col=smoke),show.legend = F)+coord_flip()+
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+facet_wrap(~race)+ggtitle("Density curves")
q2=ggplot(df, aes(y = bwt, x = smoke, fill= smoke)) +
geom_boxplot(alpha=0.8) +
labs(y="Birthweight", x = "Smoking status") +
my_theme(8) +
theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+facet_wrap(~race)+ggtitle("Tukey's Boxplot")
gridExtra::grid.arrange(q1,q2,ncol=2)
## Picking joint bandwidth of 247
## Picking joint bandwidth of 293
## Picking joint bandwidth of 327

Tô màu theo gradient cho densityplot
Không chỉ cho phép tách biệt và đảo chiều những density plot, ggridges 2 còn cho phép áp dụng gradient màu cho các densityplot này.
Trước kia, ggplot2 chỉ cho phép dùng gradient màu cho geom_point, scale_fill_gradient hay scale_fill_continuous không thể dùng cho những hình có diện tích, như boxplot, violin plot hay density plot. Bây giờ thì bạn có thể tô màu gradient cho cả density plot : Hình vẽ đẹp hơn và gây ấn tượng mạnh hơn.
s1=ggplot(df, aes(x = bwt, y = race,fill = ..x..))+
geom_density_ridges_gradient(scale = 1,alpha=0.5,gradient_lwd = 0.5,show.legend = F) +
labs(x="Birthweight", y = "Race") +
my_theme(8)+
scale_x_continuous(expand = c(0.01, 0))+
scale_y_discrete(expand = c(0.01, 0))+
my_theme(8)+
scale_fill_viridis(option="C")+
coord_flip()+ggtitle("Gradient density plots")
s2=ggplot(df, aes(y=bwt,x=race,fill=bwt))+
geom_point(shape=21,aes(col=bwt,size=bwt),alpha=0.6,show.legend = F) +
labs(y="Birthweight", x = "Race") +
my_theme(8)+
scale_fill_viridis(option="C")+
scale_colour_viridis(option="C")+ggtitle("geom_point")
gridExtra::grid.arrange(s1,s2,ncol=2)
## Picking joint bandwidth of 261

Kết luận
Bạn có thể tải package ggridges từ CRAN: https://cran.r-project.org/web/packages/ggridges/index.html Và dùng thử. Nhi tin chắc sau khi đọc bài này và áp dụng ggridges, các bạn sẽ nhanh chóng chán Boxplot và thay thế chúng bằng densityplot khi làm thống kê mô tả/ thăm dò dữ liệu.
Những dạng biểu đồ này cũng cực kì hữu ích khi bạn làm bootstrap và phân tích Bayes.
Tạm biệt các bạn
---
title: "Package ggridges"
subtitle: "Giải pháp mỹ thuật mới"
author: "Lê Ngọc Khả Nhi"
date: "10 Tháng 11 2017"
output:
  html_document: 
    code_download: true
    number_sections: yes
    theme: "default"
    toc: TRUE
    toc_float: TRUE
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

![](ggridesPackage.png)

# Giới thiệu

Một trong những động cơ thúc đẩy các bạn làm quen và chuyển sang dùng R, chính là vẻ đẹp quyến rũ của những biểu đồ thống kê mà R cung cấp. Khả năng đồ họa thống kê của R là không có giới hạn cả về mặt mỹ thuật và sáng tạo, nhờ vào nền tảng ngữ pháp đồ thị ggplot2 và rất nhiều packages khác phát triển dựa vào ggplot2.

Tuy nhiên, có một số việc mà ggplot2 cho đến nay vẫn chưa làm được, đó là 

1) Trình bày biểu đồ tần suất và density curve của nhiều phân nhóm trên cùng một panel mà không chồng lắp chúng lên nhau 


2) Áp dụng scale_fill_gradient trên density curve

Nếu việc thứ 2 chỉ có ý nghĩa mỹ thuật, thì việc thứ 1 có nhiều ý nghĩa khác về mặt ứng dụng, vì hiện nay cách duy nhất để so sánh phân phối giữa nhiều phân nhóm trong ggplot là sử dụng facet_wrap() hay facet_grid(); hoặc bạn phải dùng Box-plot, scatter plot. 

Tháng 10 vừa qua, một package mới ra đời là ggridges đã giải quyết 2 vấn đề nêu trên một cách hoàn hảo. Sau đây Nhi xin được so sánh giữa những gì ggridges làm được so với ggplot2 làm trước kia:

Trước hết ta lấy thí dụ: Package birthwt : bộ số liệu về ảnh hưởng của sức khỏe người mẹ lên cân nặng của trẻ sơ sinh 

```{r}
library(viridis)
library(ggridges)
library(tidyverse)

my_theme <- function(base_size =10, base_family = "sans"){
  theme_bw(base_size = base_size, base_family = base_family) +
    theme(
      panel.grid.major = element_line(color = "gray"),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = "#f7faff"),
      strip.background = element_rect(fill = "#001659", color = NA, size =0.5),
      strip.text = element_text(face = "bold", size = 10, color = "white"),
      legend.position = "bottom",
      legend.justification = "center",
      legend.background = element_blank(),
      legend.margin = margin(0.5,0.5,0.5,0.5)
    )
}


library(tidyverse)

df=read.csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/birthwt.csv")

df$smoke=df$smoke%>%recode_factor(.,`1` = "Smoke", `0` = "No_smoke")
df$ht=df$ht%>%recode_factor(.,`1` = "Hypertensive", `0` = "Normal")
df$race=df$race%>%recode_factor(.,`1` = "White", `2` = "Black", `3` = "Other")

```

# Sử dụng histogram thay thế cho Box-plot:

```{r}
# Pair 1
  p1=ggplot(df, aes(x = bwt, y = race, fill= race)) + 
  geom_density_ridges(stat = "binline", scale = 1, bins=30,draw_baseline = FALSE,alpha=0.6) +
  labs(x="Birthweight", y = "Race") + scale_fill_discrete(name = "Race") +
  coord_flip() +
  my_theme(8) +
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+ggtitle("Histograms")
  
  
  p2=ggplot(df, aes(y = bwt, x = race, fill= race)) + 
    geom_boxplot(alpha=0.8) +
    labs(y="Birthweight", x = "Race")+
    my_theme(8) +
    theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+ggtitle("Tukey's Boxplot")
  
  gridExtra::grid.arrange(p1,p2,ncol=2)
  
```

Hình này so sánh giữa 2 đồ thị dựng bằng ggridges (Trái) và ggplot2 cổ điển (Phải)

Trước hết, ggridges tạo ra một dạn biểu đồ mật độ phân phối mới, lai giữa histogram và density curve. Dạng này rất hữu dụng khi bạn đang khảo sát phân bố của 1 count data variable. Cả boxplot và density curve đều không hoàn toàn chính xác cho discrete và count data, vì thang đo của biến số là không liên tục.

Hơn thế nữa, ggridges cho phép các bạn biểu diễn 3 histogram density curve một cách tách biệt cho 3 phân nhóm chứ không chồng lắp chúng lên nhau, và thú vị hơn nữa, đó là nó cho phép áp dụng coord_flip() để xoay trục X/Y, cho phép trình bày density curve theo chiều dọc (trục Y).

Như vậy, nếu bạn đang có trong tay một countdata variable và 1 factor nhiều level, hình bên trái vừa đẹp hơn, vừa chính xác hơn so với boxplot.

Dĩ nhiên bạn cũng có thể dựng hình theo chiều ngang như thế này:

```{r}
 ggplot(df, aes(x = bwt, y = race, fill= race)) + 
    geom_density_ridges2(stat = "binline", draw_baseline = FALSE,alpha=0.6,scale = 0.9) +
    geom_text(stat = "bin",
              aes(y = group + 0.9*(..count../max(..count..)),
                  label = ifelse(..count..>0, ..count.., "")),size = 3, color = "black",vjust=1.5)+
    labs(x="Birthweight", y = "Race")+
    scale_x_continuous(expand = c(0.01,0))+
    scale_y_discrete(expand = c(0.01, 0))+
    my_theme(10) +
    theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))
```

# Sử dụng density plot thay cho Boxplot

Trong trường hợp bạn có 1 biến liên tục, lúc này density curve là giải pháp rất hợp lý để biểu diễn phân phối của biến Y; Tuy nhiên nếu chỉ dùng ggplot2, bạn không thể so sánh đặc tính phân phối của nhiều phân nhóm mà không dùng facet plot.

ggridges cho phép bạn ghép 3 density curve theo chiều dọc hay chiều ngang trên cùng 1 panel;

Từ khi phát hiện ggridges, Nhi bắt đầu thay thế Boxplot bằng density plot theo chiều ngang hay dọc thế này:

So với Boxplot truyền thống, hình vẽ 3 densityplot bên trái mang lại nhiều thông tin hơn hẳn. Boxplot chỉ cho ta biết thông tin tóm tắt về tứ phân vị,trung vị trong khi density plot cho ta hình ảnh về phân phối một cách trung thực và chi tiết đến từng bách phân vị. Việc thể hiện outlier trên Boxplot là có ích, nhưng - đôi khi những giá trị này không phải là outliers, mà chỉ là phần cực tiểu hay cực đại của mộ quy luật phân phối lệch trái hay phải, thí dụ Gamma...

```{r}
q1=ggplot(df, aes(x = bwt, y = smoke, fill= smoke)) + 
    geom_density_ridges(scale = 1.5,alpha=0.6) +
    labs(x="Birthweight", y = "Smoking status") + scale_fill_discrete(name = "Smoking") +
    my_theme(8) +
    geom_rug(aes(col=smoke),show.legend = F)+coord_flip()+
    theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+facet_wrap(~race)+ggtitle("Density curves")

  q2=ggplot(df, aes(y = bwt, x = smoke, fill= smoke)) + 
    geom_boxplot(alpha=0.8) +
    labs(y="Birthweight", x = "Smoking status") +
    my_theme(8) +
    theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1))+facet_wrap(~race)+ggtitle("Tukey's Boxplot")
  
  gridExtra::grid.arrange(q1,q2,ncol=2)
  
```

# Tô màu theo gradient cho densityplot

Không chỉ cho phép tách biệt và đảo chiều những density plot, ggridges 2 còn cho phép áp dụng gradient màu cho các densityplot này.

Trước kia, ggplot2 chỉ cho phép dùng gradient màu cho geom_point, scale_fill_gradient hay scale_fill_continuous không thể dùng cho những hình có diện tích, như boxplot, violin plot hay density plot. Bây giờ thì bạn có thể tô màu gradient cho cả density plot : Hình vẽ đẹp hơn và gây ấn tượng mạnh hơn.

```{r}
s1=ggplot(df, aes(x = bwt, y = race,fill = ..x..))+ 
    geom_density_ridges_gradient(scale = 1,alpha=0.5,gradient_lwd = 0.5,show.legend = F) +
    labs(x="Birthweight", y = "Race") +
    my_theme(8)+
    scale_x_continuous(expand = c(0.01, 0))+
    scale_y_discrete(expand = c(0.01, 0))+
    my_theme(8)+
    scale_fill_viridis(option="C")+
  coord_flip()+ggtitle("Gradient density plots")

s2=ggplot(df, aes(y=bwt,x=race,fill=bwt))+ 
  geom_point(shape=21,aes(col=bwt,size=bwt),alpha=0.6,show.legend = F) +
  labs(y="Birthweight", x = "Race") +
  my_theme(8)+
  scale_fill_viridis(option="C")+
  scale_colour_viridis(option="C")+ggtitle("geom_point")

gridExtra::grid.arrange(s1,s2,ncol=2)

  
```

# Kết luận

Bạn có thể tải package ggridges từ CRAN: https://cran.r-project.org/web/packages/ggridges/index.html
Và dùng thử. Nhi tin chắc sau khi đọc bài này và áp dụng ggridges, các bạn sẽ nhanh chóng chán Boxplot và thay thế chúng bằng densityplot khi làm thống kê mô tả/ thăm dò dữ liệu.

Những dạng biểu đồ này cũng cực kì hữu ích khi bạn làm bootstrap và phân tích Bayes. 

Tạm biệt các bạn
