1 Giới thiệu

Phân tích trực quan bằng đồ họa thống kê là một giải pháp mô tả dữ liệu với hiệu quả cao hơn hẳn so với hình thức dùng bảng và con số. Tuy nhiên, đa số giáo trình/tài liệu trong trường lớp hiện nay còn khiếm khuyết rất nhiều về mảng biến định tính/rời rạc (categorical/discrete variables). Thí dụ, cho mục tiêu mô tả hoặc khảo sát mối tương quan giữa các biến định tính : các công cụ phổ thông mới chỉ cho phép trình bày thông tin 1 chiều (biểu đồ bánh) hoặc 2 chiều (biểu đồ hộp).

Trong năm 2018 này, Nhi sẽ phát hành một quyển sách chuyên đề về « Đồ họa thống kê », trong đó sẽ giới thiệu về tất cả những dạng biểu đồ thống kê cho 3 ứng dụng : mô tả đặc tính phân bố, so sánh trực quan, phân tích tương quan, cho cả biến định lượng và định tính.

Trong bài thực hành hôm nay, Nhi sẽ trích một phần nhỏ nôi dung chương 3 có chủ đề : « phân tích quan hệ giữa nhiều biến định tính » để giới thiệu với các bạn 6 công cụ đồ họa chuyên dụng gồm :

  1. Các biến thể của biểu đồ thanh (Bar graph)

  2. Biểu đồ khảm (Mosaic plot)

  3. Biểu đồ lưu lượng (Flow diagram)

  4. Biểu đồ dây cung (Chord diagram)

  5. Sơ đồ Venn

  6. Biểu đồ mạng từ luật kết hợp

Những công cụ này có thể được dùng để mô tả trực quan bảng chéo đa chiều để khảo sát quan hệ từ 3 biến định tính trở lên

Trước hết, ta sẽ tạo 1 dữ liệu mô phỏng, có nội dung khảo sát tần suất của 4 bệnh lý khác nhau (A,B,C,D) trong một mẫu 500 bệnh nhân. Hiện tượng nhiều bệnh cùng hiện diện trên một cá thể được gọi là comorbidity trong y học lâm sàng (thí dụ một người đàn ông có thể mắc bệnh COPD kết hợp với Suy tim và Tiểu đường).

library(tidyverse)
## -- Attaching packages ------------------------------------- tidyverse 1.2.1 --
## v ggplot2 2.2.1     v purrr   0.2.4
## v tibble  1.4.2     v dplyr   0.7.4
## v tidyr   0.8.0     v stringr 1.3.1
## v readr   1.1.1     v forcats 0.3.0
## -- Conflicts ---------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
set.seed(1705)

dat=data_frame(Benhnhan=paste("BN",c(1:500),sep=""),
               BenhA=sample(c("Y","N"),500, replace=T,prob=c(0.3,0.7))%>%as.factor(),
               BenhB=sample(c("Y","N"),500, replace=T,prob=c(0.55,0.45))%>%as.factor(),
               BenhC=sample(c("Y","N"),500, replace=T,prob=c(0.2,0.8))%>%as.factor(),
               BenhD=sample(c("Y","N"),500, replace=T,prob=c(0.6,0.4))%>%as.factor()
)

head(dat)%>%knitr::kable()
Benhnhan BenhA BenhB BenhC BenhD
BN1 N Y N Y
BN2 N Y N Y
BN3 Y Y N Y
BN4 N Y N Y
BN5 N Y N Y
BN6 Y Y Y N

Thống kê thường quy thường sử dụng một bảng chéo để mô tả sự phân bố tần suất/tỉ lệ của tất cả các tổ hợp có thể giữa 2 hay nhiều biến định tính.Khi có sự chia sẻ chung một tỉ lệ cao của một bậc (trạng thái) giữa 2 biến, ta nói 2 biến này có sự liên hệ với nhau, thí dụ một triệu chứng X xuất hiện (X=Yes) phổ biến ở các bệnh nhân (D=Yes). Một kiểm định Chi-2 cho bảng 2x2 cho phép xác nhận/phủ nhận mối liên hệ này.

Tuy nhiên trong trường hợp này ta có đến 4 biến A,B,C,D và mỗi biến có 2 bậc (Y và N), do đó nếu sử dụng bảng chéo, kích thước của bảng là rất lớn (4 chiều): 2x2x2x2

Trong R, ta có thể dựng bảng chéo bằng 2 cách: hoặc dùng hàm xtabs của package vcd

library(vcd)
## Loading required package: grid
xtabs(~BenhA+BenhB+BenhC+BenhD,data=dat)%>%knitr::kable()
BenhA BenhB BenhC BenhD Freq
N N N N 45
Y N N N 33
N Y N N 53
Y Y N N 22
N N Y N 11
Y N Y N 5
N Y Y N 18
Y Y Y N 7
N N N Y 76
Y N N Y 29
N Y N Y 97
Y Y N Y 42
N N Y Y 24
Y N Y Y 10
N Y Y Y 19
Y Y Y Y 9

Hoặc dùng hàm tally( ) của package dplyr (Nhi khuyến khích các bạn dùng cách này)

dat%>%
  group_by(BenhA,BenhB,BenhC,BenhD)%>%
  tally()%>%
  knitr::kable()
BenhA BenhB BenhC BenhD n
N N N N 45
N N N Y 76
N N Y N 11
N N Y Y 24
N Y N N 53
N Y N Y 97
N Y Y N 18
N Y Y Y 19
Y N N N 33
Y N N Y 29
Y N Y N 5
Y N Y Y 10
Y Y N N 22
Y Y N Y 42
Y Y Y N 7
Y Y Y Y 9

Hoặc phổ quát hơn là hàm summary cũng của dplyr với phép đếm tần suất

dat%>%
  group_by(BenhA,BenhB,BenhC,BenhD)%>%
  summarise(frequency = n())%>%
    knitr::kable()
BenhA BenhB BenhC BenhD frequency
N N N N 45
N N N Y 76
N N Y N 11
N N Y Y 24
N Y N N 53
N Y N Y 97
N Y Y N 18
N Y Y Y 19
Y N N N 33
Y N N Y 29
Y N Y N 5
Y N Y Y 10
Y Y N N 22
Y Y N Y 42
Y Y Y N 7
Y Y Y Y 9

2 Giới hạn của biểu đồ 1 chiều

Trước hết, cần phân biệt giữa 2 khái niệm: Mô tả 4 biến định tính và phân tích tương quan giữa chúng. Nếu mục tiêu của ta chỉ đơn giản là trình bày 4 biến (Benh A,B,C,D) thì đây là một điều rất dễ dàng:

Đầu tiên, ta có thể dùng heatmap, vì nó cho phép mô tả toàn bộ bảng dữ liệu (heatmap thực chất chỉ là 1 matrix được tô màu). Heatmap có thể dùng được cho cả biến định lượng lẫn định tính:

dat2<-apply(dat,2,as.factor)%>%as.data.frame()
dat2[,c(2:5)]<-map(dat2[,c(2:5)],as.numeric)
dat2[,c(2:5)]<-dat2[,c(2:5)]-1

dat2%>%gather(BenhA:BenhD,key="Benh",value="value")%>%
  ggplot(aes(x=reorder(Benhnhan,1-value),y=reorder(Benh,value),fill=value))+
  geom_tile()+
  theme_bw()+scale_fill_gradient(low="blue",high="red")+
  scale_x_discrete("Benh nhan",labels = NULL)+
  scale_y_discrete("Benh ly")

Hoặc ta có thể dùng 4 biểu đồ 1 chiều, thí dụ 4 biểu đồ bánh, 4 biểu đồ thanh …

Biểu đồ thanh là phát minh của William Playfair (1759-1823) vào năm 1801, sử dụng thành phần hình họa là hộp chữ nhật. Một cạnh trên hộp chữ nhật này (chiều cao hoặc chiều dài) được chọn để biểu hiện cho một giá trị định lượng, trong khi trung điểm cạnh còn lại định vị cho phân nhóm. Ưu điểm lớn nhất của biểu đồ thanh là tính tiện dụng. Đây là dạng biểu đồ phổ biến và đa dụng nhất, đến mức nó trở thành một trong 3 biểu tượng của ngành thống kê (bên cạnh hình chuông úp và biểu đồ bánh).

Biểu đồ thanh được ví như một con dao xếp Thụy Sỹ vì bạn có thể dùng nó để trình bày bất cứ điều gì, trong mọi hoàn cảnh và có khả năng thay thế cho mọi loại biểu đồ khác. Sự rời rạc của biểu đồ thanh khiến nó phù hợp để trình bày tần suất hoặc tỉ lệ của biến định tính/rời rạc.

Một biến thể của biểu đồ thanh được tạo ra bằng sự phân khúc. Biểu đồ thanh phân khúc cho phép trình bày 1 biến định lượng Y (thí dụ tần suất) trên trục tung phụ thuộc vào 1 biến rời rạc X1 trên trục hoành và được điều kiện hóa theo 1 yếu tố phân nhóm X2 khác. Như vậy biểu đồ này cho phép biểu diễn đồng thời 3 chiều thông tin.

Khi trục tung biểu diễn tỉ lệ %, kích thước của các thanh trên biều đồ được chuẩn hóa (bằng nhau), ta sẽ có một dạng biểu đồ đặc biệt - có công dụng trình bày tỉ lệ phân bố (%) các nhãn giá trị của một biến rời rạc. Dữ liệu được một hàm thống kê hoán chuyển thành tỉ lệ % (tần suất hiện diện/tổng số trường hợp), sau đó tỉ lệ mỗi nhãn giá trị (phân nhóm) được biểu thị bởi kích thước 1 cạnh hình hộp chữ nhật. Các hộp chữ nhật này được xếp nối tiếp nhau và được phân biệt bằng màu nền (một phổ màu rời rạc). Do cạnh còn lại của những hộp chữ nhật nhỏ này là đồng kích thước, nên hiệu ứng tương phản hoàn toàn do diện tích của mỗi hình hộp (Kết quả (%) tỉ lệ thuận với diện tích của mỗi hình hộp).

Từ biểu đồ thanh phân khúc, ta có thể tạo ra biểu đồ bánh hoặc Cox-Comb (hoán chuyển hệ trục tọa độ Descartes thành Polar).

Nếu dùng biểu đồ thanh ta sẽ có hình ảnh như sau:

dat%>%gather(BenhA:BenhD,value="Chandoan",key="Benh")%>%
  ggplot(aes(x=Benh,fill=Chandoan))+
  geom_bar(stat = "count",position="dodge",show.legend = T,alpha=0.7,col="black")+
  theme_bw()+
  scale_fill_manual(values=c("blue","red"))

Hoặc như thế này:

dat%>%gather(BenhA:BenhD,value="Chandoan",key="Benh")%>%
  ggplot(aes(x=Benh,fill=Chandoan))+
  geom_bar(stat = "count",position="fill",show.legend = T,alpha=0.7,col="black")+
  theme_bw()+
  scale_fill_manual(values=c("blue","red"))

Còn đây là kết quả của 4 biểu đồ bánh:

blank_theme <- theme_minimal()+
  theme(
    axis.title.x = element_blank(),
    axis.title.y = element_blank(),
    panel.border = element_blank(),
    panel.grid=element_blank(),
    axis.ticks = element_blank(),
    plot.title=element_text(size=14, face="bold")
  )
dat%>%gather(BenhA:BenhD,value="Chandoan",key="Benh")%>%
  ggplot(aes(x="",fill=Chandoan))+
  geom_bar(width = 1,stat = "count",show.legend = T,alpha=0.7,col="black")+
  coord_polar(theta="y")+
  scale_y_discrete(breaks=NULL,labels = NULL)+
  blank_theme+
    facet_wrap(~Benh,ncol=4)+
  scale_fill_manual(values=c("blue","red"))

Tuy nhiên, những biểu đồ kể trên chỉ mới cho phép chúng ta mô tả và so sánh, hoặc tối đa là bảng chéo 2 chiều, nhưng chưa thực sự thay thế được cho bảng chéo 3-4 chiều, vì chúng không trình bày được mối liên hệ giữa 4 bệnh lý. Mục tiêu xa hơn của chúng ta là chuyển bảng chéo 2x2x2x2 thành biểu đồ. Có thể làm điều này nhờ vào 6 nhóm công cụ như sau:

3 Hàm facet grid:

Khi kết hợp giữa biểu đồ thanh và 1 hàm facet_grid() – điều kiện hóa theo 2 biến – ta có thể trình bày được một bảng chéo tối đa là 4 chiều, thí dụ 2x2x2x2 như trong trường hợp này.

dat%>%ggplot(aes(fill=BenhB,
                x=BenhA))+
  geom_bar(stat="count",
           position="fill",
           color="black",
           alpha=0.7,
           show.legend = T)+
  theme_bw()+
  facet_grid(BenhC~BenhD)+
  scale_fill_manual(values = c("blue","red"))

dat%>%ggplot(aes(fill=BenhB,
                x=BenhA))+
  geom_bar(stat="count",
           position="dodge",
           color="black",
           alpha=0.7,
           show.legend = T)+
  theme_bw()+
  facet_grid(BenhC~BenhD)+
  scale_fill_manual(values = c("blue","red"))

4 Biểu đồ khảm (Mosaic plot)

Khảm (mosaic) là một phương pháp trang trí trong mỹ thuật và kiến trúc, với cơ chế sắp xếp những mảnh ghép bằng vật liệu đá, gốm sứ hoặc thủy tinh có hình thù và màu sắc khác nhau để lấp đầy một mặt phẳng (cửa sổ, nền nhà, tường, tranh…). Biểu đồ mosaic áp dụng cơ chế tương tự để hình ảnh hóa một bảng tương quan tần số giữa nhiều biến định tính.

Biểu đồ Mosaic được thiết lập một cách chính thức bởi 2 tác giả Hartigan và Kleiner vào năm 1981, tuy nhiên theo tác giả Micheal Friendly (2011), biểu đồ này có nguồn gốc cổ xưa hơn rất nhiều. Cụ thể là từ năm 1693, Edmund Halley đã có ý tưởng trình bày dữ liệu dưới hình thức chiều cao x chiều rộng của hình chữ nhật (giản đồ Halley). Sau đó, ý tưởng dùng diện tích hình phẳng để trình bày dữ liệu cũng được nhiều tác giả khác sử dụng như Charles de Fourcroy (Pháp, 1780), August Friedrich Wilhem Crome (Đức, 1785). Với sự xuất hiện của nhiều biểu đồ thống kê cơ bản, trong đó có biểu đồ thanh vào đầu thế kỉ 19, có thể xem biểu đồ Mosaic là sự biến tấu từ biểu đồ thanh và biểu đồ thanh phân khúc bằng cách tận dụng cả 2 chiều hình hộp và diện tích để biểu diễn thông tin. Thí dụ Jacques bertillon (Pháp, 1896) đã dùng hình hộp chồng lên bản đồ, Charles Joseph Minard (1844) xếp các biểu đồ thanh phân khúc sát với nhau thành một bảng chéo. Biểu đồ Mosaic sơ khai nhất có lẽ là sản phẩm của Georg von Mayr (1877), nó có nội dung là một bảng chéo 3x3 cho 2 biến, với cùng nguyên tắc như mosaic plot mà ta biết ngày nay.

Biểu đồ mosaic plot bao gồm một diện tích hình vuông hoặc chữ nhật (không gian 2 chiều) được chia thành nhiều mảnh hình hộp chữ nhật trong đó kích thước một cạnh (thí dụ chiều rộng) tương ứng với tần suất hay tỉ lệ mỗi bậc giá trị của 1 biến X1. Mỗi mảnh hình hộp này sau đó lại được chia thành các mảnh nhỏ hơn (tile) mà kích thước (chiều cao) mỗi mảnh thể hiện tần suất/tỉ lệ cho một biến thứ 2 (X2). Quy trình phân chia này có thể tiếp diễn cho nhiều biến khác nữa … Ở từng cấp độ phân chia, diện tích của mỗi mảnh ghép (tile) tỉ lệ với giá trị mỗi ô trong một bảng chéo (bảng phân phối tần số) tổ hợp giữa 2-3 biến được khảo sát. Như vậy có thể nói rằng biểu đồ mosaic chính là hình ảnh của một bảng chéo khảo sát mối liên hệ/tương tác giữa 2 hay nhiều biến định tính. Nếu các biến này độc lập với nhau (không có mối liên hệ), sẽ không có sự khác biệt đáng kể về tần suất giữa các ô và các mảnh ghép hình chữ nhật sẽ song song và đồng dạng; trái lại khi có mối liên hệ giữa 2-3 biến trong bảng chéo, các mảnh ghép sẽ có diện tích to nhỏ khác nhau, tạo nên hình ảnh lệch so le…

Có thể vẽ mosaic plot rất dễ dàng từ một bảng chéo nhờ package vcd:

xtb2<-xtabs(~BenhA+BenhB+BenhC+BenhD,data=dat)

vcd::assoc(xtb2, shade=TRUE)

vcd::mosaic(xtb2,shade=T)

Một cách tổng quát, cơ chế của biểu đồ Mosaic là một hàm với nội dung: Weight ~ tập biến Xj, với Weight là trọng số diện tích. Trường hợp đơn giản nhất, ta chỉ có 1 biến: Weight ~ X, biểu đồ Mosaic chính là một biểu đồ thanh phân khúc (stacked bar graph).

Package ggmosaic cho phép tùy chỉnh nội dung của hàm này và tích hợp biểu đồ Mosaic vào ngữ pháp ggplot2 qua hàm geom_mosaic( ).

library(ggmosaic)

dat%>%ggplot()+geom_mosaic(aes(weight = 1, 
                              x = product(BenhB,BenhC), 
                              fill=BenhA),
                          col="black",na.rm=TRUE,
                          offset = 0.01)+
    scale_fill_manual(values = c("blue","red"))+
  theme_bw()+facet_grid(BenhD~.)+coord_flip()

library(ggmosaic)

dat%>%ggplot()+geom_mosaic(aes(weight = 1, 
                              x = product(BenhB,BenhC,BenhD), 
                              fill=BenhA),
                          col="black",na.rm=TRUE,
                          offset = 0.01)+
    scale_fill_manual(values = c("blue","red"))+
  theme_bw()

5 Biểu đồ lưu lượng (Flow diagram)

Nếu ta hình dung mỗi ô trong bảng chéo là một nhánh sông/suối hay ngăn chứa trong một cái hồ, còn tập hợp 500 cá thể bệnh nhân như một khối chất lỏng (nước), thì sự phân bố tần suất vào các ô trong bảng chéo cũng giống như rót nước vào từng ngăn hoặc một dòng chảy của nước qua mạng lưới sông/suối này. Có một dạng đồ họa đặc biệt cho phép mô tả dòng chảy này, đó là các biểu đồ lưu lượng (flow diagram). Ý tưởng về flow diagram do Charles Minard phát minh vào năm 1869 (biểu đồ hành quân của Napoleon vào nước Nga).

Flow diagram được biết dưới nhiều cái tên khác nhau như biểu đồ Sankey (từ tên của tác giả Matthew HP. Sankey đã dùng biểu đồ này vào năm 1898 để mô tả dòng năng lượng qua một động cơ hơi nước), hoặc Alluvial diagram, là một dạng flow diagram đặc biệt mô tả sự thay đổi cấu trúc của một hệ thống (network) theo thời gian (thay vì không gian như Sankey plot).

Flow diagram được sử dụng nhiều trong ngành Vật lý, Địa lý, Thủy lợi, Công/Nông nghiệp và kinh tế. Tuy nhiên ý tưởng của nó có thể áp dụng tổng quát cho mọi vấn đề liên quan đến phân bố tần suất của biến định tính/phân nhóm.

Ta có thể vẽ biểu đồ Sankey hay alluvial bằng package ggalluvial trong R:

library(ggalluvial)
library(pals)

xtb=dat%>%
  dplyr::group_by(BenhA,BenhB,BenhC,BenhD)%>%
  summarise(frequency = n())

xtb%>%ggplot(aes(weight = frequency, 
                  axis1 = BenhA, 
                 axis2= BenhB,
                 axis3=BenhC,
                axis4 = BenhD)) +
  geom_alluvium(aes(fill = frequency), width = 0.3) +
  geom_stratum(width = 1/10, 
               fill = "white", 
               color = "grey") +
  geom_label(stat = "stratum", 
             label.strata = TRUE) +
  scale_x_continuous(breaks = 1:4, 
                     labels = c("A", "B","C","D"))+
  scale_fill_gradientn(colours = pals::parula(n=500))+
  theme_bw()+theme(legend.position="bottom")

xtb%>%ggplot(aes(weight = frequency, 
                 axis1 = BenhA, 
                 axis2= BenhB,
                 axis3=BenhC,
                axis4 = BenhD))+
  geom_alluvium(aes(fill =BenhA),
                width = 0, 
                reverse = FALSE) +
  guides(fill = FALSE)+
  geom_stratum(width = 1/10, 
               reverse = FALSE)+
  geom_text(stat = "stratum", 
            label.strata = TRUE, 
            reverse = FALSE) +
  scale_x_continuous(breaks = 1:4, 
                     labels = c("BenhA","BenhB", "BenhC", "BenhD"))+
  coord_flip()+theme_bw()

6 Biểu đồ dây cung

Đây là một phát kiến mới trong ngành đồ họa thống kê (nó được áp dụng lần đầu tiên vào năm 2007 để minh họa về mạng lưới quan hệ phức tạp giữa các gene trong bộ gene.

Ý tưởng của chord diagram phát xuất từ khái niệm “dây cung” trên đường tròn trong môn hình học phẳng (một đoạn thẳng có 2 đầu đều nằm trên đường tròn). Bản chất của chord diagram là một biểu đồ mạng (network) được sắp xếp theo hình tròn, do đó nó có thể được xếp vào họ biểu đồ hình tròn (circular layout graph). Cơ chế của chord diagram như sau: Dữ liệu được sắp xếp trên đường tròn thành từng cung (phân nhóm) hoặc điểm (cá thể), sau đó liên hệ giữa các phân nhóm/cá thể này được diễn tả bằng những dây cung.

Về ý nghĩa truyền thông, chord diagram tốt cả về lượng lẫn về phẩm: nó cho phép tải số lượng thông tin rất lớn (vô số nhóm/cá thể) có thể được xếp nối tiếp trên cung tròn). Chord diagram trình bày được cả thông tin về cấu trúc và sự tương phản. Diện tích (độ dầy) của mỗi dây còn cho biết tần suất của tổ hợp cũng như độ mạnh của mối liên kết. Ngoài ra, chord diagram còn được ưa chuộng vì tính mỹ thuật: màu sắc và sự chồng lắp của nhiều dây cung mang lại một hiệu ứng đẹp quyến rũ.

Các bạn có thể tham khảo quyển sách “Circular Visualisation in R” của Zuguang Gu để biết thêm về họ biểu đồ trên cung tròn http://zuguang.de/circlize_book/book/

library(circlize)

xtb3=dat%>%mutate(Id=rownames(dat))%>%gather(BenhA:BenhD,key="Benh",value="Status")%>%
  group_by(Status,Benh)%>%
  summarise(frequency = n())

grid.col = c(`Y` ="red",`N` ="blue",
              `BenhA` ="orange",`BenhB` ="green",
               `BenhC` ="purple",`BenhD` ="pink")

chordDiagram(as.data.frame(xtb3), 
             transparency = 0.5,grid.col =grid.col)

7 Sơ đồ Venn

Giản đồ Venn hay còn gọi là sơ đồ tập hợp, là một hình thức minh họa cho các liên hệ mang tính logic giữa 2 hay nhiều tập hợp. Nó được sử dụng rất phổ biến trong môn logic học, lý thuyết xác suất, thống kê và cả trong truyền thông đại chúng. Sơ đồ Venn được phát minh vào năm 1880 bởi John Venn.

Trong sơ đồ Venn, mỗi tập hợp được đại diện bằng một hình tròn hay Elip có màu sắc riêng biệt với diện tích tỉ lệ với số phần tử mà nó chứa. Phần chung giữa 2 hay nhiều tập hợp chính là kết quả của việc chồng lắp một phần những hình tròn/elip này lên nhau.

Trong R có hai cách để vẽ sơ đồ Venn, cách làm cũ dựa vào package limma từ bioconductor:

# source("http://bioconductor.org/biocLite.R")

# biocLite("limma")

# library(limma)

# dat2[,c(2:5)]%>%vennCounts()%>%vennDiagram(names = c("A","B","C","D"),circle.col = c("#fc113c","#11a6fc","#11fc6b","#fcb211"))

Một phương pháp khác mới được tạo ra gần đây (tháng 5/2018), đó là package nVennR.

library(nVennR)

vplot<-list(A=filter(dat,BenhA=="Y")%>%.$Benhnhan,
           B=filter(dat,BenhB=="Y")%>%.$Benhnhan,
           C=filter(dat,BenhC=="Y")%>%.$Benhnhan,
           D=filter(dat,BenhD=="Y")%>%.$Benhnhan
)%>%plotVenn()

showSVG(nVennObj = vplot, 
        setColors = c("#2cabf9","#2cf9bc","#93f92c","#f9ca2c"),
        borderWidth = 3,opacity = 0.2,
        labelRegions = F, fontScale = 3)

8 Luật kết hợp - biểu đồ mạng

Ngoài những biểu đồ thuộc lớp “function” kể trên, ta còn có thể sử dụng phương pháp luật kết hợp (association rule) và tạo ra 1 biểu đồ mạng (network) như sau:

library(arules)
## Loading required package: Matrix
## 
## Attaching package: 'Matrix'
## The following object is masked from 'package:tidyr':
## 
##     expand
## 
## Attaching package: 'arules'
## The following object is masked from 'package:dplyr':
## 
##     recode
## The following objects are masked from 'package:base':
## 
##     abbreviate, write
library(arulesViz)

rules=apriori(dat[,-1], control = list(verbose=F),
              parameter = list(minlen=2, 
                               supp=10/500, 
                               conf=0.8))

rules <- sort(rules, by="lift")

redundant=is.redundant(rules,measure="confidence")

rule2=rules[!redundant]

plot(rule2, method="graph",engine="htmlwidget")

9 Kết luận

Bài thực hành đến đây là hết, các bạn đã biết cách sử dụng 6 công cụ khác nhau để chuyển bảng chéo đa chiều thành biểu đồ. Tùy bản chất vấn đề và phong cách cá nhân, yêu cầu mỹ thuật, bạn có thể dùng một trong những công cụ này cho luận văn/bài thuyết trình/văn bản khoa học của mình để thay thế cho những bảng chéo rối rắm.

Chúc các bạn thành công.

