Nội dung của Nhiệm vụ

  • Nhiệm vụ yêu cầu vẽ cũng như phân tích 20 đồ thị khác nhau

  • Bộ dữ liệu tiến hành thực hiện là Bộ dữ liệu về Covid-19 của một số quốc gia

  • Tên của bộ dữ liệu : tạm gọi là Data Covid-19

Tổng quan về Bộ dữ liệu Data Covid-19

1. Nguồn gốc của Bộ dữ liệu

  • Trang web tham khảo của bộ dữ liệu : WHO DATA

  • Ta gán bộ dữ liệu gốc với tên là CV (viết tắt của Covid)

library(csv)
CV <- read.csv('D:/UFM/COVID 19.csv', header = T)

2. Một số thông tin về Bộ dữ liệu

Nội dung của bộ dữ liệu về :

  • Dữ liệu sẽ có các số liệu cung cấp về tình hình dịch bệnh Covid-19 của một số quốc gia

  • Các thông số sẽ cung cấp các trường hợp ghi nhận mắc Covid-19trường hợp ghi nhận đã tử vong vì Covid-19 của một số quốc gia

  • Thời gian được tính từ tháng 1/2020 đến ngày cập nhật mới nhất là tháng 1/2024

  • Mặc dù có nhiều quốc gia trong bộ dữ liệu, nhưng ta cũng sẽ chỉ tiến hành phân tích chủ yếu một số quốc gia như Việt Nam, Trung Quốc,…..

Lưu ý : Số liệu được ghi nhận được tính theo từng ngày báo cáo và sẽ cách đều 7 ngày cho mỗi biến

  • Một ngày báo cáo đó đại diện cho sự tổng hợp của 7 ngày trước đó

  • Ví dụ nếu ngày 7/1/2022 có số liệu là 1,000,000 ca thì không có nghĩa trong 1 ngày có tới 1,000,000 ca mắc, mà là từ ngày 1 đến 7 có tổng 1,000,000 ca được tổng hợp lại

  • Cho nên trong khi phân tích số liệu, ta sẽ tạm gói gọn sự tổng hợp của 7 ngày thành 1 ngày báo cáo đại diện

  • Vì 7 ngày sẽ được tổng hợp lại thành 1 ngày báo cáo, nên số ngày cụ thể của mỗi tháng là khác biệt

  • tổng là 211 ngày cho mỗi quốc gia (tính từ tháng 1/2020 - tháng 1/2024)


Bộ dữ liệu CV bao gồm : 11,605 quan sát12 biến

  • Mỗi quan sát đại diện cho số liệu của một ngày báo cáo của một quốc gia về các ca ghi nhận hoặc tử vong

  • Mỗi biến đại diện cho các thông tin khác nhau : như tên quốc gia, ngày, năm, trường hợp ghi nhận,…

dim(CV)
## [1] 11605    12

Với 12 biến tương ứng, mỗi biến cung cấp các thông tin khác nhau, bao gồm như sau :

  • 1. Date reported : Đây là Ngày báo cáo (cụ thể cả ngày tháng năm) của các số liệu đã được thống kê

  • 2. Month : Đây là tháng của ngày báo cáo trên (chỉ khác là nó được tách ra riêng thành 1 biến)

  • 3. Day : Đây là ngày của ngày báo cáo trên

  • 4. Year : Đây là năm của ngày báo cáo trên

  • 5. Country code : Mã viết tắt của các quốc gia (ví dụ Việt Nam là VN)

  • 6. Country : Tên cụ thể của các quốc gia và vùng lãnh thổ

  • 7. Continents : Châu lục của các quốc gia thuộc về

  • 8. WHO region : Đây chính là khu vực do WHO chia thành để báo cáo, phân tích và quản lý các quốc gia

  • 9. New cases : Số trường hợp ghi nhận mắc covid (theo từng ngày riêng biệt, không cộng dồn)

  • 10. Cumulative cases : Số ca ghi nhận tích lũy mắc covid (có cộng dồn từng ngày)

  • 11. New death : - Sô trường hợp ghi nhận đã tử vong (theo từng ngày riêng biệt, không cộng dồn)

  • 12. Cumulative deaths : - Số trường hợp ghi nhận tích lũy đã tử vong vì covid (có cộng dồn từng ngày)

Ngoài ra trong một số biến gồm các thông tin khác

  • Continents là Châu lục của các quốc gia thuộc về, bao gồm 7 châu lục như sau :

    • Asia - Châu Á

    • Africa - Châu Phi

    • North America - Bắc Mỹ

    • South America - Nam Mỹ

    • Europe - Châu Âu

    • Australia - Châu Úc/ Châu Đại Dương

    • Antarctica - Châu Nam Cực

  • WHO Regions là từng khu vực được đặt dưới sự quản lý của WHO, được chia thành 6 nhóm như sau :

    • AFRO - Khu vực Châu Phi

    • AMRO - Khu vực Châu Mỹ

    • SEARO - Khu vực Đông Nam Á

    • EURO - Khu vực Châu Âu

    • EMRO - Khu vực Đông Địa Trung Hải

    • WPRO - Khu vực Tây Thái Bình Dương

str(CV)
## 'data.frame':    11605 obs. of  12 variables:
##  $ Date.reported    : chr  "1/5/2020" "1/12/2020" "1/19/2020" "1/26/2020" ...
##  $ Month            : int  1 1 1 1 2 2 2 2 3 3 ...
##  $ Day              : int  5 12 19 26 2 9 16 23 1 8 ...
##  $ Year             : int  2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
##  $ Country.code     : chr  "AO" "AO" "AO" "AO" ...
##  $ Country          : chr  "Angola" "Angola" "Angola" "Angola" ...
##  $ Continents       : chr  "Africa" "Africa" "Africa" "Africa" ...
##  $ WHO.region       : chr  "AFRO" "AFRO" "AFRO" "AFRO" ...
##  $ New.cases        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Cumulative.cases : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ New.deaths       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Cumulative.deaths: int  0 0 0 0 0 0 0 0 0 0 ...

Ngoài ra còn có các thông tin khác :

library(skimr)
skim(CV)
Data summary
Name CV
Number of rows 11605
Number of columns 12
_______________________
Column type frequency:
character 5
numeric 7
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Date.reported 0 1 8 10 0 211 0
Country.code 0 1 2 2 0 55 0
Country 0 1 4 52 0 55 0
Continents 0 1 4 13 0 6 0
WHO.region 0 1 4 5 0 6 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Month 0 1 6.44 3.48 1 3 6 10 12 ▇▅▅▅▇
Day 0 1 15.74 8.78 1 8 16 23 31 ▇▇▇▆▆
Year 0 1 2021.35 18.80 0 2021 2022 2023 2024 ▁▁▁▁▇
New.cases 0 1 56823.44 493536.86 -65079 107 2803 23334 40475477 ▇▁▁▁▁
Cumulative.cases 0 1 5795338.74 13966746.91 0 77914 979801 4505220 103436829 ▇▁▁▁▁
New.deaths 0 1 511.56 1738.20 -3432 0 23 247 47687 ▇▁▁▁▁
Cumulative.deaths 0 1 69218.43 150862.12 0 684 12018 63172 1161235 ▇▁▁▁▁

Tiến hành phân tích và vẽ đồ thị cho Bộ dữ liệu

COVID-19 (Coronavirus Disease 2019) là một bệnh đường hô hấp cấp tính truyền nhiễm gây ra bởi chủng virus corona SARS-CoV-2 và các biến thể của nó

  • Nguồn gốc của COVID-19 bắt đầu từ Vũ Hán, Trung Quốc. Virus corona là một betacorona virus, có nguồn gốc từ vật chủ là loài dơi

  • Phương thức lây truyền chính là từ người sang người, qua các giọt dịch hô hấp của cơ thể

  • Hiện đã có vắc-xin phòng chống bệnh nhưng việc nghiên cứu phát triển vắc-xin vẫn tiếp tục

Tính tới hiện tại là năm 2024, mặc dù dịch bệnh đã được kiểm soát và tình hình đã không còn căng thẳng như lúc trước nhưng vẫn có các trường hợp ghi nhận mắc Covid-19 ở một số quốc gia

  • Ta tiến hành xem coi đến năm 2024 số ca ghi nhận ở các khu vực cũng như quốc gia là bao nhiêu

1. Biểu đồ thể hiện các ca ghi nhận mắc Covid-19 những ngày đầu năm 2024

Trong bộ dữ liệu bao gồm có 55 quốc gia và từng quốc gia này đều được chia thành 6 khu vực do WHO quản lý đã nêu trên

  • Ta tiến hành phân tích và vẽ biểu đồ của 6 khu vực này

  • Ta sẽ ghi nhận các ca mắc Covid-19 trong 2 ngày được tổng hợp của năm 2024

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ✔ readr     2.1.5
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Khuvuc <- CV %>% filter(Year == 2024 & Day>1)
Khuvuc %>% group_by(WHO.region,New.cases) %>%
  ggplot(aes(WHO.region,New.cases)) +
    geom_col(fill='lightblue') +
    labs(title = " Biểu đồ thể hiện ghi nhận mắc Covid-19 những ngày đầu năm 2024 ") +
    theme_classic() +
    labs(x = 'Khu vực WHO Regions', y = 'Số ca mắc') 

Nhận xét

Biểu đồ bên trên thể hiện số lượng ca ghi nhận mắc Covid-19 những ngày của năm 2024

Dựa theo bộ dữ liệu, ta thấy số lượng được ghi nhận tới 2 ngày cụ thể là 7/1/2024 và ngày 14/1/2024

  • Mặc dù đã hơn 4 năm kể từ ngày dịch Covid-19 bùng nổ, nhưng tới hiện này các ca mắc vẫn được ghi nhận khá nhiều ở từng khu vực

    • WPRO là khu vực Tây Thái Bình Dương có số ca ghi nhận đến hơn 90,000 ca

    • 3 khu vực gồm EURO - SEARO - AMRO lần lượt có các ca ghi nhận thấp hơn - khoảng dưới 30,000 ca

    • 2 khu vực EMROAFRO là 2 khu vực có số lượng không đáng kể

  • Ta thấy được các nước thuộc khu vực Tây Thái Bình Dương có số lượng cao hơn hẳn với các nước khu vực còn lại

  • Nếu so sánh thì khu vực này gấp hơn 3 lần các khu vực còn lại

Chứng tỏ dù dịch bệnh đã qua giai đoạn nguy hiểm, nhưng ta vẫn thấy có các ca ghi nhận mắc bệnh. Vì vậy việc phòng chống dịch Covid-19 và bảo vệ sức khỏe vẫn luôn là rất quan trọng


2. Biểu đồ thể hiện các ca tử vong vì Covid-19 những ngày đầu năm 2024

Bên cạnh các ca ghi nhận bên trên, cũng là các ca đã ghi nhận tử vong vì Covid-19 trong những ngày đầu năm 2024

Ta tiến hành xem biểu đồ dưới đây :

Khuvuc %>% group_by(WHO.region,New.cases) %>%
  ggplot(aes(New.deaths,WHO.region)) +
    geom_col(fill='red') +
    labs(title = " Biểu đồ thể hiện ghi nhận tử vong vì Covid-19 những ngày đầu năm 2024 ") +
    theme_classic() +
    labs(x = 'Khu vực WHO Regions', y = 'Số ca tử vong') 

Nhận xét

May mắn rằng các ca ghi nhận tử vong trong biểu đồ trên không nhiều như biểu đồ ghi mắc bệnh

  • Ta thấy rằng số lượng ở mỗi khu vực đều dưới 500 ca, cụ thể như sau :

    • Khu vực EURO - Châu Âu có ca ghi nhận tử vong hơn 300 ca, khoảng 1% trong 30,000 ghi nhận bên trên

    • Khu vực WPRO với hơn 90,000 ca mắc bệnh thì khoảng gần 200 ca tử vong

    • Khu vực SEARO với khoảng hơn 100 ca tử vong

    • 3 khu vực còn lại là AMRO - EMRO - AFRO có số lượng lần lượt thấp hơn hẳn - dưới 50 ca

  • Các quốc gia Châu Á, Thái Bình Dương mặc dù có lượng ghi nhận mắc nhiều nhất nhưng lại chữa bệnh khá tốt, tỷ lệ tử vong là ít hơn hẳn

  • So với Châu Á thì các nước Châu Âu có tỷ lệ tử vong cao hơn, nhưng cũng không quá đáng kể

  • Còn lại các khu vực khác vừa có số ca mắc không quá nhiều và số ca tử vong cũng nằm ở mức rất ít

Các ca ghi nhận mắc ở biểu đồ đầu tiên không phải là thấp mà vẫn là khá cao cộng thêm các ca ghi nhận tử vong bên trên thì đó như là lời cảnh tỉnh để mọi người biết cách phòng chống dịch một cách hiệu quả hơn


3. Biểu đồ so sánh các ca tử vong vì Covid-19 những ngày đầu năm 2024

Để thấy rõ hơn các ca tử vong, ta có thể sử biểu độ cột chồng để dễ so sánh và nhận xét hơn

Ta xem biểu đồ sau :

Khuvuc %>% ggplot(aes(x=New.deaths, fill=WHO.region)) +
  geom_histogram(position = "dodge", binwidth = 50) +
  labs(title = " Biểu đồ so sánh các ca ghi nhận tử vong ở các khu vực ") +
  labs(x = 'Số ca tử vong', y = 'Số lượng ghi nhận') 

Nhận xét

Cũng là số liệu như biểu đồ số 2, nhưng các khu vực đã được tách ra và xếp chồng ra như biểu đồ trên

  • Khu vực EURO ở biểu đồ 2 là có lượng ghi nhận tủ vong nhiều nhất thì ở đây ta đã thấy số lượng các ca ở mỗi ngày như thế nào

    • Ví dụ với số ca tử vong là ở mức 200 ca, thì số ngày ghi nhận 200 ca này là khoảng 1-2 ngày

    • Con số ca tử vong ở mức 100 và 50 cũng như vậy, sẽ có khoảng 1 hoặc 2 ngày sẽ có 100 ca tử vong

  • Các khu vực còn lại giải thích tương tự như khu vực EURO ở phía trên


4. Biểu đồ thể hiện số ca mắc Covid-19 theo ngày ở Việt Nam

Sau khi nhìn sơ về tình hình hiện tại bằng 3 biểu đồ bên trên, ta sẽ tiến hành xét trên các quốc gia riêng lẻ

Trải qua hơn 3 năm phòng, chống đại dịch COVID-19, với tinh thần đặt sức khỏe, tính mạng của người dân lên trên hết

  • Việt Nam đã vượt qua đại dịch và trở thành một trong những nước “đi sau nhưng về trước”

  • Dịch COVID-19 hiện nay đã được kiểm soát trên phạm vi toàn quốc

Và ta sẽ tiến hành xem các ca được ghi nhận mắc Covid-19 của Việt Nam qua các biểu đồ

VN <- CV %>% filter(Country== 'Viet Nam')
table(cut(VN$New.cases,4))
## 
## (-1.85e+03,4.61e+05]  (4.61e+05,9.23e+05]  (9.23e+05,1.38e+06] 
##                  204                    3                    2 
##  (1.38e+06,1.85e+06] 
##                    2

Như đã nói ban đầu, mỗi quốc gia riêng biệt sẽ có 211 ngày báo cáo, và từng ngày đều có số lượng ca ghi nhận hay tử vong khác nhau

Ta tiến hành chia các ngày đó thành 4 nhóm ghi nhận các ca mắc khác nhau, ta tiến hành đặt tên như sau :

  • Nhóm Ít204 ngày ghi nhận khoảng từ 0 - 461,000 ca

  • Nhóm Vừa3 ngày ghi nhận khoảng từ 461,000 - 923,000 ca

  • Nhóm Nhiều2 ngày ghi nhận khoảng từ 923,000 - 1,300,000 ca

  • Nhóm Rất nhiều2 ngày ghi nhận khoảng từ 1,300,000 - 1,800,000 ca

Sau đó ta tiến hành vẽ biểu đồ thể hiện

VN1 <- VN %>% mutate(Socaghinhan = cut(New.cases,4, label = c('Ít','Vừa','Nhiều','Rất nhiều')))
VN1 %>% group_by(Socaghinhan) %>% summarise(n = n()) %>%
  ggplot(aes(Socaghinhan,n)) +
    geom_col(fill='yellow') +
    labs(title = " Biểu đồ thể hiện số ca ghi nhận của Việt Nam ") +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(x = 'Số ca ghi nhận', y = 'Số ngày ghi nhận')

Nhận xét

  • Số ca ghi nhận từ 0 - 461,000 ca rơi vào khoảng 204 ngày cho nhóm ít trên biểu đồ

  • Đương nhiên trong 204 ngày, sẽ có ngày không ghi nhận ca nào, có ngày ghi nhận tối đa 461,000 ca

  • Nhóm Vừa ghi nhận có 3 ngày có số ca 461,000 - 923,000 ca

  • 2 nhóm Nhiều và Rất nhiều đều có lượng ghi nhận trên 1,000,000 ca mắc và có khoảng 4 ngày có số lượng như thế

  • số lượng nhiều nhất mà Việt Nam ghi nhận được đó là khoảng 1,800,000 ca mắc trong một ngày

Trong tổng 211 ngày báo cáo của Việt Nam thì số lượng mỗi ngày đều khác nhau, có ngày ghi nhận ghi nhận ít, có ngày ghi nhận đến kỷ lục, nhưng chúng ta đã vững vàng vượt qua những đợt dịch tàn khốc đó bằng sự chỉ đạo sát sao, kịp thời của Đảng, Nhà nước, Chính phủ và sự đồng lòng của người dân


5. Biểu đồ thể hiện số ca mắc Covid-19 theo ngày ở Việt Nam và Trung Quốc

Ở biểu đồ trên, mặc dù ta đã chia thành các các mức ghi nhận ca mắc ra thành 4 nhưng số lượng ca ở mức Ít vẫn khá nhiều và ta không thể thấy cụ thể bên trong có số lượng như thế nào

Bây giờ ta sẽ tiến hành chia theo mong muốn, thành các mức nhỏ hơn một chút nữa, để thấy được các ca ghi nhận như thế nào

Đồng thời, ta cũng sẽ so sánh mức ghi nhận này với một nước bạn của Việt Nam - đó là Trung Quốc

VNTQ <- CV %>% filter(CV$Country =='China' | CV$Country == 'Viet Nam')
VNTQ1 <- VNTQ
VNTQ1$New.cases.GN <- case_when(VNTQ1$New.cases <10000 ~ 'Ghi nhận Không đáng kể', VNTQ1$New.cases >=10000 & VNTQ1$New.cases <100000 ~ 'Ghi nhận Ít', VNTQ1$New.cases >=100000 & VNTQ1$New.cases <500000 ~ 'Ghi nhận Vừa', VNTQ1$New.cases >=500000 ~ 'Ghi nhận Nhiều')
table(VNTQ1$New.cases.GN)
## 
##            Ghi nhận Ít Ghi nhận Không đáng kể         Ghi nhận Nhiều 
##                     54                    302                     17 
##           Ghi nhận Vừa 
##                     49
  • Đầu tiên ta lọc từ dữ liệu thành chỉ còn 2 nước Việt Nam và Trung Quốc

  • Sau đó ta tiến hành chia số ca ghi nhận mắc Covid-19 cũng thành 4 nhóm và thu được kết quả như sau :

    • Nhóm Ghi nhận Ít có số lượng ca dưới 10,000 ca 1 ngày - tổng thu được từ 2 nước là có 54 ngày ghi nhận

    • Nhóm Ghi nhận Không đáng kể có số ca từ 10,000 - 100,000 ca, tổng thu được là 302 ngày

    • Nhóm Ghi nhận Vừa có số ca từ 100,000 - 500,000 ca, tổng là 17 ngày

    • Nhóm Ghi nhận Nhiều có số ca hơn 500,000 ca, tổng là 49 ngày

Số lượng ngày ghi nhận trên là của cả 2 nước Việt Nam và Trung Quốc

Bây giờ sẽ tiến hành so sánh chúng bằng biểu đồ thể hiện :

VNTQ2 <- VNTQ1 %>% group_by(New.cases.GN, Country) %>% summarise(n = n())
## `summarise()` has grouped output by 'New.cases.GN'. You can override using the
## `.groups` argument.
VNTQ2 %>% ggplot(aes(x= New.cases.GN, y=n)) +
  geom_col(data = VNTQ2 %>% filter(Country == 'Viet Nam'), fill = 'red') +
  geom_col(data = VNTQ2 %>% filter(Country == 'China'), fill = 'yellow') +
  labs(title = " Biểu đồ thể hiện số ca ghi nhận của Việt Nam và Trung Quốc") +
  labs(x = 'Số ca ghi nhận chia theo nhóm', y = 'Số ca ghi nhận')

Nhận xét

Theo như biểu đồ thì :

  • Màu đỏ chính là đại diện cho số ca của Việt Nam

  • Màu vàng là đại diện cho số ca của Trung Quốc

Dựa trên biểu đồ ta có một vài nhận xét sau :

  • Ở nhóm Ghi nhận Ít (dưới 10,000 ca/ 1 ngày báo cáo) - số ca ở Việt Nam là nhỉnh hơn so với Trung Quốc

  • Ở nhóm Không đáng kể cũng như vậy, khoảng cách chỉ là khoảng 1-2 ngày mà thôi

  • Còn ở 2 nhóm ghi nhận Nhiều và Vừa thì số lượng ca của Trung Quốc đã hoàn toàn che lấp Việt Nam

Chứng tỏ trong các ngày báo cáo như nhau, số lượng ghi nhận ở Trung Quốc là nhiều hơn so với Việt Nam


6. Biểu đồ thể hiện số ca mắc Covid-19 theo từng mức ở Việt Nam so với Trung Quốc

Ta đã chia các mức ghi nhận thành 4 nhóm, và biểu đồ số 5 đã thể hiện của Việt Nam và Trung Quốc

Ở mức ghi nhận Ít có số lượng ca dưới 10,000 ca 1 ngày - tổng thu được từ 2 nước là có 54 ngày ghi nhận

Ta muốn biết cụ thể bên trong 54 ngày, từng ngày có số ca ghi nhận cụ thể như thế nào, ta có thể xem biểu đồ dưới đây :

ggplot(data = VNTQ %>% filter(New.cases<10000),
  mapping = aes(y=Country, x=New.cases, fill = Country)) +
  geom_violin() +                                   
  labs(title = "B) violin plot by gender")

Nhận xét

Vì nhóm ghi nhận Ít được tổng hợp dựa trên các ngày báo cáo có số ca dưới 10,000 ca nên ta sẽ lọc từ con số đấy ra

  • Ta thấy số lượng ca dưới 2,500 là nhiều hơn hẳn, ta thấy trong biểu đố cả Việt Nam và Trung Quốc đều phình to ra ở phần đáy

  • Còn trên mức 2,500 thì số lượng hẹp dần - đồng nghĩa số ngày ghi nhận số ca này cũng ít hơn

  • Vậy trong 54 ngày của nhóm Ít này, thì số ca đa số sẽ được ghi nhận ở mức dưới 2,500 ca là nhiều cho một ngày


7. Biểu đồ thể hiện số ca mắc Covid-19 theo từng mức ở Việt Nam so với Trung Quốc

Như biểu đồ 6, ta lọc dựa trên các ngày báo cáo dưới 10,000 ca

Thì biểu đồ số 7 sẽ lọc dựa trên các ngày báo cáo dưới 100,000 ca

Nếu dưới 100,000 ca thì sẽ bao gồm nhóm ớ mức Ghi nhận Ít và Không đáng kể đã nêu bên trên

ggplot(data = VNTQ %>% filter(New.cases<100000),
  mapping = aes(y=Country, x=New.cases, fill = Country)) +
  geom_jitter()

Nhận xét

  • Ở các ca có mức ghi nhận thấp (dưới 2,500 ca) thì có số lượng ngày nhiều hơn - ta thấy trong biểu đồ, các chấm hiển thị ở phần đáy dày đặc hơn

  • Và ở bên phần của Việt Nam thì số lượng ở mức dưới 2,500 là nhiều hơn so với Trung Quốc

  • Còn từ mức 2,500 ca trở lên thì các chấm bắt đầu thưa hơn hẳn

Ở đây ta lọc để thấy rõ được 2 nhóm mức ghi nhận là Ít và Không đáng kể, chứ nếu xét tối đa các ca mắc được ghi nhận thì tổng quan sẽ hoàn toàn thay đổi


8. Biểu đồ tròn thể hiện số ca mắc Covid-19 của các quốc gia

Tương tự với cách chia theo các nhóm Ghi nhận bên trên - gồm 4 nhóm : Ít, Không đáng kể, Vừa, Nhiều

Ta tiến hành thể hiện nó với quy mô của tất cả các quốc gia có trong bộ dữ liệu

  • Trong bộ dữ liệu có tổng cộng 11,605 ngày báo cáo - tương đương với 11,605 ngày ghi nhận các ca mắc Covid-19

  • Ta chia các ngày đó theo 4 nhóm ghi nhận đã nói trên và thể hiện nó lên biểu đồ Tròn

Việc thể hiện trên biểu đồ tròn như vậy, có thể giúp ta hình dung trên toàn thế giới, số lượng ca ghi nhận sẽ rơi vào số lượng nhóm nào nhiều nhất

Ta có biểu đồ tròn sau :

CVV <- CV
CVV$New.cases.GN <- case_when(CVV$New.cases <10000 ~ 'Ghi nhận Không đáng kể', CVV$New.cases >=10000 & CVV$New.cases <100000 ~ 'Ghi nhận Ít', CVV$New.cases >=100000 & CVV$New.cases <500000 ~ 'Ghi nhận Vừa', CVV$New.cases >=500000 ~ 'Ghi nhận Nhiều')

CVV %>% group_by(New.cases.GN) %>% summarise(n = n()) %>%
  ggplot(aes(x ='', y = n, fill = New.cases.GN)) +
  geom_col(color = 'black') +
  coord_polar('y') +
  geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
  theme_void() +
  scale_fill_brewer()

Nhận xét

Dựa trên biểu đồ tròn ta thấy được :

  • Ở đa số các quốc gia, mức Ghi nhận Không đáng kể là nhiều nhất - cũng có nghĩa trong 7499 ngày báo cáo sẽ có khoảng 10,000 - 100,000 ca

  • Lần lượt còn lại là các mức Ghi nhận Ít, Vừa, Nhiều với

  • Mức Ghi nhận Ít có khoảng 2864 ngày, tương đương với mức này là số ca ghi nhận dưới 10,000 ca

  • Còn 2 mức Vừa và Nhiều có ca ghi nhận lần lượt là 1007 và 235 ngày

Đây chỉ là mức nhận xét tổng quan về tình hình của thế giới về ca ghi nhận, chưa đánh giá được cụ thể được ở từng quốc gia


9. Biểu đồ tròn thể hiện số ca mắc Covid-19 của từng quốc gia cụ thể

Nếu muốn thấy rõ ràng từng nhóm ghi nhận ở các quốc gia hay ở từng khu vực riêng biệt, ta có thể lọc cụ thể nếu muốn

Biểu đồ dưới đây cũng có mức chia như 2 biểu đồ 5 và 6, nhưng cụ thể ở đây là của nước Mỹ (United States of America)

CVV %>% filter(Country== 'United States of America') %>%
  group_by(New.cases.GN) %>% summarise(n = n()) %>%
  ggplot(aes(x ='', y = n, fill = New.cases.GN)) +
  geom_col(color = 'black') +
  coord_polar('y') +
  geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
  theme_void()

Nhận xét

Dựa vào biểu đồ ta thấy :

  • Nhóm Ghi nhận Ít có số lượng ca dưới 10,000 ca 1 ngày - tổng thu được từ 2 nước là có 11 ngày ghi nhận

  • Nhóm Ghi nhận Không đáng kể có số ca từ 10,000 - 100,000 ca, tổng thu được là 46 ngày

  • Nhóm Ghi nhận Vừa có số ca từ 100,000 - 500,000 ca, tổng là 90 ngày

  • Nhóm Ghi nhận Nhiều có số ca hơn 500,000 ca, tổng là 64 ngày

Ngược lại với Trung Quốc và Việt Nam hay cả với tổng quan của thế giới là mức Ít và Không đáng kể sẽ chiếm nhiều nhất

Nước Mỹ lại có số ca ghi nhận ở mức Vừa và Nhiều là nhiều nhất, nghĩa là số ca ghi nhận đa số sẽ từ 100,000 ca trở lên

  • Số ngày của mức ghi nhận Nhiều phải gấp gần 6 lần so với mức ghi nhận Ít và gấp khoảng 1,3 lần so với Không đáng kể

  • Số người mắc Covid-19 ở quốc gia này là nhiều hơn hẳn


10. Biểu đồ cột chồng thể hiện số ca mắc Covid-19 của từng quốc gia

Tương tự biểu đồ tròn số 9, nhưng thì là hình tròn - ta thể hiện nó bằng cột chồng

Và Quốc gia ta lựa chọn chính là nước có số lượng ca mắc Covid-19 nhiều nhất Châu Á - chính là Ấn Độ India

CVV %>% filter(Country== 'India') %>%
  group_by(New.cases.GN) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = New.cases.GN)) +
  geom_col() +
  geom_text(aes(label = n),position = position_stack(vjust = 1)) +
  scale_fill_brewer() +
  labs(title = " Biểu đồ cột chồng thể hiện số lượng ca ghi nhận của từng quốc gia") +
  labs(x = 'Số ca ghi nhận chia theo nhóm', y = 'Số ca ghi nhận')

Nhận xét

Dựa theo cách chia các nhóm ghi nhận như ở biểu đồ 7,6,5, thì ta thấy Ấn Độ có :

  • Nhóm Ghi nhận Không đáng kể đứng đầu với 76 ngày báo cáo

  • Nhóm Ghi nhận Vừa đứng nhì với 58 ngày

  • Còn lại lần lượt là nhóm Ít với 55 ngày và nhóm Nhiều với 22 ngày

Nhìn chung so với các nước Châu Á khác - cụ thể là Việt Nam và Trung Quốc đa nói trên

  • Số lượng ở 2 nhóm có ca ghi nhận nhiều là Vừa và Nhiều chiếm cao hơn so với Việt Nam và Trung Quốc

  • Còn 2 nhóm ghi nhận còn lại thì độ ở nhóm Ít thì là nhiều hơn, còn với nhóm Không đáng kể là ít hơn


11. Biểu đồ thể hiện tổng quan các ca mắc Covid-19 ở Việt Nam qua các năm

Trong hơn 4 năm chống dịch của Việt Nam, đất nước ta cũng trải qua những thời điểm có ca ghi nhận đến kỷ lục

Nhưng với sự đồng lòng của tất cả người dân cùng chính phủ chung tay chống dịch, số ca mắc và tử vong và giảm đáng kể

Ta có thể xem biểu đồ dưới đây :

VN %>% filter(New.cases>0) %>%
  ggplot(aes(x=Year, y=New.cases)) +
  geom_point(color = 'red') +
  labs(title = "Biểu đồ số ca ghi nhận mắc covid của Việt Nam") +
  labs(x = 'Năm ghi nhận', 'Số ca ghi nhận')

Nhận xét

Ta có thể thấy tổng quan về các ca ghi nhận

  • Năm 2020 - đây là thời điểm mới bắt đầu dịch, nên số lượng ghi nhận ban đầu không nhiều lắm

  • Năm 2021 - dịch bệnh đang từ từ bùng nổ, các ca mắc đã được ghi nhận nhiều hơn

  • Năm 2022 - đây là năm bùng nổ dịch ở nước ta cao nhất, các ca ghi nhận mỗi ngày là rất nhiều, kỷ lục nhiều nhất lên đến hơn 1,500,00 ca

  • Tới năm 2023 - dịch bệnh đã được kiểm soát tốt, số lượng ca mắc cũng đã giảm rất nhiều

Bên cạnh đó, ta có thể xem biểu đồ các ca tử vong như dưới đây :


12. Biểu đồ thể hiện tổng quan các ca tử vong vì Covid-19 ở Việt Nam qua các năm

VN %>% filter(New.cases>0) %>%
  ggplot(aes(x=Year, y=New.deaths)) +
  geom_line(color = 'black', linewidth = 1) +
  geom_point(color = 'red') +
  labs(title = "Biểu đồ số ca ghi nhận tử vong covid của Việt Nam") +
  labs(x = 'Năm ghi nhận', 'Số ca tử vong')

Nhận xét

So với biểu đồ các ca ghi nhận thì mặc dù năm 2022 có số lượng ghi nhận nhiều nhất, nhưng năm 2021 lại có số lượng tử vong nhiều hơn

  • Năm 2021 có số lượng tử vong nhiều hơn các năm còn lại

  • Thời điểm năm 2021, chúng ta chỉ mới bước vào giai đoạn đầu, nên kinh nghiệm hay cách phòng ngừa chưa được cao

  • Đến năm 2022, ta đã thấy được mức độ nguy hiểm của Covid mang đến, nên tỷ lệ tỷ vong là ít hơn

  • Và đến năm 2023 thì số lượng đã giảm cực kỳ đáng kể

Với tinh thần “Chống dịch như chống giặc”, Việt Nam ta đã thực hiện rất tốt và còn được công nhận là một trong những nước kiểm soát tốt nhất thế giới


13. Biểu đồ thể hiện mức tăng tích lũy của các ca mắc Covid-19 theo ngày/tháng/năm ở Việt Nam

Biểu đồ số 11 và 12 thể hiện các ca ghị nhận và tử vong theo từng năm

Mỗi năm đều có các số liệu khác nhau, nhưng khoảng cuối năm 2021 đầu năm 2022 chính là thời điểm bùng nổ nhiều nhất

Ta sẽ tiếp tục tiến hành xem xét 6 tháng cuối của năm 2021, để xem số ca tích lũy có tăng quá nhiều và đáng kể hay không :

VN %>% filter(Year==2021 & Month>6) %>%
  ggplot(aes(x=Month, y=Cumulative.cases)) +
  geom_line(color = 'black', linewidth = 1) +
  labs(title = "Biểu đồ số ca ghi nhận mắc covid của Việt Nam 6 tháng cuối 2021") +
  labs(x = 'Tháng ghi nhận', y = 'Số ca ghi nhận tích lũy')

Lưu ý

  • Số ca mắc tích lũy là số lượng được cộng dồn để thấy được tổng cộng có bao nhiêu ca mắc tính từ khi dịch bùng nổ

  • Tích lũy cộng dồn không có nghĩa là ngày nào cũng có số ca như vậy, mà con số có được là được cộng từng ngày từng ngày với nhau

  • Vd nếu như có một ngày có ít ca mắc Covid - thì con số tích lũy sẽ được giữ nguyên hoặc tăng tương ứng

  • Trong số ca tích lũy, có thể đã có bệnh nhân khỏi bệnh, có thể có bệnh nhân đã tử vong

Nhận xét

Trong 6 tháng cuối của năm 2021, ta đã thấy số lượng ca tích lũy có tăng, nhưng cũng có thời điểm nó giữ nguyên

  • Số ca đã vượt mốc 500,000 ca vào khoảng tháng 9/2021

  • Sau đó thì con số này lại tiếp tục tăng

  • Vào khoảng tháng 11/2021, số ca mắc đã chạm 1,000,000 ca

  • Và tới cuối năm là tháng 12, Việt Nam đã ghi nhận hơn 1,600,000 ca mắc Covid-19

Dù có các thời điểm số ca tích lũy không tăng nhiều nhưng nhìn chung các ca mắc vẫn tăng rất nhiều trong thời điểm này


14. Biểu đồ so sánh số ca mắc và tử vong vì Covid-19 của Việt Nam

Trong 4 năm thì số ca ghi nhận của Việt Nam cũng là khá nhiều, bên cạnh đó đã có những bệnh nhân đã không may mắn qua khỏi

Chính phủ và Nhà nước Việt Nam cũng đã cố hết sức để cùng người dân chung tay chống dịch

  • Và may mắn rằng số ca tử vong ở nước ta so với số ca ghi nhận là thấp hơn rất nhiều

  • Chứng tỏ chúng ta đã rất tích cực trong việc phòng chống dịch bệnh

Và biểu đồ dưới đây, cho ta thấy rõ 2 mức tích lũy ghi nhận và tử vong :

(Ta tiến hành vẽ dựa trên tháng 12 của từng năm - có thể thay đổi nếu muốn)

VN %>% filter(Month==12) %>%
  ggplot(aes(x=Year, y=Cumulative.cases)) +
  geom_line(aes(color = "Số ca ghi nhận tích lũy"), linewidth = 1) +
  geom_line(aes(y = Cumulative.deaths, color = "Số ca tử vong tích lũy"), linewidth = 1) +
  scale_y_log10() +
  labs(title = "Biểu đồ số ca ghi nhận mắc và tử vong tích lũy của Việt Nam") +
  labs(x = 'Năm ghi nhận', y = 'Số ca tích lũy')

Nhận xét

Nhìn tổng quan ta thấy được, đã có rất nhiều bệnh nhân đã được chửa khỏi Covid-19

  • Số lượng ca mắc từ năm 2020 đến 2021tăng nhiều nhất và ca tử vong thời điểm này cũng như vậy

  • Trong 2 năm tiếp theo, thì số ca tích lũy ghi nhận cũng tăng nhưng có vẻ không nhiểu như trước

  • Còn các ca tử vong thì cũng tăng chậm hơn đáng kể

  • Và tới năm 2023 thì số lượng tích lũy của cả 2 đã gần như tăng với lượng rất ít


15. Biểu đồ tần số các ca tử vong của Việt Nam khi so sánh với Trung Quốc

Biểu đồ tấn suất về các ca ghi nhận tử vong dưới đây là trong khoảng thời gian năm 2022

Để biết được giữa Việt Nam và Trung Quốc trong năm 2022, sự khác biệt về số ca tử vong là quá rõ rệt hay không

CVD <- CV
CVD1 <- CVD
CVD1 %>% filter(Country=="Viet Nam" & Year==2022| Country == "China" & Year==2022) %>%
  ggplot(aes(x=New.deaths, color=Country)) + 
  geom_freqpoly(linewidth = 1) +
  labs(title = "Biểu đồ tần số các ca tử vong của Việt Nam khi so sánh với Trung Quốc 2022") +
  labs(x = 'Số ca ghi nhận', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Nhận xét

  • Vào những ngày có số lượng ca từ vong từ 0-2000 ca thì số lượng của Trung Quốc là nhỉnh hơn so với Việt Nam

  • Mỗi nước đều có số lượng từ vài trăm đến vài ngàn ca tử vong

  • Nhưng số lượng của Trung Quốc là nhiều hơn Việt Nam một chút

  • Ngoài ra, Trung Quốc còn ghi nhận số ca tử vong nhiều nhất trong năm 2022 là gần 6,000 ca

  • Còn Việt Nam tối đa trong năm 2022 chỉ khoảng 1,400 ca tử vong


16. Biểu đồ so sánh số ca mắc và tử vong của Việt Nam với một số nước khác năm 2020

Biểu đồ tần số số 13 đã so sánh nước ta với Trung Quốc về số lượng ca tử vong

Thì biểu đồ này sẽ thêm một nước là Ấn Độ và cả số ca ghi nhận nữa

Ta có biểu đồ sau :

CVV %>% filter(Country== 'China' & Year==2022 | Country== 'India'& Year==2022 | Country== 'Viet Nam'& Year==2022) %>%
  ggplot(aes(x=New.cases, y=New.deaths, color= Country.code)) +
  geom_line(linewidth=1) +
  geom_point() +
  labs(title = "Biểu đồ so sánh số ca ghi nhận và tử vong của Việt Nam với nước khác 2022") +
  labs(x = 'Số ca ghi nhận', y = 'Số ca tử vong')

Nhận xét

Country.code trong biểu đồ có nghĩa là mã viết tắt quốc gia, cụ thể là :

  • CN là Trung Quốc (China) - có đường trong biểu đồ là màu đỏ

  • IN là Ấn Độ (India) - có đường trong biểu đồ là màu xanh lá

  • VN là Việt Nam (Viet Nam) - có đường trong biểu đồ là màu xanh dương

Ta thấy được từ biểu đồ :

  • Đường màu đỏ của Trung Quốc có lượng ở số ca ghi nhận và tử vong đều tăng

  • Đã có thời điểm trong năm 2022, Trung Quốc đạt số ca ghi nhận đến hơn 40,000,000 ca, và số ca tử vong là gần 6,000 ca

  • Ấn Độ với đường màu xanh lá cũng có mức ghi nhận đáng chú ý

  • Dù có số lượng ghi nhận không cao như Trung Quốc nhưng đã có gần 8,000 ca tử vong

  • Riêng Việt Nam - đường màu xanh dương, cả ở mức ghi nhận hay tử vong đều ở mức thấp hơn


17. Biểu đồ thể hiện số ca mắc và tử vong của các quốc gia Châu Âu

Sau khi đã nhìn hết các biểu đồ của Việt Nam, ta tiến hành đi sang các nước bạn ở thế giới

Ta có thể chọn khu vực châu lục, hay theo khu vực WHO phân thành,…

Biểu đồ dưới đây thể hiện số ca ghi nhận cũng như tử vong ghi nhận của các quốc gia Châu Âu

CVV %>% filter(Continents== 'Europe' & Year==2020 & Month== 12) %>%
  ggplot(aes(x=New.deaths, y=New.cases, color= Country)) +
  geom_point() +
  labs(title = "Biểu đồ thể hiện số ca ghi nhận và tử vong của các quốc gia Châu Âu") +
  labs(x = 'Số ca tử vong', y = 'Số ca ghi nhận')

Nhận xét

Có tổng cộng 14 quốc gia thuộc khu vực Châu Âu như bên trên

Biểu đồ được vẽ dựa trên số ca ghi nhận và tử vong vào tháng 12/2020

  • Lúc này, tổng quan cho thấy các quốc gia Châu có số ca ghi nhận rơi vào khoảng hơn 50,000 ca

  • Và các ca tử vong cũng chỉ dưới 6,000 ca

Vào thời điểm cuối năm 2020 thì dịch bệnh ở Châu Âu chưa bùng phát cao nhất nên các con số ta thấy vẫn không phải là quá lớn


18. Biểu đồ thể hiện xu hướng các ca mắc và tử vong của các quốc gia Châu Âu

CVV %>% filter(Continents== 'Europe' & Year==2020 & Month== 12) %>%
  ggplot(aes(x=New.deaths, y=New.cases, color= Country)) +
  geom_point(color = 'black') +
  geom_smooth(method = 'lm', color = 'red') +
  labs(title = "Biểu đồ thể hiện xu hướng các ca ghi nhận và tử vong của các quốc gia Châu Âu") +
  labs(x = 'Số ca tử vong', y = 'Số ca ghi nhận')
## `geom_smooth()` using formula = 'y ~ x'

Nhận xét

Ta thấy biểu đồ này gần giống với biểu đồ số 15 bên trên, nhưng vẫn khác ở nhiều chỗ

  • Ở biểu đồ này không còn cụ thể các chấm tròn của các quốc gia mà chỉ thể hiện tổng thể

  • Ngoài ra ta có thấy thêm Đường xu hướng - geom_smooth() - giúp thể hiện thêm xu hướng của các chấm tròn

  • Các chấm tròn ở đây thể hiện cho số ca ghi nhận và tử vong của các quốc gia Châu Âu

  • Các ca ghi nhận tháng 12/2022 của các quốc gia Châu Âu có chiều hướng nằm ở mức khá cao


19. Biểu đồ thể hiện số ca mắc Covid-19 tích lũy của Châu Âu

Ta có thể xem mức độ ghi nhận các ca tích lũy ở Châu Âu dựa trên biểu đồ sau :

CV %>% filter(Continents== 'Europe') %>%
  ggplot(aes(x=Cumulative.cases, fill = Continents)) +
  geom_density() +
  labs(title = "Biểu đồ thể hiện tổng ca ghi nhận tích lũy của Châu Âu") +
  labs(x = 'Số ca ghi nhận tích lũy', y = 'Tỷ trọng')

Nhận xét

Biểu đồ thể hiện tổng ca tích lũy của các quốc gia thuộc Châu Âu

  • Ta thấy mức tích lũy các ca trong biểu đồ là khoảng 40,000,000 ca

  • Vì là số liệu tích lũy từ những ngày đầu nên số ca ghi nhận trong biểu đồ sẽ hơi nhiều và không có sự khác biệt rõ rệt

  • Nhưng ta nhìn vào biểu đồ, ở mức ghi nhận số ca nào có tỉ trọng càng cao (càng phình lên trên) thì chứng tỏ các ca tích lũy đang được giữ nguyên

  • Còn nều các mức có tỷ trọng thấp chứng tỏ đã có các ca ghi nhận thêm


20. Biểu đồ thể hiện số ca mắc Covid-19 tích lũy của các Châu Lục

Cũng như biểu đồ số 19, nhưng lần này ta sẽ so sánh thêm với Châu Phi - Africa

CV %>% filter(Continents== 'Europe' | Continents== 'Africa') %>%
  ggplot(aes(x=Cumulative.cases, fill = Continents)) +
  geom_density() +
  labs(title = "Biểu đồ thể hiện tổng ca ghi nhận tích lũy của Châu Âu và Châu Phi") +
  labs(x = 'Số ca ghi nhận tích lũy', y = 'Tỷ trọng')

Nhận xét

Ta cũng có nhận xét tương tự như biểu đồ số 19

  • Nhưng ta đã thấy ở nhiều mức ghi nhận của Châu Phi đã có phần vượt cao hơn Châu Âu

  • Nhưng đa số các mức ghi nhận trên 10,000,000 ca thì Châu Phi đã có lượng ghi nhận ít hơn hẳn so với Châu Âu

