Tiến hành phân tích và vẽ đồ thị cho Bộ dữ
liệu
COVID-19 (Coronavirus Disease 2019) là một
bệnh đường hô hấp cấp tính truyền nhiễm gây ra bởi
chủng virus corona SARS-CoV-2 và các biến thể của nó
Nguồn gốc của COVID-19 bắt đầu từ Vũ Hán, Trung Quốc. Virus
corona là một betacorona virus, có nguồn gốc từ vật chủ là loài
dơi
Phương thức lây truyền chính là từ người sang người, qua các giọt
dịch hô hấp của cơ thể
Hiện đã có vắc-xin phòng chống bệnh nhưng việc nghiên cứu phát
triển vắc-xin vẫn tiếp tục
Tính tới hiện tại là năm 2024, mặc dù dịch bệnh đã được kiểm soát và
tình hình đã không còn căng thẳng như lúc trước nhưng vẫn có các trường
hợp ghi nhận mắc Covid-19 ở một số quốc gia
- Ta tiến hành xem coi đến năm 2024 số ca ghi nhận ở các khu vực cũng
như quốc gia là bao nhiêu
1. Biểu đồ thể hiện các ca ghi nhận mắc Covid-19 những ngày
đầu năm 2024
Trong bộ dữ liệu bao gồm có 55 quốc gia và từng quốc
gia này đều được chia thành 6 khu vực do WHO quản lý đã
nêu trên
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ✔ readr 2.1.5
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Khuvuc <- CV %>% filter(Year == 2024 & Day>1)
Khuvuc %>% group_by(WHO.region,New.cases) %>%
ggplot(aes(WHO.region,New.cases)) +
geom_col(fill='lightblue') +
labs(title = " Biểu đồ thể hiện ghi nhận mắc Covid-19 những ngày đầu năm 2024 ") +
theme_classic() +
labs(x = 'Khu vực WHO Regions', y = 'Số ca mắc')

Nhận xét
Biểu đồ bên trên thể hiện số lượng ca ghi nhận mắc Covid-19 những
ngày của năm 2024
Dựa theo bộ dữ liệu, ta thấy số lượng được ghi nhận tới 2
ngày cụ thể là 7/1/2024 và ngày 14/1/2024
Mặc dù đã hơn 4 năm kể từ ngày dịch Covid-19 bùng nổ, nhưng tới
hiện này các ca mắc vẫn được ghi nhận khá nhiều ở từng khu vực
WPRO là khu vực Tây Thái Bình Dương có số ca ghi
nhận đến hơn 90,000 ca
3 khu vực gồm EURO - SEARO -
AMRO lần lượt có các ca ghi nhận thấp hơn -
khoảng dưới 30,000 ca
2 khu vực EMRO và AFRO là 2 khu
vực có số lượng không đáng kể
Ta thấy được các nước thuộc khu vực Tây Thái Bình Dương có
số lượng cao hơn hẳn với các nước khu vực còn
lại
Nếu so sánh thì khu vực này gấp hơn 3 lần các khu vực còn
lại
Chứng tỏ dù dịch bệnh đã qua giai đoạn nguy hiểm, nhưng ta vẫn thấy
có các ca ghi nhận mắc bệnh. Vì vậy việc phòng chống dịch Covid-19 và
bảo vệ sức khỏe vẫn luôn là rất quan trọng
2. Biểu đồ thể hiện các ca tử vong vì Covid-19 những ngày
đầu năm 2024
Bên cạnh các ca ghi nhận bên trên, cũng là các ca đã ghi nhận
tử vong vì Covid-19 trong những ngày đầu năm 2024
Ta tiến hành xem biểu đồ dưới đây :
Khuvuc %>% group_by(WHO.region,New.cases) %>%
ggplot(aes(New.deaths,WHO.region)) +
geom_col(fill='red') +
labs(title = " Biểu đồ thể hiện ghi nhận tử vong vì Covid-19 những ngày đầu năm 2024 ") +
theme_classic() +
labs(x = 'Khu vực WHO Regions', y = 'Số ca tử vong')

Nhận xét
May mắn rằng các ca ghi nhận tử vong trong biểu đồ trên không nhiều
như biểu đồ ghi mắc bệnh
Ta thấy rằng số lượng ở mỗi khu vực đều dưới 500 ca, cụ thể như
sau :
Khu vực EURO - Châu Âu có ca ghi nhận tử
vong hơn 300 ca, khoảng 1% trong 30,000 ghi nhận bên
trên
Khu vực WPRO với hơn 90,000 ca mắc bệnh thì
khoảng gần 200 ca tử vong
Khu vực SEARO với khoảng hơn 100 ca tử
vong
3 khu vực còn lại là AMRO -
EMRO - AFRO có số lượng lần lượt thấp
hơn hẳn - dưới 50 ca
Các quốc gia Châu Á, Thái Bình Dương mặc dù có lượng ghi nhận mắc
nhiều nhất nhưng lại chữa bệnh khá tốt, tỷ lệ tử vong là ít hơn
hẳn
So với Châu Á thì các nước Châu Âu có tỷ lệ tử vong cao hơn,
nhưng cũng không quá đáng kể
Còn lại các khu vực khác vừa có số ca mắc không quá nhiều và số
ca tử vong cũng nằm ở mức rất ít
Các ca ghi nhận mắc ở biểu đồ đầu tiên không phải là thấp mà vẫn là
khá cao cộng thêm các ca ghi nhận tử vong bên trên thì đó như là lời
cảnh tỉnh để mọi người biết cách phòng chống dịch một cách hiệu quả
hơn
3. Biểu đồ so sánh các ca tử vong vì Covid-19 những ngày đầu
năm 2024
Để thấy rõ hơn các ca tử vong, ta có thể sử biểu độ cột chồng để dễ
so sánh và nhận xét hơn
Ta xem biểu đồ sau :
Khuvuc %>% ggplot(aes(x=New.deaths, fill=WHO.region)) +
geom_histogram(position = "dodge", binwidth = 50) +
labs(title = " Biểu đồ so sánh các ca ghi nhận tử vong ở các khu vực ") +
labs(x = 'Số ca tử vong', y = 'Số lượng ghi nhận')

Nhận xét
Cũng là số liệu như biểu đồ số 2, nhưng các khu vực đã được tách ra
và xếp chồng ra như biểu đồ trên
4. Biểu đồ thể hiện số ca mắc Covid-19 theo ngày ở Việt
Nam
Sau khi nhìn sơ về tình hình hiện tại bằng 3 biểu đồ bên trên, ta sẽ
tiến hành xét trên các quốc gia riêng lẻ
Trải qua hơn 3 năm phòng, chống đại dịch COVID-19, với tinh thần đặt
sức khỏe, tính mạng của người dân lên trên hết
Và ta sẽ tiến hành xem các ca được ghi nhận mắc Covid-19 của Việt Nam
qua các biểu đồ
VN <- CV %>% filter(Country== 'Viet Nam')
table(cut(VN$New.cases,4))
##
## (-1.85e+03,4.61e+05] (4.61e+05,9.23e+05] (9.23e+05,1.38e+06]
## 204 3 2
## (1.38e+06,1.85e+06]
## 2
Như đã nói ban đầu, mỗi quốc gia riêng biệt sẽ có 211 ngày báo cáo,
và từng ngày đều có số lượng ca ghi nhận hay tử vong khác nhau
Ta tiến hành chia các ngày đó thành 4 nhóm ghi nhận
các ca mắc khác nhau, ta tiến hành đặt tên như sau :
Nhóm Ít có 204 ngày ghi nhận
khoảng từ 0 - 461,000 ca
Nhóm Vừa có 3 ngày ghi nhận
khoảng từ 461,000 - 923,000 ca
Nhóm Nhiều có 2 ngày ghi nhận
khoảng từ 923,000 - 1,300,000 ca
Nhóm Rất nhiều có 2 ngày ghi
nhận khoảng từ 1,300,000 - 1,800,000 ca
Sau đó ta tiến hành vẽ biểu đồ thể hiện
VN1 <- VN %>% mutate(Socaghinhan = cut(New.cases,4, label = c('Ít','Vừa','Nhiều','Rất nhiều')))
VN1 %>% group_by(Socaghinhan) %>% summarise(n = n()) %>%
ggplot(aes(Socaghinhan,n)) +
geom_col(fill='yellow') +
labs(title = " Biểu đồ thể hiện số ca ghi nhận của Việt Nam ") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Số ca ghi nhận', y = 'Số ngày ghi nhận')

Nhận xét
Số ca ghi nhận từ 0 - 461,000 ca rơi vào khoảng
204 ngày cho nhóm ít trên biểu đồ
Đương nhiên trong 204 ngày, sẽ có ngày không ghi nhận ca nào, có
ngày ghi nhận tối đa 461,000 ca
Nhóm Vừa ghi nhận có 3 ngày có số ca
461,000 - 923,000 ca
2 nhóm Nhiều và Rất nhiều đều có lượng ghi nhận
trên 1,000,000 ca mắc và có khoảng 4 ngày có số lượng như thế
Và số lượng nhiều nhất mà Việt Nam ghi nhận được
đó là khoảng 1,800,000 ca mắc trong một ngày
Trong tổng 211 ngày báo cáo của Việt Nam thì số lượng mỗi ngày đều
khác nhau, có ngày ghi nhận ghi nhận ít, có ngày ghi nhận đến kỷ lục,
nhưng chúng ta đã vững vàng vượt qua những đợt dịch tàn khốc đó bằng sự
chỉ đạo sát sao, kịp thời của Đảng, Nhà nước, Chính phủ và sự đồng lòng
của người dân
5. Biểu đồ thể hiện số ca mắc Covid-19 theo ngày ở Việt Nam
và Trung Quốc
Ở biểu đồ trên, mặc dù ta đã chia thành các các mức ghi nhận ca mắc
ra thành 4 nhưng số lượng ca ở mức Ít vẫn khá nhiều và ta không thể thấy
cụ thể bên trong có số lượng như thế nào
Bây giờ ta sẽ tiến hành chia theo mong muốn, thành các mức nhỏ hơn
một chút nữa, để thấy được các ca ghi nhận như thế nào
Đồng thời, ta cũng sẽ so sánh mức ghi nhận này với một nước bạn của
Việt Nam - đó là Trung Quốc
VNTQ <- CV %>% filter(CV$Country =='China' | CV$Country == 'Viet Nam')
VNTQ1 <- VNTQ
VNTQ1$New.cases.GN <- case_when(VNTQ1$New.cases <10000 ~ 'Ghi nhận Không đáng kể', VNTQ1$New.cases >=10000 & VNTQ1$New.cases <100000 ~ 'Ghi nhận Ít', VNTQ1$New.cases >=100000 & VNTQ1$New.cases <500000 ~ 'Ghi nhận Vừa', VNTQ1$New.cases >=500000 ~ 'Ghi nhận Nhiều')
table(VNTQ1$New.cases.GN)
##
## Ghi nhận Ít Ghi nhận Không đáng kể Ghi nhận Nhiều
## 54 302 17
## Ghi nhận Vừa
## 49
Số lượng ngày ghi nhận trên là của cả 2 nước Việt Nam và Trung
Quốc
Bây giờ sẽ tiến hành so sánh chúng bằng biểu đồ thể hiện :
VNTQ2 <- VNTQ1 %>% group_by(New.cases.GN, Country) %>% summarise(n = n())
## `summarise()` has grouped output by 'New.cases.GN'. You can override using the
## `.groups` argument.
VNTQ2 %>% ggplot(aes(x= New.cases.GN, y=n)) +
geom_col(data = VNTQ2 %>% filter(Country == 'Viet Nam'), fill = 'red') +
geom_col(data = VNTQ2 %>% filter(Country == 'China'), fill = 'yellow') +
labs(title = " Biểu đồ thể hiện số ca ghi nhận của Việt Nam và Trung Quốc") +
labs(x = 'Số ca ghi nhận chia theo nhóm', y = 'Số ca ghi nhận')

Nhận xét
Theo như biểu đồ thì :
Dựa trên biểu đồ ta có một vài nhận xét sau :
Ở nhóm Ghi nhận Ít (dưới 10,000 ca/ 1 ngày báo
cáo) - số ca ở Việt Nam là nhỉnh hơn so với
Trung Quốc
Ở nhóm Không đáng kể cũng như vậy, khoảng cách
chỉ là khoảng 1-2 ngày mà thôi
Còn ở 2 nhóm ghi nhận Nhiều và Vừa thì số lượng ca của Trung Quốc
đã hoàn toàn che lấp Việt Nam
Chứng tỏ trong các ngày báo cáo như nhau, số lượng ghi nhận ở Trung
Quốc là nhiều hơn so với Việt Nam
6. Biểu đồ thể hiện số ca mắc Covid-19 theo từng mức ở Việt
Nam so với Trung Quốc
Ta đã chia các mức ghi nhận thành 4 nhóm, và biểu đồ số 5 đã thể hiện
của Việt Nam và Trung Quốc
Ở mức ghi nhận Ít có số lượng ca dưới 10,000
ca 1 ngày - tổng thu được từ 2 nước là có 54
ngày ghi nhận
Ta muốn biết cụ thể bên trong 54 ngày, từng ngày có số ca ghi nhận cụ
thể như thế nào, ta có thể xem biểu đồ dưới đây :
ggplot(data = VNTQ %>% filter(New.cases<10000),
mapping = aes(y=Country, x=New.cases, fill = Country)) +
geom_violin() +
labs(title = "B) violin plot by gender")

Nhận xét
Vì nhóm ghi nhận Ít được tổng hợp dựa trên các ngày báo cáo có số ca
dưới 10,000 ca nên ta sẽ lọc từ con số đấy ra
Ta thấy số lượng ca dưới 2,500 là nhiều hơn hẳn, ta thấy trong
biểu đố cả Việt Nam và Trung Quốc đều phình to ra ở phần đáy
Còn trên mức 2,500 thì số lượng hẹp dần - đồng nghĩa số ngày ghi
nhận số ca này cũng ít hơn
Vậy trong 54 ngày của nhóm Ít này, thì số ca đa số sẽ được ghi
nhận ở mức dưới 2,500 ca là nhiều cho một ngày
7. Biểu đồ thể hiện số ca mắc Covid-19 theo từng mức ở Việt
Nam so với Trung Quốc
Như biểu đồ 6, ta lọc dựa trên các ngày báo cáo dưới 10,000 ca
Thì biểu đồ số 7 sẽ lọc dựa trên các ngày báo cáo dưới 100,000 ca
Nếu dưới 100,000 ca thì sẽ bao gồm nhóm ớ mức Ghi nhận Ít và Không
đáng kể đã nêu bên trên
ggplot(data = VNTQ %>% filter(New.cases<100000),
mapping = aes(y=Country, x=New.cases, fill = Country)) +
geom_jitter()

Nhận xét
Ở các ca có mức ghi nhận thấp (dưới 2,500 ca) thì có số lượng
ngày nhiều hơn - ta thấy trong biểu đồ, các chấm hiển thị ở phần đáy dày
đặc hơn
Và ở bên phần của Việt Nam thì số lượng ở mức dưới 2,500 là nhiều
hơn so với Trung Quốc
Còn từ mức 2,500 ca trở lên thì các chấm bắt đầu thưa hơn
hẳn
Ở đây ta lọc để thấy rõ được 2 nhóm mức ghi nhận là Ít và Không đáng
kể, chứ nếu xét tối đa các ca mắc được ghi nhận thì tổng quan sẽ hoàn
toàn thay đổi
8. Biểu đồ tròn thể hiện số ca mắc Covid-19 của các quốc
gia
Tương tự với cách chia theo các nhóm Ghi nhận bên trên - gồm 4 nhóm :
Ít, Không đáng kể, Vừa, Nhiều
Ta tiến hành thể hiện nó với quy mô của tất cả các quốc gia có trong
bộ dữ liệu
Trong bộ dữ liệu có tổng cộng 11,605 ngày báo cáo - tương đương
với 11,605 ngày ghi nhận các ca mắc Covid-19
Ta chia các ngày đó theo 4 nhóm ghi nhận đã nói trên và thể hiện
nó lên biểu đồ Tròn
Việc thể hiện trên biểu đồ tròn như vậy, có thể giúp ta hình dung
trên toàn thế giới, số lượng ca ghi nhận sẽ rơi vào số lượng nhóm nào
nhiều nhất
Ta có biểu đồ tròn sau :
CVV <- CV
CVV$New.cases.GN <- case_when(CVV$New.cases <10000 ~ 'Ghi nhận Không đáng kể', CVV$New.cases >=10000 & CVV$New.cases <100000 ~ 'Ghi nhận Ít', CVV$New.cases >=100000 & CVV$New.cases <500000 ~ 'Ghi nhận Vừa', CVV$New.cases >=500000 ~ 'Ghi nhận Nhiều')
CVV %>% group_by(New.cases.GN) %>% summarise(n = n()) %>%
ggplot(aes(x ='', y = n, fill = New.cases.GN)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void() +
scale_fill_brewer()

Nhận xét
Dựa trên biểu đồ tròn ta thấy được :
Ở đa số các quốc gia, mức Ghi nhận Không đáng kể là nhiều
nhất - cũng có nghĩa trong 7499 ngày báo cáo sẽ có khoảng
10,000 - 100,000 ca
Lần lượt còn lại là các mức Ghi nhận Ít, Vừa, Nhiều với
Mức Ghi nhận Ít có khoảng 2864 ngày, tương đương
với mức này là số ca ghi nhận dưới 10,000 ca
Còn 2 mức Vừa và Nhiều có ca ghi nhận lần lượt
là 1007 và 235 ngày
Đây chỉ là mức nhận xét tổng quan về tình hình của thế giới về ca ghi
nhận, chưa đánh giá được cụ thể được ở từng quốc gia
9. Biểu đồ tròn thể hiện số ca mắc Covid-19 của từng quốc
gia cụ thể
Nếu muốn thấy rõ ràng từng nhóm ghi nhận ở các quốc gia hay ở từng
khu vực riêng biệt, ta có thể lọc cụ thể nếu muốn
Biểu đồ dưới đây cũng có mức chia như 2 biểu đồ 5 và 6, nhưng cụ thể
ở đây là của nước Mỹ (United States of America)
CVV %>% filter(Country== 'United States of America') %>%
group_by(New.cases.GN) %>% summarise(n = n()) %>%
ggplot(aes(x ='', y = n, fill = New.cases.GN)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()

Nhận xét
Dựa vào biểu đồ ta thấy :
Nhóm Ghi nhận Ít có số lượng ca dưới
10,000 ca 1 ngày - tổng thu được từ 2 nước là có 11
ngày ghi nhận
Nhóm Ghi nhận Không đáng kể có số ca từ
10,000 - 100,000 ca, tổng thu được là 46
ngày
Nhóm Ghi nhận Vừa có số ca từ 100,000 -
500,000 ca, tổng là 90 ngày
Nhóm Ghi nhận Nhiều có số ca hơn 500,000
ca, tổng là 64 ngày
Ngược lại với Trung Quốc và Việt Nam hay cả với tổng quan của thế
giới là mức Ít và Không đáng kể sẽ chiếm nhiều nhất
Nước Mỹ lại có số ca ghi nhận ở mức Vừa và Nhiều là nhiều
nhất, nghĩa là số ca ghi nhận đa số sẽ từ 100,000 ca trở
lên
Số ngày của mức ghi nhận Nhiều phải gấp gần 6 lần so với mức ghi
nhận Ít và gấp khoảng 1,3 lần so với Không đáng kể
Số người mắc Covid-19 ở quốc gia này là nhiều hơn hẳn
10. Biểu đồ cột chồng thể hiện số ca mắc Covid-19 của từng
quốc gia
Tương tự biểu đồ tròn số 9, nhưng thì là hình tròn - ta thể hiện nó
bằng cột chồng
Và Quốc gia ta lựa chọn chính là nước có số lượng ca mắc Covid-19
nhiều nhất Châu Á - chính là Ấn Độ India
CVV %>% filter(Country== 'India') %>%
group_by(New.cases.GN) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = New.cases.GN)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 1)) +
scale_fill_brewer() +
labs(title = " Biểu đồ cột chồng thể hiện số lượng ca ghi nhận của từng quốc gia") +
labs(x = 'Số ca ghi nhận chia theo nhóm', y = 'Số ca ghi nhận')

Nhận xét
Dựa theo cách chia các nhóm ghi nhận như ở biểu đồ 7,6,5, thì ta thấy
Ấn Độ có :
Nhóm Ghi nhận Không đáng kể đứng đầu với
76 ngày báo cáo
Nhóm Ghi nhận Vừa đứng nhì với 58 ngày
Còn lại lần lượt là nhóm Ít với 55 ngày và nhóm Nhiều với 22
ngày
Nhìn chung so với các nước Châu Á khác - cụ thể là Việt Nam và Trung
Quốc đa nói trên
Số lượng ở 2 nhóm có ca ghi nhận nhiều là Vừa và Nhiều chiếm cao
hơn so với Việt Nam và Trung Quốc
Còn 2 nhóm ghi nhận còn lại thì độ ở nhóm Ít thì là nhiều hơn,
còn với nhóm Không đáng kể là ít hơn
11. Biểu đồ thể hiện tổng quan các ca mắc Covid-19 ở Việt
Nam qua các năm
Trong hơn 4 năm chống dịch của Việt Nam, đất nước ta cũng trải qua
những thời điểm có ca ghi nhận đến kỷ lục
Nhưng với sự đồng lòng của tất cả người dân cùng chính phủ chung tay
chống dịch, số ca mắc và tử vong và giảm đáng kể
Ta có thể xem biểu đồ dưới đây :
VN %>% filter(New.cases>0) %>%
ggplot(aes(x=Year, y=New.cases)) +
geom_point(color = 'red') +
labs(title = "Biểu đồ số ca ghi nhận mắc covid của Việt Nam") +
labs(x = 'Năm ghi nhận', 'Số ca ghi nhận')

Nhận xét
Ta có thể thấy tổng quan về các ca ghi nhận
Năm 2020 - đây là thời điểm mới bắt đầu dịch,
nên số lượng ghi nhận ban đầu không nhiều lắm
Năm 2021 - dịch bệnh đang từ từ bùng nổ, các ca
mắc đã được ghi nhận nhiều hơn
Năm 2022 - đây là năm bùng nổ dịch ở nước ta cao
nhất, các ca ghi nhận mỗi ngày là rất nhiều, kỷ lục nhiều nhất lên đến
hơn 1,500,00 ca
Tới năm 2023 - dịch bệnh đã được kiểm soát tốt,
số lượng ca mắc cũng đã giảm rất nhiều
Bên cạnh đó, ta có thể xem biểu đồ các ca tử vong như dưới đây :
12. Biểu đồ thể hiện tổng quan các ca tử vong vì Covid-19 ở
Việt Nam qua các năm
VN %>% filter(New.cases>0) %>%
ggplot(aes(x=Year, y=New.deaths)) +
geom_line(color = 'black', linewidth = 1) +
geom_point(color = 'red') +
labs(title = "Biểu đồ số ca ghi nhận tử vong covid của Việt Nam") +
labs(x = 'Năm ghi nhận', 'Số ca tử vong')

Nhận xét
So với biểu đồ các ca ghi nhận thì mặc dù năm 2022 có số lượng ghi
nhận nhiều nhất, nhưng năm 2021 lại có số lượng tử vong nhiều hơn
Năm 2021 có số lượng tử vong nhiều hơn các năm
còn lại
Thời điểm năm 2021, chúng ta chỉ mới bước vào giai đoạn đầu, nên
kinh nghiệm hay cách phòng ngừa chưa được cao
Đến năm 2022, ta đã thấy được mức độ nguy hiểm
của Covid mang đến, nên tỷ lệ tỷ vong là ít hơn
Và đến năm 2023 thì số lượng đã giảm cực kỳ đáng
kể
Với tinh thần “Chống dịch như chống giặc”, Việt Nam ta đã thực hiện
rất tốt và còn được công nhận là một trong những nước kiểm soát tốt nhất
thế giới
13. Biểu đồ thể hiện mức tăng tích lũy của các ca mắc
Covid-19 theo ngày/tháng/năm ở Việt Nam
Biểu đồ số 11 và 12 thể hiện các ca ghị nhận và tử vong theo từng
năm
Mỗi năm đều có các số liệu khác nhau, nhưng khoảng cuối năm 2021 đầu
năm 2022 chính là thời điểm bùng nổ nhiều nhất
Ta sẽ tiếp tục tiến hành xem xét 6 tháng cuối của năm
2021, để xem số ca tích lũy có tăng quá nhiều
và đáng kể hay không :
VN %>% filter(Year==2021 & Month>6) %>%
ggplot(aes(x=Month, y=Cumulative.cases)) +
geom_line(color = 'black', linewidth = 1) +
labs(title = "Biểu đồ số ca ghi nhận mắc covid của Việt Nam 6 tháng cuối 2021") +
labs(x = 'Tháng ghi nhận', y = 'Số ca ghi nhận tích lũy')

Lưu ý
Số ca mắc tích lũy là số lượng được cộng dồn để
thấy được tổng cộng có bao nhiêu ca mắc tính từ khi dịch bùng
nổ
Tích lũy cộng dồn không có nghĩa là ngày nào cũng có số ca như
vậy, mà con số có được là được cộng từng ngày từng ngày
với nhau
Vd nếu như có một ngày có ít ca mắc Covid - thì con số tích lũy
sẽ được giữ nguyên hoặc tăng tương ứng
Trong số ca tích lũy, có thể đã có bệnh nhân khỏi bệnh, có thể có
bệnh nhân đã tử vong
Nhận xét
Trong 6 tháng cuối của năm 2021, ta đã thấy số lượng ca tích lũy có
tăng, nhưng cũng có thời điểm nó giữ nguyên
Số ca đã vượt mốc 500,000 ca vào khoảng
tháng 9/2021
Sau đó thì con số này lại tiếp tục tăng
Vào khoảng tháng 11/2021, số ca mắc đã chạm
1,000,000 ca
Và tới cuối năm là tháng 12, Việt Nam đã ghi
nhận hơn 1,600,000 ca mắc Covid-19
Dù có các thời điểm số ca tích lũy không tăng nhiều nhưng nhìn chung
các ca mắc vẫn tăng rất nhiều trong thời điểm này
14. Biểu đồ so sánh số ca mắc và tử vong vì Covid-19 của
Việt Nam
Trong 4 năm thì số ca ghi nhận của Việt Nam cũng là khá nhiều, bên
cạnh đó đã có những bệnh nhân đã không may mắn qua khỏi
Chính phủ và Nhà nước Việt Nam cũng đã cố hết sức để cùng người dân
chung tay chống dịch
Và biểu đồ dưới đây, cho ta thấy rõ 2 mức tích lũy ghi nhận và tử
vong :
(Ta tiến hành vẽ dựa trên tháng 12 của từng năm - có thể thay đổi nếu
muốn)
VN %>% filter(Month==12) %>%
ggplot(aes(x=Year, y=Cumulative.cases)) +
geom_line(aes(color = "Số ca ghi nhận tích lũy"), linewidth = 1) +
geom_line(aes(y = Cumulative.deaths, color = "Số ca tử vong tích lũy"), linewidth = 1) +
scale_y_log10() +
labs(title = "Biểu đồ số ca ghi nhận mắc và tử vong tích lũy của Việt Nam") +
labs(x = 'Năm ghi nhận', y = 'Số ca tích lũy')

Nhận xét
Nhìn tổng quan ta thấy được, đã có rất nhiều bệnh nhân đã được chửa
khỏi Covid-19
Số lượng ca mắc từ năm 2020 đến 2021 là
tăng nhiều nhất và ca tử vong thời
điểm này cũng như vậy
Trong 2 năm tiếp theo, thì số ca tích lũy ghi
nhận cũng tăng nhưng có vẻ không nhiểu như trước
Còn các ca tử vong thì cũng tăng chậm hơn đáng kể
Và tới năm 2023 thì số lượng tích lũy của cả 2
đã gần như tăng với lượng rất ít
15. Biểu đồ tần số các ca tử vong của Việt Nam khi so sánh
với Trung Quốc
Biểu đồ tấn suất về các ca ghi nhận tử vong dưới đây là trong khoảng
thời gian năm 2022
Để biết được giữa Việt Nam và Trung Quốc trong năm 2022, sự khác biệt
về số ca tử vong là quá rõ rệt hay không
CVD <- CV
CVD1 <- CVD
CVD1 %>% filter(Country=="Viet Nam" & Year==2022| Country == "China" & Year==2022) %>%
ggplot(aes(x=New.deaths, color=Country)) +
geom_freqpoly(linewidth = 1) +
labs(title = "Biểu đồ tần số các ca tử vong của Việt Nam khi so sánh với Trung Quốc 2022") +
labs(x = 'Số ca ghi nhận', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Nhận xét
Vào những ngày có số lượng ca từ vong từ 0-2000
ca thì số lượng của Trung Quốc là nhỉnh hơn so
với Việt Nam
Mỗi nước đều có số lượng từ vài trăm đến vài ngàn ca tử
vong
Nhưng số lượng của Trung Quốc là nhiều hơn Việt Nam một
chút
Ngoài ra, Trung Quốc còn ghi nhận số ca tử vong nhiều nhất trong
năm 2022 là gần 6,000 ca
Còn Việt Nam tối đa trong năm 2022 chỉ khoảng 1,400 ca tử
vong
16. Biểu đồ so sánh số ca mắc và tử vong của Việt Nam với
một số nước khác năm 2020
Biểu đồ tần số số 13 đã so sánh nước ta với Trung Quốc về số lượng ca
tử vong
Thì biểu đồ này sẽ thêm một nước là Ấn Độ và cả số ca ghi nhận
nữa
Ta có biểu đồ sau :
CVV %>% filter(Country== 'China' & Year==2022 | Country== 'India'& Year==2022 | Country== 'Viet Nam'& Year==2022) %>%
ggplot(aes(x=New.cases, y=New.deaths, color= Country.code)) +
geom_line(linewidth=1) +
geom_point() +
labs(title = "Biểu đồ so sánh số ca ghi nhận và tử vong của Việt Nam với nước khác 2022") +
labs(x = 'Số ca ghi nhận', y = 'Số ca tử vong')

Nhận xét
Country.code trong biểu đồ có nghĩa là mã viết tắt quốc gia, cụ thể
là :
CN là Trung Quốc (China) - có đường trong biểu
đồ là màu đỏ
IN là Ấn Độ (India) - có đường trong biểu đồ là
màu xanh lá
VN là Việt Nam (Viet Nam) - có đường trong biểu
đồ là màu xanh dương
Ta thấy được từ biểu đồ :
Đường màu đỏ của Trung Quốc có lượng ở số ca ghi
nhận và tử vong đều tăng
Đã có thời điểm trong năm 2022, Trung Quốc đạt số ca ghi
nhận đến hơn 40,000,000 ca, và số ca tử vong là gần
6,000 ca
Ấn Độ với đường màu xanh lá cũng có mức ghi nhận
đáng chú ý
Dù có số lượng ghi nhận không cao như Trung Quốc nhưng đã có
gần 8,000 ca tử vong
Riêng Việt Nam - đường màu xanh dương, cả ở mức
ghi nhận hay tử vong đều ở mức thấp hơn
17. Biểu đồ thể hiện số ca mắc và tử vong của các quốc gia
Châu Âu
Sau khi đã nhìn hết các biểu đồ của Việt Nam, ta tiến hành đi sang
các nước bạn ở thế giới
Ta có thể chọn khu vực châu lục, hay theo khu vực WHO phân
thành,…
Biểu đồ dưới đây thể hiện số ca ghi nhận cũng như tử vong ghi nhận
của các quốc gia Châu Âu
CVV %>% filter(Continents== 'Europe' & Year==2020 & Month== 12) %>%
ggplot(aes(x=New.deaths, y=New.cases, color= Country)) +
geom_point() +
labs(title = "Biểu đồ thể hiện số ca ghi nhận và tử vong của các quốc gia Châu Âu") +
labs(x = 'Số ca tử vong', y = 'Số ca ghi nhận')

Nhận xét
Có tổng cộng 14 quốc gia thuộc khu vực Châu Âu như bên trên
Biểu đồ được vẽ dựa trên số ca ghi nhận và tử vong vào tháng
12/2020
Lúc này, tổng quan cho thấy các quốc gia Châu có số ca ghi nhận
rơi vào khoảng hơn 50,000 ca
Và các ca tử vong cũng chỉ dưới 6,000 ca
Vào thời điểm cuối năm 2020 thì dịch bệnh ở Châu Âu chưa bùng phát
cao nhất nên các con số ta thấy vẫn không phải là quá lớn
18. Biểu đồ thể hiện xu hướng các ca mắc và tử vong của các
quốc gia Châu Âu
CVV %>% filter(Continents== 'Europe' & Year==2020 & Month== 12) %>%
ggplot(aes(x=New.deaths, y=New.cases, color= Country)) +
geom_point(color = 'black') +
geom_smooth(method = 'lm', color = 'red') +
labs(title = "Biểu đồ thể hiện xu hướng các ca ghi nhận và tử vong của các quốc gia Châu Âu") +
labs(x = 'Số ca tử vong', y = 'Số ca ghi nhận')
## `geom_smooth()` using formula = 'y ~ x'

Nhận xét
Ta thấy biểu đồ này gần giống với biểu đồ số 15 bên trên, nhưng vẫn
khác ở nhiều chỗ
Ở biểu đồ này không còn cụ thể các chấm tròn của các quốc gia mà
chỉ thể hiện tổng thể
Ngoài ra ta có thấy thêm Đường xu hướng -
geom_smooth() - giúp thể hiện thêm xu hướng của các chấm
tròn
Các chấm tròn ở đây thể hiện cho số ca ghi nhận và tử vong của
các quốc gia Châu Âu
Các ca ghi nhận tháng 12/2022 của các quốc gia Châu Âu có chiều
hướng nằm ở mức khá cao
19. Biểu đồ thể hiện số ca mắc Covid-19 tích lũy của Châu
Âu
Ta có thể xem mức độ ghi nhận các ca tích lũy ở Châu Âu dựa trên biểu
đồ sau :
CV %>% filter(Continents== 'Europe') %>%
ggplot(aes(x=Cumulative.cases, fill = Continents)) +
geom_density() +
labs(title = "Biểu đồ thể hiện tổng ca ghi nhận tích lũy của Châu Âu") +
labs(x = 'Số ca ghi nhận tích lũy', y = 'Tỷ trọng')

Nhận xét
Biểu đồ thể hiện tổng ca tích lũy của các quốc gia thuộc Châu Âu
Ta thấy mức tích lũy các ca trong biểu đồ là khoảng 40,000,000
ca
Vì là số liệu tích lũy từ những ngày đầu nên số ca ghi nhận trong
biểu đồ sẽ hơi nhiều và không có sự khác biệt rõ rệt
Nhưng ta nhìn vào biểu đồ, ở mức ghi nhận số ca nào có tỉ trọng
càng cao (càng phình lên trên) thì chứng tỏ các ca tích lũy đang được
giữ nguyên
Còn nều các mức có tỷ trọng thấp chứng tỏ đã có các ca ghi nhận
thêm
20. Biểu đồ thể hiện số ca mắc Covid-19 tích lũy của các
Châu Lục
Cũng như biểu đồ số 19, nhưng lần này ta sẽ so sánh thêm với Châu Phi
- Africa
CV %>% filter(Continents== 'Europe' | Continents== 'Africa') %>%
ggplot(aes(x=Cumulative.cases, fill = Continents)) +
geom_density() +
labs(title = "Biểu đồ thể hiện tổng ca ghi nhận tích lũy của Châu Âu và Châu Phi") +
labs(x = 'Số ca ghi nhận tích lũy', y = 'Tỷ trọng')

Nhận xét
Ta cũng có nhận xét tương tự như biểu đồ số 19
Nhưng ta đã thấy ở nhiều mức ghi nhận của Châu Phi đã có phần
vượt cao hơn Châu Âu
Nhưng đa số các mức ghi nhận trên 10,000,000 ca thì Châu Phi đã
có lượng ghi nhận ít hơn hẳn so với Châu Âu
