Corona-Virus
Chúng ta biết rằng COVID-19 lây lan qua đường hô hấp với những hạt nhỏ li ti thông qua việc ho, hắt hơi hoặc nói trực tiếp. Nhưng bằng cách nào virus có thể lây lan với tốc độ nhanh chóng như vậy trên toàn cầu? Và chúng ta có thể thấy được những tác động tới nền kinh tế, cũng như các chính sách kinh tế của toàn cầu, ví dụ thông qua các biện pháp phong tỏa, cách ly.
Thật may mắn, bằng các phương pháp thống kê, các tổ chức trên toàn thế giới đã thu thập và có được dữ liệu gần chính xác về số lượng ca nhiễm, từ đó giúp các nhà quản lý, chính phủ có được biện pháp phù hợp để kiểm soát đại dịch. Đáng chú ý, Trung tâm Khoa học Hệ thống và Công nghệ của Đại học Johns Hopkins đã giúp thu thập, tổng hợp các dữ liệu từ các quốc gia. Công khai các dữ liệu trên trang của các tổ chức uy tín như WHO, các trung tâm kiểm soát dịch bệnh CDC (The Centers for Disease Control and Prevention), trang thông tin của Bộ Y tế các quốc gia. Điều này nhằm mang lại sự công khai hóa cũng như giúp người dân trên toàn thế giới có cái nhìn tổng quát về đại dịch. Đây cũng chính là sức mạnh của thống kê mang lại.
Bộ dữ liệu được trình bày trong phần mềm R này đều được sử dụng từ nguồn của WHO hoặc đại học Johns Hopkins - Bộ dữ liệu thống kê tất cả các quốc gia đến cuối tháng 3 năm 2020. Dữ liệu cập nhật sau tháng 3 xin được trình bày trong một lần khác. Liệt kê 15 dòng đầu tiên trong bộ dữ liệu corona, các quốc gia được xếp theo thứ tự alphabit, bắt đầu từ Afghanistan (Tổng số quan sát 151 quốc gia theo ngày là 150.720 quan sát tương đương với 150.720 dòng trong bộ dữ liệu)
## date province country lat long type cases
## 1 2020-01-22 Afghanistan 33.93911 67.70995 confirmed 0
## 2 2020-01-23 Afghanistan 33.93911 67.70995 confirmed 0
## 3 2020-01-24 Afghanistan 33.93911 67.70995 confirmed 0
## 4 2020-01-25 Afghanistan 33.93911 67.70995 confirmed 0
## 5 2020-01-26 Afghanistan 33.93911 67.70995 confirmed 0
## 6 2020-01-27 Afghanistan 33.93911 67.70995 confirmed 0
## 7 2020-01-28 Afghanistan 33.93911 67.70995 confirmed 0
## 8 2020-01-29 Afghanistan 33.93911 67.70995 confirmed 0
## 9 2020-01-30 Afghanistan 33.93911 67.70995 confirmed 0
## 10 2020-01-31 Afghanistan 33.93911 67.70995 confirmed 0
## 11 2020-02-01 Afghanistan 33.93911 67.70995 confirmed 0
## 12 2020-02-02 Afghanistan 33.93911 67.70995 confirmed 0
## 13 2020-02-03 Afghanistan 33.93911 67.70995 confirmed 0
## 14 2020-02-04 Afghanistan 33.93911 67.70995 confirmed 0
## 15 2020-02-05 Afghanistan 33.93911 67.70995 confirmed 0
## Rows: 150,720
## Columns: 7
## $ date <date> 2020-01-22, 2020-01-23, 2020-01-24, 2020-01-25, 2020-01-2...
## $ province <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""...
## $ country <chr> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan"...
## $ lat <dbl> 33.93911, 33.93911, 33.93911, 33.93911, 33.93911, 33.93911...
## $ long <dbl> 67.70995, 67.70995, 67.70995, 67.70995, 67.70995, 67.70995...
## $ type <chr> "confirmed", "confirmed", "confirmed", "confirmed", "confi...
## $ cases <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0...
Bảng dữ liệu phía trên chỉ ra số trường hợp nhiễm bệnh được ghi lại trên toàn thế giới theo ngày bắt đầu từ tháng 1 của 151 quốc gia. Với cách liệt kê theo từng ngày của mỗi quốc gia và điền vào bảng, khó có thể hình dung được thang đo cũng như sự bùng phát của đại dịch. Hãy biểu diễn bằng hình vẽ với các trường hợp nhiễm bệnh:
Trục y của biểu đồ nhìn khá đáng sợ, khi số ca lây nhiễm tăng rất nhanh, với khoảng hơn 200.000 ca ghi nhận tới tháng 3 trên toàn thế giới. Hơn thế nữa, có một điểm lạ trên biểu đồ: Có một sự nhảy vọt về số ca lây nhiễm vào giữa tháng 2, sau đó tốc độ các ca lây nhiễm được ghi nhận có sự giảm nhẹ trong chốc lát, sau đó tăng nhanh vào tháng 3. Chúng ta cần tìm hiểu kỹ hơn điều gì đã xảy ra.
Trước khi đại dịch bùng phát trên toàn thế giới, các ca lây nhiễm COVID-19 chủ yếu tập trung ở Trung Quốc (Vũ Hán). Chúng ta hãy vẽ biểu đồ COVID-10 tại Trung Quốc và của thế giới một cách riêng biệt để có sự so sánh và nhìn ra điểm lạ trong đồ thị.
## Rows: 112
## Columns: 4
## $ is_china <chr> "China", "China", "China", "China", "China", "China", "Ch...
## $ date <chr> "2020-01-22", "2020-01-23", "2020-01-24", "2020-01-25", "...
## $ cases <int> 548, 95, 277, 486, 669, 802, 2632, 578, 2054, 1661, 2089,...
## $ cum_cases <int> 548, 643, 920, 1406, 2075, 2877, 5509, 6087, 8141, 9802, ...
Chúng ta thấy trên biểu đồ trên, có sự khác biệt giữa 2 đường với xu hướng của các ca nhiễm COVID-19. Sự thật là vào tháng 2, các ca nhiễm được ghi nhận chủ yếu ở Trung Quốc, sau đó đã thay đổi vào tháng 3 khi đại dịch bùng phát trên toàn cầu: Từ ngày 14 tháng 3, tổng số ca nhiễm được ghi nhận ngoài lãnh thổ Trung Quốc đã vượt xa so với bên trong lãnh thổ Trung Quốc. Đây cũng là ngày mà ngay sau đó WHO đã công bố đây là đại dịch Có 2 điểm đặc biệt trong thời gian bùng phát dịch bệnh. Ví dụ: có một lượng lớn ca nhiễm bệnh được ghi nhận với đường biểu diễn của Trung Quốc sau ngày 13 tháng 2 năm 2020. Trung Quốc sau đó đã thay đổi thông tin ghi nhận từ sau ngày này (Phương pháp kiểm tra CT or X-ray Computed Tomography hay chụp cắt lớp vi tính đã được dùng để phát hiện ca nhiễm COVID-19, hơn là chỉ sử dụng test thông thường). Chúng ta sẽ note lại các mốc thời gian này để cải thiện cho đồ thị:
Khi tiếp cận với thông tin về dịch bệnh, chúng ta cần một sự đo lường về tốc độ lây lan (số lượng ca nhiễm tăng nhanh như thế nào). Bằng cách dùng hồi quy tuyến tính, chúng ta sẽ xem bộ dữ liệu có tuân theo quy luật của đường hồi quy? Khi thay đổi cách thống kê số ca nhiễm tại Trung Quốc từ ngày 13 tháng 2, số lượng ca nhiễm của Trung Quốc đã tăng đáng kể, tuy nhiên, chỉ một hai ngày sau đó, tốc độ này đã giảm xuống. Chúng ta cần miêu tả tốc độ lây lan ở Trung Quốc sau ngày 15 tháng 2 để rõ hơn:
## `geom_smooth()` using formula 'y ~ x'
Từ biểu đồ trên, chúng ta thấy rằng số ca nhiễm của Trung Quốc thấp hơn đường hồi quy tuyến tính. Đây là một thông tin tốt vì nó chỉ ra rằng Trung Quốc đã phần nào hạn chế được sự lây lan của COVID-19 vào cuối tháng 2 và đầu tháng 3
## `geom_smooth()` using formula 'y ~ x'
Từ biểu đồ này, chúng ta thấy rằng dường như có sự khác biệt đáng kể giữa dữ liệu hồi quy và dữ liệu thực tế (Đường hồi quy tuyến tính và dữ liệu thực tế cách nhau khá xa), ngạc nhiên hơn đó là dữ liệu thực tế có xu hướng cao hơn so với đường hồi quy (linear regression). Chúng ta hãy thử thay đổi thang đo logarit cho trục y.
## `geom_smooth()` using formula 'y ~ x'
Với thang đo logarit, chúng ta nhận thấy đường hồi quy và dữ liệu thực tế khá sát nhau. Theo quan điểm của khoa học Dữ liệu, đây là tín hiệu tốt vì dữ liệu dự đoán và dữ liệu thực tế khá sát nhau. Tuy nhiên, theo quan điểm của y tế cộng đồng, điều này chỉ ra rằng tốc độ gia tăng số ca COVID-19 trên toàn thế giới đang tăng với tỉ lệ hàm mũ e (exponential rate), điều này lại là thông tin không mấy dễ chịu.