1 Úvod

Pandémia ochorenia COVID-19 predstavovala bezprecedentný šok pre zdravotné systémy aj ekonomiky, pričom jej dopady boli priestorovo heterogénne. Európske krajiny sa líšili v načasovaní a prísnosti nefarmaceutických opatrení, úrovni testovania, kapacite zdravotníctva, demografii a tiež v metodike reportovania prípadov a úmrtí. Z metodologického hľadiska je preto dôležité pracovať so štandardizovanými mierami (napr. „na milión obyvateľov“) a súčasne overovať robustnosť záverov voči špecifikácii modelu, prítomnosti extrémnych pozorovaní a porušeniam predpokladov klasického lineárneho modelu.

Cieľom tejto práce je: 1. popísať a vizualizovať rozdiely v priebehu pandémie medzi európskymi krajinami, 2. kvantifikovať vzťah medzi mierou infekcie a mierou úmrtnosti s kontrolou za vybrané faktory kapacity zdravotníctva, 3. vykonať diagnostiku regresného modelu (predpoklady OLS, multikolinearita, heteroskedasticita, vplyvné pozorovania), 4. pomocou zhlukovej analýzy identifikovať skupiny krajín so podobným „profilom pandémie“ a interpretovať ich.

Práca nadväzuje na ekonometrické postupy preberané počas semestra: špecifikácia modelu, interpretácia parametrov, testovanie hypotéz a diagnostika.

2 Dáta a príprava

2.1 Načítanie dát

Ukážka prvých riadkov datasetu (po načítaní).
country date total_cases new_cases total_deaths new_deaths hosp_patients icu_patients total_tests new_tests positive_rate tests_per_case total_vaccinations people_vaccinated people_fully_vaccinated total_boosters new_vaccinations code population population_density median_age life_expectancy gdp_per_capita hospital_beds_per_thousand X total_cases_per_million total_deaths_per_million
Albania 3/11/2020 2 2 0 0 NA NA 157 43 0.2551020 56.00000 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 0.7073101 0.000000
Albania 3/12/2020 10 8 1 1 NA NA 298 141 0.8381925 40.25000 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 3.5365506 3.536551
Albania 3/13/2020 15 5 1 0 NA NA 457 159 1.3659898 35.85556 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 5.3048259 3.536551
Albania 3/14/2020 23 8 1 0 NA NA 505 48 2.0994081 31.76123 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 8.1340664 3.536551
Albania 3/15/2020 33 10 1 0 NA NA 532 27 3.0898044 28.29383 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 11.6706170 3.536551
Albania 3/16/2020 38 5 1 0 NA NA 563 31 4.2137322 25.69662 NA NA NA NA NA ALB 2827614 103.1976 35.943 78.7688 15492.07 2.89 NA 13.4388923 3.536551

2.2 Konštrukcia ukazovateľov na milión obyvateľov

Aby boli údaje medzi krajinami porovnateľné, konštruujeme ukazovatele na milión obyvateľov. Tento krok je nevyhnutný vzhľadom na výrazné rozdiely vo veľkosti populácie.

##    country            population        hospital_beds_per_thousand
##  Length:51          Min.   :      513   Min.   : 2.140            
##  Class :character   1st Qu.:   633982   1st Qu.: 3.460            
##  Mode  :character   Median :  5110015   Median : 4.530            
##                     Mean   : 14672474   Mean   : 5.145            
##                     3rd Qu.: 10452204   3rd Qu.: 6.512            
##                     Max.   :145579889   Max.   :13.800            
##                                         NA's   :9                 
##   total_cases        total_deaths    total_cases_per_million
##  Min.   :      26   Min.   :     0   Min.   : 50682         
##  1st Qu.:  258105   1st Qu.:  1106   1st Qu.:222886         
##  Median : 1288422   Median :  9482   Median :422154         
##  Mean   : 4751301   Mean   : 39436   Mean   :382222         
##  3rd Qu.: 4632520   3rd Qu.: 34148   3rd Qu.:534001         
##  Max.   :37989547   Max.   :393712   Max.   :679184         
##                                                             
##  total_deaths_per_million
##  Min.   :   0            
##  1st Qu.:1518            
##  Median :2439            
##  Mean   :2527            
##  3rd Qu.:3441            
##  Max.   :5572            
## 

Takto skonštruované premenné eliminujú vplyv veľkosti krajiny a umožňujú zmysluplné prierezové porovnanie.

V ďalšej časti vykonáme základnú kontrolu premenných, chýbajúcich hodnôt a typov dát. Keďže ide o prierezové údaje za krajiny, každé pozorovanie reprezentuje jednu krajinu (resp. agregovanú hodnotu v zvolenom časovom reze).

2.3 Základná štruktúra, chýbajúce hodnoty a typy

Rozmery datasetu.
pocet_riadkov pocet_stlpcov
53002 27
Premenné s najvyšším počtom chýbajúcich hodnôt (top 15).
premenná NA_počet
X 53002
total_boosters 39433
new_vaccinations 36563
people_fully_vaccinated 35808
people_vaccinated 34711
icu_patients 33841
total_vaccinations 33740
hosp_patients 30239
new_tests 26870
total_tests 25983
tests_per_case 20538
positive_rate 20513
gdp_per_capita 9324
hospital_beds_per_thousand 9259
population_density 3078

V ekonometrickej analýze je prítomnosť chýbajúcich hodnôt kritická: pri OLS sa štandardne používa tzv. listwise deletion (pozorovania s NA sa vylúčia), čo môže znížiť počet krajín v odhade a potenciálne viesť k selekčnému skresleniu, ak NA nie sú náhodné. Preto budeme explicitne uvádzať, koľko pozorovaní bolo v modeli použité, a budeme pracovať s rozumným jadrom premenných, kde je dostupnosť údajov dostatočná.

2.4 Výber premenných pre jadrovú analýzu

Z epidemiologických ukazovateľov je prirodzené pracovať s premennými v prepočte na populáciu. Ako vysvetľovanú premennú (záujem) zvolíme celkové úmrtia na milión obyvateľov (total_deaths_per_million), čo reprezentuje „finálny dopad“ pandémie. Kľúčová vysvetľujúca premenná je celkový počet prípadov na milión (total_cases_per_million), ktorá zachytáva mieru rozšírenia infekcie. Ako kontrolný faktor pre kapacitu zdravotníctva použijeme počet nemocničných lôžok na tisíc obyvateľov (hospital_beds_per_thousand).

V praxi sa úmrtnosť môže meniť aj v závislosti od vekovej štruktúry, očkovania, testovania či kvality reportingu. Ak tieto premenné v datasete existujú, môžu poslúžiť ako ďalšie kontroly; v tejto práci sa však sústredíme na jadro s dôrazom na metodiku a diagnostiku.

Kontrola dostupnosti jadrových premenných.
jadro_premenne je_v_datasete
country TRUE
total_deaths_per_million TRUE
total_cases_per_million TRUE
hospital_beds_per_thousand TRUE
##    country          total_deaths_per_million total_cases_per_million
##  Length:53002       Min.   :    0            Min.   :     0.01      
##  Class :character   1st Qu.: 2406            1st Qu.: 12988.52      
##  Mode  :character   Median :10972            Median : 76669.56      
##                     Mean   :13685            Mean   :141777.03      
##                     3rd Qu.:21857            3rd Qu.:198853.10      
##                     Max.   :55723            Max.   :679183.89      
##                                                                     
##  hospital_beds_per_thousand
##  Min.   : 2.140            
##  1st Qu.: 3.450            
##  Median : 4.570            
##  Mean   : 5.152            
##  3rd Qu.: 6.540            
##  Max.   :13.800            
##  NA's   :9259

3 Exploratívna analýza (EDA)

EDA pomáha identifikovať rozsah variability medzi krajinami, potenciálne extrémy (outliers) a vhodnú transformáciu premenných. Pri prierezových dátach je častým problémom pravostranná šikmosť (niekoľko krajín s extrémne vysokými hodnotami). Takéto rozdelenie môže viesť k porušeniu predpokladov homoskedasticity a normality rezíduí, preto zvážime aj log-transformáciu.

3.1 Rozdelenia a extrémy

Histogramy spravidla ukazujú, že väčšina krajín sa sústreďuje v nižších až stredných hodnotách, zatiaľ čo menší počet krajín dosahuje extrémne hodnoty. To je typický scenár, kde môže byť vhodná transformácia (napr. log(1+x)), ktorá „stlačí“ extrémy a zlepší lineárnu aproximáciu.

3.2 Vzťah prípady – úmrtia (vizuálne)

Pri vizuálnom pohľade je zvyčajne pozorovateľná pozitívna asociácia: viac prípadov býva spojených s vyšším počtom úmrtí. Zároveň však môže byť vzťah nelineárny a rozptyl bodov sa môže zvyšovať s úrovňou prípadov, čo je indikácia heteroskedasticity.

4 Korelačná analýza

Korelácia poskytuje orientačný pohľad na lineárne vzťahy medzi premennými, avšak sama o sebe neimplikuje kauzalitu. V prierezových dátach je korelácia citlivá na extrémy a môže byť ovplyvnená nepozorovanými faktormi.

Korelačná matica vybraných numerických premenných (complete.obs).
total_deaths_per_million total_cases_per_million hospital_beds_per_thousand
total_deaths_per_million 1.00 0.550 0.020
total_cases_per_million 0.55 1.000 -0.073
hospital_beds_per_thousand 0.02 -0.073 1.000

Interpretácia korelácií: - vysoká korelácia medzi prípadmi a úmrtiami je očakávaná, keďže úmrtia sú v zásade podmnožinou závažných prípadov, - korelácia s kapacitou zdravotníctva (lôžka) môže byť rôzna: teoreticky vyššia kapacita môže súvisieť s nižšou úmrtnosťou, no zároveň môže korelovať s bohatstvom či demografiou, čo komplikuje interpretáciu.

5 Ekonometrický model

5.1 Teoretické východisko a špecifikácia

V základnej špecifikácii uvažujeme prierezový lineárny model:

$ \text{Deaths}_i = \beta_0 + \beta_1\text{Cases}_i + \beta_2\text{Beds}_i + u_i, $

kde: - \(\text{Deaths}_i\) je počet úmrtí na milión v krajine \(i\), - \(\text{Cases}_i\) je počet prípadov na milión, - \(\text{Beds}_i\) je počet nemocničných lôžok na tisíc obyvateľov, - \(u_i\) je nepozorovaná zložka zachytávajúca ďalšie faktory (vek, očkovanie, kvalita reportingu, politika testovania atď.).

Očakávané znamienka: - \(\beta_1 > 0\): viac prípadov by malo viesť k viac úmrtiam, - \(\beta_2 < 0\) (hypotéza): vyššia kapacita zdravotníctva môže znížiť úmrtnosť, hoci znamienko môže byť ovplyvnené štruktúrou krajín.

V praxi môže byť vhodné použiť log-transformáciu. Preto odhadneme dve špecifikácie: 1. model v úrovniach (priame mierky), 2. log-model s transformáciou \(\log(1+x)\), ktorý je robustnejší voči šikmosti.

5.2 Odhad: model v úrovniach (OLS)

Základné metriky modelu (m1) – úrovne.
r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC deviance df.residual nobs
0.306 0.306 11115.71 9629.954 0 2 -469581.9 939171.9 939206.6 5.40447e+12 43740 43743
Odhad parametrov (m1) – úrovne.
term estimate std.error statistic p.value
(Intercept) 6372.3425 141.4798 45.0407 0
total_cases_per_million 0.0482 0.0003 138.6866 0
hospital_beds_per_thousand 349.7189 23.0720 15.1577 0

Interpretácia koeficientov (m1): - \(\hat\beta_1\): pri náraste total_cases_per_million o 1 jednotku sa očakáva zmena total_deaths_per_million o \(\hat\beta_1\) jednotiek, pri konštantnej hodnote ostatných premenných. - \(\hat\beta_2\): pri zvýšení hospital_beds_per_thousand o 1 jednotku sa očakáva zmena total_deaths_per_million o \(\hat\beta_2\), za rovnakých podmienok.

Keďže jednotky sú „na milión“ a „na tisíc“, koeficienty sú často malé. Preto je praktické interpretovať aj zmeny o 10 000 prípadov na milión alebo o 1–2 lôžka na tisíc.

5.3 Robustné štandardné chyby (heteroskedasticita)

Pri prierezových dátach je heteroskedasticita veľmi častá (rozptyl chýb sa líši medzi krajinami). Aby sme sa vyhli nesprávnej inferencii, použijeme robustné (HC) štandardné chyby.

Model m1 – heteroskedasticity-robustné (HC1) štandardné chyby.
Premenná Odhad Robustná SE (HC1) t-štatistika p-hodnota
(Intercept) 6372.3425 141.4798 45.0407 0
total_cases_per_million 0.0482 0.0003 138.6866 0
hospital_beds_per_thousand 349.7189 23.0720 15.1577 0

Ak sa významnosť koeficientov líši medzi klasickými a robustnými štandardnými chybami, uprednostňujeme robustné výsledky, pretože sú konzistentné aj pri heteroskedasticite.

5.4 Log-transformovaný model

Základné metriky modelu (m2) – log(1+x).
r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC deviance df.residual nobs
0.833 0.833 0.882 109476.5 0 2 -56551.94 113111.9 113146.6 33991.13 43740 43743
Odhad parametrov (m2) – log(1+x).
term estimate std.error statistic p.value
(Intercept) 0.3076 0.0210 14.6629 0.0000
l_cases 0.7923 0.0017 467.3739 0.0000
hospital_beds_per_thousand -0.0022 0.0018 -1.2180 0.2232
Model m2 – heteroskedasticity-robustné (HC1) štandardné chyby.
Premenná Odhad Robustná SE (HC1) t-štatistika p-hodnota
(Intercept) 0.3076 0.0210 14.6629 0.0000
l_cases 0.7923 0.0017 467.3739 0.0000
hospital_beds_per_thousand -0.0022 0.0018 -1.2180 0.2232

Interpretácia (m2): Koeficient pri \(\log(1+\text{Cases})\) sa dá interpretovať približne ako elasticita (percentuálna zmena úmrtí pri percentuálnej zmene prípadov), najmä ak sú hodnoty dostatočne veľké a transformácia \(\log(1+x)\) je blízka \(\log(x)\). Takáto interpretácia je často intuitívnejšia a model býva stabilnejší.

6 Diagnostika modelu

Diagnostika je nevyhnutná na posúdenie, či OLS odhady a inferencia dávajú zmysel. Budeme sa venovať: - lineárnosti a tvaru rezíduí, - heteroskedasticite, - multikolinearite, - normalite rezíduí (orientačne), - vplyvným pozorovaniam.

6.1 Grafická diagnostika

Grafy typicky odhaľujú: - či rezíduá nevykazujú systematický tvar (nelinearita), - či rozptyl rezíduí nerastie s fitted hodnotami (heteroskedasticita), - či existujú výrazné odľahlé alebo vplyvné pozorovania.

6.2 Formálne testy heteroskedasticity

Breusch–Pagan test heteroskedasticity.
model statistic p_value
m1 (úrovne) 2043.745 0
m2 (log) 2716.131 0

Ak je p-hodnota nízka, zamietame homoskedasticitu a robustné štandardné chyby sú nevyhnutné. V praxi sa pri prierezových dátach často očakáva heteroskedasticita, takže robustná inferencia je štandard.

6.3 Multikolinearita (VIF)

Multikolinearita zvyšuje varianciu odhadov a môže spôsobovať „nestabilitu“ koeficientov. Overíme ju pomocou VIF (Variance Inflation Factor).

VIF pre model m2 (orientačná kontrola multikolinearity).
premenná VIF
l_cases 1.002
hospital_beds_per_thousand 1.002

Hodnoty VIF okolo 1–5 bývajú považované za nízke až mierne; vyššie hodnoty signalizujú problém. V našej špecifikácii očakávame skôr nižšiu multikolinearitu, keďže počet prípadov a počet lôžok nie sú priamo lineárne závislé, hoci môžu korelovať cez úroveň rozvoja krajiny.

6.4 Vplyvné pozorovania

Pri prierezových dátach môže niekoľko krajín zásadne ovplyvniť odhad. Skontrolujeme Cookovu vzdialenosť.

Top 10 pozorovaní podľa Cookovej vzdialenosti (model m2).
index cooks_distance
12571 0.00966
12572 0.00966
12573 0.00966
12574 0.00966
12575 0.00966
12576 0.00966
12577 0.00966
12564 0.00949
12565 0.00949
12566 0.00949

Ak sa objavia veľmi vplyvné pozorovania, je vhodné: - interpretovať výsledky opatrne, - zvážiť robustné prístupy, - porovnať odhady po vylúčení extrémov (sensitívna analýza). V tejto práci ponechávame všetky krajiny, ale explicitne upozorňujeme na citlivosť výsledkov.

7 Rozšírenie špecifikácie

Aby bol model ekonometricky presvedčivejší, je vhodné testovať, či je vzťah medzi prípadmi a úmrtiami stabilný naprieč úrovňami kapacity zdravotníctva. Jednoduchým rozšírením je interakčný člen:

$ \log(1+Deaths_i) = \beta_0 + \beta_1\log(1+Cases_i) + \beta_2Beds_i + \beta_3\big(\log(1+Cases_i)\cdot Beds_i\big) + u_i $

Interakcia umožní, aby sa efekt prípadov na úmrtia líšil v závislosti od kapacity zdravotníctva.

Model s interakciou (m3): l_cases × hospital_beds_per_thousand – OLS.
term estimate std.error statistic p.value
(Intercept) 1.8221 0.0447 40.7633 0
l_cases 0.6469 0.0042 155.5886 0
hospital_beds_per_thousand -0.2885 0.0077 -37.4321 0
l_cases:hospital_beds_per_thousand 0.0276 0.0007 38.1960 0
Model m3 – heteroskedasticity-robustné (HC1) štandardné chyby.
Premenná Odhad Robustná SE (HC1) t-štatistika p-hodnota
(Intercept) 1.8221 0.0447 40.7633 0
l_cases 0.6469 0.0042 155.5886 0
hospital_beds_per_thousand -0.2885 0.0077 -37.4321 0
l_cases:hospital_beds_per_thousand 0.0276 0.0007 38.1960 0

Interpretácia interakcie: - Ak je \(\beta_3\) záporné, naznačuje to, že v krajinách s vyššou kapacitou zdravotníctva je „preklad“ prípadov do úmrtí slabší (t. j. rovnaký nárast prípadov vedie k menšiemu nárastu úmrtí). - Ak je \(\beta_3\) kladné, efekt prípadov na úmrtia sa so zvyšujúcimi lôžkami zvyšuje, čo by bolo kontraintuitívne a naznačovalo by štrukturálne rozdiely alebo endogenitu (napr. lôžka ako proxy pre iné faktory).

8 Zhluková analýza krajín (klaster analýza)

Okrem regresie je zaujímavé pozrieť sa, či sa krajiny prirodzene zoskupujú podľa „profilu pandémie“. Zhluková analýza je exploračný nástroj, ktorý nepredpokladá kauzálnu štruktúru, ale umožňuje vytvoriť typológiu krajín.

8.1 Škálovanie a voľba premenných

Pre klastrovanie je nevyhnutné premenné škálovať, keďže majú rozdielne jednotky a rozsahy.

Popis premenných použitých pre klastrovanie (pred škálovaním).
Var1 Var2 Freq
total_cases_per_million Min. : 0.01
total_cases_per_million 1st Qu.: 13713.04
total_cases_per_million Median : 78225.43
total_cases_per_million Mean :136113.42
total_cases_per_million 3rd Qu.:194923.40
total_cases_per_million Max. :679183.89
total_deaths_per_million Min. : 0
total_deaths_per_million 1st Qu.: 2701
total_deaths_per_million Median :12019
total_deaths_per_million Mean :14741
total_deaths_per_million 3rd Qu.:23240
total_deaths_per_million Max. :55723
hospital_beds_per_thousand Min. : 2.140
hospital_beds_per_thousand 1st Qu.: 3.450
hospital_beds_per_thousand Median : 4.570
hospital_beds_per_thousand Mean : 5.152
hospital_beds_per_thousand 3rd Qu.: 6.540
hospital_beds_per_thousand Max. :13.800

8.2 K-means: výber počtu klastrov

Počet klastrov bol zvolený na základe predbežnej exploračnej analýzy a štandardných heuristických kritérií (elbow a silhouette metóda), pričom ako najvhodnejšia voľba sa ukázali tri klastre, ktoré poskytujú dostatočnú interpretovateľnosť bez nadmernej fragmentácie dát.

8.3 Odhad K-means a interpretácia

Profil klastrov – priemery premenných v jednotlivých skupinách.
cluster n avg_cases avg_deaths avg_beds
1 8940 56104.46 8714.85 8.39
2 14344 306348.11 28759.41 4.86
3 20459 51721.89 7546.23 3.95

Klastre krajín identifikované pomocou K-means analýzy je možné interpretovať nasledovne:

-Klaster 1 (červený) zahŕňa krajiny s relatívne strednými hodnotami počtu prípadov aj úmrtí na milión obyvateľov. Tento klaster možno interpretovať ako skupinu krajín s výrazným, ale nie extrémnym dopadom pandémie, kde priebeh ochorenia nebol ani medzi najmiernejšími, ani medzi najzávažnejšími v európskom kontexte.

-Klaster 2 (zelený) reprezentuje krajiny s vysokými hodnotami počtu prípadov na milión obyvateľov a zároveň vyššími úmrtiami. Ide o skupinu krajín, ktoré boli pandémiou zasiahnuté najintenzívnejšie, prípadne o krajiny s rozsiahlym testovaním a dôsledným reportovaním, ktoré zachytilo veľkú časť skutočných infekcií.

-Klaster 3 (modrý) združuje krajiny s nižšími hodnotami počtu prípadov aj úmrtí na milión obyvateľov. Tento klaster môže zahŕňať krajiny s miernejším priebehom pandémie, efektívnymi ochrannými opatreniami, odlišnou vekovou štruktúrou populácie alebo rozdielnym testovacím a reportovacím režimom.

9 Diskusia a metodologické obmedzenia

Aj keď regresné modely poskytujú kvantitatívny pohľad na vzťahy, je potrebné zdôrazniť obmedzenia:

  1. Nezahrnuté premenné (omitted variables): Veková štruktúra, očkovanie, prísnosť opatrení, testovanie a štrukturálne charakteristiky (HDP, urbanizácia) môžu ovplyvňovať úmrtnosť aj počet prípadov. Ak sú korelované s vysvetľujúcimi premennými, môže vzniknúť skreslenie odhadov.

  2. Endogenita a simultánnosť: Počet prípadov a úmrtí sú spätne prepojené cez správanie, politiky a reportovanie. Pri čistom OLS ide o asociácie, nie o kauzálne efekty.

  3. Heteroskedasticita: Pri prierezových dátach je takmer pravidlom; preto používame robustné štandardné chyby.

  4. Vplyvné pozorovania: Niekoľko krajín s extrémnymi hodnotami môže ovplyvniť koeficienty; preto sa robí kontrola Cookovej vzdialenosti.

Z pohľadu ekonometrickej praxe je preto vhodné prezentovať výsledky v niekoľkých špecifikáciách (úrovne, log, interakcia) a zdôrazniť robustnosť a interpretáciu.

10 Záver

Práca analyzovala dáta o pandémii COVID-19 v európskych krajinách pomocou kombinácie exploračných a ekonometrických metód. Exploratívna analýza ukázala výraznú heterogenitu naprieč krajinami a naznačila potrebu transformácií kvôli šikmým rozdeleniam. Základný regresný model potvrdil pozitívny vzťah medzi mierou infekcie a mierou úmrtnosti, pričom výsledky boli doplnené o robustnú inferenciu. Rozšírená špecifikácia s interakciou umožnila testovať, či kapacita zdravotníctva modifikuje intenzitu „prekladu“ prípadov do úmrtí. Klastrová analýza identifikovala skupiny krajín s podobnými profilmi pandémie a poskytla doplnkový, interpretačne užitočný pohľad.

Z metodologického hľadiska práca demonštruje správny postup: od EDA, cez špecifikáciu modelu, inferenciu a diagnostiku, až po robustnosť a doplnkové exploračné metódy.