1 Úvod

Z teoretických zdrojov sme čerpali informácie o práci v R a o metódach regresnej analýzy. Cieľom projektu je analyzovať dáta zo súboru wdi_data.csv a ukázať, ako pomocou ekonometrických nástrojov skúmať vzťahy medzi vybranými ukazovateľmi.

Dataset wdi_data.csv obsahuje 209 pozorovaní a 95 premenných (časové pokrytie: 2011 – 2021) a pokrýva približne 11 krajín/ekonomík.

V ďalších častiach najskôr popíšeme dáta a vizualizujeme základné vzťahy. Následne odhadneme regresný model a overíme kľúčové predpoklady (heteroskedasticitu, nelineárne špecifikácie, autokoreláciu rezíduí a multikolinearitu). Vo výstupe sa zobrazujú iba grafy a textová interpretácia.

2 Moje dáta

Tieto dáta pochádzajú z databázy World Development Indicators (WDI) a sú uložené v súbore data/wdi_data.csv (objekt wdi_data v R). Dataset obsahuje viacero ekonomických ukazovateľov naprieč krajinami a rokmi, čo umožňuje porovnávanie a jednoduché regresné modelovanie.

Pre prehľadnosť v tejto časti pracujeme iba s malým výberom 4 numerických premenných, ktoré majú nízky podiel chýbajúcich hodnôt a zároveň dostatočnú variabilitu (aby grafy dávali zmysel).

Vybrané premenné pre grafy a štatistiky: Počet obyvateľov spolu, Počet obyvateľov – ženy, Počet obyvateľov – muži, Čistá migrácia.

Kontrola dát – prvých 10 riadkov (vybrané premenné)
Počet obyvateľov spolu Počet obyvateľov – ženy Počet obyvateľov – muži Čistá migrácia
22340024 11220344 11119680 197657
8391643 4303321 4088322 31887
11038264 5617084 5421180 52464
34339221 17322863 17016358 227075
5570572 2809034 2761538 13495
5388272 2742669 2645603 16798
65340830 33701265 31639565 70178
80274983 41126974 39148009 295282
59379449 30617245 28762204 198544
127833000 65320207 62512793 97720

2.1 Štatistický popis dát

``` V tejto časti uvádzame prehľadnú tabuľku základných štatistík vybraných premenných (min, kvartily, medián, priemer, max).

Prehľadná tabuľka základných štatistík (vybrané premenné)
variable min q1 median mean q3 max na_share
Počet obyvateľov spolu 4953088 8642699 24190907 50647263.9 64128273 332048977 0.0%
Počet obyvateľov – ženy 2413024 4303321 12185876 25515455.8 32731068 165091204 0.0%
Počet obyvateľov – muži 2479819 4368019 12005031 25131808.1 31397205 166957773 0.0%
Čistá migrácia -250741 39389 85281 204844.9 236854 1889129 0.0%

Počet obyvateľov spolu: hodnoty sa pohybujú od 4 953 088 do 332 048 977, medián je 24 190 907 a priemer 50 647 264. Podiel chýbajúcich hodnôt je 0.0%.

Počet obyvateľov – ženy: hodnoty sa pohybujú od 2 413 024 do 165 091 204, medián je 12 185 876 a priemer 25 515 456. Podiel chýbajúcich hodnôt je 0.0%.

Počet obyvateľov – muži: hodnoty sa pohybujú od 2 479 819 do 166 957 773, medián je 12 005 031 a priemer 25 131 808. Podiel chýbajúcich hodnôt je 0.0%.

Čistá migrácia: hodnoty sa pohybujú od -250 741 do 1 889 129, medián je 85 281 a priemer 204 845. Podiel chýbajúcich hodnôt je 0.0%.

2.2 Boxplot

Boxplot umožňuje rýchlo vidieť rozptyl a možné extrémne hodnoty (outliers). Pre prehľadnosť zobrazujeme boxplot len pre jednu premennú (Y z regresného grafu).

Boxplot pre premennú Počet obyvateľov – ženy ukazuje, že väčšina pozorovaní má výrazne nižšie hodnoty a rozdelenie je pravostranné (pozitívne) šikmé. Vidno aj odľahlé hodnoty (outliers) na pravej strane – ide o krajiny/pozorovania s veľmi vysokým počtom ženského obyvateľstva (až okolo 150+ mil.), ktoré výrazne zvyšujú maximum. To naznačuje, že v dátach sú prítomné veľké krajiny, ktoré sa výrazne líšia od zvyšku vzorky.

2.3 Graf na regresiu

Bodový graf ukazuje vzťah medzi dvomi vybranými premennými (X a Y). Pridávame lineárnu trendovú priamku.

Keď Počet obyvateľov spolu stúpa, Počet obyvateľov – ženy typicky rastie. Korelácia je približne 1 a jednoduchý lineárny model vysvetľuje približne 1 variability (R²). Poznámka: ak sú premenné konštrukčne prepojené (napr. „spolu“ vs. „ženy“), korelácia môže byť prirodzene veľmi vysoká. Bodový graf zobrazuje vzťah medzi Počtom obyvateľov spolu (X) a Počtom obyvateľov – ženy (Y). Vidíme veľmi silný pozitívny lineárny vzťah – s rastúcim celkovým počtom obyvateľov rastie aj počet žien. Body ležia takmer na priamke a regresná čiara presne kopíruje dáta, čo naznačuje, že ide o takmer proporčný vzťah. Takýto výsledok je očakávaný, pretože premenné sú konštrukčne prepojené (ženy tvoria časť celkovej populácie).

2.4 Heatmap korelačnej matice numerických veličín

Korelačná matica pomáha posúdiť lineárne vzťahy medzi premennými. Aby bola heatmap prehľadná, zobrazujeme len vybrané 4 premenné a hodnoty korelácií priamo v bunkách.

Heatmap zobrazuje korelačnú maticu medzi vybranými premennými. Premenné Počet obyvateľov spolu, Počet obyvateľov – ženy a Počet obyvateľov – muži majú koreláciu takmer 1.00, čo je očakávané, pretože ide o konštrukčne prepojené ukazovatele (ženy a muži tvoria spolu celkovú populáciu). Čistá migrácia je tiež pozitívne korelovaná s populačnými premennými (približne 0.83–0.84), čo naznačuje, že krajiny s väčšou populáciou majú v tomto výbere často aj vyššie migračné toky.

3 Regresia

V tejto kapitole zostavíme jednoduchý regresný model pre čistú migráciu.
Ako prediktory použijeme veľkosť populácie (v logaritme), podiel žien (%) a časový trend (rok).

3.1 Prieskum dát

3.2 Vývoj vybraných premenných v čase (vybraná krajina)

Nasledujúce grafy ukazujú, ako sa v čase mení čistá migrácia, celkový počet obyvateľov a podiel žien (%) v krajine s najviac dostupnými pozorovaniami v datasete (aby bol časový priebeh čo najkompletnejší).

Interpretácia časových grafov: - Počet obyvateľov spolu typicky rastie (alebo je relatívne stabilný), čo je pre väčšinu krajín očakávané. - Podiel žien (%) býva zvyčajne pomerne stabilný (mení sa len mierne). - Čistá migrácia často kolíše viac (môže byť kladná aj záporná), čo naznačuje, že ide o premennú citlivú na ekonomické a spoločenské zmeny.

3.3 Vzťahy medzi premennými (scatter)

3.4 Odhad lineárneho modelu

Odhadujeme lineárny model:

Čistá migrácia ~ log(Počet obyvateľov spolu) + Podiel žien (%) + Rok

Interpretácia (stručne):

  • Model používa log(populácie), aby sme zmiernili extrémne veľké rozdiely medzi krajinami.
  • Premenná rok zachytáva základný trend v čase.
  • Hodnota R² ukazuje, akú časť variability čistej migrácie vie model vysvetliť.

R² = 0.348, Adj. R² = 0.342.

3.5 Robustné štandardné chyby

3.6 Predikcie a vizualizácia

3.7 Diagnostika rezíduí

Nasledujúce diagnostické grafy pomáhajú overiť predpoklady lineárneho modelu (približná normalita rezíduí, rovnaký rozptyl a pod.).

Interpretácia diagnostiky:

  • Ak Q–Q graf výrazne odchádza od priamky, rezíduá nemusia byť normálne.
  • Ak graf rezíduí vs. fitted ukazuje „lievik“, môže ísť o heteroskedasticitu.
  • Breusch–Pagan test (heteroskedasticita): p-hodnota = 0.
    • Ak p < 0.05, heteroskedasticita je pravdepodobná → preto používame robustné štandardné chyby.
Breusch–Pagan test heteroskedasticity
statistic p.value parameter method
57.134 0 2 studentized Breusch-Pagan test

Interpretácia diagnostiky (stručne):

  • Ak Q–Q graf výrazne odchádza od priamky, rezíduá nemusia byť normálne.
  • Ak graf rezíduí vs. fitted ukazuje „lievik“, môže ísť o heteroskedasticitu.
  • Breusch–Pagan test (heteroskedasticita): p-hodnota = 0.
    • Ak p < 0.05, heteroskedasticita je pravdepodobná → preto používame robustné štandardné chyby.

4 Heteroskedasticita

4.1 Diagnostika rezíduí

4.2 Test heteroskedasticity (Breusch–Pagan)

4.3 Test heteroskedasticity (Breusch–Pagan)

Breusch–Pagan test heteroskedasticity
statistic p.value parameter method
57.134 0 2 studentized Breusch-Pagan test

5 Nelineárne špecifikácie

5.1 Ramsey RESET test

Test overuje, či je lineárny model správne špecifikovaný (t. j. či mu nechýbajú nelineárne vzťahy).

Ramsey RESET test pre správnosť špecifikácie modelu
df1 df2 statistic p.value method
2 203 152.804 0 RESET test
  • Test hodnotí, či je lineárna forma modelu správne špecifikovaná, alebo či vynecháva nelineárne vzťahy / interakcie.

  • Hodnota testovacej štatistiky: 152.804.

  • Stupne voľnosti: df1 = 2, df2 = 203.

  • p-hodnota = < 0.001.

  • Ak p-hodnota < 0.05, zamietame nulovú hypotézu správnej špecifikácie → model pravdepodobne potrebuje doplniť nelineárne členy (napr. kvadratické/ log/ interakcie).

    Diagnostické grafy

    Diagnostické grafy

    Graf Residuals vs Fitted (baseline) porovnáva rezíduá (chyby modelu) s predikovanými hodnotami. Ideálne by mali byť body náhodne rozptýlené okolo nulovej čiary (červená prerušovaná čiara) bez jasného vzoru. V tomto prípade je vidieť, že rozptyl rezíduí sa s rastúcimi fitted hodnotami mení a objavujú sa aj výrazné odľahlé pozorovania (veľmi veľké kladné aj záporné chyby). To naznačuje možnú heteroskedasticitu (nekonštantný rozptyl chýb) a zároveň, že niektoré pozorovania môžu mať na odhad modelu silný vplyv. Component + Residual (partial residual) grafy ukazujú, či je vzťah medzi jednotlivými prediktormi a závislou premennou v modeli približne lineárny. V grafoch porovnávame lineárny trend (modrá prerušovaná čiara) s vyhladeným trendom (ružová čiara).

  • Ak sú modrá a ružová čiara blízko pri sebe, lineárny predpoklad je pre daný prediktor pravdepodobne v poriadku.

  • Ak sa ružová čiara viditeľne odchyľuje od modrej, môže to naznačovať nelinearitu alebo vplyv extrémnych pozorovaní.

V tvojom výstupe: - log_pop_total: body naznačujú rastúci vzťah, no vyhladená (ružová) krivka sa miestami odchyľuje od lineárnej (modrej), čo môže signalizovať nelinearitu / outliery. - year: trend je takmer vodorovný a modrá s ružovou čiarou sú takmer totožné, čo naznačuje slabý (približne lineárny) časový efekt.

6 Autokorelácia rezíduí

6.1 Vývoj čistej migrácie

Vývoj čistej migrácie

Vývoj čistej migrácie

Opis grafu – Vývoj čistej migrácie:

  • Graf zobrazuje čistú migráciu (net migration) v čase pre krajinu Australia.
  • V rokoch 2011–2019 sa hodnoty držia na relatívne vysokej úrovni (približne 200–260 tis. osôb).
  • Okolo rokov 2016–2017 je viditeľný vrchol.
  • V roku 2020 nastáva prudký prepad a v roku 2021 je viditeľné čiastočné zotavenie.

6.2 Vývoj populácie (spolu)

Vývoj populácie (spolu)

Vývoj populácie (spolu)

Opis grafu – Vývoj populácie (spolu):

  • Graf zobrazuje vývoj celkovej populácie v čase pre Australia.
  • Populácia má stabilný rast počas celého obdobia (približne od 22,3 mil. k 25,7 mil.).
  • Krivka je plynulá bez výrazných prepadov; ku koncu obdobia je rast mierne pomalší. ## 6.3 Vývoj podielu žien (%)
Vývoj podielu žien (%)

Vývoj podielu žien (%)

Opis grafu – Vývoj podielu žien (%):

  • Graf zobrazuje podiel žien na populácii v čase pre Australia.
  • Podiel žien sa pohybuje tesne nad 50 % (cca 50,15–50,46 %), teda ide o veľmi malé zmeny.
  • Viditeľný je mierny nárast do približne rokov 2016–2017, následne je hodnota takmer stabilná.

7 Multikolinearita

Scatterplotová matica prediktorov (z finálneho modelu)

Scatterplotová matica prediktorov (z finálneho modelu)

  • Scatterplotová matica prediktorov (Australia) zobrazuje párové vzťahy medzi premennými log_pop_total, female_share a year.
  • Rozdelenie log_pop_total je približne v intervale 15–19 (logaritmus populácie) a body vo vzťahu k ostatným premenným nevytvárajú výrazný trend.
  • Premenná female_share je silno koncentrovaná okolo jednej hodnoty (takmer konštantná), preto sa v koreláciách objavuje NA.
  • Medzi log_pop_total a year je korelácia veľmi nízka (Corr ≈ 0.018), čo naznačuje takmer nulový lineárny vzťah.
  • Premenná year je rozložená naprieč sledovanými rokmi (cca 2011–2021) a v párových grafoch nevidno výraznú závislosť s ostatnými prediktormi.