Z teoretických zdrojov sme čerpali informácie o práci v R a o
metódach regresnej analýzy. Cieľom projektu je analyzovať dáta zo súboru
wdi_data.csv a ukázať, ako pomocou ekonometrických
nástrojov skúmať vzťahy medzi vybranými ukazovateľmi.
Dataset wdi_data.csv obsahuje 209 pozorovaní a 95
premenných (časové pokrytie: 2011 – 2021) a pokrýva približne 11
krajín/ekonomík.
V ďalších častiach najskôr popíšeme dáta a vizualizujeme základné vzťahy. Následne odhadneme regresný model a overíme kľúčové predpoklady (heteroskedasticitu, nelineárne špecifikácie, autokoreláciu rezíduí a multikolinearitu). Vo výstupe sa zobrazujú iba grafy a textová interpretácia.
Tieto dáta pochádzajú z databázy World Development Indicators (WDI) a
sú uložené v súbore data/wdi_data.csv (objekt
wdi_data v R). Dataset obsahuje viacero ekonomických
ukazovateľov naprieč krajinami a rokmi, čo umožňuje porovnávanie a
jednoduché regresné modelovanie.
Pre prehľadnosť v tejto časti pracujeme iba s malým výberom 4 numerických premenných, ktoré majú nízky podiel chýbajúcich hodnôt a zároveň dostatočnú variabilitu (aby grafy dávali zmysel).
Vybrané premenné pre grafy a štatistiky: Počet obyvateľov spolu, Počet obyvateľov – ženy, Počet obyvateľov – muži, Čistá migrácia.
| Počet obyvateľov spolu | Počet obyvateľov – ženy | Počet obyvateľov – muži | Čistá migrácia |
|---|---|---|---|
| 22340024 | 11220344 | 11119680 | 197657 |
| 8391643 | 4303321 | 4088322 | 31887 |
| 11038264 | 5617084 | 5421180 | 52464 |
| 34339221 | 17322863 | 17016358 | 227075 |
| 5570572 | 2809034 | 2761538 | 13495 |
| 5388272 | 2742669 | 2645603 | 16798 |
| 65340830 | 33701265 | 31639565 | 70178 |
| 80274983 | 41126974 | 39148009 | 295282 |
| 59379449 | 30617245 | 28762204 | 198544 |
| 127833000 | 65320207 | 62512793 | 97720 |
``` V tejto časti uvádzame prehľadnú tabuľku základných štatistík vybraných premenných (min, kvartily, medián, priemer, max).
| variable | min | q1 | median | mean | q3 | max | na_share |
|---|---|---|---|---|---|---|---|
| Počet obyvateľov spolu | 4953088 | 8642699 | 24190907 | 50647263.9 | 64128273 | 332048977 | 0.0% |
| Počet obyvateľov – ženy | 2413024 | 4303321 | 12185876 | 25515455.8 | 32731068 | 165091204 | 0.0% |
| Počet obyvateľov – muži | 2479819 | 4368019 | 12005031 | 25131808.1 | 31397205 | 166957773 | 0.0% |
| Čistá migrácia | -250741 | 39389 | 85281 | 204844.9 | 236854 | 1889129 | 0.0% |
Počet obyvateľov spolu: hodnoty sa pohybujú od 4 953 088 do 332 048 977, medián je 24 190 907 a priemer 50 647 264. Podiel chýbajúcich hodnôt je 0.0%.
Počet obyvateľov – ženy: hodnoty sa pohybujú od 2 413 024 do 165 091 204, medián je 12 185 876 a priemer 25 515 456. Podiel chýbajúcich hodnôt je 0.0%.
Počet obyvateľov – muži: hodnoty sa pohybujú od 2 479 819 do 166 957 773, medián je 12 005 031 a priemer 25 131 808. Podiel chýbajúcich hodnôt je 0.0%.
Čistá migrácia: hodnoty sa pohybujú od -250 741 do 1 889 129, medián je 85 281 a priemer 204 845. Podiel chýbajúcich hodnôt je 0.0%.
Boxplot umožňuje rýchlo vidieť rozptyl a možné extrémne hodnoty (outliers). Pre prehľadnosť zobrazujeme boxplot len pre jednu premennú (Y z regresného grafu).
Boxplot pre premennú Počet obyvateľov – ženy ukazuje,
že väčšina pozorovaní má výrazne nižšie hodnoty a rozdelenie je
pravostranné (pozitívne) šikmé. Vidno aj
odľahlé hodnoty (outliers) na pravej strane – ide o
krajiny/pozorovania s veľmi vysokým počtom ženského
obyvateľstva (až okolo 150+ mil.), ktoré výrazne zvyšujú maximum. To
naznačuje, že v dátach sú prítomné veľké krajiny, ktoré
sa výrazne líšia od zvyšku vzorky.
Bodový graf ukazuje vzťah medzi dvomi vybranými premennými (X a Y). Pridávame lineárnu trendovú priamku.
Keď Počet obyvateľov spolu stúpa, Počet obyvateľov – ženy typicky rastie. Korelácia je približne 1 a jednoduchý lineárny model vysvetľuje približne 1 variability (R²). Poznámka: ak sú premenné konštrukčne prepojené (napr. „spolu“ vs. „ženy“), korelácia môže byť prirodzene veľmi vysoká. Bodový graf zobrazuje vzťah medzi Počtom obyvateľov spolu (X) a Počtom obyvateľov – ženy (Y). Vidíme veľmi silný pozitívny lineárny vzťah – s rastúcim celkovým počtom obyvateľov rastie aj počet žien. Body ležia takmer na priamke a regresná čiara presne kopíruje dáta, čo naznačuje, že ide o takmer proporčný vzťah. Takýto výsledok je očakávaný, pretože premenné sú konštrukčne prepojené (ženy tvoria časť celkovej populácie).
Korelačná matica pomáha posúdiť lineárne vzťahy medzi premennými. Aby bola heatmap prehľadná, zobrazujeme len vybrané 4 premenné a hodnoty korelácií priamo v bunkách.
Heatmap zobrazuje korelačnú maticu medzi vybranými
premennými. Premenné Počet obyvateľov spolu,
Počet obyvateľov – ženy a Počet obyvateľov –
muži majú koreláciu takmer 1.00, čo je
očakávané, pretože ide o konštrukčne prepojené
ukazovatele (ženy a muži tvoria spolu celkovú populáciu). Čistá
migrácia je tiež pozitívne korelovaná s
populačnými premennými (približne 0.83–0.84), čo
naznačuje, že krajiny s väčšou populáciou majú v tomto výbere často aj
vyššie migračné toky.
V tejto kapitole zostavíme jednoduchý regresný model pre
čistú migráciu.
Ako prediktory použijeme veľkosť populácie (v
logaritme), podiel žien (%) a časový trend
(rok).
Nasledujúce grafy ukazujú, ako sa v čase mení čistá migrácia, celkový počet obyvateľov a podiel žien (%) v krajine s najviac dostupnými pozorovaniami v datasete (aby bol časový priebeh čo najkompletnejší).
Interpretácia časových grafov: - Počet obyvateľov spolu typicky rastie (alebo je relatívne stabilný), čo je pre väčšinu krajín očakávané. - Podiel žien (%) býva zvyčajne pomerne stabilný (mení sa len mierne). - Čistá migrácia často kolíše viac (môže byť kladná aj záporná), čo naznačuje, že ide o premennú citlivú na ekonomické a spoločenské zmeny.
Odhadujeme lineárny model:
Čistá migrácia ~ log(Počet obyvateľov spolu) + Podiel žien (%) + Rok
Interpretácia (stručne):
R² = 0.348, Adj. R² = 0.342.
Nasledujúce diagnostické grafy pomáhajú overiť predpoklady lineárneho modelu (približná normalita rezíduí, rovnaký rozptyl a pod.).
Interpretácia diagnostiky:
| statistic | p.value | parameter | method |
|---|---|---|---|
| 57.134 | 0 | 2 | studentized Breusch-Pagan test |
Interpretácia diagnostiky (stručne):
| statistic | p.value | parameter | method |
|---|---|---|---|
| 57.134 | 0 | 2 | studentized Breusch-Pagan test |
Test overuje, či je lineárny model správne špecifikovaný (t. j. či mu nechýbajú nelineárne vzťahy).
| df1 | df2 | statistic | p.value | method |
|---|---|---|---|---|
| 2 | 203 | 152.804 | 0 | RESET test |
Test hodnotí, či je lineárna forma modelu správne špecifikovaná, alebo či vynecháva nelineárne vzťahy / interakcie.
Hodnota testovacej štatistiky: 152.804.
Stupne voľnosti: df1 = 2, df2 = 203.
p-hodnota = < 0.001.
Ak p-hodnota < 0.05, zamietame nulovú hypotézu správnej špecifikácie → model pravdepodobne potrebuje doplniť nelineárne členy (napr. kvadratické/ log/ interakcie).
Diagnostické grafy
Graf Residuals vs Fitted (baseline) porovnáva
rezíduá (chyby modelu) s predikovanými hodnotami. Ideálne by mali byť
body náhodne rozptýlené okolo nulovej čiary (červená
prerušovaná čiara) bez jasného vzoru. V tomto prípade je vidieť, že
rozptyl rezíduí sa s rastúcimi fitted hodnotami mení a
objavujú sa aj výrazné odľahlé pozorovania (veľmi veľké
kladné aj záporné chyby). To naznačuje možnú
heteroskedasticitu (nekonštantný rozptyl chýb) a
zároveň, že niektoré pozorovania môžu mať na odhad modelu silný
vplyv.
Component + Residual (partial residual) grafy ukazujú,
či je vzťah medzi jednotlivými prediktormi a závislou premennou v modeli
približne lineárny. V grafoch porovnávame lineárny
trend (modrá prerušovaná čiara) s vyhladeným
trendom (ružová čiara).
Ak sú modrá a ružová čiara blízko pri sebe, lineárny predpoklad je pre daný prediktor pravdepodobne v poriadku.
Ak sa ružová čiara viditeľne odchyľuje od modrej, môže to naznačovať nelinearitu alebo vplyv extrémnych pozorovaní.
V tvojom výstupe: - log_pop_total: body naznačujú rastúci vzťah, no vyhladená (ružová) krivka sa miestami odchyľuje od lineárnej (modrej), čo môže signalizovať nelinearitu / outliery. - year: trend je takmer vodorovný a modrá s ružovou čiarou sú takmer totožné, čo naznačuje slabý (približne lineárny) časový efekt.
Vývoj čistej migrácie
Opis grafu – Vývoj čistej migrácie:
Vývoj populácie (spolu)
Opis grafu – Vývoj populácie (spolu):
Vývoj podielu žien (%)
Opis grafu – Vývoj podielu žien (%):
Scatterplotová matica prediktorov (z finálneho modelu)