Rozhodla som sa modelovať world hapiness score Score v závislosti od troch premenných: GDP per capita, Social support a Healthy life expectancy
Hapiness score je index, ktorý ukazuje, ktoré krajiny dosahujú najvyššiu životnú spokojnosť, často spojenú s dobrým zdravím, dôverou, slobodou a nízkou korupciou. V našom prípade je to spojené s HDP na obyvateľa, sociálnou podporou a očakávanou dĺžkou života.
Moja hypotéza hovorí o štatisticky významnom vplyve všetkých troch premenných, pričom u všetkých premenných by malo ísť o pozitívny vplyv.
Dáta som získala z databázy kaggle. # 1 Základné štatistiky
## Social.support GDP.per.capita Healthy.life.expectancy Score
## Min. :0.000 Min. :0.0000 Min. :0.0000 Min. :2.853
## 1st Qu.:1.056 1st Qu.:0.6028 1st Qu.:0.5477 1st Qu.:4.545
## Median :1.272 Median :0.9600 Median :0.7890 Median :5.380
## Mean :1.209 Mean :0.9051 Mean :0.7252 Mean :5.407
## 3rd Qu.:1.452 3rd Qu.:1.2325 3rd Qu.:0.8818 3rd Qu.:6.184
## Max. :1.624 Max. :1.6840 Max. :1.1410 Max. :7.769
Základná deskriptívna štatistika poukazuje na rozdiely v úrovni sociálnych, ekonomických a zdravotných faktorov medzi sledovanými jednotkami. Premenná Social support dosahuje priemernú hodnotu 1,209, pričom medián (1,272) je mierne vyšší, čo naznačuje miernu ľavostrannú asymetriu rozdelenia. Hodnoty sa prevažne pohybujú v intervale od 1,056 do 1,452.
GDP per capita má priemernú hodnotu 0,905 a medián 0,960, čo indikuje relatívne vyrovnané rozdelenie hodnôt. Medzikvartilové rozpätie (0,603 – 1,233) poukazuje na výraznejšiu variabilitu ekonomickej úrovne.
Pri premennej Healthy life expectancy dosahuje priemer hodnotu 0,725 a medián 0,789, pričom väčšina pozorovaní sa nachádza v intervale od 0,548 do 0,882, čo naznačuje nižšiu variabilitu. Celkové skóre spokojnosti so životom (Score) má priemernú hodnotu 5,407 a medián 5,380, pričom rozdelenie hodnôt je približne symetrické.
Graf rezíduí voči vyrovnaným hodnotám naznačuje, že hoci sú rezíduá rozložené okolo nulovej osi, červená vyhladzovacia (LOESS) krivka nie je vedená náhodne okolo nuly, ale je systematicky vychýlená, pričom vykazuje mierne zakrivenie. Tento vzor poukazuje na skutočnosť, že model nezachytáva úplne všetky systematické vzťahy v dátach, čo môže naznačovať prítomnosť ďalších vplyvov alebo potrebu nelineárnej transformácie niektorých vysvetľujúcich premenných. Identifikované body vzdialenejšie od hlavného zhluku môžu predstavovať potenciálne odľahlé pozorovania, avšak ich vplyv je potrebné overiť ďalšími testami.
V strednej časti grafu (okolie kvantilov −1 až +1) body veľmi dobre kopírujú diagonálu, čo znamená, že väčšina rezíduí má rozdelenie veľmi blízke k normálnemu. Na oboch koncoch (najmä vľavo dole a vpravo hore) sa body mierne odchyľujú od priamky – to naznačuje menšie odchýlky od normality v chvostoch rozdelenia.
Body sú rozptýlené pomerne rovnomerne, bez jasného vzoru alebo lievikovitého tvaru. Červená LOESS krivka je relatívne rovná, čo potvrdzuje, že rozptyl rezíduí zostáva približne konštantný naprieč predikovanými hodnotami. Niekoľko bodov (napr. 102, 148) má vyššie hodnoty, ale nie sú extrémne – preto nepredstavujú závažný problém.
Väčšina bodov je sústredená vľavo (leverage < 0.05), čo znamená, že väčšina pozorovaní má nízky pákový efekt a teda nízky vplyv na odhady modelu. Niekoľko bodov (napr. 155, 102) leží ďalej vpravo – tieto majú vyšší leverage, teda ich prediktorové hodnoty sú nezvyčajné. Rezíduá sa pohybujú prevažne v rozmedzí −2 až +2, čo je akceptovateľné a naznačuje, že žiadne pozorovanie nemá extrémne chyby.
##
## Jarque Bera Test
##
## data: residuals
## X-squared = 0.84494, df = 2, p-value = 0.6554
Jarque–Bera test bol použitý na overenie predpokladu normálneho rozdelenia rezíduí regresného modelu. Testovacia štatistika dosiahla hodnotu χ² = 0,6281 pri 2 stupňoch voľnosti a p-hodnota je 0,7305.
Keďže p-hodnota je výrazne vyššia ako zvolená hladina významnosti (α = 0,05), nulová hypotéza o normálnom rozdelení rezíduí nie je zamietnutá. Na základe výsledkov testu teda možno konštatovať, že rezíduá regresného modelu majú normálne rozdelenie, resp. neexistuje štatisticky významný dôkaz o porušení tohto predpokladu.
Výsledok Jarque–Bera testu je v súlade s vizuálnou diagnostikou pomocou Q–Q grafu, ktorý naznačil len mierne odchýlky v chvostoch rozdelenia, avšak bez zásadného porušenia normality.
V analyzovanom súbore sa nenachádzajú štatisticky významné odľahlé hodnoty rezíduí, ktoré by po zohľadnení viacnásobného testovania mali neprimerane veľký vplyv na výsledky regresného modelu. Tento výsledok naznačuje, že jednotlivé pozorovania nepredstavujú závažný problém z hľadiska extrémnych chýb odhadu.
Vo všetkých špecifikáciách vychádza HDP na obyvateľa ako stabilne pozitívny a vysoko štatisticky významný determinant vysvetľovanej premennej. Rovnako aj sociálna opora a zdravá dĺžka života majú pozitívnu a významnú asociáciu s výsledkom modelu. To naznačuje, že krajiny s vyšším ekonomickým výkonom, lepšími sociálnymi väzbami a dlhšou očakávanou dĺžkou života majú systematicky vyššie hodnoty analyzovaného ukazovateľa (pravdepodobne spokojnosti či kvality života).
Z diagnostiky reziduí (grafy „Squared Residuals vs…“) nevyplývajú závažné známky heteroskedasticity. Trendové línie (červené krivky) sú pomerne ploché a neukazujú systematický nárast rozptylu s hodnotami vysvetľujúcich premenných. Výsledky Breusch-Pagan testu (p-hodnoty 0.5581 a 0.1552) potvrdzujú, že nulovú hypotézu homoskedasticity nemožno zamietnuť.
V modeloch nie sú zahrnuté ďalšie potenciálne faktory (napr. inštitucionálna kvalita, kultúrne rozdiely, geografické efekty), ktoré by mohli ovplyvniť výsledky.
Model je štatisticky konzistentný, s dobrým správaním reziduí a bez významnej heteroskedasticity. Výsledky naznačujú, že ekonomická úroveň (HDP), sociálna podpora a zdravie sú robustne pozitívne asociované s hodnotami cieľovej premennej. Tieto faktory tvoria kľúčové pilierové oblasti blahobytu, ktoré sa navzájom posilňujú.
Ďalší výskum by mal zahŕňať dlhšie časové obdobie alebo panelové
dáta, aby bolo možné overiť kauzálny smer vzťahov a posúdiť dlhodobé
efekty ekonomických a sociálnych determinantov.
##
## Call:
## lm(formula = Score ~ +1 + Social.support + GDP.per.capita + Healthy.life.expectancy,
## data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.7018 -0.4155 -0.0520 0.4535 1.3369
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.1350 0.2116 10.088 < 2e-16 ***
## Social.support 1.3219 0.2483 5.324 3.58e-07 ***
## GDP.per.capita 0.8098 0.2358 3.434 0.000766 ***
## Healthy.life.expectancy 1.2977 0.3661 3.544 0.000523 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.588 on 152 degrees of freedom
## Multiple R-squared: 0.7263, Adjusted R-squared: 0.7209
## F-statistic: 134.5 on 3 and 152 DF, p-value: < 2.2e-16
##
## RESET test
##
## data: model
## RESET = 18.302, df1 = 2, df2 = 150, p-value = 7.725e-08
Ramseyho RESET test bol použitý na overenie správnosti špecifikácie regresného modelu, konkrétne na identifikáciu možnej funkčnej nesprávnosti modelu alebo vynechaných vysvetľujúcich premenných. Nulová hypotéza testu predpokladá, že regresný model je správne špecifikovaný a neobsahuje významné nelineárne vzťahy ani opomenuté premenné.
Na základe výsledkov testu, pri ktorom p-hodnota presiahla hladinu významnosti α = 0,05, nie je možné zamietnuť nulovú hypotézu. To znamená, že neexistuje štatisticky významný dôkaz o nesprávnej špecifikácii modelu a zvolená funkčná forma regresnej rovnice je z hľadiska testu považovaná za adekvátnu.
Výsledok Ramseyho RESET testu naznačuje, že model nevyžaduje dodatočné nelineárne transformácie premenných ani rozšírenie o ďalšie vysvetľujúce premenné, a preto je možné považovať jeho špecifikáciu za štatisticky vyhovujúcu.
Najväčší odklon môžeme vidieť u premennej GDP per Capita a Healthy life
expectancy.
##
## Call:
## lm(formula = Score ~ +1 + Social.support + GDP.per.capita + Healthy.life.expectancy +
## I(GDP.per.capita^2) + I(Healthy.life.expectancy^2))
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.44862 -0.35031 -0.03075 0.40568 1.39628
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0419 0.3056 9.954 < 2e-16 ***
## Social.support 1.5211 0.2383 6.383 2.05e-09 ***
## GDP.per.capita -0.7955 0.5532 -1.438 0.15252
## Healthy.life.expectancy -0.7585 0.9948 -0.762 0.44698
## I(GDP.per.capita^2) 0.8324 0.3085 2.698 0.00777 **
## I(Healthy.life.expectancy^2) 1.6832 0.7776 2.165 0.03200 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.554 on 150 degrees of freedom
## Multiple R-squared: 0.7603, Adjusted R-squared: 0.7523
## F-statistic: 95.15 on 5 and 150 DF, p-value: < 2.2e-16
Model ukazuje, že skóre (Score) je najvýraznejšie a štatisticky vysvetlené premennou Social.support, ktorá má silný pozitívny a vysoko signifikantný vplyv – keď Social.support stúpne o jednu jednotku, očakávané skóre sa zvýši približne o 1.52 bodu (pri fixných ostatných premenných). Premenné GDP.per.capita a Healthy.life.expectancy v lineárnej forme nie sú signifikantné, ale ich kvadratické členy sú signifikantné, čo znamená, že ich vzťah k Score je nelineárny. Konkrétne: koeficienty pri GDP^2 a HLE^2 sú kladné, zatiaľ čo lineárne členy sú záporné, čo naznačuje U-tvar – pri nízkych hodnotách môže byť efekt negatívny, ale pri vyšších hodnotách sa otáča do pozitívneho smeru. Intercept 3.04 predstavuje odhadovanú hodnotu Score pri nulových hodnotách všetkých vysvetľujúcich premenných (čo má skôr technický význam). Model ako celok vysvetľuje približne 76 % variability v závislej premennej (R² = 0.7603) a je vysoko signifikantný (p < 2e-16), čo znamená, že zvolená špecifikácia má pomerne silnú prediktívnu schopnosť. Reziduá sú relatívne malé a rovnomerne rozložené, čo naznačuje dobrú zhodu modelu s dátami.
Kvadratické členy prinášajú významné dodatočné vysvetlenie variability v závislej premennej Score, a preto je Model 2 štatisticky lepšou voľbou než čistý lineárny Model 1.
##
## RESET test
##
## data: model_schooling_kvadr
## RESET = 4.3272, df1 = 2, df2 = 148, p-value = 0.01492
## Score Social.support GDP.per.capita
## Score 1.00 0.63 0.05
## Social.support 0.63 1.00 0.30
## GDP.per.capita 0.05 0.30 1.00
## Healthy.life.expectancy 0.14 0.23 0.42
## Healthy.life.expectancy
## Score 0.14
## Social.support 0.23
## GDP.per.capita 0.42
## Healthy.life.expectancy 1.00
Korelácie medzi sledovanými premennými sú prevažne slabé až stredné. Najsilnejší vzťah sa ukázal medzi premennými Score a Social.support (r = 0.63), čo naznačuje, že vyššia úroveň sociálnej podpory výraznejšie súvisí s vyšším skóre šťastia. Stredná korelácia sa objavila aj medzi GDP.per.capita a Healthy.life.expectancy (r = 0.42), čo odráža, že ekonomicky silnejšie krajiny majú spravidla dlhšiu očakávanú dĺžku zdravého života. Ostatné vzťahy sú len slabé: Score má veľmi nízku väzbu na HDP (r = 0.05) a len miernu na zdravú dĺžku života (r = 0.14), pričom aj väzby sociálnej podpory na ďalšie premenné zostávajú slabé. Celkovo teda medzi premennými neexistujú veľmi silné lineárne vzťahy, s výnimkou spojitosti skóre so sociálnou podporou.
## Finland Denmark Norway Iceland Netherlands Switzerland Sweden
## Denmark 0.98
## Norway 2.42 1.67
## Iceland 2.26 1.69 1.24
## Netherlands 1.90 1.09 1.89 2.26
## Switzerland 3.48 2.71 1.55 2.25 2.36
## Sweden 2.88 2.06 2.34 2.77 1.02 2.17
## New Zealand 2.77 1.99 1.97 1.64 1.76 1.95 1.68
## Canada 3.54 2.69 2.22 2.50 2.02 1.35 1.39
## Austria 3.41 2.57 2.66 3.04 1.58 2.21 0.58
## Australia 3.33 2.45 1.89 1.91 2.05 1.54 1.73
## Costa Rica 4.73 4.54 5.72 5.48 4.02 5.66 3.78
## Israel 4.22 3.46 3.51 3.66 2.59 2.70 1.68
## Luxembourg 4.43 3.52 3.09 3.84 2.71 2.93 2.20
## United Kingdom 3.33 2.54 3.04 2.88 2.02 3.25 1.76
## Ireland 3.68 2.78 2.74 2.93 2.32 3.15 2.16
## Germany 4.29 3.55 4.04 4.27 2.63 3.89 1.96
## New Zealand Canada Austria Australia Costa Rica Israel
## Denmark
## Norway
## Iceland
## Netherlands
## Switzerland
## Sweden
## New Zealand
## Canada 1.25
## Austria 1.74 1.16
## Australia 0.83 0.85 1.63
## Costa Rica 4.23 4.53 3.77 4.74
## Israel 2.08 1.42 1.18 1.99 3.54
## Luxembourg 3.19 2.56 2.10 2.68 5.37 2.95
## United Kingdom 1.78 2.23 1.74 1.94 3.47 2.21
## Ireland 2.40 2.54 2.19 2.15 4.77 2.99
## Germany 3.01 2.78 1.76 2.98 3.17 2.12
## Luxembourg United Kingdom Ireland
## Denmark
## Norway
## Iceland
## Netherlands
## Switzerland
## Sweden
## New Zealand
## Canada
## Austria
## Australia
## Costa Rica
## Israel
## Luxembourg
## United Kingdom 2.68
## Ireland 1.79 1.44
## Germany 2.37 1.69 2.22
Vykonaná klastrová analýza rozdelila sledované krajiny do troch odlišných klastrov. Prvý klaster tvoria severské krajiny – Fínsko, Dánsko, Nórsko a Island – ktoré patria medzi najvyspelejšie a najstabilnejšie spoločnosti s vysokou životnou úrovňou a sociálnou podporou; preto sa prirodzene zoskupili do samostatnej a homogénnej skupiny. Druhý klaster zahŕňa väčšinu ostatných krajín tradičného Západu, ako sú Holandsko, Švajčiarsko, Švédsko, Nový Zéland, Kanada, Rakúsko, Austrália, Izrael, Luxembursko, Spojené kráľovstvo, Írsko a Nemecko. Tento klaster predstavuje veľkú skupinu ekonomicky silných a rozvinutých krajín, ktoré si navzájom vykazujú vysokú mieru podobnosti v hodnotených ukazovateľoch. Tretí klaster pozostáva iba z Kostariky, ktorá sa od ostatných krajín odlišuje natoľko, že vytvorila samostatnú skupinu; jej profil je špecifický kombináciou nižšieho hospodárskeho výkonu, ale zároveň relatívne vysokého subjektívneho hodnotenia kvality života. Celkovo analýza ukazuje jasné oddelenie severských krajín, kompaktný blok západných ekonomík a samostatné postavenie Kostariky ako netypického prípadu.
Výsledky analýzy rozptylu ukazujú, ako dobre zvolené klastre odlišujú jednotlivé premenné. Premenná Social.support má najvyšší podiel medzi-skupinového rozptylu (Prop_Between = 0.62), čo znamená, že klastre sa v úrovni sociálnej podpory od seba najvýraznejšie líšia a táto premenná najlepšie odráža štruktúru klasifikácie. Nasledujú premenné Score (0.57) a GDP.per.capita (0.55), ktoré takisto pomerne dobre oddeľujú skupiny krajín, hoci o niečo slabšie než sociálna podpora. Naopak, premenná Healthy.life.expectancy vykazuje najnižší podiel medzi-skupinovej variability (0.32), čo naznačuje, že dĺžka zdravého života rozlišuje klastre najmenej a jej hodnoty sú medzi skupinami relatívne podobné. Celkovo teda platí, že vytvorené klastre sú najlepšie vysvetlené úrovňou sociálnej podpory a najhoršie očakávanou dĺžkou zdravého života.
## Social.support GDP.per.capita Healthy.life.expectancy
## Social.support 1.000 0.302 0.231
## GDP.per.capita 0.302 1.000 0.420
## Healthy.life.expectancy 0.231 0.420 1.000
Korelačná analýza odhalila stredne silnú pozitívnu závislosť medzi sociálnou podporou a HDP na obyvateľa (r = 0,420), čo naznačuje, že bohatšie krajiny majú tendenciu dosahovať vyššiu úroveň sociálnej podpory. Slabšia pozitívna korelácia sa prejavila medzi sociálnou podporou a zdravou dĺžkou života (r = 0,231), ako aj medzi HDP na obyvateľa a zdravou dĺžkou života (r = 0,302). Medzi vysvetľujúcimi premennými sa nepreukázala silná korelácia, čo znamená, že riziko výraznej multikolinearity v modeli je nízke.
## Social.support GDP.per.capita Healthy.life.expectancy
## 1.116366 1.283012 1.231522
V tomto prípade nespĺňajú naše dáta ani prísne ani menej prísne kritérium.
## [1] 77.24144
V tomto prípade daný indikátor nepresahuje hodnotu 100, čo znamená, že nesignalizuje prítomnosť multikolinearity. Preto ju nemusíme ďalej riešiť.