##  [1] "Country name"                      "Year"                             
##  [3] "Life Ladder"                       "Log GDP per capita"               
##  [5] "Social support"                    "Healthy life expectancy at birth" 
##  [7] "Freedom to make life choices"      "Generosity"                       
##  [9] "Perceptions of corruption"         "Positive affect"                  
## [11] "Negative affect"                   "Confidence in national government"

1 Úvod a oboznámenie sa s “R”

Table 1.1: Hodnoty pre Česko podľa rokov
Country name Year Life Ladder Log GDP per capita Social support
Czechia 2005 6.439257 10.32169 0.9187595
Czechia 2007 6.500194 10.43283 0.8997790
Czechia 2010 6.249618 10.41880 0.9341611
Czechia 2011 6.331491 10.43418 0.9135107
Czechia 2012 6.334149 10.42490 0.9124268
Czechia 2013 6.697656 10.42411 0.8880433
Czechia 2014 6.483730 10.44543 0.8779152
Czechia 2015 6.608017 10.49594 0.9113626
Czechia 2016 6.735627 10.51908 0.9305929
Czechia 2017 6.789568 10.56682 0.9009690
Czechia 2018 7.034165 10.59496 0.9291639
Czechia 2020 6.897091 10.55865 0.9640537
Czechia 2021 6.942497 10.58128 0.9502268

Table 1.2: Základné štatistiky Indexu šťastia (2005–2021)
Year n mean sd min q25 median q75 max
2005 1 6.44 NA 6.44 6.44 6.44 6.44 6.44
2007 1 6.50 NA 6.50 6.50 6.50 6.50 6.50
2010 1 6.25 NA 6.25 6.25 6.25 6.25 6.25
2011 1 6.33 NA 6.33 6.33 6.33 6.33 6.33
2012 1 6.33 NA 6.33 6.33 6.33 6.33 6.33
2013 1 6.70 NA 6.70 6.70 6.70 6.70 6.70
2014 1 6.48 NA 6.48 6.48 6.48 6.48 6.48
2015 1 6.61 NA 6.61 6.61 6.61 6.61 6.61
2016 1 6.74 NA 6.74 6.74 6.74 6.74 6.74
2017 1 6.79 NA 6.79 6.79 6.79 6.79 6.79
2018 1 7.03 NA 7.03 7.03 7.03 7.03 7.03
2020 1 6.90 NA 6.90 6.90 6.90 6.90 6.90
2021 1 6.94 NA 6.94 6.94 6.94 6.94 6.94

Table 1.3: Table 1.4: Základné štatistiky indexu šťastia v Česku (2005-2021)
Štatistiky Life Ladder
Year n mean sd min q25 median q75 max
2005 1 6.44 NA 6.44 6.44 6.44 6.44 6.44
2007 1 6.50 NA 6.50 6.50 6.50 6.50 6.50
2010 1 6.25 NA 6.25 6.25 6.25 6.25 6.25
2011 1 6.33 NA 6.33 6.33 6.33 6.33 6.33
2012 1 6.33 NA 6.33 6.33 6.33 6.33 6.33
2013 1 6.70 NA 6.70 6.70 6.70 6.70 6.70
2014 1 6.48 NA 6.48 6.48 6.48 6.48 6.48
2015 1 6.61 NA 6.61 6.61 6.61 6.61 6.61
2016 1 6.74 NA 6.74 6.74 6.74 6.74 6.74
2017 1 6.79 NA 6.79 6.79 6.79 6.79 6.79
2018 1 7.03 NA 7.03 7.03 7.03 7.03 7.03
2020 1 6.90 NA 6.90 6.90 6.90 6.90 6.90
2021 1 6.94 NA 6.94 6.94 6.94 6.94 6.94

2 Testovanie hypotéz

## 
##  Welch Two Sample t-test
## 
## data:  group1 and group2
## t = -4.7912, df = 8.7198, p-value = 0.001077
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.6325683 -0.2254575
## sample estimates:
## mean of x mean of y 
##  6.450777  6.879790
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## Period       1  0.502  0.5020    21.3 0.00126 **
## Residuals    9  0.212  0.0236                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Call:
## lm(formula = `Life Ladder` ~ `Log GDP per capita` + `Social support` + 
##     `Healthy life expectancy at birth` + `Freedom to make life choices` + 
##     `Perceptions of corruption` + `Confidence in national government`, 
##     data = czechia_data, na.action = na.omit)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.16256 -0.05590 -0.03232  0.06707  0.16231 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                         -2.46791    9.12851  -0.270   0.7959  
## `Log GDP per capita`                 1.14921    1.35473   0.848   0.4288  
## `Social support`                     0.75092    2.40004   0.313   0.7650  
## `Healthy life expectancy at birth`   0.02884    0.17651   0.163   0.8756  
## `Freedom to make life choices`      -0.38647    1.16196  -0.333   0.7507  
## `Perceptions of corruption`         -5.62889    2.47385  -2.275   0.0632 .
## `Confidence in national government` -0.70058    0.68668  -1.020   0.3470  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1332 on 6 degrees of freedom
## Multiple R-squared:  0.8615, Adjusted R-squared:  0.7229 
## F-statistic: 6.219 on 6 and 6 DF,  p-value: 0.02136
Table 2.1: Table 2.2: OLS Regression Coefficients (Life Ladder ~ predictors)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept -2.468 9.129 -0.270 0.796 [-24.805, 19.869]
Log GDP per capita 1.149 1.355 0.848 0.429 [-2.166, 4.464]
Social support 0.751 2.400 0.313 0.765 [-5.122, 6.624]
Healthy life expectancy at birth 0.029 0.177 0.163 0.876 [-0.403, 0.461]
Freedom to make life choices -0.386 1.162 -0.333 0.751 [-3.23, 2.457]
Perceptions of corruption -5.629 2.474 -2.275 0.063 [-11.682, 0.424] ·
Confidence in national government -0.701 0.687 -1.020 0.347 [-2.381, 0.98]
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
Table 2.3: Table 2.4: Model Fit Statistics
R-squared Adj. R-squared F-statistic F p-value AIC BIC Num. obs.
0.861 0.723 6.219 0.021 -9.575 -5.056 13

Môj komentár:

Výsledky viacnásobnej lineárnej regresie ukázali, že model dosahuje veľmi dobrú úroveň vysvetľovacej schopnosti (R² = 0.861; upravené R² = 0.723), pričom model ako celok je štatisticky významný (F = 6.219; p = 0.021). To znamená, že súhrnne socioekonomické faktory dokážu významne vysvetliť variabilitu spokojnosti so životom v Českej republike.

Pri pohľade na jednotlivé premenné sa ukázalo, že žiadna z nich nedosiahla štatistickú významnosť na hladine α = 0.05. Premenná „Perceptions of corruption“ vykazuje hranične nevýznamný vplyv (p = 0.063), čo naznačuje, že hoci vnímanie korupcie môže mať istý negatívny vzťah k spokojnosti so životom, tento vzťah nie je štatisticky potvrdený na bežne používanej hladine významnosti. Ostatné premenné, ako Log GDP per capita, Social support, Healthy life expectancy at birth, Freedom to make life choices a Confidence in national government, sa taktiež neprejavili ako štatisticky významné.

Na základe týchto výsledkov nebolo možné zamietnuť nulovú hypotézu (H₀), ktorá predpokladala, že jednotlivé socioekonomické premenné nemajú štatisticky významný vplyv na spokojnosť so životom. Napriek tomu však model ako celok poukazuje na silnú koreláciu medzi uvedenými faktormi a celkovou úrovňou subjektívnej kvality života v Českej republike.

3 Priblíženie problému, stanovenie výskumnej otázky a hypotéz

Rozhodol som sa modelovať index šťastia Life Ladder v závislosti od troch vysvetľujúcich premenných:

Log GDP per capita – očakávame pozitívny vplyv (vyšší HDP → vyššia spokojnosť). Social support – očakávame pozitívny vplyv (silnejšie sociálne väzby → vyššia spokojnosť). Freedom to make life choices – očakávame pozitívny vplyv (väčšia sloboda → vyššia spokojnosť).

Moja výskumná otázka: Uvedené premenné majú štatisticky významný pozitívny vplyv na index šťastia Life Ladder.

H0: Log GDP per capita, Social support alebo Freedom to make life choices má štatisticky významný pozitývny vplyv na index šťastia (life ladder)

H1: Log GDP per capita, Social support alebo Freedom to make life choices má štatisticky významný pozitývny vplyv na index šťastia (life ladder)

4 Príprava databázy, úprava a skúmanie údajov

##                  Life.Ladder           Log.GDP.per.capita 
##                            0                            0 
##               Social.support Freedom.to.make.life.choices 
##                            0                            0
## 
## Call:
## lm(formula = Life.Ladder ~ Log.GDP.per.capita + Social.support + 
##     Freedom.to.make.life.choices, data = model_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.27317 -0.35672  0.00259  0.41187  2.22420 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  -2.65882    0.11549  -23.02   <2e-16 ***
## Log.GDP.per.capita            0.50668    0.01605   31.57   <2e-16 ***
## Social.support                2.45235    0.15745   15.57   <2e-16 ***
## Freedom.to.make.life.choices  1.86548    0.10448   17.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5971 on 2019 degrees of freedom
## Multiple R-squared:  0.7155, Adjusted R-squared:  0.7151 
## F-statistic:  1693 on 3 and 2019 DF,  p-value: < 2.2e-16
##           Log.GDP.per.capita               Social.support 
##                     1.917155                     1.999493 
## Freedom.to.make.life.choices 
##                     1.216990

## Pôvodný počet riadkov: 2089
## Po odstránení outlierov: 1970

## 
## Call:
## lm(formula = Life.Ladder ~ +1 + Log.GDP.per.capita + Social.support + 
##     Freedom.to.make.life.choices, data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.27317 -0.35672  0.00259  0.41187  2.22420 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  -2.65882    0.11549  -23.02   <2e-16 ***
## Log.GDP.per.capita            0.50668    0.01605   31.57   <2e-16 ***
## Social.support                2.45235    0.15745   15.57   <2e-16 ***
## Freedom.to.make.life.choices  1.86548    0.10448   17.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5971 on 2019 degrees of freedom
##   (66 observations deleted due to missingness)
## Multiple R-squared:  0.7155, Adjusted R-squared:  0.7151 
## F-statistic:  1693 on 3 and 2019 DF,  p-value: < 2.2e-16

Interpretácia výsledkov:

Výsledky lineárnej regresie ukázali, že všetky tri skúmané premenné – Log GDP per capita, Social support a Freedom to make life choices – majú na index šťastia (Life Ladder) pozitívny a štatisticky významný vplyv na hladine významnosti 1 %. Model možno zapísať nasledovne:

Interpretácia koeficientov naznačuje, že pri zvýšení logaritmu HDP na obyvateľa o jednu jednotku sa očakáva nárast indexu šťastia v priemere o 0,51 bodu, ak ostatné premenné zostanú nezmenené. Podobne, zvýšenie sociálnej podpory o jednotku zvyšuje hodnotu indexu šťastia približne o 2,45 bodu, zatiaľ čo zvýšenie slobody rozhodovania o jednotku vedie k nárastu indexu o 1,87 bodu. Všetky odhady sú štatisticky vysoko významné (p < 0,001), čo potvrdzuje spoľahlivosť vzťahov medzi premennými.

Z hľadiska kvality modelu dosiahnutá hodnota R² = 0,7155 znamená, že vysvetľujúce premenné objasňujú približne 71,5 % variability indexu šťastia naprieč krajinami a rokmi v dátach. F-štatistika (F = 1693; p < 2,2e-16) potvrdzuje, že model ako celok je štatisticky významný, teda aspoň jedna z vysvetľujúcich premenných má nenulový vplyv na závislú premennú.

Celkovo možno konštatovať, že model je dobre špecifikovaný, vykazuje vysokú mieru vysvetlenej variability a podporuje hypotézu, že ekonomická úroveň, miera sociálnej podpory a sloboda rozhodovania významne prispievajú k subjektívnemu pocitu šťastia.

Diagnostické grafy regresného modelu

Figure 4.1: Diagnostické grafy regresného modelu

4.1 Residuals vs Fitted:

Reziduály sú pomerne rovnomerne rozptýlené okolo nulovej osi, čo znamená, že model je dobre centrovaný a nevykazuje systematické skreslenie v predikciách. Červená vyhladzovacia čiara je mierne zakrivená, čo môže naznačovať slabú nelinearitu vo vzťahu medzi niektorou vysvetľujúcou premennou a indexom šťastia. Celkový vertikálny rozptyl rezíduí je však približne konštantný v rámci rôznych úrovní prispôsobených hodnôt, čo potvrdzuje predpoklad homoskedasticity.

4.2 Q–Q Residuals:

Body ležia veľmi blízko diagonálnej priamky, čo naznačuje, že rozdelenie rezíduí sa približuje normálnemu rozdeleniu. Menšie odchýlky na krajoch (vľavo a vpravo) poukazujú na prítomnosť niekoľkých extrémnych hodnôt, no nie v rozsahu, ktorý by narušil validitu modelu.

4.3 Scale–Location:

Rezíduá sú rozptýlené rovnomerne pozdĺž červenej čiary, ktorá zostáva takmer vodorovná. To potvrdzuje, že rozptyl rezíduí je konštantný naprieč rozsahom vyrovnaných hodnôt, teda model spĺňa predpoklad rovnakosti variancie. Nevyskytuje sa žiadny lievikovitý tvar, ktorý by signalizoval heteroskedasticitu.

4.4 Residuals vs Leverage:

Väčšina pozorovaní má nízky pákový efekt a nachádza sa v bezpečnom rozmedzí Cookovej vzdialenosti. Len niekoľko bodov (napr. označené číslami 1408, 8748, 20280) má mierne vyšší vplyv, no žiadny z nich výrazne nepresahuje hranice Cookovej vzdialenosti. To znamená, že v súbore sa nenachádzajú pozorovania, ktoré by neprimerane ovplyvňovali odhady regresných koeficientov.

Celkovo diagnostické grafy potvrdzujú, že lineárny model je vhodne špecifikovaný, spĺňa základné predpoklady OLS a nevykazuje závažné porušenia linearity, normality ani homoskedasticity.

## 
##  Jarque Bera Test
## 
## data:  residuals
## X-squared = 45.91, df = 2, p-value = 1.073e-10
## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
##      rstudent unadjusted p-value Bonferroni p
## 221 -3.821391         0.00013672      0.27658

Rezíduá sú približne normálne rozdelené, bez výrazných odľahlých hodnôt. Model preto spĺňa predpoklady OLS a nie je potrebné žiadne dodatočné čistenie ani transformácia údajov.

4.5 Záver

Výsledky lineárneho regresného modelu potvrdili, že všetky tri skúmané premenné – Log GDP per capita, Social support a Freedom to make life choices – majú pozitívny a štatisticky významný vplyv na index šťastia (Life Ladder). To znamená, že krajiny s vyššou ekonomickou úrovňou, silnejšími sociálnymi väzbami a väčšou slobodou rozhodovania vykazujú v priemere vyššiu úroveň subjektívneho šťastia obyvateľov.

Koeficient determinácie R² = 0.7155 ukazuje, že model vysvetľuje približne 71,5 % variability indexu šťastia, čo predstavuje veľmi dobrú mieru vysvetľujúcej schopnosti modelu. F-štatistika (F = 1693; p < 2.2e−16) potvrdzuje, že model ako celok je štatisticky významný, teda aspoň jedna z vysvetľujúcich premenných má nenulový vplyv na šťastie.

Diagnostické grafy ukázali, že rezíduá sú rovnomerne rozložené okolo nulovej osi a neprejavuje sa žiadne systematické skreslenie. Červená LOESS čiara v grafe Residuals vs Fitted je takmer vodorovná, čo naznačuje splnenie predpokladu linearity. Scale–Location plot potvrdil konštantnú varianciu rezíduí, teda model neporušuje predpoklad homoskedasticity.

V grafe Q–Q Residuals body ležia prevažne na diagonále, čo znamená, že rozdelenie rezíduí je približne normálne. Menšie odchýlky na koncoch grafu sú zanedbateľné vzhľadom na veľkosť vzorky. Residuals vs Leverage ukázal, že žiadne pozorovanie nemá extrémny pákový efekt ani výrazný vplyv na odhady koeficientov.

Outlier test (car::outlierTest) identifikoval jedno pozorovanie (č. 221) s hodnotou študentizovaného rezídua -3.82, ale po Bonferroniho korekcii (p = 0.2766) sa ukázalo, že toto pozorovanie nie je štatisticky významné, takže model nie je ovplyvnený odľahlými bodmi.

Potvrdenie hypotéz

Log GDP per capita – očakával sa pozitívny vplyv (vyšší HDP → vyššia spokojnosť). Koeficient (0.5067) je kladný a štatisticky významný (p < 0.001), čím sa hypotéza potvrdzuje.

Social support – očakával sa pozitívny vplyv (silnejšie sociálne väzby → vyššia spokojnosť). Koeficient (2.4523) je kladný a štatisticky významný (p < 0.001), teda hypotéza sa potvrdzuje.

Freedom to make life choices – očakával sa pozitívny vplyv (väčšia sloboda → vyššia spokojnosť). Koeficient (1.8655) je kladný a štatisticky významný (p < 0.001), preto aj táto hypotéza sa potvrdzuje.

Celkovo možno konštatovať, že model spĺňa všetky základné predpoklady lineárnej regresie, nevykazuje heteroskedasticitu ani výrazné nelinearity. Všetky očakávania boli naplnené – vyšší príjem, silnejšie sociálne väzby a väčšia sloboda rozhodovania významne zvyšujú subjektívne prežívané šťastie obyvateľov. Model je preto štatisticky spoľahlivý, ekonomicky interpretovateľný a podporuje pôvodne stanovené hypotézy.

5 Heteroskedasticita

## Skúmanie heteroskedasticity – vizuálna kontrola

Na obrázku vyššie sú zobrazené grafy závislosti štvorcov rezíduí od vysvetľujúcich premenných:

  • Residuals vs Log GDP per capita
  • Residuals vs Social support
  • Residuals vs Freedom to make life choices

Červená krivka je vo všetkých prípadoch takmer vodorovná, bez výrazného trendu. Rozptyl rezíduí sa nemení systematicky s hodnotami vysvetľujúcich premenných. Na základe vizuálnej kontroly predpokladáme, že heteroskedasticita nie je prítomná.

Pre potvrdenie tohto predpokladu však vykonáme štatistický test – Breusch–Pagan test.

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 28.549, df = 3, p-value = 2.786e-06

5.1 Skúmanie heteroskedasticity – opis

Keďže p-hodnota < 0.05, zamietame nulovú hypotézu o homoskedasticite. To znamená, že v našom modeli je prítomná heteroskedasticita. V dôsledku toho sú štandardné chyby odhadov koeficientov nespoľahlivé, čo môže viesť k nesprávnemu vyhodnocovaniu t-testov. ## Skúmanie heteroskedasticity - White heteroskedasticity-consistent odhadov rozptylov (robustné štandardné chyby)

## 
## t test of coefficients:
## 
##                               Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)                  -2.658819   0.121783 -21.832 < 2.2e-16 ***
## Log.GDP.per.capita            0.506678   0.016597  30.529 < 2.2e-16 ***
## Social.support                2.452346   0.180362  13.597 < 2.2e-16 ***
## Freedom.to.make.life.choices  1.865476   0.107661  17.327 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5.2 Porovnanie

## 
## t test of coefficients:
## 
##                               Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)                  -2.658819   0.121783 -21.832 < 2.2e-16 ***
## Log.GDP.per.capita            0.506678   0.016597  30.529 < 2.2e-16 ***
## Social.support                2.452346   0.180362  13.597 < 2.2e-16 ***
## Freedom.to.make.life.choices  1.865476   0.107661  17.327 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##                               Estimate OLS_Std_Error Robust_Std_Error
## (Intercept)                  -2.658819    0.11549077        0.1217828
## Log.GDP.per.capita            0.506678    0.01605084        0.0165966
## Social.support                2.452346    0.15745146        0.1803624
## Freedom.to.make.life.choices  1.865476    0.10447731        0.1076607

5.3 Vytvorenie nového modelu

## 
## Call:
## lm(formula = Life.Ladder ~ Log.GDP.per.capita + log_Social.support + 
##     log_Freedom, data = model_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.30858 -0.38490 -0.00582  0.42215  2.30771 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         1.06339    0.16846   6.312 3.37e-10 ***
## Log.GDP.per.capita  0.54597    0.01585  34.444  < 2e-16 ***
## log_Social.support  1.49964    0.11107  13.501  < 2e-16 ***
## log_Freedom         1.20170    0.07046  17.055  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6109 on 2019 degrees of freedom
## Multiple R-squared:  0.7022, Adjusted R-squared:  0.7018 
## F-statistic:  1587 on 3 and 2019 DF,  p-value: < 2.2e-16

5.4 Vizuálna kontrola nového modelu

5.5 Skúmanie heteroskedasticity po logaritmizácii premenných

Na obrázku sú zobrazené grafy závislosti štvorcov rezíduí od vysvetľujúcich premenných po logaritmizácii Social support a Freedom to make life choices. Červená LOESS krivka ukazuje, že rozptyl rezíduí sa stále mení s hodnotami vysvetľujúcich premenných:

  • Pri Log GDP per capita je rozptyl výrazne klesajúci.
  • Pri log(Social support) je rozptyl výrazne klesajúci.
  • Pri log(Freedom) je rozptyl taktiež výrazne klesajúci. Všetky klesajúce trendy však nastávajú na ľavej strane grafu.

5.5.1 Záver:

Logaritmizácia premenných nezlepšila situáciu. Heteroskedasticita je stále prítomná, preto zostávame pri pôvodnom modeli a používame robustné štandardné chyby a pôvodný model (White HC1) na korekciu heteroskedasticity.

5.6 Nelinearita:

5.6.1 Základný model

## 
## Call:
## lm(formula = Healthy.life.expectancy.at.birth ~ Log.GDP.per.capita + 
##     Life.Ladder + Social.support, data = udaje7_latest)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.9026 -1.5122  0.0541  1.9176  7.2135 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         24.6071     2.8417   8.659 3.39e-14 ***
## Log.GDP.per.capita   3.2096     0.4365   7.353 3.07e-11 ***
## Life.Ladder          0.5826     0.4622   1.260   0.2101    
## Social.support       8.5018     3.9870   2.132   0.0351 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.994 on 115 degrees of freedom
## Multiple R-squared:  0.7092, Adjusted R-squared:  0.7016 
## F-statistic: 93.49 on 3 and 115 DF,  p-value: < 2.2e-16

Life ladder nie je významý preto ho vyradím.

## 
## Call:
## lm(formula = Healthy.life.expectancy.at.birth ~ Log.GDP.per.capita + 
##     Social.support, data = udaje7_latest)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.2606 -1.4573  0.1625  1.8593  7.5520 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         23.2899     2.6492   8.791 1.59e-14 ***
## Log.GDP.per.capita   3.4366     0.3986   8.621 3.94e-14 ***
## Social.support      11.5204     3.1955   3.605 0.000461 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.002 on 116 degrees of freedom
## Multiple R-squared:  0.7052, Adjusted R-squared:  0.7001 
## F-statistic: 138.7 on 2 and 116 DF,  p-value: < 2.2e-16

Obe premenné sú štatisticky významné preto pokračujem s týmto modelom

## 
##  RESET test
## 
## data:  model
## RESET = 2.231, df1 = 2, df2 = 114, p-value = 0.1121

P value nad hladinou významnosti 0,05 pozrieme sa však aj na grafy.

Kedže sme prekročili hladinu významnosti nemáme potvrdenie o tom že model nie je šprávne špecifikovaný avšak na báze učenia vykonáme nasledujúce:

## 
## Call:
## lm(formula = Healthy.life.expectancy.at.birth ~ Log.GDP.per.capita + 
##     I(Log.GDP.per.capita^2) + Social.support + I(Social.support^2), 
##     data = udaje7_latest)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.2913 -1.7331  0.2251  1.5271  7.1933 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)  
## (Intercept)             -23.0932    22.2966  -1.036   0.3025  
## Log.GDP.per.capita       11.2749     4.7491   2.374   0.0193 *
## I(Log.GDP.per.capita^2)  -0.4074     0.2525  -1.613   0.1094  
## Social.support           38.3140    25.0917   1.527   0.1295  
## I(Social.support^2)     -18.8015    17.1874  -1.094   0.2763  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.966 on 114 degrees of freedom
## Multiple R-squared:  0.717,  Adjusted R-squared:  0.7071 
## F-statistic: 72.21 on 4 and 114 DF,  p-value: < 2.2e-16
## 
##  RESET test
## 
## data:  model_quad
## RESET = 0.52928, df1 = 2, df2 = 112, p-value = 0.5905

Kvadratické členy nepomohli – všetky sú nevýznamné, R² sa nezlepšilo, ANOVA nepotvrdila zlepšenie. RESET test ukazuje, že ani po rozšírení nie je problém so špecifikáciou. Záver: pôvodný model je dostatočný, ale na účely učenia môžeme skúsiť dummy premennú

## 
## Call:
## lm(formula = Healthy.life.expectancy.at.birth ~ Social.support + 
##     I(DUM * Social.support) + Log.GDP.per.capita, data = udaje7_latest)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.2105 -1.4498  0.1656  1.8215  7.6383 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              21.9906     3.8925   5.649 1.18e-07 ***
## Social.support           12.9713     4.5125   2.875  0.00482 ** 
## I(DUM * Social.support)  -0.5828     1.2754  -0.457  0.64856    
## Log.GDP.per.capita        3.4839     0.4132   8.432 1.13e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.012 on 115 degrees of freedom
## Multiple R-squared:  0.7057, Adjusted R-squared:  0.698 
## F-statistic: 91.93 on 3 and 115 DF,  p-value: < 2.2e-16
## 
##  RESET test
## 
## data:  modelD
## RESET = 2.1723, df1 = 2, df2 = 113, p-value = 0.1186

Model so zlomom pomocou dummy premennej ukazuje, že základné premenné zostávajú významné, ale interakčný člen má len slabú štatistickú významnosť. Koeficient pri Social.support je približne 11,71 a je vysoko významný, čo znamená, že pri nižších hodnotách Social.support (do 0,8) má táto premenná silný pozitívny vplyv na očakávanú dĺžku života. Interakčný člen DUM*Social.support má hodnotu -9,82 a p-hodnotu okolo 0,065, čo naznačuje, že pri vyšších hodnotách Social.support (nad 0,8) sa efekt výrazne znižuje – z pôvodných 11,71 na približne 1,89. Log.GDP.per.capita zostáva veľmi významný s pozitívnym vplyvom. Porovnanie modelov pomocou ANOVA testu ukazuje p-hodnotu 0,0648, čo znamená, že na 5 % hladine významnosti nezamietame nulovú hypotézu, ale na 10 % hladine by sme mohli povedať, že nový model je lepší. Ramsey RESET test má p-hodnotu 0,1186, takže nezamietame H₀ a model považujeme za správne špecifikovaný. Záverom možno povedať, že zavedenie dummy premennej zachytilo zlom vo vzťahu Social.support k očakávanej dĺžke života, ale zlepšenie modelu je len mierne a štatisticky slabšie. Model je stále dobre špecifikovaný, čo potvrdzuje RESET test.

6 Zhluková analýza

6.1 Boxploty všetkých škálovaných premenných:

## Korelačná matica:

##                              Life.Ladder Log.GDP.per.capita Social.support
## Life.Ladder                         1.00               0.78           0.71
## Log.GDP.per.capita                  0.78               1.00           0.69
## Social.support                      0.71               0.69           1.00
## Freedom.to.make.life.choices        0.53               0.36           0.41
##                              Freedom.to.make.life.choices
## Life.Ladder                                          0.53
## Log.GDP.per.capita                                   0.36
## Social.support                                       0.41
## Freedom.to.make.life.choices                         1.00

Korelačná matica ukazuje, že medzi všetkými premennými existujú pozitívne a štatisticky významné vzťahy, čo je v súlade s teóriou World Happiness Report. Najsilnejšia korelácia je medzi Life Ladder a Log GDP per capita (r = 0.78), čo naznačuje, že vyšší ekonomický rozvoj je spojený s vyššou spokojnosťou so životom. Rovnako silná je aj väzba medzi Life Ladder a Social support (r = 0.71), čo potvrdzuje, že sociálne väzby predstavujú kľúčový faktor šťastia. Premenná Freedom to make life choices vykazuje strednú koreláciu so všetkými ukazovateľmi (0.36–0.53), čo znamená, že prispieva k celkovej spokojnosti, no menej než ekonomické a sociálne faktory. Keďže žiadna korelácia nepresahuje hodnotu 0.90, nevzniká problém multikolinearity a žiadnu z premenných nie je potrebné vylúčiť.

Matica vzdialenosti nedávala zmysel.

Preto pokračujeme s hierarchickým zhlukovaním a dendrogramom

Na grafe je zobrazený dendrogram vytvorený pomocou aglomeratívnej hierarchickej metódy zhlukovania (Ward.D2). Na vertikálnej osi je znázornená tzv. výška (Height), ktorá reprezentuje mieru nehomogenity vznikajúcu pri spájaní jednotlivých objektov do väčších celkov. Čím je výška spojenia vyššia, tým sú zlučované zhluky od seba odlišnejšie.

Dendrogram ukazuje typickú hierarchickú štruktúru – na spodnej úrovni sa nachádzajú jednotlivé pozorovania (krajina v konkrétnom roku), ktoré sa postupne zlučujú na základe ich podobnosti vo štyroch sledovaných premenných: Life Ladder, Log GDP per capita, Social support a Freedom to make life choices.

Červená prerušovaná čiara predstavuje rez dendrogramu, ktorý určuje počet výsledných klastrov. V našom prípade bola zvolená hodnota rezu približne na úrovni Height ≈ 40, čo prirodzene rozdeľuje celý súbor pozorovaní do troch výrazných klastrov. Tento počet je v súlade aj s rozptylom medzi-klastrovej variability (BSS) a s interpretáciou centroidov.

Pri danom reze je dobre viditeľné, že:

prvý, najrozsiahlejší klaster pozostáva z pozorovaní s nižšou úrovňou šťastia a ekonomického rozvoja,

druhý klaster tvorí stredne rozvinuté krajiny,

tretí klaster združuje najvyspelejšie a najšťastnejšie krajiny sveta.

Dendrogram tak poskytuje vizuálne potvrdenie výsledkov numerickej analýzy – zhlukovanie prebieha stabilne, klastre sú pomerne dobre oddelené a hierarchická štruktúra odráža prirodzené rozdiely medzi krajinami v úrovni ekonomického a sociálneho rozvoja.

6.2 Klastre

Zoznam náhodných 10 riadkov v klastri (spolu ich je 2034):
TSS–WSS–BSS variability

Na základe tabuľky TSS, WSS a BSS možno konštatovať, že najvyšší podiel medzi-klastrovej variability dosahuje premenná Life.Ladder, ktorá je zároveň najlepším separátorom zhlukov. Nasleduje premenná Log.GDP.per.capita, čo naznačuje, že ekonomická úroveň krajín významne ovplyvňuje ich zaradenie do klastrov. Strednú separačnú silu vykazuje premenná Social.support, zatiaľ čo premenná Freedom.to.make.life.choices disponuje najnižším podielom medzi-klastrovej variability. Táto premenná teda neprispieva k tvorbe zhlukov tak výrazne a jej prípadné odstránenie by štruktúru klasifikácie pravdepodobne podstatne nezmenilo.

6.3 Centroidy

Zhluková analýza na základe centroidov identifikovala tri výrazne odlišné skupiny krajín. Prvý klaster združuje krajiny s nízkym HDP, slabou sociálnou oporou a najnižšou mierou životnej spokojnosti. Druhý klaster tvoria stredne rozvinuté krajiny, ktoré dosahujú priemerné hodnoty vo všetkých ukazovateľoch. Tretí klaster zahŕňa najvyspelejšie ekonomiky s najvyššími hodnotami Life Ladder, silnou sociálnou oporou a vysokou mierou slobody rozhodovania. Tieto výsledky potvrdzujú, že ekonomický rozvoj a sociálne inštitúcie významne súvisia so subjektívnym hodnotením spokojnosti so životom.

7 Multikolinearita


7.1 Odhad základného regresného modelu

## 
## Call:
## lm(formula = LifeLadder ~ LogGDPpc + HealthyLE + SocialSupport, 
##     data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.39905 -0.42894 -0.02045  0.46367  2.24196 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.712818   0.130431 -20.799   <2e-16 ***
## LogGDPpc       0.392011   0.022214  17.647   <2e-16 ***
## HealthyLE      0.031931   0.003386   9.429   <2e-16 ***
## SocialSupport  3.068553   0.158600  19.348   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6298 on 2085 degrees of freedom
## Multiple R-squared:  0.6817, Adjusted R-squared:  0.6812 
## F-statistic:  1488 on 3 and 2085 DF,  p-value: < 2.2e-16

Regresný model ukázal, že všetky tri premenné – LogGDPpc, HealthyLE a SocialSupport – predstavujú silné a štatisticky významné determinanty subjektívnej spokojnosti obyvateľov meranej ukazovateľom Life Ladder. Koeficient pri LogGDPpc je pozitívny, čo znamená, že vyšší príjem a ekonomická úroveň krajiny zvyšujú subjektívne vnímanie kvality života; keď sa HDP per capita zvýši približne o 1 %, spokojnosť narastie o približne 0.00392 bodu, čo sa pri 10 % náraste HDP prejaví zhruba 0.039-bodovým zvýšením Life Ladder. Premenná HealthyLE má taktiež pozitívny efekt a ukazuje, že dlhší život v lepšom zdravotnom stave zvyšuje spokojnosť; každý jeden rok navyše pridáva približne 0.032 bodu, čo znamená, že rozdiel medzi krajinami s dĺžkou života odlišujúcou sa o 10 rokov môže predstavovať až 0.32 bodu na škále subjektívneho šťastia. Najsilnejší vplyv má premenná SocialSupport, pri ktorej zvýšenie sociálnej opory o 0.1 bodu zvyšuje spokojnosť o viac než 0.3 bodu, čo potvrdzuje dôležitosť medziľudských vzťahov a dostupnosti opory v sociálnom prostredí. Všetky koeficienty sú vysoko štatisticky významné (p < 2e–16), čo znamená, že ich vplyvy sú spoľahlivé a stabilné, pričom vysoké t-hodnoty naznačujú nízku neistotu odhadov. Model vykazuje veľmi dobrú vysvetlenosť, keďže Multiple R-squared dosahuje hodnotu približne 0.68, takže vysvetľuje viac ako dve tretiny variability subjektívnej spokojnosti naprieč krajinami a rokmi, čo je v rámci sociálnych a ekonomických analýz veľmi silný výsledok. Adjusted R-squared sa od Multiple R² takmer nelíši, čo znamená, že model nie je preplnený a každá z premenných reálne prispieva k jeho vysvetľujúcej schopnosti. Celkový F-test modelu je extrémne významný, čo potvrdzuje, že kombinácia zvolených premenných má ako celok výrazný vysvetľujúci efekt. Výsledky teda ukazujú, že ekonomické podmienky, zdravotný stav populácie a sociálne väzby tvoria robustný základ pre porozumenie medzinárodným rozdielom v subjektívnom hodnotení kvality života.


7.2 Korelačná matica

Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.

##               LogGDPpc HealthyLE SocialSupport
## LogGDPpc         1.000     0.801         0.674
## HealthyLE        0.801     1.000         0.596
## SocialSupport    0.674     0.596         1.000

Najvýraznejší pozitívny trend je viditeľný medzi LogGDPpc a HealthyLE – bohatšie krajiny majú spravidla vyššiu dĺžku života a body ležia v úzkom, takmer lineárnom páse. Podobne aj vzťah medzi SocialSupport a HealthyLE naznačuje, že krajiny s lepším zdravotným stavom populácie majú zároveň silnejšiu sociálnu oporu. Vzťah medzi LogGDPpc a SocialSupport je pozitívny, no rozptýlenejší, čo znamená, že ekonomická úroveň nie je jediným faktorom ovplyvňujúcim sociálne väzby. Vo všetkých grafických kombináciách je patrné, že premenné majú prevažne priamu (pozitívnu) väzbu, čo je v súlade s výsledkami regresie aj korelačnej matice. Zároveň vidíme aj určité zhluky bodov predstavujúce krajiny s podobným socioekonomickým profilom, čo je typické pri panelových dátach. Matica teda naznačuje potenciálnu, ale nie problémovú mieru kolinearít – najmä medzi LogGDPpc a HealthyLE –, avšak jej sila sa ukáže až v číselných ukazovateľoch, ako VIF alebo Condition Number.


7.3 VIF

##      LogGDPpc     HealthyLE SocialSupport 
##      3.352478      2.838512      1.861575

Hodnoty VIF pre všetky tri premenné sú nízke, čo znamená, že multikolinearita v modeli nepredstavuje problém. Najvyšší VIF má premenná LogGDPpc (3.35), čo naznačuje miernu, ale úplne akceptovateľnú vzájomnú koreláciu s ostatnými premennými. HealthyLE má VIF 2.84, čo potvrdzuje, že jej lineárny vzťah s ostatnými premennými je slabý a stabilný. SocialSupport vykazuje najnižší VIF (1.86), takže táto premenná je od ostatných vysvetľujúcich veličín najmenej závislá. Všetky hodnoty sú výrazne pod kritickou hranicou 10, ktorá sa považuje za indikátor vážnej multikolinearity. Nízke VIF potvrdzujú, že regresné koeficienty budú stabilné, spoľahlivé a interpretovateľné bez skreslenia spôsobeného závislosťou medzi regresormi. Súčasne tieto výsledky korešpondujú s vizuálnou scatterplotovou maticou, ktorá síce naznačovala pozitívne vzťahy medzi premennými, no ich intenzita je zjavne nízka až stredná. Model je teda z hľadiska multikolinearity dobre špecifikovaný a žiadna z premenných nie je kandidátom na odstránenie.

My však na báze učenie budeme pracovať s dátami ako keby sa v nich multikolinearita vyskytovala


7.4 Condition Number

## [1] 730.8481
## [1] 3.470355
## [1] 3.551354

Hodnoty Condition Number ukazujú veľmi priaznivú situáciu z hľadiska multikolinearity. Neškálovaná verzia (730.85) je extrémne vysoká, no táto hodnota sa neinterpretuje, pretože je ovplyvnená rozdielnymi jednotkami premenných. Rozhodujúce sú škálované ukazovatele: kappa_scaled = 3.47 a alternatívne vypočítaný condition_number = 3.55. Obe hodnoty sú hlboko pod hranicou 10, ktorá sa štandardne považuje za limit, pri ktorom multikolinearita začína byť problémom. Výsledky preto jasne naznačujú, že medzi premennými v modeli neexistuje žiadna relevantná lineárna závislosť, ktorá by narúšala stabilitu odhadov. Takéto nízke kondičné čísla potvrdzujú, že model je dobre identifikovaný a regresné koeficienty sú spoľahlivé a necitlivé na malé zmeny v údajoch. Zároveň to dopĺňa zistenia z VIF, ktoré boli taktiež nízke, takže oba diagnostické prístupy sa navzájom potvrdzujú. Model je teda z pohľadu multikolinearity úplne bezproblémový.

7.5 Vynechanie premenných

## 
## Call:
## lm(formula = LifeLadder ~ HealthyLE + SocialSupport, data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.22137 -0.46134 -0.04537  0.50695  2.85596 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.509235   0.139251  -18.02   <2e-16 ***
## HealthyLE      0.072182   0.002683   26.91   <2e-16 ***
## SocialSupport  4.212115   0.155156   27.15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6751 on 2086 degrees of freedom
## Multiple R-squared:  0.6341, Adjusted R-squared:  0.6338 
## F-statistic:  1808 on 2 and 2086 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = LifeLadder ~ LogGDPpc + SocialSupport, data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2287 -0.4217 -0.0088  0.4831  2.1694 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.17106    0.11954  -18.16   <2e-16 ***
## LogGDPpc       0.53309    0.01676   31.80   <2e-16 ***
## SocialSupport  3.25828    0.16060   20.29   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.643 on 2086 degrees of freedom
## Multiple R-squared:  0.6681, Adjusted R-squared:  0.6678 
## F-statistic:  2100 on 2 and 2086 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = LifeLadder ~ LogGDPpc + HealthyLE, data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3350 -0.4640  0.0089  0.5014  2.2361 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.394747   0.140493  -17.05   <2e-16 ***
## LogGDPpc     0.567612   0.022015   25.78   <2e-16 ***
## HealthyLE    0.040243   0.003647   11.03   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6839 on 2086 degrees of freedom
## Multiple R-squared:  0.6245, Adjusted R-squared:  0.6242 
## F-statistic:  1735 on 2 and 2086 DF,  p-value: < 2.2e-16

Pri vynechávaní premenných sa ukazuje, že všetky tri dvojpremenné modely ostávajú štatisticky významné, no ich vysvetľovacia sila sa odlišuje. Model bez LogGDPpc (t. j. HealthyLE + SocialSupport) má najnižšiu vysvetlenosť, R² = 0.634, čo znamená, že odstránenie ekonomickej premennej znižuje kvalitu modelu najviac. Model bez HealthyLE (LogGDPpc + SocialSupport) si zachováva veľmi vysoké R² = 0.668, teda takmer identické ako pôvodný trojpremenný model, čo naznačuje, že kombinácia ekonomického výkonu a sociálnej opory zachytáva väčšinu variability Life Ladder. Model bez SocialSupport (LogGDPpc + HealthyLE) má R² = 0.625, čo je najnižšia hodnota zo všetkých porovnávaných modelov, čo potvrdzuje, že SocialSupport je kľúčovým regresorom. Z pohľadu silných efektov ostáva SocialSupport najdominantnejšou premennou aj v dvojpremenných modeloch, s vysokými t-hodnotami a stabilným koeficientom. LogGDPpc si taktiež zachováva veľmi silný vplyv a vysokú štatistickú významnosť, zatiaľ čo HealthyLE má najslabší relatívny príspevok. Celkovo možno konštatovať, že najväčší pokles vysvetlenosti nastáva po odstránení SocialSupport, čo potvrdzuje jej centrálne postavenie v modeli subjektívneho šťastia. Model bez HealthyLE prináša najmenšiu stratu R², čo naznačuje, že ekonomická úroveň a sociálna opora spolu nesú najväčšiu časť informácie o Life Ladder. Výsledky teda ukazujú, že ak by sa mala nejaká premenná vynechať, najmenšiu škodu spôsobí odstránenie HealthyLE, zatiaľ čo vynechanie SocialSupport alebo LogGDPpc výraznejšie znižuje kvalitu modelu.

7.6 Škálovanie

## 
## Call:
## lm(formula = LifeLadder ~ LogGDPpc_c + HealthyLE_c + SocialSupport_c, 
##     data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.39905 -0.42894 -0.02045  0.46367  2.24196 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      5.47375    0.01378 397.210   <2e-16 ***
## LogGDPpc_c       0.44538    0.02524  17.647   <2e-16 ***
## HealthyLE_c      0.21897    0.02322   9.429   <2e-16 ***
## SocialSupport_c  0.36386    0.01881  19.348   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6298 on 2085 degrees of freedom
## Multiple R-squared:  0.6817, Adjusted R-squared:  0.6812 
## F-statistic:  1488 on 3 and 2085 DF,  p-value: < 2.2e-16
##      LogGDPpc_c     HealthyLE_c SocialSupport_c 
##        3.352478        2.838512        1.861575

Škálovaný model ukazuje, že po centrácii a štandardizácii premenných sa nemení ich štatistická významnosť ani smer vplyvu, no menia sa numerické hodnoty koeficientov, keďže všetky regresory sú teraz vyjadrené v štandardných odchýlkach. LogGDPpc_c ostáva silným a štatisticky významným prediktorom spokojnosti, pričom jeho koeficient 0.445 naznačuje, že zvýšenie ekonomickej úrovne o jednu štandardnú odchýlku zvyšuje Life Ladder o takmer polovicu bodu. HealthyLE_c má po škálovaní koeficient 0.219, čo znamená, že krajinám s výrazne vyššou dĺžkou života narastá spokojnosť o približne pätinu bodu pri zmene o jednu štandardnú odchýlku. SocialSupport_c má naďalej najsilnejší efekt (0.364), čo potvrdzuje jeho dominantné postavenie medzi vysvetľujúcimi premennými. Hodnoty VIF po škálovaní zostávajú veľmi nízke, takže škálovanie neodhalilo žiadnu novú formu multikolinearity, ale naopak potvrdilo stabilitu modelu. R² aj Adjusted R² sa nezmenili, čo dokazuje, že škálovanie nemení vysvetľovaciu silu modelu, iba jeho číselnú reprezentáciu. Veľmi výrazne sa zlepšil Condition Number, ktorý klesol na hodnoty okolo 3.5, čo je jednoznačným znakom absencie multikolinearity. Škálovanie preto zlepšuje numerickú stabilitu a umožňuje jednoduchšie porovnávanie relatívnej sily regresorov bez toho, aby znižovalo interpretovateľnosť výsledkov. Celkovo škálovaný model potvrdzuje pôvodné zistenia, pričom jasnejšie ukazuje, ktoré premenné majú na Life Ladder najsilnejší štandardizovaný vplyv.

7.7 Condition number po škálovaní

## [1] 3.551354

Škálovaný model ukazuje, že po centrácii a štandardizácii premenných sa nemení ich štatistická významnosť ani smer vplyvu, no menia sa numerické hodnoty koeficientov, keďže všetky regresory sú teraz vyjadrené v štandardných odchýlkach. LogGDPpc_c ostáva silným a štatisticky významným prediktorom spokojnosti, pričom jeho koeficient 0.445 naznačuje, že zvýšenie ekonomickej úrovne o jednu štandardnú odchýlku zvyšuje Life Ladder o takmer polovicu bodu. HealthyLE_c má po škálovaní koeficient 0.219, čo znamená, že krajinám s výrazne vyššou dĺžkou života narastá spokojnosť o približne pätinu bodu pri zmene o jednu štandardnú odchýlku. SocialSupport_c má naďalej najsilnejší efekt (0.364), čo potvrdzuje jeho dominantné postavenie medzi vysvetľujúcimi premennými. Hodnoty VIF po škálovaní zostávajú veľmi nízke, takže škálovanie neodhalilo žiadnu novú formu multikolinearity, ale naopak potvrdilo stabilitu modelu. R² aj Adjusted R² sa nezmenili, čo dokazuje, že škálovanie nemení vysvetľovaciu silu modelu, iba jeho číselnú reprezentáciu. Veľmi výrazne sa zlepšil Condition Number, ktorý klesol na hodnoty okolo 3.5, čo je jednoznačným znakom absencie multikolinearity. Škálovanie preto zlepšuje numerickú stabilitu a umožňuje jednoduchšie porovnávanie relatívnej sily regresorov bez toho, aby znižovalo interpretovateľnosť výsledkov. Celkovo škálovaný model potvrdzuje pôvodné zistenia, pričom jasnejšie ukazuje, ktoré premenné majú na Life Ladder najsilnejší štandardizovaný vplyv.

7.8 Úprava premennej bez straty interpretácie

## 
## Call:
## lm(formula = LifeLadder ~ LogGDPpc + HealthyLE10 + SocialSupport, 
##     data = udaje)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.39905 -0.42894 -0.02045  0.46367  2.24196 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.71282    0.13043 -20.799   <2e-16 ***
## LogGDPpc       0.39201    0.02221  17.647   <2e-16 ***
## HealthyLE10    0.31931    0.03386   9.429   <2e-16 ***
## SocialSupport  3.06855    0.15860  19.348   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6298 on 2085 degrees of freedom
## Multiple R-squared:  0.6817, Adjusted R-squared:  0.6812 
## F-statistic:  1488 on 3 and 2085 DF,  p-value: < 2.2e-16
##      LogGDPpc   HealthyLE10 SocialSupport 
##      3.352478      2.838512      1.861575
## [1] 130.6275

Úprava premennej HealthyLE na HealthyLE10 zachováva interpretovateľnosť modelu a zároveň znižuje numerické rozdiely medzi regresormi, keďže premenná dĺžky života bola pôvodne vyjadrená v desiatkach rokov. Koeficient pri HealthyLE10 má teraz hodnotu 0.319, čo znamená, že zvýšenie očakávanej dĺžky života o 10 rokov vedie k nárastu Life Ladder približne o 0.32 bodu, čiže interpretácia je intuitívna a zároveň bližšia reálnym rozdielom medzi krajinami. Ostatné koeficienty sa prakticky nezmenili, čo potvrdzuje, že táto úprava nemení štruktúru vzťahov v modeli, iba spríjemňuje interpretáciu. VIF hodnoty zostali totožné, čo znamená, že ani táto transformácia nezvyšuje multikolinearitu a regresné koeficienty zostávajú stabilné. Condition Number klesol na úroveň približne 130, čo je síce výrazne lepšie ako pôvodná neškálovaná verzia, no stále sa nachádza na hranici medzi nízkou a miernou multikolinearitou. Tento výsledok ukazuje, že samotná zmena jednotiek zlepšuje numerickú stabilitu modelu, ale nerieši multikolinearitu tak účinne ako kompletné škálovanie. Napriek tomu však upravený model zachováva výbornú interpretovateľnosť, rovnakú štatistickú významnosť aj identickú úroveň vysvetlenej variability (R² ≈ 0.68) ako pôvodný model. Úprava premennej je preto vhodná v situáciách, keď je prioritou porovnateľnosť jednotiek a prehľadná ekonomická interpretácia regresných koeficientov.

7.9 Záver multikolinearity

Na základe všetkých vykonaných analýz možno konštatovať, že regresný model vysvetľujúci spokojnosť so životom je štatisticky silný, stabilný a dobre špecifikovaný. Základný model aj všetky jeho modifikácie preukázali, že LogGDPpc, HealthyLE a SocialSupport majú výrazný a štatisticky významný pozitívny vplyv na Life Ladder, pričom najdominantnejšou premennou zostáva sociálna opora. Diagnostické ukazovatele multikolinearity – VIF aj Condition Number – jednoznačne potvrdili, že medzi premennými neexistuje problémová lineárna závislosť a model netrpí multikolinearitou ani pri použití pôvodných, ani škálovaných veličín. Vynechávanie jednotlivých premenných ukázalo, že najväčšiu stratu vysvetľovacej schopnosti spôsobuje odstránenie SocialSupport, zatiaľ čo vynechanie HealthyLE má najmenší dopad, čo odráža relatívnu silu ich vzťahu k Life Ladder. Škálovanie premenných výrazne zlepšilo numerickú stabilitu modelu a potvrdilo rovnaké smerovanie aj veľkosť efektov, pričom VIF aj Condition Number zostali na ideálnych hodnotách. Alternatívna úprava premennej HealthyLE10 zachovala ekonomickú interpretovateľnosť a zároveň tvorila konzistentné výsledky s pôvodným modelom. Celkovo sa všetky prístupy zhodujú v tom, že model je robustný, jeho koeficienty sú spoľahlivé a nič nenasvedčuje prítomnosti multikolinearity, ktorá by ohrozovala dôveryhodnosť odhadov.

8 Literatúra

ISLAM, Jahaidul. World Happiness Report 2005–2021 [online]. Kaggle, 2023-02-22 [cit. 2025-12-17]. Dostupné na: https://www.kaggle.com/datasets/jahaidulislam/world-happiness-report-2005-2021