Úvod do problému, stanovenie hypotéz

Rozhodla som sa modelovať world hapiness score Score v závislosti od troch premenných: GDP per capita, Social support a Healthy life expectancy

Moja hypotéza hovorí o štatisticky významnom vplyve všetkých troch premenných, pričom u všetkých premenných by malo ísť o pozitívny vplyv.

Lineárna regresia

Model odhadujeme príkazom lm()

udaje <- read.csv("2019 (1).csv")
udaje <- udaje[c("Social.support","GDP.per.capita","Healthy.life.expectancy","Score")]
model <- lm(Score ~ +1 + Social.support + GDP.per.capita + Healthy.life.expectancy,data=udaje)
summary(model)

## 
## Call:
## lm(formula = Score ~ +1 + Social.support + GDP.per.capita + Healthy.life.expectancy, 
##     data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.7018 -0.4155 -0.0520  0.4535  1.3369 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               2.1350     0.2116  10.088  < 2e-16 ***
## Social.support            1.3219     0.2483   5.324 3.58e-07 ***
## GDP.per.capita            0.8098     0.2358   3.434 0.000766 ***
## Healthy.life.expectancy   1.2977     0.3661   3.544 0.000523 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.588 on 152 degrees of freedom
## Multiple R-squared:  0.7263, Adjusted R-squared:  0.7209 
## F-statistic: 134.5 on 3 and 152 DF,  p-value: < 2.2e-16

par(mfrow = c(2, 2))
plot(model)

par(mfrow = c(1, 1))

Residuals vs. fitted

Rezíduá sú rozložené približne symetricky okolo nulovej osi, čo znamená že model nevykazuje systematickú chybu. Červená LOESS krivka nie je úplne rovná – vidno mierne zakrivenie: vľavo ide nadol, v strede mierne stúpa a vpravo opäť klesá. Rozptyl bodov okolo osi sa zdá byť pomerne konštantný. Na grafe je vidno zopár bodov (napr. 102, 148, 130), ktoré sa nachádzajú ďalej od väčšiny pozorovaní — tie môžu predstavovať potenciálne odľahlé hodnoty

Q-Q plot

V strednej časti grafu (okolie kvantilov −1 až +1) body veľmi dobre kopírujú diagonálu, čo znamená, že väčšina rezíduí má rozdelenie veľmi blízke k normálnemu. Na oboch koncoch (najmä vľavo dole a vpravo hore) sa body mierne odchyľujú od priamky – to naznačuje menšie odchýlky od normality v chvostoch rozdelenia.

Scale location plot

Body sú rozptýlené pomerne rovnomerne, bez jasného vzoru alebo lievikovitého tvaru. Červená LOESS krivka je relatívne rovná, čo potvrdzuje, že rozptyl rezíduí zostáva približne konštantný naprieč predikovanými hodnotami. Niekoľko bodov (napr. 102, 148) má vyššie hodnoty, ale nie sú extrémne – preto nepredstavujú závažný problém.

Residuals vs leverage

Väčšina bodov je sústredená vľavo (leverage < 0.05), čo znamená, že väčšina pozorovaní má nízky pákový efekt a teda nízky vplyv na odhady modelu. Niekoľko bodov (napr. 155, 102) leží ďalej vpravo – tieto majú vyšší leverage, teda ich prediktorové hodnoty sú nezvyčajné. Rezíduá sa pohybujú prevažne v rozmedzí −2 až +2, čo je akceptovateľné a naznačuje, že žiadne pozorovanie nemá extrémne chyby.

##Conclusion

Model možno považovať za stabilný a dobre prispôsobený dátam. Premenné GDP per capita, Social support a Healthy life expectancy významne a pozitívne ovplyvňujú celkové skóre spokojnosti obyvateľov, pričom neboli zistené zásadné problémy s nelinearitou