[1] 1581
---
title: "Počet slov"
output: html_notebook
---

```{r}
library(stringr)
text <- "Happiness score report - záverečná práca
Miriama Škulcová
Úvod do problému, stanovenie hypotéz
Rozhodla som sa modelovať world hapiness score Score v závislosti od troch premenných: GDP per capita, Social support a Healthy life expectancy

Hapiness score je index, ktorý ukazuje, ktoré krajiny dosahujú najvyššiu životnú spokojnosť, často spojenú s dobrým zdravím, dôverou, slobodou a nízkou korupciou. V našom prípade je to spojené s HDP na obyvateľa, sociálnou podporou a očakávanou dĺžkou života.

Moja hypotéza hovorí o štatisticky významnom vplyve všetkých troch premenných, pričom u všetkých premenných by malo ísť o pozitívny vplyv.

Dáta som získala z databázy kaggle. # 1 Základné štatistiky Základná deskriptívna štatistika poukazuje na rozdiely v úrovni sociálnych, ekonomických a zdravotných faktorov medzi sledovanými jednotkami. Premenná Social support dosahuje priemernú hodnotu 1,209, pričom medián (1,272) je mierne vyšší, čo naznačuje miernu ľavostrannú asymetriu rozdelenia. Hodnoty sa prevažne pohybujú v intervale od 1,056 do 1,452.

GDP per capita má priemernú hodnotu 0,905 a medián 0,960, čo indikuje relatívne vyrovnané rozdelenie hodnôt. Medzikvartilové rozpätie (0,603 – 1,233) poukazuje na výraznejšiu variabilitu ekonomickej úrovne.

Pri premennej Healthy life expectancy dosahuje priemer hodnotu 0,725 a medián 0,789, pričom väčšina pozorovaní sa nachádza v intervale od 0,548 do 0,882, čo naznačuje nižšiu variabilitu. Celkové skóre spokojnosti so životom (Score) má priemernú hodnotu 5,407 a medián 5,380, pričom rozdelenie hodnôt je približne symetrické.

2 Základný model


2.1 Grafové interpretácie reziduí
Residuals vs. fitted
Graf rezíduí voči vyrovnaným hodnotám naznačuje, že hoci sú rezíduá rozložené okolo nulovej osi, červená vyhladzovacia (LOESS) krivka nie je vedená náhodne okolo nuly, ale je systematicky vychýlená, pričom vykazuje mierne zakrivenie. Tento vzor poukazuje na skutočnosť, že model nezachytáva úplne všetky systematické vzťahy v dátach, čo môže naznačovať prítomnosť ďalších vplyvov alebo potrebu nelineárnej transformácie niektorých vysvetľujúcich premenných. Identifikované body vzdialenejšie od hlavného zhluku môžu predstavovať potenciálne odľahlé pozorovania, avšak ich vplyv je potrebné overiť ďalšími testami.

Q-Q plot
V strednej časti grafu (okolie kvantilov −1 až +1) body veľmi dobre kopírujú diagonálu, čo znamená, že väčšina rezíduí má rozdelenie veľmi blízke k normálnemu. Na oboch koncoch (najmä vľavo dole a vpravo hore) sa body mierne odchyľujú od priamky – to naznačuje menšie odchýlky od normality v chvostoch rozdelenia.

Scale location plot
Body sú rozptýlené pomerne rovnomerne, bez jasného vzoru alebo lievikovitého tvaru. Červená LOESS krivka je relatívne rovná, čo potvrdzuje, že rozptyl rezíduí zostáva približne konštantný naprieč predikovanými hodnotami. Niekoľko bodov (napr. 102, 148) má vyššie hodnoty, ale nie sú extrémne – preto nepredstavujú závažný problém.

Residuals vs leverage
Väčšina bodov je sústredená vľavo (leverage < 0.05), čo znamená, že väčšina pozorovaní má nízky pákový efekt a teda nízky vplyv na odhady modelu. Niekoľko bodov (napr. 155, 102) leží ďalej vpravo – tieto majú vyšší leverage, teda ich prediktorové hodnoty sú nezvyčajné. Rezíduá sa pohybujú prevažne v rozmedzí −2 až +2, čo je akceptovateľné a naznačuje, že žiadne pozorovanie nemá extrémne chyby.

2.2 Základné testy
2.2.1 Test normalityarque–Bera test bol použitý na overenie predpokladu normálneho rozdelenia rezíduí regresného modelu. Testovacia štatistika dosiahla hodnotu χ² = 0,6281 pri 2 stupňoch voľnosti a p-hodnota je 0,7305.

Keďže p-hodnota je výrazne vyššia ako zvolená hladina významnosti (α = 0,05), nulová hypotéza o normálnom rozdelení rezíduí nie je zamietnutá. Na základe výsledkov testu teda možno konštatovať, že rezíduá regresného modelu majú normálne rozdelenie, resp. neexistuje štatisticky významný dôkaz o porušení tohto predpokladu.

Výsledok Jarque–Bera testu je v súlade s vizuálnou diagnostikou pomocou Q–Q grafu, ktorý naznačil len mierne odchýlky v chvostoch rozdelenia, avšak bez zásadného porušenia normality.

2.2.2 Test odľahlých hodnôt
V analyzovanom súbore sa nenachádzajú štatisticky významné odľahlé hodnoty rezíduí, ktoré by po zohľadnení viacnásobného testovania mali neprimerane veľký vplyv na výsledky regresného modelu. Tento výsledok naznačuje, že jednotlivé pozorovania nepredstavujú závažný problém z hľadiska extrémnych chýb odhadu.

3 Heteroskedasticita
Vo všetkých špecifikáciách vychádza HDP na obyvateľa ako stabilne pozitívny a vysoko štatisticky významný determinant vysvetľovanej premennej. Rovnako aj sociálna opora a zdravá dĺžka života majú pozitívnu a významnú asociáciu s výsledkom modelu. To naznačuje, že krajiny s vyšším ekonomickým výkonom, lepšími sociálnymi väzbami a dlhšou očakávanou dĺžkou života majú systematicky vyššie hodnoty analyzovaného ukazovateľa (pravdepodobne spokojnosti či kvality života).

Z diagnostiky reziduí (grafy „Squared Residuals vs…“) nevyplývajú závažné známky heteroskedasticity. Trendové línie (červené krivky) sú pomerne ploché a neukazujú systematický nárast rozptylu s hodnotami vysvetľujúcich premenných. Výsledky Breusch-Pagan testu (p-hodnoty 0.5581 a 0.1552) potvrdzujú, že nulovú hypotézu homoskedasticity nemožno zamietnuť.

V modeloch nie sú zahrnuté ďalšie potenciálne faktory (napr. inštitucionálna kvalita, kultúrne rozdiely, geografické efekty), ktoré by mohli ovplyvniť výsledky.

Model je štatisticky konzistentný, s dobrým správaním reziduí a bez významnej heteroskedasticity. Výsledky naznačujú, že ekonomická úroveň (HDP), sociálna podpora a zdravie sú robustne pozitívne asociované s hodnotami cieľovej premennej. Tieto faktory tvoria kľúčové pilierové oblasti blahobytu, ktoré sa navzájom posilňujú.

Ďalší výskum by mal zahŕňať dlhšie časové obdobie alebo panelové dáta, aby bolo možné overiť kauzálny smer vzťahov a posúdiť dlhodobé efekty ekonomických a sociálnych determinantov. 

4 Špecifikácia modelu4.1 Test RESET (test chyby špecifikácie Ramseyho regresnej rovnice - Ramsey Reset Test) Ramseyho RESET test bol použitý na overenie správnosti špecifikácie regresného modelu, konkrétne na identifikáciu možnej funkčnej nesprávnosti modelu alebo vynechaných vysvetľujúcich premenných. Nulová hypotéza testu predpokladá, že regresný model je správne špecifikovaný a neobsahuje významné nelineárne vzťahy ani opomenuté premenné.

Na základe výsledkov testu, pri ktorom p-hodnota presiahla hladinu významnosti α = 0,05, nie je možné zamietnuť nulovú hypotézu. To znamená, že neexistuje štatisticky významný dôkaz o nesprávnej špecifikácii modelu a zvolená funkčná forma regresnej rovnice je z hľadiska testu považovaná za adekvátnu.

Výsledok Ramseyho RESET testu naznačuje, že model nevyžaduje dodatočné nelineárne transformácie premenných ani rozšírenie o ďalšie vysvetľujúce premenné, a preto je možné považovať jeho špecifikáciu za štatisticky vyhovujúcu.

4.2 Grafická analýzaModel ukazuje, že skóre (Score) je najvýraznejšie a štatisticky vysvetlené premennou Social.support, ktorá má silný pozitívny a vysoko signifikantný vplyv – keď Social.support stúpne o jednu jednotku, očakávané skóre sa zvýši približne o 1.52 bodu (pri fixných ostatných premenných). Premenné GDP.per.capita a Healthy.life.expectancy v lineárnej forme nie sú signifikantné, ale ich kvadratické členy sú signifikantné, čo znamená, že ich vzťah k Score je nelineárny. Konkrétne: koeficienty pri GDP^2 a HLE^2 sú kladné, zatiaľ čo lineárne členy sú záporné, čo naznačuje U-tvar – pri nízkych hodnotách môže byť efekt negatívny, ale pri vyšších hodnotách sa otáča do pozitívneho smeru. Intercept 3.04 predstavuje odhadovanú hodnotu Score pri nulových hodnotách všetkých vysvetľujúcich premenných (čo má skôr technický význam). Model ako celok vysvetľuje približne 76 % variability v závislej premennej (R² = 0.7603) a je vysoko signifikantný (p < 2e-16), čo znamená, že zvolená špecifikácia má pomerne silnú prediktívnu schopnosť. Reziduá sú relatívne malé a rovnomerne rozložené, čo naznačuje dobrú zhodu modelu s dátami.Kvadratické členy prinášajú významné dodatočné vysvetlenie variability v závislej premennej Score, a preto je Model 2 štatisticky lepšou voľbou než čistý lineárny Model 1.5 Zhluková analýza
5.1 Korelačná matica
Korelácie medzi sledovanými premennými sú prevažne slabé až stredné. Najsilnejší vzťah sa ukázal medzi premennými Score a Social.support (r = 0.63), čo naznačuje, že vyššia úroveň sociálnej podpory výraznejšie súvisí s vyšším skóre šťastia. Stredná korelácia sa objavila aj medzi GDP.per.capita a Healthy.life.expectancy (r = 0.42), čo odráža, že ekonomicky silnejšie krajiny majú spravidla dlhšiu očakávanú dĺžku zdravého života. Ostatné vzťahy sú len slabé: Score má veľmi nízku väzbu na HDP (r = 0.05) a len miernu na zdravú dĺžku života (r = 0.14), pričom aj väzby sociálnej podpory na ďalšie premenné zostávajú slabé. Celkovo teda medzi premennými neexistujú veľmi silné lineárne vzťahy, s výnimkou spojitosti skóre so sociálnou podporou.

5.2 Hierarchické zhlukovanie - dendogram. Červená čiara určuje rez definujúci tri klastre.
Vykonaná klastrová analýza rozdelila sledované krajiny do troch odlišných klastrov. Prvý klaster tvoria severské krajiny – Fínsko, Dánsko, Nórsko a Island – ktoré patria medzi najvyspelejšie a najstabilnejšie spoločnosti s vysokou životnou úrovňou a sociálnou podporou; preto sa prirodzene zoskupili do samostatnej a homogénnej skupiny. Druhý klaster zahŕňa väčšinu ostatných krajín tradičného Západu, ako sú Holandsko, Švajčiarsko, Švédsko, Nový Zéland, Kanada, Rakúsko, Austrália, Izrael, Luxembursko, Spojené kráľovstvo, Írsko a Nemecko. Tento klaster predstavuje veľkú skupinu ekonomicky silných a rozvinutých krajín, ktoré si navzájom vykazujú vysokú mieru podobnosti v hodnotených ukazovateľoch. Tretí klaster pozostáva iba z Kostariky, ktorá sa od ostatných krajín odlišuje natoľko, že vytvorila samostatnú skupinu; jej profil je špecifický kombináciou nižšieho hospodárskeho výkonu, ale zároveň relatívne vysokého subjektívneho hodnotenia kvality života. Celkovo analýza ukazuje jasné oddelenie severských krajín, kompaktný blok západných ekonomík a samostatné postavenie Kostariky ako netypického prípadu.

5.3 Deskriptívne štatistiky výsledkov
Výsledky analýzy rozptylu ukazujú, ako dobre zvolené klastre odlišujú jednotlivé premenné. Premenná Social.support má najvyšší podiel medzi-skupinového rozptylu (Prop_Between = 0.62), čo znamená, že klastre sa v úrovni sociálnej podpory od seba najvýraznejšie líšia a táto premenná najlepšie odráža štruktúru klasifikácie. Nasledujú premenné Score (0.57) a GDP.per.capita (0.55), ktoré takisto pomerne dobre oddeľujú skupiny krajín, hoci o niečo slabšie než sociálna podpora. Naopak, premenná Healthy.life.expectancy vykazuje najnižší podiel medzi-skupinovej variability (0.32), čo naznačuje, že dĺžka zdravého života rozlišuje klastre najmenej a jej hodnoty sú medzi skupinami relatívne podobné. Celkovo teda platí, že vytvorené klastre sú najlepšie vysvetlené úrovňou sociálnej podpory a najhoršie očakávanou dĺžkou zdravého života.

6 Multikolinearita
6.1 Korelačná matica
Korelačná analýza odhalila stredne silnú pozitívnu závislosť medzi sociálnou podporou a HDP na obyvateľa (r = 0,420), čo naznačuje, že bohatšie krajiny majú tendenciu dosahovať vyššiu úroveň sociálnej podpory. Slabšia pozitívna korelácia sa prejavila medzi sociálnou podporou a zdravou dĺžkou života (r = 0,231), ako aj medzi HDP na obyvateľa a zdravou dĺžkou života (r = 0,302). Medzi vysvetľujúcimi premennými sa nepreukázala silná korelácia, čo znamená, že riziko výraznej multikolinearity v modeli je nízke.
6.2 VIF
6.3 Condition number"

str_count(text,'\\S+')
```

