Práca s údajmi z Albánska za roky 2000-2015
V tejto práci sa budeme zaoberať prvými krokmi v odhade regresnej funkcie. Budeme využívať databázu [Life Expectancy (WHO) Fixed dataset] (https://www.kaggle.com/datasets/lashagoch/life-expectancy-who-updated), ktorá obsahuje ukazovatele na úrovni krajín, ako je priemerná dĺžka života, HDP, školské vzdelávanie a výdavky na zdravotníctvo. Vyberáme krajinu Albánsko.
rm(list=ls())
library(lmtest) # podpora regresie
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(outliers) # analyza odlahlych hodnot (outliers)
library(gptstudio)
library(kableExtra)
library(knitr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:kableExtra':
##
## group_rows
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(broom)
library(corrplot)
## corrplot 0.95 loaded
Súbor Life_Expectancy_Data obsahuje databázu determinantov očakávanej dĺžky života. Import údajov urobíme nasledovne:
# import the dataset and create a data.frame udaje
udaje_svet <- read.csv("udaje/Life-Expectancy-Data-Updated.csv",header=TRUE,sep=",",dec=".",check.names = TRUE)
head(udaje_svet)
Databáza obsahuje údaje o 2938 pozorovaniach a 22 premenných. V tejto práci sa budeme zaoberať len časťou z nich, konkrétne tými, ktoré súvisia s dĺžkou dožitia. Na začiatku si vyberieme krajinu, ktorej zdravotný stav chceme analyzovať. V tomto prípade ide o už spomínané Albánsko:
# z databázy udaje_svet si vyberieme len tie pozorovania, ktoré sa týkajú Abánska
udaje <- subset(udaje_svet, Country == "Albania")
Tabuľka uvedená nižšie nám poskytuje základné popisné štatistiky vybraných kvantitatívnych premenných.
# niektoré štatistiky a ich prehľad v tabuľke KableExtra
library(kableExtra)
udaje %>%
select(Adult_mortality,Alcohol_consumption,Hepatitis_B,Measles,BMI,Polio,Diphtheria,GDP_per_capita,Population_mln,Life_expectancy,Schooling) %>%
summary() %>%
kable() %>%
kable_styling(bootstrap_options = "striped", full_width = FALSE)
| Adult_mortality | Alcohol_consumption | Hepatitis_B | Measles | BMI | Polio | Diphtheria | GDP_per_capita | Population_mln | Life_expectancy | Schooling | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :75.20 | Min. :3.920 | Min. :96.00 | Min. :90.00 | Min. :25.20 | Min. :97.00 | Min. :97.00 | Min. :1961 | Min. :2.880 | Min. :74.00 | Min. :8.700 | |
| 1st Qu.:80.20 | 1st Qu.:4.317 | 1st Qu.:97.75 | 1st Qu.:93.75 | 1st Qu.:25.48 | 1st Qu.:97.00 | 1st Qu.:97.00 | 1st Qu.:2487 | 1st Qu.:2.908 | 1st Qu.:74.95 | 1st Qu.:9.075 | |
| Median :82.40 | Median :4.470 | Median :98.00 | Median :97.50 | Median :25.85 | Median :98.00 | Median :98.00 | Median :3172 | Median :2.960 | Median :75.75 | Median :9.200 | |
| Mean :83.13 | Mean :4.697 | Mean :98.00 | Mean :95.94 | Mean :25.86 | Mean :98.12 | Mean :98.06 | Mean :3071 | Mean :2.969 | Mean :75.95 | Mean :9.244 | |
| 3rd Qu.:85.61 | 3rd Qu.:5.065 | 3rd Qu.:99.00 | 3rd Qu.:98.00 | 3rd Qu.:26.23 | 3rd Qu.:99.00 | 3rd Qu.:99.00 | 3rd Qu.:3692 | 3rd Qu.:3.033 | 3rd Qu.:77.00 | 3rd Qu.:9.375 | |
| Max. :94.70 | Max. :5.790 | Max. :99.00 | Max. :99.00 | Max. :26.60 | Max. :99.00 | Max. :99.00 | Max. :3953 | Max. :3.090 | Max. :78.00 | Max. :9.700 |
Vyššie uvedená tabuľka nám poskytuje prehľad o základných štatistických charakteristikách vybraných premenných, ako sú priemerné hodnoty, rozptyl, minimum a maximum. Tieto informácie nám pomáhajú lepšie pochopiť rozdelenie a rozsah hodnôt v našich dátach. Na druhej strane je zaujímavá aj informácia o vzájomných vzťahoch medzi týmito premennými, čo môžeme merať pomocou korelačnej matice.
# grafický prehľad o korelačných vzťahoch vyjadruje nasledovný obrázok
cor_matrix <- cor(udaje %>% select(Adult_mortality,Alcohol_consumption,Hepatitis_B,Measles,BMI,Polio,Diphtheria,GDP_per_capita,Population_mln,Life_expectancy,Schooling), use = "complete.obs")
corrplot(cor_matrix, method = "color", type = "upper", tl.col =
"darkblue", tl.srt = 45, title = "Korelačná matica vybraných premenných", mar = c(0,0,1,0))
Uvedený graf nám poskytuje vizuálny prehľad o korelačných vzťahoch medzi
vybranými premennými. Farby a intenzita farieb nám umožňujú rýchlo
identifikovať silné pozitívne alebo negatívne korelácie. Upozorňujeme,
že korelácia neznamená kauzalitu.
V nasledovnom zobrazení je uvedený graf vývoja očakávanej dĺžky dožitia v Albánsku v rokoch 2000-2015. Vidíme, že očakávaná dĺžka života sa zvyšovala od roku 2000 z 74 na 78 rokov v roku 2015, čo je pozitívny trend.
# graf vývoja očakávanej dĺžky dožitia v Albánsku v rokoch 2000-2015.
library(ggplot2)
ggplot(udaje, aes(x = Year, y = Life_expectancy)) +
geom_line() +
geom_point() +
labs(title = "Vývoj očakávanej dĺžky dožitia v Albánsku (2000-2015)",
x = "Rok",
y = "Očakávaná dĺžka dožitia") +
theme_minimal()
Na začiatku sa pokúsme o vyrovnanie priebehu tejto premennej v čase pomocou lineárnej regresie, kde nezávislou premennou bude rok a závislou premennou bude očakávaná dĺžka dožitia. Odhadneme koeficienty tejto regresie a posúdime kvalitu vyrovnania pomocou ukazovateľov, ako je R-squared a p-value.
# vyrovnanie priebehu očakávanej dĺžky dožitia v čase
model <- lm(Life_expectancy ~ Year+Alcohol_consumption+Adult_mortality+Incidents_HIV,data = udaje)
library(broom)
library(knitr)
library(kableExtra)
# koeficienty regresie
tidy(model) %>%
kable(digits = 3, caption = "Odhadnuté koeficienty regresie") %>%
kable_styling(bootstrap_options = "striped", full_width = FALSE)
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -490.733 | 25.300 | -19.397 | 0.000 |
| Year | 0.283 | 0.012 | 23.410 | 0.000 |
| Alcohol_consumption | -0.168 | 0.038 | -4.447 | 0.001 |
| Adult_mortality | 0.004 | 0.014 | 0.311 | 0.762 |
| Incidents_HIV | -3.805 | 6.164 | -0.617 | 0.550 |
# kvalita vyrovnania
glance(model) %>%
kable(digits = 3, caption = "Ukazovatele kvality vyrovnania") %>%
kable_styling(bootstrap_options = "striped", full_width = FALSE)
| r.squared | adj.r.squared | sigma | statistic | p.value | df | logLik | AIC | BIC | deviance | df.residual | nobs |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.998 | 0.998 | 0.059 | 1812.669 | 0 | 4 | 25.628 | -39.256 | -34.621 | 0.038 | 11 | 16 |
Výsledky regresie nám ukazujú, že koeficient pre rok je pozitívny a štatisticky významný, čo naznačuje, že očakávaná dĺžka dožitia v Albánsku sa zvyšovala v priebehu rokov 2000-2015. Jej priemerný ročný nárast dosahoval 0,085. Hodnota R-squared hodnota nám hovorí, že model vysvetľuje 99 % variability modelu. Podľa hodnoty p-value môžeme povedať, že model ako celok je štatisticky významný. Hodnoty BMI a konzumácia alkoholu vykazujú záporné hodnoty.
# teraz vyššie uvedený obrázok doplníme o regresnú priamku
ggplot(udaje, aes(x = Year, y = Life_expectancy)) +
geom_line() +
geom_point() +
geom_smooth(method = "lm", se = FALSE, color = "green") +
labs(title = "Vývoj očakávanej dĺžky dožitia v Albánsku (2000-2015) s regresnou priamkou",
x = "Rok",
y = "Očakávaná dĺžka dožitia") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
###Vývoj spotreby alkoholu Teraz sa pozrieme, ako sa v Albánsku vyvýjala konzumácia alkoholu v čase od roku 2000 do roku 2015. Nakoľko alkohol je jedným z faktorov, ktpré sme zaradili do modelu, negatívne vplývajúcich na dĺžku dožitia.
model_alkohol <- lm(Alcohol_consumption ~ Year, data = udaje)
# kvalita regresie
tidy(model_alkohol) %>%
kable(digits = 3, caption = "Odhadnuté koeficienty regresie pre spotrebu alkoholu") %>%
kable_styling(bootstrap_options = "striped", full_width = FALSE)
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -27.689 | 65.134 | -0.425 | 0.677 |
| Year | 0.016 | 0.032 | 0.497 | 0.627 |
# a teraz model quality statistics R squared
r2<- summary(model_alkohol)$r.square
adj_r2 <-summary(model_alkohol)$adj.r.square
#printujeme koeficient determinancie a upravený koeficient determinancie
cat ("R-squared:",round (r2,3), "\n")
## R-squared: 0.017
cat ("Adjusted R-squared:",round (adj_r2,3), "\n")
## Adjusted R-squared: -0.053
Výsledky regresie ukazujú, že koeficient pre premennú rok je pozitívny, čo naznačuje veľmi mierny rast spotreby alkoholu v Albánsku v období rokov 2000 – 2015. Odhadovaný koeficient 0,016 znamená, že spotreba alkoholu sa v priemere zvyšovala približne o 0,016 jednotky ročne. Hodnota p-value (0,0627) však naznačuje, že tento koeficient nie je štatisticky významný na hladine významnosti 5 %, preto nie je možné potvrdiť existenciu štatisticky významného trendu rastu spotreby alkoholu v sledovanom období.
#Obrázok o skutočných vyrovnaných hodnotách spotreby alkoholu
fitted_vals <- fitted(model_alkohol)
# vykreslenie skutočných a vyrovnaných hodnôt - Alcohol_consumption a fitted_values
ggplot(udaje, aes(x = Year)) +
geom_line(aes(y = Alcohol_consumption), color = "blue", size = 1) +
geom_line(aes(y = fitted_vals), color = "magenta", size = 1, linetype = "dashed") +
labs(title = "Skutočné vs. Vyrovnané hodnoty spotreby alkoholu v Albánsku (2000-2015)",
x = "Rok",
y = "Spotreba alkoholu") +
theme_minimal() +
scale_y_continuous(limits = c(0, max(udaje$Alcohol_consumption, fitted_vals) * 1.1)) +
theme(legend.position = "none")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Graf Residuals vs Fitted slúži na posúdenie linearity modelu a približnej konštantnosti rozptylu rezíduí. Reziduály by mali byť rozložené náhodne okolo nulovej hodnoty bez výrazného systematického vzoru. Ak sa objaví vizuálne významné zakrivenie červenej vyhladzovacej čiary,1 ktorá slúži na vizuálnu identifikáciu systematických odchýlok od náhodného rozloženia rezíduí, signalizuje to určité systematické problémy. Ak je LOESS približne horizontálna, model je špecifikovaný vhodne; ak sa zakrivuje, môže to naznačovať nelinearitu, chybnú špecifikáciu (teda výber vysvetľujúcich premenných) alebo iný problém v modeli. Ak sa body rozširujú alebo zužujú v tvare lievika, môže ísť o heteroskedasticitu.
plot(model, which = 1)
Residuals vs Fitted
#Test na normalitu reziduí pomocou Shapiro-Wilk testu
shapiro_test <- shapiro.test(residuals(model))
cat("Normalita: Shapiro-Wilk test p-value:", shapiro_test$p.value, "\n")
## Normalita: Shapiro-Wilk test p-value: 0.1768337
#Test na normalitu rezuduí pomocou Jarque-Berra testu
library(tseries)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
jarque_bera_test <- jarque.bera.test(residuals(model))
cat("Normalita: Jarque-Bera test p.value:", jarque_bera_test$p.value, "\n")
## Normalita: Jarque-Bera test p.value: 0.5085893
Vyššie uvedené testy nám poskytujú štatistické hodnoty p-value, ktoré nám pomáhajú posúdiť, či reziduály modelu spĺňajú predpoklad normality. V našom prípade sú p-hodnoty (Shapiro-Wilkov test: p = 0.3405562; Jarque-Bera test: p = 0.5548655) nižšie než zvolená hladina významnosti (napr. 0,05), čo vedie k zamietnutiu nulovej hypotézy o normalite rezíduí. Napriek tomu, vzhľadom na to, že ide o relatívne malé odchýlky od hranice významnosti, budeme tento predpoklad v ďalšej analýze prehliadať a považovať ho za dostatočne splnený.
#Test na autokoreláciu reziduí pomocou Breusch-Godfrey
bg_test <- bgtest(model, order = 1)
cat("Autokorelace: Breusch-Godfrey test p-value:", bg_test$p.value, "\n")
## Autokorelace: Breusch-Godfrey test p-value: 0.9666798
Test na autokoreláciu nám poskytuje p-value, ktoré nám pomáhajú posúdiť, či reziduály modelu vykazujú autokoreláciu. Keďže je p-value väčia než zvolená hladina významnosti (0,1), nemôžeme prijať alternatívnu hypotézu o prítomnosti autokorelacie rezíduí.
Reziduá sú rozložené približne okolo nulovej hodnoty, avšak pri najmenších aj najväčších odhadnutých hodnotách model systematicky nadhodnocuje, resp. podhodnocuje skutočné hodnoty. Do určitej miery to môže byť ovplyvnené odľahlými pozorovaniami, najmä pozorovaním č. 114, 1003 a 2164. Počet pozorovaní je však relatívne malý, preto túto skutočnosť zatiaľ nepovažujeme za zásadný problém a podrobnejšie sa k nej môžeme vrátiť pri analýze ďalších diagnostických grafov.
Q-Q graf porovnáva rozdelenie štandardizovaných rezíduí s teoretickým normálnym rozdelením. Ak body ležia približne na priamke, predpoklad normality rezíduí je približne splnený. Výraznejšie odchýlky na krajoch naznačujú možné problémy s extrémnymi hodnotami alebo s ťažšími koncami rozdelenia. Určitou pomôckou tu môže byť nasledovná tabuľka:
| Prípad | Tvar.Q.Q.grafu | Ľavý.chvost | Pravý.chvost | Interpretácia |
|---|---|---|---|---|
| Normálne rozdelenie | Priamka | Na priamke | Na priamke | Dáta majú normálne rozdelenie |
| Ľavostranná šikmosť (negatívna) | Prehnutý nadol (∩ tvar) | Nad priamkou | Pod priamkou | Dlhý ľavý chvost (extrémne nízke hodnoty) |
| Pravostranná šikmosť (pozitívna) | Prehnutý nahor (∪ tvar) | Pod priamkou | Nad priamkou | Dlhý pravý chvost (extrémne vysoké hodnoty) |
| Symetrické, vysoká špicatosť (> 3) | S-tvar | Pod priamkou | Nad priamkou | Ťažké chvosty (viac extrémnych hodnôt) |
| Symetrické, nízka špicatosť (< 3) | Obrátený S-tvar | Nad priamkou | Pod priamkou | Ľahké chvosty (menej extrémnych hodnôt) |
Niekedy hovoríme o pomôcke:
plot(model, which = 2)
Normal Q-Q plot
Q-Q graf porovnáva empirické rozdelenie štandardizovaných rezíduí s teoretickým normálnym rozdelením. V prípade splnenia predpokladu normality by mali body ležať približne na diagonálnej priamke.
V našom prípade väčšina bodov v strednej časti grafu leží pomerne blízko priamky, čo naznačuje, že pre väčšinu pozorovaní je predpoklad normality približne splnený. Centrálna časť rozdelenia rezíduí sa teda správa podobne ako normálne rozdelenie.
Na pravom konci grafu dochádza k miernemu odchýleniu bodov pod referenčnú priamku. Najmä pozorovanie č. 1003 predstavuje záporné reziduum, čo naznačuje ťažší pravý chvost rozdelenia oproti normálnemu rozdeleniu. Menšia odchýlka je viditeľná aj pri pozorovaní č. 2164kroeé leží takmer na priamke.
Na ľavom konci grafu je bod relatívne blízko referenčnej priamky. Pozorovanie č. 1162 sa nachádza mierne nad priamkou, čo poukazuje len na malú odchýlku od normality a nepredstavuje výrazný problém.
Celkovo možno konštatovať, že normalita rezíduí je približne splnená, avšak s miernymi odchýlkami v chvostoch rozdelenia. Z praktického hľadiska ide o mierne porušenie predpokladu normality, ktoré však vzhľadom na dobré správanie väčšiny rezíduí nemusí predstavovať zásadný problém pre ďalšiu analýzu.
Scale-Location graf sa používa na posúdenie homoskedasticity, teda konštantnosti rozptylu rezíduí. Ak sú body rozložené približne rovnomerne a červená čiara je relatívne vodorovná, ide o priaznivý výsledok. Systematický rast alebo pokles naznačuje, že rozptyl rezíduí sa mení s úrovňou predikovaných hodnôt.
plot(model, which = 3)
Scale-Location plot
Body sú rozptýlené pomerne rovnomerne v celom rozsahu vyrovnaných hodnôt, bez výrazného systematického vzoru. Červená vyhladzovacia krivka mierne klesá pri nižších hodnotách, následne sa stabilizuje a ku koncu len veľmi mierne kolíše, bez výrazného rastúceho trendu pri vyšších hodnotách.
Niektoré body (napr. pozorovania označené 1162, 2164 a 1003) sa od ostatných mierne odchyľujú, môžu teda predstavovať potenciálne odľahlé alebo vplyvné pozorovania, avšak ich vplyv nie je extrémny.
Nevzniká typický „lievikovitý“ tvar, ktorý by naznačoval výrazné porušenie predpokladu konštantného rozptylu. Variabilita rezíduí sa javí ako relatívne stabilná naprieč hodnotami, čo naznačuje, že predpoklad homoskedasticity je splnený, prípadne len veľmi mierne narušený.
Heteroskedaticita sa nepotvrdila, je porušená.
# test na heteroskedasticitu pomocou Breusch-Pagan testu
bp_test <- bptest(model)
cat("Heteroskedasticita: Breusch-Pagan test p-value:",bp_test$p.value, "\n")
## Heteroskedasticita: Breusch-Pagan test p-value: 0.09868857
Keďže Breusch-Pagan test nám poskytuje p-value, ktoré je väčšie než zvolená hladina významnosti (0,1), nemôžeme zamietnuť nulovú hypotézu a konštatovať, že rozptyl rezíduí nie je konštantný.
Graf Residuals vs Leverage pomáha identifikovať vplyvné pozorovania. Leverage to predstavuje vzialenosť daného pozorovania všetkých vysvetľujúcich premenných (teda vektora) od ostatných, resp. od stredného vektora všetkych pozorovaní. Títo vzdialenosť je normovaná na interval (0,1) a väčšina pozorovaní má veľmi malý leverage. Ak sa vyskytujú pozorovania s vysokým leverage, identifikujeme ich na vodorovnej osi a môžu znamenať potenciálne nebezpečenstvo v skreslení parametrov vyrovnávajúcej nadroviny (teda odhadovaných \(\beta\) koeficientov). Pozorovania s vysokou hodnotou leverage a súčasne veľkými rezíduami môžu môžu spôsobovať tento problém. Ak sa niektoré body nachádzajú blízko alebo za krivkami Cookovej vzdialenosti, je vhodné ich podrobnejšie preskúmať.
plot(model, which = 5)
Residuals vs Leverage
Väčšina pozorovaní má nízke až stredné hodnoty leverage (približne do 0,4) a je rozptýlená okolo nulových štandardizovaných rezíduí, prevažne v intervale od −1 do 1. To naznačuje, že prevažná časť dát je modelom zachytená pomerne dobre a nevykazuje výrazné odchýlky.
Z grafu však vidno niekoľko výnimiek. Pozorovanie 2164 má relatívne vysoké kladné rezíduum (nad 2) pri strednej hodnote leverage, čo môže naznačovať potenciálny problém z hľadiska prispôsobenia modelu. Naopak, pozorovanie 1162 má veľmi vysokú hodnotu leverage (okolo 0,8) a zároveň výrazne záporné rezíduum, čo z neho robí bod s potenciálne silným vplyvom na model.
Ďalšie body, ako napríklad 581, majú mierne zvýšené rezíduá aj leverage, no ich vplyv je menej výrazný.
Kontúry Cookovej vzdialenosti ukazujú, že žiadne pozorovanie neprekračuje hranicu hodnoty 1, takže sa v dátach nenachádzajú extrémne vplyvné body. Napriek tomu sa pozorovania 1162 a čiastočne aj 2164 nachádzajú v oblastiach vyšších hodnôt Cookovej vzdialenosti, čo naznačuje, že môžu mať citeľný vplyv na odhady modelu.
Celkovo je model relatívne stabilný, avšak niektoré jednotlivé pozorovania (najmä 1162 a 2164) by mali byť bližšie preskúmané, keďže môžu ovplyvňovať výsledky regresie.
## rstudent unadjusted p-value Bonferroni p
## 992 -4.682906 0.00086369 0.013819
Test na odľahlé hodnoty nám poskytuje informácie o pozorovaniach, ktoré môžu byť potenciálne odľahlé. V tomto prípade test identifikoval pozorovanie č. 2164 ako odľahlé (rstudent = 2,74) s neadjustovanou p-hodnotou 0,022813 a p-hodnotou po Bonferroniho korekcii 0,3422. Keďže po Bonferroniho korekcii je p-hodnota väčšia než zvolená hladina významnosti (napr. 0,05),presahuje hladinu významnosti. To znamená, že pri zohľadnení viacnásobného testovania nemožno toto pozorovanie považovať za štatisticky významnú odľahlú hodnotu.
Napriek tomu ide o pozorovanie s relatívne vysokou hodnotou studentizovaného rezídua, a preto ho možno označiť za potenciálne problematické. V kombinácii s diagnostickým grafom (Residuals vs Leverage), kde sa toto pozorovanie nachádza v oblasti vyšších rezíduí, je vhodné venovať mu bližšiu pozornosť a zvážiť jeho vplyv na model.
library(lmtest)
library(sandwich)
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 7.8126, df = 4, p-value = 0.09869
bgtest(model)
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 0.001745, df = 1, p-value = 0.9667
White robustné štandardné chyby
coeftest(model, vcov = vcovHC(model, type = "HC1"))
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.9073e+02 2.8280e+01 -17.3528 2.437e-09 ***
## Year 2.8254e-01 1.3404e-02 21.0792 3.039e-10 ***
## Alcohol_consumption -1.6822e-01 3.6059e-02 -4.6650 0.0006881 ***
## Adult_mortality 4.4994e-03 1.8183e-02 0.2474 0.8091213
## Incidents_HIV -3.8052e+00 6.6057e+00 -0.5760 0.5761816
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Newey-West robustné štandardné chyby
coeftest(model, vcov = NeweyWest(model))
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.9073e+02 1.8748e+01 -26.1746 2.933e-11 ***
## Year 2.8254e-01 8.8579e-03 31.8969 3.421e-12 ***
## Alcohol_consumption -1.6822e-01 2.2022e-02 -7.6386 1.011e-05 ***
## Adult_mortality 4.4994e-03 1.2731e-02 0.3534 0.7305
## Incidents_HIV -3.8052e+00 4.7403e+00 -0.8027 0.4391
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
vif(model)
## Year Alcohol_consumption Adult_mortality Incidents_HIV
## 14.316896 2.108968 23.249261 8.719553
LOESS (LOcal regrESSion) krivka predstavuje lokálne vyhladený trend medzi premennými bez predpokladu konkrétneho funkčného tvaru.↩︎