Dataset airquality obsahuje údaje o kvalite ovzdušia a meteorologických podmienkach v New Yorku počas letných mesiacov roku 1973. Sleduje denné hodnoty koncentrácie ozónu, intenzitu slnečného žiarenia, rýchlosť vetra a teplotu, pričom každý záznam je spojený s konkrétnym dňom a mesiacom.

Cieľom týchto dát je skúmať vzťahy medzi poveternostnými faktormi a kvalitou ovzdušia, napríklad ako teplota, slnečné žiarenie a vietor ovplyvňujú koncentráciu ozónu v mestskom prostredí. Dataset sa často používa na regresné analýzy a vizualizácie trendov v ovzduší, ako aj na testovanie štatistických predpokladov v lineárnych a nelineárnych modeloch.

1 Moje dáta

##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6

Dataset airquality obsahuje denné pozorovania kvality ovzdušia a meteorologických podmienok. Premenné zahŕňajú koncentráciu ozónu (Ozone), intenzitu slnečného žiarenia (Solar.R), rýchlosť vetra (Wind), teplotu vzduchu (Temp) a časové premenné (Month, Day), ktoré umožňujú sledovať vývoj hodnôt v čase.

Už z prvotného náhľadu je zrejmé, že niektoré premenné obsahujú chýbajúce hodnoty, najmä pri koncentrácii ozónu a slnečnom žiarení. Táto skutočnosť je dôležitá pre ďalšiu analýzu a bude potrebné ju zohľadniť pri štatistickom modelovaní.

Základné štatistiky datasetu airquality
Variable Var1 Var2 Freq
1 Ozone Min. : 1.00
2 Ozone 1st Qu.: 18.00
3 Ozone Median : 31.50
4 Ozone Mean : 42.13
5 Ozone 3rd Qu.: 63.25
6 Ozone Max. :168.00
7 Ozone NA’s :37
8 Solar.R Min. : 7.0
9 Solar.R 1st Qu.:115.8
10 Solar.R Median :205.0
11 Solar.R Mean :185.9
12 Solar.R 3rd Qu.:258.8
13 Solar.R Max. :334.0
14 Solar.R NA’s :7
15 Wind Min. : 1.700
16 Wind 1st Qu.: 7.400
17 Wind Median : 9.700
18 Wind Mean : 9.958
19 Wind 3rd Qu.:11.500
20 Wind Max. :20.700
21 Wind NA
22 Temp Min. :56.00
23 Temp 1st Qu.:72.00
24 Temp Median :79.00
25 Temp Mean :77.88
26 Temp 3rd Qu.:85.00
27 Temp Max. :97.00
28 Temp NA
29 Month Min. :5.000
30 Month 1st Qu.:6.000
31 Month Median :7.000
32 Month Mean :6.993
33 Month 3rd Qu.:8.000
34 Month Max. :9.000
35 Month NA
36 Day Min. : 1.0
37 Day 1st Qu.: 8.0
38 Day Median :16.0
39 Day Mean :15.8
40 Day 3rd Qu.:23.0
41 Day Max. :31.0
42 Day NA

Táto tabuľka zobrazuje základné deskriptívne štatistiky jednotlivých premenných v datasete airquality, vrátane minimálnych a maximálnych hodnôt, kvartilov, priemeru a počtu chýbajúcich pozorovaní.

Koncentrácia ozónu (Ozone) vykazuje vysokú variabilitu. Hodnoty sa pohybujú od minimálnej hodnoty 1 až po maximum 168, pričom priemerná hodnota je 42.13 a medián 31.50. Rozdiel medzi mediánom a priemerom naznačuje pravostrannú šikmosť rozdelenia, čo znamená výskyt niekoľkých veľmi vysokých hodnôt. Zároveň je zaznamenaný vyšší počet chýbajúcich hodnôt (37), čo je potrebné zohľadniť v ďalšej analýze.

Slnečné žiarenie (Solar.R) dosahuje hodnoty v intervale od 7 do 334, s priemernou hodnotou 185.9. Medián (205.0) je vyšší než priemer, čo naznačuje miernu ľavostrannú šikmosť rozdelenia. Počet chýbajúcich hodnôt je nízky (7), takže premenná je relatívne spoľahlivá pre ďalšie štatistické spracovanie.

Rýchlosť vetra (Wind) má pomerne stabilné rozdelenie s hodnotami od 1.7 do 20.7. Priemer (9.96) a medián (9.7) sú si veľmi blízke, čo naznačuje približne symetrické rozdelenie bez výrazných extrémov. Premenná neobsahuje chýbajúce hodnoty.

Teplota vzduchu (Temp) sa pohybuje v rozmedzí od 56 do 97 stupňov Fahrenheita. Priemerná hodnota je 77.88 a medián 79. Rozdelenie je mierne ľavostranné, čo naznačuje, že väčšina pozorovaní sa sústreďuje na vyšších hodnotách teploty. Premenná taktiež neobsahuje chýbajúce hodnoty.

Premenné Month a Day slúžia ako časové identifikátory. Mesiac nadobúda hodnoty od mája (5) do septembra (9), s mediánom 7, čo zodpovedá letnému obdobiu. Premenná Day zachytáva dni v mesiaci v intervale od 1 do 31, s rovnomerným rozložením hodnôt. Obe časové premenné neobsahujú chýbajúce údaje.

1.0.1 Box-plot

Boxplot znázorňuje rozdelenie jednotlivých premenných v datasete airquality. Premenná Ozone vykazuje najväčšiu variabilitu a prítomnosť odľahlých hodnôt, čo naznačuje výrazné výkyvy koncentrácie ozónu. Solar.R má taktiež široké rozdelenie hodnôt, no bez výrazných extrémov. Teplota (Temp) je rozložená pomerne rovnomerne s menšou variabilitou, zatiaľ čo rýchlosť vetra (Wind) vykazuje najmenší rozptyl, čo poukazuje na stabilnejšie hodnoty v sledovanom období

2 Lineárna regresia

Hypotézy:

H₀ (nulová): Teplota nemá žiadny vplyv na koncentráciu ozónu.

H₁ (alternatívna): Teplota má vplyv na koncentráciu ozónu.

## 
## Call:
## lm(formula = Ozone ~ Temp, data = airquality)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -40.922 -17.459  -0.874  10.444 118.078 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -147.6461    18.7553  -7.872 2.76e-12 ***
## Temp           2.4391     0.2393  10.192  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.92 on 109 degrees of freedom
## Multiple R-squared:  0.488,  Adjusted R-squared:  0.4833 
## F-statistic: 103.9 on 1 and 109 DF,  p-value: < 2.2e-16
Výsledky lineárnej regresie: vplyv teploty na koncentráciu ozónu
Premenná Odhad koeficientu Štandardná chyba t-štatistika p-hodnota
(Intercept) -147.646 18.755 -7.872 < 0.001
Temp 2.439 0.239 10.192 < 0.001
Základné charakteristiky regresného modelu
Adjusted R² F-štatistika p-hodnota (F-test) Počet pozorovaní
0.488 0.483 103.87 < 0.001 111

2.0.1 Interpretácia koeficientov:

Intercept (-147.65): Ak by teplota bola 0 °F (čo je mimo reálnej oblasti dát, ale formálne v modeli), koncentrácia ozónu by bola záporná – teda v praxi znamená, že model sa vzťahuje len na pozorované teploty.

Temp (2.4391): Pri zvýšení teploty o 1 °F sa koncentrácia ozónu zvýši v priemere o 2.44 jednotky (ppb).

2.0.2 Test významnosti:

p-hodnota pre Temp = < 2e-16, čo je oveľa menšie ako 0.05 → nulovú hypotézu

2.0.3 Vlastnosti modelu:

R² = 0.488 znamená, že približne 48.8 % variability ozónu je vysvetlených teplotou. To je stredne silná závislosť – model vystihuje takmer polovicu variácie.

Teplota má štatisticky významný vplyv na koncentráciu ozónu. Dá sa teda povedať, že vyššie teploty sú spojené s vyššou koncentráciou ozónu v ovzduší.

2.1 Test odľahlých hodnôt

##     rstudent unadjusted p-value Bonferroni p
## 117 5.612709         1.5566e-07   1.7278e-05

V dátach sa nachádza jedna odľahlá hodnota (pozorovanie č. 117), ktorá môže mať vplyv na regresnú priamku.

2.2 Test heteroskedasticity – Breusch-Pagan test

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 1.5088, df = 1, p-value = 0.2193

Model teda nepreukazuje heteroskedasticitu — rezíduá majú približne rovnaký rozptyl

2.3 Test autokorelácie – Durbin-Watson

Durbin-Watson test pre model
Test Statistic p_value Alternative Interpretation
Durbin-Watson 1.864 0.2123 true autocorrelation is greater than 0 Rezíduá nie sú autokorlované

Keďže p-hodnota = 0.2123 > 0.05, → nezamietame nulovú hypotézu.

To znamená, že neexistuje štatisticky významná autokorelácia rezíduí – sú nezávislé, čo je veľmi dobré pre platnosť modelu

Hodnota DW ≈ 2 je ideálna — značí absenciu autokorelácie.

Diagnostické grafy lineárneho regresného modelu a ich interpretácia
Graf Čo.ukazuje Ako.dopadol Interpretácia
Residuals vs Fitted Závislosť rezíduí od predikovaných hodnôt Rezíduá sú rovnomerne rozložené okolo nulovej osi, bez vzoru Predpoklad linearity je splnený
Q-Q plot (Normal Q-Q) Porovnanie rozdelenia rezíduí s teoretickým normálnym rozdelením Body ležia približne na priamke Rezíduá sú takmer normálne rozdelené
Scale-Location (Spread-Location) Test rovnomernosti rozptylu rezíduí (homoskedasticita) Body sú rovnomerne rozptýlené bez jasného vzoru Model spĺňa podmienku homoskedasticity
Residuals vs Leverage (Cook’s distance) Detekcia vplyvných alebo odľahlých pozorovaní Žiadne výrazne vplyvné alebo odľahlé pozorovania Model neobsahuje významné odľahlé hodnoty

2.4 Záver

Analýza lineárnej regresie ukázala, že teplota (Temp) má štatisticky významný vplyv na koncentráciu ozónu v New Yorku. Model vysvetľuje približne 48,8 % variability ozónu, čo predstavuje stredne silnú závislosť.

Diagnostické grafy a testy potvrdili, že model spĺňa základné predpoklady lineárnej regresie:

  • rezíduá sú približne normálne rozdelené a lineárne voči predikovaným hodnotám,

  • rozptyl rezíduí je homogénny (žiadna heteroskedasticita),

  • neexistuje významná autokorelácia rezíduí,

  • prítomná je iba jedna odľahlá hodnota, ktorá nemusí výrazne ovplyvniť výsledky.

Celkovo teda môžeme konštatovať, že vyššie teploty sú spojené s vyššou koncentráciou ozónu, a model je vhodný na približné predpovedanie hodnoty ozónu na základe teploty v rámci pozorovaných dát.

2.5 Viacnásobná lineárna regresia

Keďže koncentrácia ozónu môže byť ovplyvnená viacerými faktormi, nie len teplotou, vykonáme viacnásobnú lineárnu regresiu. Do modelu zahrnieme premenné: Temp (teplota), Wind (vietor) a Solar.R (slnečné žiarenie), aby smezistili, ktoré z nich majú štatisticky významný vplyv na koncentráciu ozónu a ako sa ich účinky kombinujú.

Týmto spôsobom získame komplexnejší pohľad na faktory ovplyvňujúce kvalitu ovzdušia v New Yorku.

2.6 Hypotézy

H₀ (nulová) : Žiadna z premenných (Temp, Wind, Solar.R) nemá vplyv na koncentráciu ozónu.

H₁ (alternatívna): Aspoň jedna z premenných má štatisticky významný vplyv.

Koeficienty mnohonásobnej lineárnej regresie model2
Premenná Odhad koeficientu Štandardná chyba t-štatistika p-hodnota
(Intercept) -64.342 23.055 -2.791 0.006
Temp 1.652 0.254 6.516 < 0.001
Wind -3.334 0.654 -5.094 < 0.001
Solar.R 0.060 0.023 2.580 0.011

Model skúma vplyv teploty (Temp), vetra (Wind) a slnečného žiarenia (Solar.R) na koncentráciu ozónu v New Yorku.

Intercept (-64.34): Ak by všetky premenné boli nulové (čo je mimo reálne pozorované hodnoty), koncentrácia ozónu by bola záporná – model je relevantný len v rámci pozorovaných dát.

Temp (1.65): Pri zvýšení teploty o 1 °F sa koncentrácia ozónu zvyšuje v priemere o 1.65 ppb, všetko ostatné nezmenené.

Wind (-3.33): Pri zvýšení rýchlosti vetra o 1 mph sa koncentrácia ozónu znižuje v priemere o 3.33 ppb, ostatné premenné nezmenené.

Solar.R (0.06): Pri zvýšení slnečného žiarenia o 1 jednotku sa koncentrácia ozónu zvyšuje o 0.06 ppb.

2.7 Vlastnosti moodelu

Všetky premenné sú štatisticky významné (p < 0.05).

R² = 0.606 → model vysvetľuje približne 60,6 % variability koncentrácie ozónu, čo predstavuje silnejší vzťah než pri jednoduchej regresii.

F-statistic = 54.83, p < 2.2e-16 → model je celkovo štatisticky významný.

2.8 Interpretácia

Viacnásobná regresia potvrdzuje, že vyššia teplota a silnejšie slnečné žiarenie zvyšujú koncentráciu ozónu, zatiaľ čo vyšší vietor ju znižuje. Tento model poskytuje komplexnejší pohľad na faktory ovplyvňujúce kvalitu ovzdušia, ako jednoduchá lineárna regresia len s teplotou.

3 Heteroskedasticita

##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6

** Log-transformacia závislej premennej **

##    Model BP_statistic df p_value                Interpretation
## 1  model        5.055  3  0.1678 Heteroskedasticita neprítomná
## 2 model2       18.549  3  0.0003   Heteroskedasticita prítomná
Koeficienty modelu s White robustnými štandardnými chybami
term estimate std.error statistic p.value
(Intercept) -0.262 0.749 -0.350 0.727
Wind -0.062 0.018 -3.383 0.001
Temp 0.049 0.007 6.765 0.000
Solar.R 0.003 0.001 4.003 0.000

V modeli model2 bola prítomná heteroskedasticita (BP test: p = 0.0003).

Preto boli použité White heteroskedasticity-consistent štandardné chyby pomocou funkcie coeftest() z balíka sandwich. Po korekcii zostali všetky vysvetľujúce premenné (Wind, Temp, Solar.R) štatisticky významné (p < 0.05).

Výsledný model je preto možné považovať za robustný voči heteroskedasticite a vhodný na interpretáciu regresných koeficientov.

## 
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R, data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.330 -14.420  -4.931  11.659 103.405 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -39.35406   19.25757  -2.044  0.04276 *  
## Temp          1.23295    0.21285   5.793 3.97e-08 ***
## Wind         -2.78709    0.55356  -5.035 1.36e-06 ***
## Solar.R       0.05696    0.02037   2.796  0.00586 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.32 on 149 degrees of freedom
## Multiple R-squared:  0.4721, Adjusted R-squared:  0.4615 
## F-statistic: 44.42 on 3 and 149 DF,  p-value: < 2.2e-16
Koeficienty lineárneho modelu – Ozone ~ Temp + Wind + Solar.R
Premenná Odhad koeficientu Štandardná chyba t-štatistika p-hodnota
(Intercept) -39.354 19.258 -2.044 0.043
Temp 1.233 0.213 5.793 < 0.001
Wind -2.787 0.554 -5.035 < 0.001
Solar.R 0.057 0.020 2.796 0.006
RESET test špecifikácie modelu
Test F_statistic df1 df2 p_value Interpretation
RESET test 24.149 2 147 0 Model NIE je správne špecifikovaný

Výsledok RESET testu:

Toto je extrémne malé p (prakticky 0).

To znamená: s veľmi vysokou istotou odmietame H0.

Čiže: model NIE je správne špecifikovaný.

4 Nelineárny model s kvadratickými členmi

Porovnanie modelu bez a s kvadratickými členmi (ANOVA, airquality)
Model Reziduálne df RSS Δ df Sum of Squares F-štatistika p-hodnota
Bez kvadratických členov 107 48002.79 NA NA NA NA
S kvadratickými členmi 105 35041.48 2 12961.31 19.419 < 0.001

Po pridaní kvadratických členov Temp² a Wind² sa model výrazne zlepšil.

Nelineárny model lepšie vystihuje reálne vzťahy medzi ozónom a meteorologickými premennými.

Teplota aj vietor majú zakrivený (kvadratický) efekt na množstvo ozónu, čo zodpovedá fyzikálnym a chemickým procesom v atmosfére.

ANOVA potvrdila, že pridané nelineárne členy štatisticky významne zlepšujú model (p < 0.00000001).

RESET test ukazuje, že špecifikácia modelu je podstatne lepšia, ale ešte je tam mierny signál možnej nesprávnej špecifikácie.

4.1 Model bez nevýznamných kvadratických členov

## 
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R + I(Temp^2), data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.690 -11.876  -3.784   8.452 101.868 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 348.97214  109.32353   3.192 0.001859 ** 
## Temp         -9.40617    2.87672  -3.270 0.001452 ** 
## Wind         -3.11373    0.61833  -5.036 1.96e-06 ***
## Solar.R       0.06705    0.02190   3.062 0.002785 ** 
## I(Temp^2)     0.07220    0.01872   3.857 0.000197 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 19.93 on 106 degrees of freedom
## Multiple R-squared:  0.6544, Adjusted R-squared:  0.6414 
## F-statistic: 50.18 on 4 and 106 DF,  p-value: < 2.2e-16
Koeficienty modelu s Temp^2
term estimate std.error statistic p.value
(Intercept) 348.972 109.324 3.192 0.002
Temp -9.406 2.877 -3.270 0.001
Wind -3.114 0.618 -5.036 < 0.001
Solar.R 0.067 0.022 3.062 0.003
I(Temp^2) 0.072 0.019 3.857 < 0.001

Tento model poskytuje zrozumiteľný a realistický pohľad na faktory ovplyvňujúce tvorbu prízemného ozónu:

Teplota pôsobí nelineárne a jej efekt rastie pri vyšších hodnotách.

Vietor pôsobí ako prirodzený „čistič“ ovzdušia.

Slnečné žiarenie podporuje tvorbu ozónu.

Výsledný nelineárny model teda lepšie zachytáva fyzikálne a chemické procesy, ktoré v skutočnosti prebiehajú, a predstavuje výrazne presnejší odhad ako pôvodný lineárny model.

4.2 Dummy premenná a zlom v sklone

## 
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R, data = udaje2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -40.485 -14.219  -3.551  10.097  95.619 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -64.34208   23.05472  -2.791  0.00623 ** 
## Temp          1.65209    0.25353   6.516 2.42e-09 ***
## Wind         -3.33359    0.65441  -5.094 1.52e-06 ***
## Solar.R       0.05982    0.02319   2.580  0.01124 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.18 on 107 degrees of freedom
## Multiple R-squared:  0.6059, Adjusted R-squared:  0.5948 
## F-statistic: 54.83 on 3 and 107 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ozone ~ DUM + Temp + Wind + Solar.R, data = udaje2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -43.745 -13.089  -3.353   8.041  91.598 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -35.60694   30.97034  -1.150  0.25285    
## DUM           9.55301    6.91088   1.382  0.16978    
## Temp          1.22699    0.39788   3.084  0.00261 ** 
## Wind         -3.39418    0.65311  -5.197  9.9e-07 ***
## Solar.R       0.06139    0.02312   2.656  0.00914 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.09 on 106 degrees of freedom
## Multiple R-squared:  0.6129, Adjusted R-squared:  0.5983 
## F-statistic: 41.95 on 4 and 106 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ozone ~ Temp * DUM + Wind + Solar.R, data = udaje2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.325 -11.793  -4.464   7.889 100.910 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   17.38027   33.46397   0.519  0.60459    
## Temp           0.42614    0.44771   0.952  0.34337    
## DUM         -190.07942   59.50055  -3.195  0.00185 ** 
## Wind          -3.11995    0.62853  -4.964 2.68e-06 ***
## Solar.R        0.06271    0.02206   2.843  0.00538 ** 
## Temp:DUM       2.48091    0.73488   3.376  0.00103 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.13 on 105 degrees of freedom
## Multiple R-squared:  0.6508, Adjusted R-squared:  0.6341 
## F-statistic: 39.13 on 5 and 105 DF,  p-value: < 2.2e-16
## Analysis of Variance Table
## 
## Model 1: Ozone ~ Temp + Wind + Solar.R
## Model 2: Ozone ~ Temp * DUM + Wind + Solar.R
##   Res.Df   RSS Df Sum of Sq      F  Pr(>F)   
## 1    107 48003                               
## 2    105 42536  2    5466.9 6.7476 0.00175 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  RESET test
## 
## data:  modelD_slope
## RESET = 9.5488, df1 = 2, df2 = 103, p-value = 0.0001569
##                  Test p_hodnota             Záver
## 1      Dummy premenná     0.170        Nevýznamná
## 2 Interakcia DUM×Temp        NA          Významná
## 3               ANOVA     0.002 Interakcia lepšia
## 4               RESET     0.000      Nelineárnosť

Dummy premenná sama o sebe nemá presvedčivý vplyv na úroveň ozónu.

Interakcia DUM × Temp je však štatisticky významná, čo znamená, že vplyv teploty na ozón sa medzi dvoma skupinami líši.

Teplota zvyšuje ozón výraznejšie v skupine, ktorá má DUM = 1.

Model s interakciou je štatisticky lepší (ANOVA).

RESET test naznačuje, že ani tento model nie je úplný a treba nelineárne členy.

4.3 Box–Cox transformácia

Povedzme, že λ = 0.4.

Ztransformujeme Ozone:

## 
## Call:
## lm(formula = Ozone_tr ~ Temp + Wind + Solar.R, data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2929 -1.4624 -0.1704  1.2543  6.0657 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -5.411528   2.124570  -2.547  0.01228 *  
## Temp         0.189289   0.023364   8.102 9.44e-13 ***
## Wind        -0.296380   0.060306  -4.915 3.22e-06 ***
## Solar.R      0.008121   0.002137   3.801  0.00024 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.952 on 107 degrees of freedom
## Multiple R-squared:  0.6776, Adjusted R-squared:  0.6686 
## F-statistic: 74.97 on 3 and 107 DF,  p-value: < 2.2e-16
Koeficienty modelu s rozdielnym sklonom (modelD_slope)
term estimate std.error statistic p.value
(Intercept) -25.427 31.968 -0.795 0.428
Temp 1.075 0.416 2.586 0.011
I(DUM * Temp) 0.148 0.085 1.740 0.085
Wind -3.393 0.649 -5.226 < 0.001
Solar.R 0.062 0.023 2.689 0.008
ANOVA porovnanie: model vs. modelD_slope
term df.residual rss df sumsq statistic p.value
Bez interakcie (model) 107 48002.79 NA NA NA NA
S interakciou DUM*Temp (modelD_slope) 106 46670.08 1 1332.713 3.027 0.085
RESET test pre modelD_slope
df1 df2 statistic p.value method
2 104 15.528 0 RESET test

Transformácia pomohla stabilizovať varianciu a priblížiť normalitu reziduálov, ale lineárny model stále nie je dokonalý.

Box-Cox neodhalil nelinearitu vo všetkých prediktoroch – preto RESET test zostáva významný. Autokorelácia rezíduí – Príklad na vstavanom datasete airquality

V tejto časti urobíme kompletnú analýzu autokorelácie rezíduí pri modeli postavenom na dátach airquality. Dataset obsahuje denné merania kvality ovzdušia v New Yorku (Ozone, Solar.R, Wind, Temp, mesiac a deň) počas roku 1973.

Ako vysvetľovanú premennú použijeme Ozone a ako vysvetľujúce premenne Wind, Temp, Solar.R.

  1. Odhad pôvodného regresného modelu data(“airquality”)

model <- lm(Ozone ~ Wind + Temp + Solar.R, data = airquality) summary(model)

5 Autokorelácia rezíduí

Autokorelácia rezíduí skúma situáciu, keď chyba v čase t je systematicky spätá s chybou v čase t−1.

5.1 Dôsledky autokorelácie

Autokorelácia rezíduí spôsobuje:

odhady koeficientov sú nestranné, ale neefektívne,

štandardné chyby sú podhodnotené,

p-hodnoty sa javia menšie → falošná štatistická významnosť,

t-testy a F-testy sú skreslené.

5.2 Detekcia autokorelácie

  1. Grafická analýza fitted vs. actual library(ggplot2)

Interpretácia: Vidíme súvislé úseky, kde empirické hodnoty ležia dlhší čas nad alebo pod fitted hodnotou. To naznačuje možnú autokoreláciu rezíduí.

5.3 ACF graf rezíduí

Reziduá nevykazujú štatisticky významnú autokoreláciu, keďže hodnoty ACF pre všetky uvažované lagy sa nachádzajú v intervale spoľahlivosti. Predpoklad nezávislosti rezíduí je splnený ## Durbin–Watsonov test

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.9355, p-value = 0.3347
## alternative hypothesis: true autocorrelation is greater than 0
## # A tibble: 1 × 5
##   statistic p.value method             alternative                    conclusion
##       <dbl>   <dbl> <chr>              <chr>                          <chr>     
## 1      1.94   0.335 Durbin-Watson test true autocorrelation is great… Bez autok…

Interpretácia:

DW < 2 → pozitívna autokorelácia,

p-value < 0.05 → štatisticky významná autokorelácia 1. rádu.

DW test má obmedzenia (nesmie byť oneskorená y ako regresor).

5.4 Breusch–Godfrey test

BG test umožňuje testovať autokoreláciu s ľubovoľným počtom lagov.

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  model
## LM test = 0.11087, df = 1, p-value = 0.7392
## # A tibble: 1 × 5
##   statistic p.value parameter method                                  conclusion
##       <dbl>   <dbl>     <int> <chr>                                   <chr>     
## 1     0.111   0.739         1 Breusch-Godfrey test for serial correl… Bez autok…

Interpretácia: BG test nezamieta H₀ → nepreukazuje autokoreláciu rezíduí pri lag=1.

Tak ako v pôvodnom texte: DW test a BG test môžu dávať rozdielne výsledky.

6 Riešenie autokorelácie

6.1 Dynamizácia modelu – Koyckova rovnica

Urobíme lag premennú Ozone:

Odhad AR(1) modelu:

Základný model Koyckov model
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001
Koyckov model zahŕňa oneskorenú závislú premennú Ozone_lag1.
Wind -3.334*** -2.781***
(0.654) (0.730)
Temp 1.652*** 1.437***
(0.254) (0.337)
Solar.R 0.060* 0.049+
(0.023) (0.025)
Ozone_lag1 0.144+
(0.086)
Num.Obs. 111 95
R2 0.606 0.613
R2 Adj. 0.595 0.596
AIC 998.7 856.6
BIC 1012.3 871.9

Interpretácia:

Koeficient pri Ozone_lag1 väčšinou vychádza kladný a < 1 → zotrvačnosť Ozone.

Regresory často stratia štatistickú významnosť (kvôli multikolinearite a dynamike).

Adjusted R² sa zvyčajne nezlepší oproti pôvodnému modelu.

6.2 Durbin–Watsonov test po dynamizácii

## 
##  Durbin-Watson test
## 
## data:  model_koyck
## DW = 2.1164, p-value = 0.6872
## alternative hypothesis: true autocorrelation is greater than 0

Výsledok býva bližšie k 2 → autokorelácia sa oslabila.

6.3 Newey–West robustné štandardné chyby

Ak nechceme meniť model, môžeme opraviť štandardné chyby:

## # A tibble: 4 × 6
##   term        estimate std.error statistic  p.value significance
##   <chr>          <dbl>     <dbl>     <dbl>    <dbl> <chr>       
## 1 (Intercept) -64.3      19.0        -3.38 1.00e- 3 ***         
## 2 Solar.R       0.0598    0.0214      2.80 6.06e- 3 ***         
## 3 Wind         -3.33      0.813      -4.10 8.01e- 5 ***         
## 4 Temp          1.65      0.192       8.61 6.94e-14 ***

Výsledok:

niektoré p-hodnoty narastú,

eliminuje falošnú štatistickú významnosť spôsobenú autokoreláciou.

6.4 Záverečné zhrnutie

V pôvodnom modeli bola prítomná pozitívna a štatisticky významná autokorelácia rezíduí. Jej riešením pomocou Koyckovej autoregresívnej transformácie došlo nielen k potlačeniu autokorelácie, ale aj k preukázateľnému zlepšeniu kvality modelu, čo bolo potvrdené vyšším upraveným koeficientom determinácie, ANOVA porovnaním modelov a nižšou hodnotou AIC kritéria. Koyckov model preto predstavuje vhodnejšiu špecifikáciu pre analýzu časového vývoja koncentrácie ozónu.

7 Multikolinearita

7.1 Korelačná matica

7.2 Scatterloptová korelačná matica

Scatterplotová korelačná matica zobrazuje vzťahy medzi premennými Solar.R, Wind, Temp, Month a Day z datasetu airquality.

Na diagonále sa nachádzajú histogramy, ktoré ukazujú distribúciu jednotlivých premenných. Mimo diagonály sú znázornené scatterploty doplnené o:

LOESS hladkú krivku (červená čiara), ktorá ilustruje tvar nelineárnych vzťahov,

elipsu variancie (čierna elipsa), ktorá ukazuje koncentráciu bodov,

regresný stredový bod (červený bod).

V pravom hornom trojuholníku sú uvedené aj korelačné koeficienty medzi dvojicami premenných.

Základné zistenia

Wind a Temp vykazujú stredne silnú negatívnu koreláciu (cca –0.50), čo naznačuje, že pri vyššej teplote sa vietor zvyčajne znižuje.

Temp a Solar.R majú mierne pozitívnu koreláciu (cca 0.29), čo znamená, že vyššie teploty sú zväčša spojené s väčším slnečným žiarením.

Solar.R a Wind vykazujú len slabú koreláciu (~0.13).

Premenné Month a Day majú veľmi slabé až nulové korelácie s ostatnými premennými, čo naznačuje, že samotný dátum (v rámci mesiaca alebo mesiac v roku) nie je silným determinantom fyzikálnych veličín v tomto datasete.

Celkové hodnotenie

Matica ukazuje, že medzi premennými datasetu airquality sa vyskytujú len mierne korelácie, bez známok extrémne silnej multikolinearity. Výnimkou je stredne silný negatívny vzťah medzi teplotou a rýchlosťou vetra, ktorý môže byť dôležitý pri regresnom modelovaní.

8 VIF (Variance Inflation Factor)

##  Solar.R     Wind     Temp 
## 1.095253 1.329070 1.431367
Variance Inflation Factor (VIF) pre model2
Variable VIF Interpretation
Solar.R Solar.R 1.10 Bez problému
Wind Wind 1.33 Bez problému
Temp Temp 1.43 Bez problému

Interpretácia

VIF > 5 = zvýšená multikolinearita

VIF > 10 = vážny problém

Podľa výsledku žiadna z premenných nespôsobuje zvýšenú kolinearitu, alebo vážny problém.

8.1 Condition Number + Condition Index

##    Eigenvalue Condition Index    intercept    Solar.R        Wind         Temp
## 1 3.742281903        1.000000 0.0005334700 0.01113785 0.005489511 7.115584e-04
## 2 0.178095684        4.583968 0.0009493572 0.61048141 0.173551160 7.586026e-06
## 3 0.075225774        7.053179 0.0148013882 0.35717130 0.419360473 4.490014e-02
## 4 0.004396639       29.174797 0.9837157846 0.02120944 0.401598856 9.543807e-01

Condition Index > 15 = slabá multikolinearita

CI > 30 = vážna multikolinearita

Interpretácia: Z testu sme zistili, že CI = 36.05 znamená, že aspoň dve premenné sú takmer lineárne závislé.

Pri CI > 30 nestačí vedieť, že problém existuje. Musíme zistiť:

→ ktoré premenné spolu kolineárne rastú

## Tolerance and Variance Inflation Factor
## ---------------------------------------
##   Variables Tolerance      VIF
## 1   Solar.R 0.9130312 1.095253
## 2      Wind 0.7524058 1.329070
## 3      Temp 0.6986329 1.431367
## 
## 
## Eigenvalue and Condition Index
## ------------------------------
##    Eigenvalue Condition Index    intercept    Solar.R        Wind         Temp
## 1 3.742281903        1.000000 0.0005334700 0.01113785 0.005489511 7.115584e-04
## 2 0.178095684        4.583968 0.0009493572 0.61048141 0.173551160 7.586026e-06
## 3 0.075225774        7.053179 0.0148013882 0.35717130 0.419360473 4.490014e-02
## 4 0.004396639       29.174797 0.9837157846 0.02120944 0.401598856 9.543807e-01

Čo to znamená?

Toto NIE JE multikolinearita medzi vysvetľujúcimi premennými. Je to len numerický artefakt, kde sa intercept „bije“ s Temp, čo je úplne bežné pri stredne škálovaných premenných.

Záver CI + variancie: Žiadna vážna multikolinearita medzi Solar.R, Wind, Temp, Month, Day.

## [1] 2.18327

Condition number (číslo podmienky) ukazuje, ako „stabilný“ je model z hľadiska multikolinearity.

Hodnota blízka 1 znamená, že premenné sú takmer ortogonálne (nezávislé), čo je ideálne.

8.2 Záver

Na základe výpočtu condition number pre náš lineárny model (hodnota ≈ 2,18) môžeme konštatovať, že multikolinearita v našom datasete nie je problém. Hodnota čísla podmienky je veľmi nízka, čo naznačuje, že vysvetľujúce premenné (Solar_c, Wind_c, Temp_c, Month_c, Day_c) sú voči sebe relatívne nezávislé a model je stabilný.

Podporu tomuto záveru poskytujú aj hodnoty VIF (Variance Inflation Factor):

Solar.R: 1.15

Wind: 1.33

Temp: 1.72

Month: 1.26

Day: 1.01

Všetky hodnoty VIF sú výrazne pod kritickou hranicou 5, čo opäť potvrdzuje, že multikolinearita v dátach nie je významná. Odhady regresných koeficientov sú teda spoľahlivé a výsledky regresnej analýzy nie sú skreslené nadmernou koreláciou medzi premennými.

9 Záver

V rámci analýzy datasetu airquality sme preskúmali vzťahy medzi koncentráciou ozónu a meteorologickými premennými (teplota, vietor, slnečné žiarenie) počas letných mesiacov v New Yorku. Postupne sme aplikovali:

Jednoduchú lineárnu regresiu, ktorá preukázala, že teplota má štatisticky významný vplyv na koncentráciu ozónu. Model vysvetľoval približne 48,8 % variability ozónu.

Viacnásobnú regresiu, kde sme zohľadnili aj vietor a slnečné žiarenie. Tento model vysvetlil až 60,6 % variability ozónu a ukázal komplexnejší obraz interakcií medzi premennými.

Diagnostické testy (heteroskedasticita, autokorelácia, odľahlé hodnoty) potvrdili, že väčšina predpokladov lineárnej regresie bola splnená.

Dynamizáciu modelu cez Koyckovu autoregresiu, ktorá eliminovala autokoreláciu rezíduí a zlepšila kvalitu predikcie.

Nelineárne členy a Box–Cox transformáciu, ktoré umožnili lepšie zachytiť zakrivené vzťahy a fyzikálne procesy ovplyvňujúce koncentráciu ozónu.

White / Newey–West robustné štandardné chyby, aby sa odstránili problémy s heteroskedasticitou a autokoreláciou.

Celkovo analýza potvrdila, že vyššia teplota a slnečné žiarenie zvyšujú koncentráciu ozónu, zatiaľ čo vyšší vietor ju znižuje. Použité postupy, vrátane dynamizácie a robustných odhadov, zabezpečili spoľahlivú interpretáciu výsledkov.

Význam práce: Práca demonštrovala, ako kombinácia lineárnej a nelineárnej regresie, diagnostických testov a autoregresívnych transformácií umožňuje realisticky modelovať časový vývoj kvality ovzdušia a identifikovať kľúčové faktory ovplyvňujúce tvorbu prízemného ozónu. Tento prístup môže byť využitý pri environmentálnych štúdiách, predpovedi kvality ovzdušia alebo pri hodnotení účinnosti opatrení znižujúcich znečistenie ovzdušia.