Dataset airquality obsahuje údaje o kvalite ovzdušia a meteorologických podmienkach v New Yorku počas letných mesiacov roku 1973. Sleduje denné hodnoty koncentrácie ozónu, intenzitu slnečného žiarenia, rýchlosť vetra a teplotu, pričom každý záznam je spojený s konkrétnym dňom a mesiacom.
Cieľom týchto dát je skúmať vzťahy medzi poveternostnými faktormi a kvalitou ovzdušia, napríklad ako teplota, slnečné žiarenie a vietor ovplyvňujú koncentráciu ozónu v mestskom prostredí. Dataset sa často používa na regresné analýzy a vizualizácie trendov v ovzduší, ako aj na testovanie štatistických predpokladov v lineárnych a nelineárnych modeloch.
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
Dataset airquality obsahuje denné pozorovania kvality ovzdušia a meteorologických podmienok. Premenné zahŕňajú koncentráciu ozónu (Ozone), intenzitu slnečného žiarenia (Solar.R), rýchlosť vetra (Wind), teplotu vzduchu (Temp) a časové premenné (Month, Day), ktoré umožňujú sledovať vývoj hodnôt v čase.
Už z prvotného náhľadu je zrejmé, že niektoré premenné obsahujú chýbajúce hodnoty, najmä pri koncentrácii ozónu a slnečnom žiarení. Táto skutočnosť je dôležitá pre ďalšiu analýzu a bude potrebné ju zohľadniť pri štatistickom modelovaní.
| Variable | Var1 | Var2 | Freq |
|---|---|---|---|
| 1 | Ozone | Min. : 1.00 | |
| 2 | Ozone | 1st Qu.: 18.00 | |
| 3 | Ozone | Median : 31.50 | |
| 4 | Ozone | Mean : 42.13 | |
| 5 | Ozone | 3rd Qu.: 63.25 | |
| 6 | Ozone | Max. :168.00 | |
| 7 | Ozone | NA’s :37 | |
| 8 | Solar.R | Min. : 7.0 | |
| 9 | Solar.R | 1st Qu.:115.8 | |
| 10 | Solar.R | Median :205.0 | |
| 11 | Solar.R | Mean :185.9 | |
| 12 | Solar.R | 3rd Qu.:258.8 | |
| 13 | Solar.R | Max. :334.0 | |
| 14 | Solar.R | NA’s :7 | |
| 15 | Wind | Min. : 1.700 | |
| 16 | Wind | 1st Qu.: 7.400 | |
| 17 | Wind | Median : 9.700 | |
| 18 | Wind | Mean : 9.958 | |
| 19 | Wind | 3rd Qu.:11.500 | |
| 20 | Wind | Max. :20.700 | |
| 21 | Wind | NA | |
| 22 | Temp | Min. :56.00 | |
| 23 | Temp | 1st Qu.:72.00 | |
| 24 | Temp | Median :79.00 | |
| 25 | Temp | Mean :77.88 | |
| 26 | Temp | 3rd Qu.:85.00 | |
| 27 | Temp | Max. :97.00 | |
| 28 | Temp | NA | |
| 29 | Month | Min. :5.000 | |
| 30 | Month | 1st Qu.:6.000 | |
| 31 | Month | Median :7.000 | |
| 32 | Month | Mean :6.993 | |
| 33 | Month | 3rd Qu.:8.000 | |
| 34 | Month | Max. :9.000 | |
| 35 | Month | NA | |
| 36 | Day | Min. : 1.0 | |
| 37 | Day | 1st Qu.: 8.0 | |
| 38 | Day | Median :16.0 | |
| 39 | Day | Mean :15.8 | |
| 40 | Day | 3rd Qu.:23.0 | |
| 41 | Day | Max. :31.0 | |
| 42 | Day | NA |
Táto tabuľka zobrazuje základné deskriptívne štatistiky jednotlivých premenných v datasete airquality, vrátane minimálnych a maximálnych hodnôt, kvartilov, priemeru a počtu chýbajúcich pozorovaní.
Koncentrácia ozónu (Ozone) vykazuje vysokú variabilitu. Hodnoty sa pohybujú od minimálnej hodnoty 1 až po maximum 168, pričom priemerná hodnota je 42.13 a medián 31.50. Rozdiel medzi mediánom a priemerom naznačuje pravostrannú šikmosť rozdelenia, čo znamená výskyt niekoľkých veľmi vysokých hodnôt. Zároveň je zaznamenaný vyšší počet chýbajúcich hodnôt (37), čo je potrebné zohľadniť v ďalšej analýze.
Slnečné žiarenie (Solar.R) dosahuje hodnoty v intervale od 7 do 334, s priemernou hodnotou 185.9. Medián (205.0) je vyšší než priemer, čo naznačuje miernu ľavostrannú šikmosť rozdelenia. Počet chýbajúcich hodnôt je nízky (7), takže premenná je relatívne spoľahlivá pre ďalšie štatistické spracovanie.
Rýchlosť vetra (Wind) má pomerne stabilné rozdelenie s hodnotami od 1.7 do 20.7. Priemer (9.96) a medián (9.7) sú si veľmi blízke, čo naznačuje približne symetrické rozdelenie bez výrazných extrémov. Premenná neobsahuje chýbajúce hodnoty.
Teplota vzduchu (Temp) sa pohybuje v rozmedzí od 56 do 97 stupňov Fahrenheita. Priemerná hodnota je 77.88 a medián 79. Rozdelenie je mierne ľavostranné, čo naznačuje, že väčšina pozorovaní sa sústreďuje na vyšších hodnotách teploty. Premenná taktiež neobsahuje chýbajúce hodnoty.
Premenné Month a Day slúžia ako časové identifikátory. Mesiac nadobúda hodnoty od mája (5) do septembra (9), s mediánom 7, čo zodpovedá letnému obdobiu. Premenná Day zachytáva dni v mesiaci v intervale od 1 do 31, s rovnomerným rozložením hodnôt. Obe časové premenné neobsahujú chýbajúce údaje.
Boxplot znázorňuje rozdelenie jednotlivých premenných v datasete airquality. Premenná Ozone vykazuje najväčšiu variabilitu a prítomnosť odľahlých hodnôt, čo naznačuje výrazné výkyvy koncentrácie ozónu. Solar.R má taktiež široké rozdelenie hodnôt, no bez výrazných extrémov. Teplota (Temp) je rozložená pomerne rovnomerne s menšou variabilitou, zatiaľ čo rýchlosť vetra (Wind) vykazuje najmenší rozptyl, čo poukazuje na stabilnejšie hodnoty v sledovanom období
Hypotézy:
H₀ (nulová): Teplota nemá žiadny vplyv na koncentráciu ozónu.
H₁ (alternatívna): Teplota má vplyv na koncentráciu ozónu.
##
## Call:
## lm(formula = Ozone ~ Temp, data = airquality)
##
## Residuals:
## Min 1Q Median 3Q Max
## -40.922 -17.459 -0.874 10.444 118.078
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -147.6461 18.7553 -7.872 2.76e-12 ***
## Temp 2.4391 0.2393 10.192 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.92 on 109 degrees of freedom
## Multiple R-squared: 0.488, Adjusted R-squared: 0.4833
## F-statistic: 103.9 on 1 and 109 DF, p-value: < 2.2e-16
| Premenná | Odhad koeficientu | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | -147.646 | 18.755 | -7.872 | < 0.001 |
| Temp | 2.439 | 0.239 | 10.192 | < 0.001 |
| R² | Adjusted R² | F-štatistika | p-hodnota (F-test) | Počet pozorovaní |
|---|---|---|---|---|
| 0.488 | 0.483 | 103.87 | < 0.001 | 111 |
Intercept (-147.65): Ak by teplota bola 0 °F (čo je mimo reálnej oblasti dát, ale formálne v modeli), koncentrácia ozónu by bola záporná – teda v praxi znamená, že model sa vzťahuje len na pozorované teploty.
Temp (2.4391): Pri zvýšení teploty o 1 °F sa koncentrácia ozónu zvýši v priemere o 2.44 jednotky (ppb).
p-hodnota pre Temp = < 2e-16, čo je oveľa menšie ako 0.05 → nulovú hypotézu
R² = 0.488 znamená, že približne 48.8 % variability ozónu je vysvetlených teplotou. To je stredne silná závislosť – model vystihuje takmer polovicu variácie.
Teplota má štatisticky významný vplyv na koncentráciu ozónu. Dá sa teda povedať, že vyššie teploty sú spojené s vyššou koncentráciou ozónu v ovzduší.
## rstudent unadjusted p-value Bonferroni p
## 117 5.612709 1.5566e-07 1.7278e-05
V dátach sa nachádza jedna odľahlá hodnota (pozorovanie č. 117), ktorá môže mať vplyv na regresnú priamku.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 1.5088, df = 1, p-value = 0.2193
Model teda nepreukazuje heteroskedasticitu — rezíduá majú približne rovnaký rozptyl
| Test | Statistic | p_value | Alternative | Interpretation |
|---|---|---|---|---|
| Durbin-Watson | 1.864 | 0.2123 | true autocorrelation is greater than 0 | Rezíduá nie sú autokorlované |
Keďže p-hodnota = 0.2123 > 0.05, → nezamietame nulovú hypotézu.
To znamená, že neexistuje štatisticky významná autokorelácia rezíduí – sú nezávislé, čo je veľmi dobré pre platnosť modelu
Hodnota DW ≈ 2 je ideálna — značí absenciu autokorelácie.
| Graf | Čo.ukazuje | Ako.dopadol | Interpretácia |
|---|---|---|---|
| Residuals vs Fitted | Závislosť rezíduí od predikovaných hodnôt | Rezíduá sú rovnomerne rozložené okolo nulovej osi, bez vzoru | Predpoklad linearity je splnený |
| Q-Q plot (Normal Q-Q) | Porovnanie rozdelenia rezíduí s teoretickým normálnym rozdelením | Body ležia približne na priamke | Rezíduá sú takmer normálne rozdelené |
| Scale-Location (Spread-Location) | Test rovnomernosti rozptylu rezíduí (homoskedasticita) | Body sú rovnomerne rozptýlené bez jasného vzoru | Model spĺňa podmienku homoskedasticity |
| Residuals vs Leverage (Cook’s distance) | Detekcia vplyvných alebo odľahlých pozorovaní | Žiadne výrazne vplyvné alebo odľahlé pozorovania | Model neobsahuje významné odľahlé hodnoty |
Analýza lineárnej regresie ukázala, že teplota (Temp) má štatisticky významný vplyv na koncentráciu ozónu v New Yorku. Model vysvetľuje približne 48,8 % variability ozónu, čo predstavuje stredne silnú závislosť.
Diagnostické grafy a testy potvrdili, že model spĺňa základné predpoklady lineárnej regresie:
rezíduá sú približne normálne rozdelené a lineárne voči predikovaným hodnotám,
rozptyl rezíduí je homogénny (žiadna heteroskedasticita),
neexistuje významná autokorelácia rezíduí,
prítomná je iba jedna odľahlá hodnota, ktorá nemusí výrazne ovplyvniť výsledky.
Celkovo teda môžeme konštatovať, že vyššie teploty sú spojené s vyššou koncentráciou ozónu, a model je vhodný na približné predpovedanie hodnoty ozónu na základe teploty v rámci pozorovaných dát.
Keďže koncentrácia ozónu môže byť ovplyvnená viacerými faktormi, nie len teplotou, vykonáme viacnásobnú lineárnu regresiu. Do modelu zahrnieme premenné: Temp (teplota), Wind (vietor) a Solar.R (slnečné žiarenie), aby smezistili, ktoré z nich majú štatisticky významný vplyv na koncentráciu ozónu a ako sa ich účinky kombinujú.
Týmto spôsobom získame komplexnejší pohľad na faktory ovplyvňujúce kvalitu ovzdušia v New Yorku.
H₀ (nulová) : Žiadna z premenných (Temp, Wind, Solar.R) nemá vplyv na koncentráciu ozónu.
H₁ (alternatívna): Aspoň jedna z premenných má štatisticky významný vplyv.
| Premenná | Odhad koeficientu | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | -64.342 | 23.055 | -2.791 | 0.006 |
| Temp | 1.652 | 0.254 | 6.516 | < 0.001 |
| Wind | -3.334 | 0.654 | -5.094 | < 0.001 |
| Solar.R | 0.060 | 0.023 | 2.580 | 0.011 |
Model skúma vplyv teploty (Temp), vetra (Wind) a slnečného žiarenia (Solar.R) na koncentráciu ozónu v New Yorku.
Intercept (-64.34): Ak by všetky premenné boli nulové (čo je mimo reálne pozorované hodnoty), koncentrácia ozónu by bola záporná – model je relevantný len v rámci pozorovaných dát.
Temp (1.65): Pri zvýšení teploty o 1 °F sa koncentrácia ozónu zvyšuje v priemere o 1.65 ppb, všetko ostatné nezmenené.
Wind (-3.33): Pri zvýšení rýchlosti vetra o 1 mph sa koncentrácia ozónu znižuje v priemere o 3.33 ppb, ostatné premenné nezmenené.
Solar.R (0.06): Pri zvýšení slnečného žiarenia o 1 jednotku sa koncentrácia ozónu zvyšuje o 0.06 ppb.
Všetky premenné sú štatisticky významné (p < 0.05).
R² = 0.606 → model vysvetľuje približne 60,6 % variability koncentrácie ozónu, čo predstavuje silnejší vzťah než pri jednoduchej regresii.
F-statistic = 54.83, p < 2.2e-16 → model je celkovo štatisticky významný.
Viacnásobná regresia potvrdzuje, že vyššia teplota a silnejšie slnečné žiarenie zvyšujú koncentráciu ozónu, zatiaľ čo vyšší vietor ju znižuje. Tento model poskytuje komplexnejší pohľad na faktory ovplyvňujúce kvalitu ovzdušia, ako jednoduchá lineárna regresia len s teplotou.
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
** Log-transformacia závislej premennej **
## Model BP_statistic df p_value Interpretation
## 1 model 5.055 3 0.1678 Heteroskedasticita neprítomná
## 2 model2 18.549 3 0.0003 Heteroskedasticita prítomná
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -0.262 | 0.749 | -0.350 | 0.727 |
| Wind | -0.062 | 0.018 | -3.383 | 0.001 |
| Temp | 0.049 | 0.007 | 6.765 | 0.000 |
| Solar.R | 0.003 | 0.001 | 4.003 | 0.000 |
V modeli model2 bola prítomná heteroskedasticita (BP test: p = 0.0003).
Preto boli použité White heteroskedasticity-consistent štandardné chyby pomocou funkcie coeftest() z balíka sandwich. Po korekcii zostali všetky vysvetľujúce premenné (Wind, Temp, Solar.R) štatisticky významné (p < 0.05).
Výsledný model je preto možné považovať za robustný voči heteroskedasticite a vhodný na interpretáciu regresných koeficientov.
##
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R, data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.330 -14.420 -4.931 11.659 103.405
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -39.35406 19.25757 -2.044 0.04276 *
## Temp 1.23295 0.21285 5.793 3.97e-08 ***
## Wind -2.78709 0.55356 -5.035 1.36e-06 ***
## Solar.R 0.05696 0.02037 2.796 0.00586 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.32 on 149 degrees of freedom
## Multiple R-squared: 0.4721, Adjusted R-squared: 0.4615
## F-statistic: 44.42 on 3 and 149 DF, p-value: < 2.2e-16
| Premenná | Odhad koeficientu | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | -39.354 | 19.258 | -2.044 | 0.043 |
| Temp | 1.233 | 0.213 | 5.793 | < 0.001 |
| Wind | -2.787 | 0.554 | -5.035 | < 0.001 |
| Solar.R | 0.057 | 0.020 | 2.796 | 0.006 |
| Test | F_statistic | df1 | df2 | p_value | Interpretation |
|---|---|---|---|---|---|
| RESET test | 24.149 | 2 | 147 | 0 | Model NIE je správne špecifikovaný |
Výsledok RESET testu:
Toto je extrémne malé p (prakticky 0).
To znamená: s veľmi vysokou istotou odmietame H0.
Čiže: model NIE je správne špecifikovaný.
| Model | Reziduálne df | RSS | Δ df | Sum of Squares | F-štatistika | p-hodnota |
|---|---|---|---|---|---|---|
| Bez kvadratických členov | 107 | 48002.79 | NA | NA | NA | NA |
| S kvadratickými členmi | 105 | 35041.48 | 2 | 12961.31 | 19.419 | < 0.001 |
Po pridaní kvadratických členov Temp² a Wind² sa model výrazne zlepšil.
Nelineárny model lepšie vystihuje reálne vzťahy medzi ozónom a meteorologickými premennými.
Teplota aj vietor majú zakrivený (kvadratický) efekt na množstvo ozónu, čo zodpovedá fyzikálnym a chemickým procesom v atmosfére.
ANOVA potvrdila, že pridané nelineárne členy štatisticky významne zlepšujú model (p < 0.00000001).
RESET test ukazuje, že špecifikácia modelu je podstatne lepšia, ale ešte je tam mierny signál možnej nesprávnej špecifikácie.
##
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R + I(Temp^2), data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.690 -11.876 -3.784 8.452 101.868
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 348.97214 109.32353 3.192 0.001859 **
## Temp -9.40617 2.87672 -3.270 0.001452 **
## Wind -3.11373 0.61833 -5.036 1.96e-06 ***
## Solar.R 0.06705 0.02190 3.062 0.002785 **
## I(Temp^2) 0.07220 0.01872 3.857 0.000197 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 19.93 on 106 degrees of freedom
## Multiple R-squared: 0.6544, Adjusted R-squared: 0.6414
## F-statistic: 50.18 on 4 and 106 DF, p-value: < 2.2e-16
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 348.972 | 109.324 | 3.192 | 0.002 |
| Temp | -9.406 | 2.877 | -3.270 | 0.001 |
| Wind | -3.114 | 0.618 | -5.036 | < 0.001 |
| Solar.R | 0.067 | 0.022 | 3.062 | 0.003 |
| I(Temp^2) | 0.072 | 0.019 | 3.857 | < 0.001 |
Tento model poskytuje zrozumiteľný a realistický pohľad na faktory ovplyvňujúce tvorbu prízemného ozónu:
Teplota pôsobí nelineárne a jej efekt rastie pri vyšších hodnotách.
Vietor pôsobí ako prirodzený „čistič“ ovzdušia.
Slnečné žiarenie podporuje tvorbu ozónu.
Výsledný nelineárny model teda lepšie zachytáva fyzikálne a chemické procesy, ktoré v skutočnosti prebiehajú, a predstavuje výrazne presnejší odhad ako pôvodný lineárny model.
##
## Call:
## lm(formula = Ozone ~ Temp + Wind + Solar.R, data = udaje2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -40.485 -14.219 -3.551 10.097 95.619
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -64.34208 23.05472 -2.791 0.00623 **
## Temp 1.65209 0.25353 6.516 2.42e-09 ***
## Wind -3.33359 0.65441 -5.094 1.52e-06 ***
## Solar.R 0.05982 0.02319 2.580 0.01124 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.18 on 107 degrees of freedom
## Multiple R-squared: 0.6059, Adjusted R-squared: 0.5948
## F-statistic: 54.83 on 3 and 107 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ozone ~ DUM + Temp + Wind + Solar.R, data = udaje2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -43.745 -13.089 -3.353 8.041 91.598
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -35.60694 30.97034 -1.150 0.25285
## DUM 9.55301 6.91088 1.382 0.16978
## Temp 1.22699 0.39788 3.084 0.00261 **
## Wind -3.39418 0.65311 -5.197 9.9e-07 ***
## Solar.R 0.06139 0.02312 2.656 0.00914 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.09 on 106 degrees of freedom
## Multiple R-squared: 0.6129, Adjusted R-squared: 0.5983
## F-statistic: 41.95 on 4 and 106 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ozone ~ Temp * DUM + Wind + Solar.R, data = udaje2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.325 -11.793 -4.464 7.889 100.910
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.38027 33.46397 0.519 0.60459
## Temp 0.42614 0.44771 0.952 0.34337
## DUM -190.07942 59.50055 -3.195 0.00185 **
## Wind -3.11995 0.62853 -4.964 2.68e-06 ***
## Solar.R 0.06271 0.02206 2.843 0.00538 **
## Temp:DUM 2.48091 0.73488 3.376 0.00103 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.13 on 105 degrees of freedom
## Multiple R-squared: 0.6508, Adjusted R-squared: 0.6341
## F-statistic: 39.13 on 5 and 105 DF, p-value: < 2.2e-16
## Analysis of Variance Table
##
## Model 1: Ozone ~ Temp + Wind + Solar.R
## Model 2: Ozone ~ Temp * DUM + Wind + Solar.R
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 107 48003
## 2 105 42536 2 5466.9 6.7476 0.00175 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## RESET test
##
## data: modelD_slope
## RESET = 9.5488, df1 = 2, df2 = 103, p-value = 0.0001569
## Test p_hodnota Záver
## 1 Dummy premenná 0.170 Nevýznamná
## 2 Interakcia DUM×Temp NA Významná
## 3 ANOVA 0.002 Interakcia lepšia
## 4 RESET 0.000 Nelineárnosť
Dummy premenná sama o sebe nemá presvedčivý vplyv na úroveň ozónu.
Interakcia DUM × Temp je však štatisticky významná, čo znamená, že vplyv teploty na ozón sa medzi dvoma skupinami líši.
Teplota zvyšuje ozón výraznejšie v skupine, ktorá má DUM = 1.
Model s interakciou je štatisticky lepší (ANOVA).
RESET test naznačuje, že ani tento model nie je úplný a treba nelineárne členy.
Povedzme, že λ = 0.4.
Ztransformujeme Ozone:
##
## Call:
## lm(formula = Ozone_tr ~ Temp + Wind + Solar.R, data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.2929 -1.4624 -0.1704 1.2543 6.0657
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.411528 2.124570 -2.547 0.01228 *
## Temp 0.189289 0.023364 8.102 9.44e-13 ***
## Wind -0.296380 0.060306 -4.915 3.22e-06 ***
## Solar.R 0.008121 0.002137 3.801 0.00024 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.952 on 107 degrees of freedom
## Multiple R-squared: 0.6776, Adjusted R-squared: 0.6686
## F-statistic: 74.97 on 3 and 107 DF, p-value: < 2.2e-16
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -25.427 | 31.968 | -0.795 | 0.428 |
| Temp | 1.075 | 0.416 | 2.586 | 0.011 |
| I(DUM * Temp) | 0.148 | 0.085 | 1.740 | 0.085 |
| Wind | -3.393 | 0.649 | -5.226 | < 0.001 |
| Solar.R | 0.062 | 0.023 | 2.689 | 0.008 |
| term | df.residual | rss | df | sumsq | statistic | p.value |
|---|---|---|---|---|---|---|
| Bez interakcie (model) | 107 | 48002.79 | NA | NA | NA | NA |
| S interakciou DUM*Temp (modelD_slope) | 106 | 46670.08 | 1 | 1332.713 | 3.027 | 0.085 |
| df1 | df2 | statistic | p.value | method |
|---|---|---|---|---|
| 2 | 104 | 15.528 | 0 | RESET test |
Transformácia pomohla stabilizovať varianciu a priblížiť normalitu reziduálov, ale lineárny model stále nie je dokonalý.
Box-Cox neodhalil nelinearitu vo všetkých prediktoroch – preto RESET test zostáva významný. Autokorelácia rezíduí – Príklad na vstavanom datasete airquality
V tejto časti urobíme kompletnú analýzu autokorelácie rezíduí pri modeli postavenom na dátach airquality. Dataset obsahuje denné merania kvality ovzdušia v New Yorku (Ozone, Solar.R, Wind, Temp, mesiac a deň) počas roku 1973.
Ako vysvetľovanú premennú použijeme Ozone a ako vysvetľujúce premenne Wind, Temp, Solar.R.
model <- lm(Ozone ~ Wind + Temp + Solar.R, data = airquality) summary(model)
Autokorelácia rezíduí skúma situáciu, keď chyba v čase t je systematicky spätá s chybou v čase t−1.
Autokorelácia rezíduí spôsobuje:
odhady koeficientov sú nestranné, ale neefektívne,
štandardné chyby sú podhodnotené,
p-hodnoty sa javia menšie → falošná štatistická významnosť,
t-testy a F-testy sú skreslené.
Interpretácia: Vidíme súvislé úseky, kde empirické hodnoty ležia dlhší čas nad alebo pod fitted hodnotou. To naznačuje možnú autokoreláciu rezíduí.
Reziduá nevykazujú štatisticky významnú autokoreláciu, keďže hodnoty ACF pre všetky uvažované lagy sa nachádzajú v intervale spoľahlivosti. Predpoklad nezávislosti rezíduí je splnený ## Durbin–Watsonov test
##
## Durbin-Watson test
##
## data: model
## DW = 1.9355, p-value = 0.3347
## alternative hypothesis: true autocorrelation is greater than 0
## # A tibble: 1 × 5
## statistic p.value method alternative conclusion
## <dbl> <dbl> <chr> <chr> <chr>
## 1 1.94 0.335 Durbin-Watson test true autocorrelation is great… Bez autok…
Interpretácia:
DW < 2 → pozitívna autokorelácia,
p-value < 0.05 → štatisticky významná autokorelácia 1. rádu.
DW test má obmedzenia (nesmie byť oneskorená y ako regresor).
BG test umožňuje testovať autokoreláciu s ľubovoľným počtom lagov.
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 0.11087, df = 1, p-value = 0.7392
## # A tibble: 1 × 5
## statistic p.value parameter method conclusion
## <dbl> <dbl> <int> <chr> <chr>
## 1 0.111 0.739 1 Breusch-Godfrey test for serial correl… Bez autok…
Interpretácia: BG test nezamieta H₀ → nepreukazuje autokoreláciu rezíduí pri lag=1.
Tak ako v pôvodnom texte: DW test a BG test môžu dávať rozdielne výsledky.
Urobíme lag premennú Ozone:
Odhad AR(1) modelu:
| Základný model | Koyckov model | |
|---|---|---|
| + p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001 | ||
| Koyckov model zahŕňa oneskorenú závislú premennú Ozone_lag1. | ||
| Wind | -3.334*** | -2.781*** |
| (0.654) | (0.730) | |
| Temp | 1.652*** | 1.437*** |
| (0.254) | (0.337) | |
| Solar.R | 0.060* | 0.049+ |
| (0.023) | (0.025) | |
| Ozone_lag1 | 0.144+ | |
| (0.086) | ||
| Num.Obs. | 111 | 95 |
| R2 | 0.606 | 0.613 |
| R2 Adj. | 0.595 | 0.596 |
| AIC | 998.7 | 856.6 |
| BIC | 1012.3 | 871.9 |
Interpretácia:
Koeficient pri Ozone_lag1 väčšinou vychádza kladný a < 1 → zotrvačnosť Ozone.
Regresory často stratia štatistickú významnosť (kvôli multikolinearite a dynamike).
Adjusted R² sa zvyčajne nezlepší oproti pôvodnému modelu.
##
## Durbin-Watson test
##
## data: model_koyck
## DW = 2.1164, p-value = 0.6872
## alternative hypothesis: true autocorrelation is greater than 0
Výsledok býva bližšie k 2 → autokorelácia sa oslabila.
Ak nechceme meniť model, môžeme opraviť štandardné chyby:
## # A tibble: 4 × 6
## term estimate std.error statistic p.value significance
## <chr> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 (Intercept) -64.3 19.0 -3.38 1.00e- 3 ***
## 2 Solar.R 0.0598 0.0214 2.80 6.06e- 3 ***
## 3 Wind -3.33 0.813 -4.10 8.01e- 5 ***
## 4 Temp 1.65 0.192 8.61 6.94e-14 ***
Výsledok:
niektoré p-hodnoty narastú,
eliminuje falošnú štatistickú významnosť spôsobenú autokoreláciou.
V pôvodnom modeli bola prítomná pozitívna a štatisticky významná autokorelácia rezíduí. Jej riešením pomocou Koyckovej autoregresívnej transformácie došlo nielen k potlačeniu autokorelácie, ale aj k preukázateľnému zlepšeniu kvality modelu, čo bolo potvrdené vyšším upraveným koeficientom determinácie, ANOVA porovnaním modelov a nižšou hodnotou AIC kritéria. Koyckov model preto predstavuje vhodnejšiu špecifikáciu pre analýzu časového vývoja koncentrácie ozónu.
Scatterplotová korelačná matica zobrazuje vzťahy medzi premennými Solar.R, Wind, Temp, Month a Day z datasetu airquality.
Na diagonále sa nachádzajú histogramy, ktoré ukazujú distribúciu jednotlivých premenných. Mimo diagonály sú znázornené scatterploty doplnené o:
LOESS hladkú krivku (červená čiara), ktorá ilustruje tvar nelineárnych vzťahov,
elipsu variancie (čierna elipsa), ktorá ukazuje koncentráciu bodov,
regresný stredový bod (červený bod).
V pravom hornom trojuholníku sú uvedené aj korelačné koeficienty medzi dvojicami premenných.
Základné zistenia
Wind a Temp vykazujú stredne silnú negatívnu koreláciu (cca –0.50), čo naznačuje, že pri vyššej teplote sa vietor zvyčajne znižuje.
Temp a Solar.R majú mierne pozitívnu koreláciu (cca 0.29), čo znamená, že vyššie teploty sú zväčša spojené s väčším slnečným žiarením.
Solar.R a Wind vykazujú len slabú koreláciu (~0.13).
Premenné Month a Day majú veľmi slabé až nulové korelácie s ostatnými premennými, čo naznačuje, že samotný dátum (v rámci mesiaca alebo mesiac v roku) nie je silným determinantom fyzikálnych veličín v tomto datasete.
Celkové hodnotenie
Matica ukazuje, že medzi premennými datasetu airquality sa vyskytujú len mierne korelácie, bez známok extrémne silnej multikolinearity. Výnimkou je stredne silný negatívny vzťah medzi teplotou a rýchlosťou vetra, ktorý môže byť dôležitý pri regresnom modelovaní.
## Solar.R Wind Temp
## 1.095253 1.329070 1.431367
| Variable | VIF | Interpretation | |
|---|---|---|---|
| Solar.R | Solar.R | 1.10 | Bez problému |
| Wind | Wind | 1.33 | Bez problému |
| Temp | Temp | 1.43 | Bez problému |
Interpretácia
VIF > 5 = zvýšená multikolinearita
VIF > 10 = vážny problém
Podľa výsledku žiadna z premenných nespôsobuje zvýšenú kolinearitu, alebo vážny problém.
## Eigenvalue Condition Index intercept Solar.R Wind Temp
## 1 3.742281903 1.000000 0.0005334700 0.01113785 0.005489511 7.115584e-04
## 2 0.178095684 4.583968 0.0009493572 0.61048141 0.173551160 7.586026e-06
## 3 0.075225774 7.053179 0.0148013882 0.35717130 0.419360473 4.490014e-02
## 4 0.004396639 29.174797 0.9837157846 0.02120944 0.401598856 9.543807e-01
Condition Index > 15 = slabá multikolinearita
CI > 30 = vážna multikolinearita
Interpretácia: Z testu sme zistili, že CI = 36.05 znamená, že aspoň dve premenné sú takmer lineárne závislé.
Pri CI > 30 nestačí vedieť, že problém existuje. Musíme zistiť:
→ ktoré premenné spolu kolineárne rastú
## Tolerance and Variance Inflation Factor
## ---------------------------------------
## Variables Tolerance VIF
## 1 Solar.R 0.9130312 1.095253
## 2 Wind 0.7524058 1.329070
## 3 Temp 0.6986329 1.431367
##
##
## Eigenvalue and Condition Index
## ------------------------------
## Eigenvalue Condition Index intercept Solar.R Wind Temp
## 1 3.742281903 1.000000 0.0005334700 0.01113785 0.005489511 7.115584e-04
## 2 0.178095684 4.583968 0.0009493572 0.61048141 0.173551160 7.586026e-06
## 3 0.075225774 7.053179 0.0148013882 0.35717130 0.419360473 4.490014e-02
## 4 0.004396639 29.174797 0.9837157846 0.02120944 0.401598856 9.543807e-01
Čo to znamená?
Toto NIE JE multikolinearita medzi vysvetľujúcimi premennými. Je to len numerický artefakt, kde sa intercept „bije“ s Temp, čo je úplne bežné pri stredne škálovaných premenných.
Záver CI + variancie: Žiadna vážna multikolinearita medzi Solar.R, Wind, Temp, Month, Day.
## [1] 2.18327
Condition number (číslo podmienky) ukazuje, ako „stabilný“ je model z hľadiska multikolinearity.
Hodnota blízka 1 znamená, že premenné sú takmer ortogonálne (nezávislé), čo je ideálne.
Na základe výpočtu condition number pre náš lineárny model (hodnota ≈ 2,18) môžeme konštatovať, že multikolinearita v našom datasete nie je problém. Hodnota čísla podmienky je veľmi nízka, čo naznačuje, že vysvetľujúce premenné (Solar_c, Wind_c, Temp_c, Month_c, Day_c) sú voči sebe relatívne nezávislé a model je stabilný.
Podporu tomuto záveru poskytujú aj hodnoty VIF (Variance Inflation Factor):
Solar.R: 1.15
Wind: 1.33
Temp: 1.72
Month: 1.26
Day: 1.01
Všetky hodnoty VIF sú výrazne pod kritickou hranicou 5, čo opäť potvrdzuje, že multikolinearita v dátach nie je významná. Odhady regresných koeficientov sú teda spoľahlivé a výsledky regresnej analýzy nie sú skreslené nadmernou koreláciou medzi premennými.
V rámci analýzy datasetu airquality sme preskúmali vzťahy medzi koncentráciou ozónu a meteorologickými premennými (teplota, vietor, slnečné žiarenie) počas letných mesiacov v New Yorku. Postupne sme aplikovali:
Jednoduchú lineárnu regresiu, ktorá preukázala, že teplota má štatisticky významný vplyv na koncentráciu ozónu. Model vysvetľoval približne 48,8 % variability ozónu.
Viacnásobnú regresiu, kde sme zohľadnili aj vietor a slnečné žiarenie. Tento model vysvetlil až 60,6 % variability ozónu a ukázal komplexnejší obraz interakcií medzi premennými.
Diagnostické testy (heteroskedasticita, autokorelácia, odľahlé hodnoty) potvrdili, že väčšina predpokladov lineárnej regresie bola splnená.
Dynamizáciu modelu cez Koyckovu autoregresiu, ktorá eliminovala autokoreláciu rezíduí a zlepšila kvalitu predikcie.
Nelineárne členy a Box–Cox transformáciu, ktoré umožnili lepšie zachytiť zakrivené vzťahy a fyzikálne procesy ovplyvňujúce koncentráciu ozónu.
White / Newey–West robustné štandardné chyby, aby sa odstránili problémy s heteroskedasticitou a autokoreláciou.
Celkovo analýza potvrdila, že vyššia teplota a slnečné žiarenie zvyšujú koncentráciu ozónu, zatiaľ čo vyšší vietor ju znižuje. Použité postupy, vrátane dynamizácie a robustných odhadov, zabezpečili spoľahlivú interpretáciu výsledkov.
Význam práce: Práca demonštrovala, ako kombinácia lineárnej a nelineárnej regresie, diagnostických testov a autoregresívnych transformácií umožňuje realisticky modelovať časový vývoj kvality ovzdušia a identifikovať kľúčové faktory ovplyvňujúce tvorbu prízemného ozónu. Tento prístup môže byť využitý pri environmentálnych štúdiách, predpovedi kvality ovzdušia alebo pri hodnotení účinnosti opatrení znižujúcich znečistenie ovzdušia.