knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE)

Východiskový model a údaje

library(readr)
library(dplyr)
library(car)

# načítanie tvojich dát
udaje <- read.csv("Indian_water_data.csv",
                  dec = ".",
                  sep = ",",
                  header = TRUE,
                  check.names = FALSE)

# vyberieme len premenné, ktoré chceš použiť v modeli
udaje.sub <- udaje[, c(
  "BOD (mg/L) - Max",
  "Temperature (C) - Max",
  "pH - Max"
)]

# pre istotu konverzia na numerické
for (col in names(udaje.sub)) {
  udaje.sub[[col]] <- as.numeric(udaje.sub[[col]])
}

# data imputation – výpočet mediánov
column_medians <- sapply(udaje.sub, median, na.rm = TRUE)

# Imputácia chýbajúcich hodnôt mediánmi
udaje_imputed <- udaje.sub
for (col in names(udaje.sub)) {
  udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}

# finálny dataset
udaje <- udaje_imputed

summary(udaje)
 BOD (mg/L) - Max Temperature (C) - Max    pH - Max     
 Min.   : 1.000   Min.   : 8.00         Min.   : 6.600  
 1st Qu.: 2.000   1st Qu.:24.25         1st Qu.: 7.700  
 Median : 2.600   Median :29.00         Median : 8.000  
 Mean   : 4.997   Mean   :27.47         Mean   : 8.003  
 3rd Qu.: 2.900   3rd Qu.:32.00         3rd Qu.: 8.300  
 Max.   :90.000   Max.   :39.00         Max.   :11.200  
colSums(is.na(udaje))
     BOD (mg/L) - Max Temperature (C) - Max              pH - Max 
                    0                     0                     0 

Odhad základného regresného modelu

model <- lm(
  `BOD (mg/L) - Max` ~ 
    `Temperature (C) - Max` +
    `pH - Max`,
  data = udaje
)

summary(model)

Call:
lm(formula = `BOD (mg/L) - Max` ~ `Temperature (C) - Max` + `pH - Max`, 
    data = udaje)

Residuals:
   Min     1Q Median     3Q    Max 
-4.344 -3.049 -2.699 -1.859 85.121 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)
(Intercept)              3.31821   14.42947   0.230    0.818
`Temperature (C) - Max`  0.07662    0.11616   0.660    0.510
`pH - Max`              -0.05327    1.65470  -0.032    0.974

Residual standard error: 10.21 on 191 degrees of freedom
Multiple R-squared:  0.002507,  Adjusted R-squared:  -0.007938 
F-statistic:  0.24 on 2 and 191 DF,  p-value: 0.7868

Korelačná matica

xvars <- udaje[, c(
 "BOD (mg/L) - Max",
  "Temperature (C) - Max",
  "pH - Max"
)]

round(cor(xvars), 3)
                      BOD (mg/L) - Max Temperature (C) - Max pH - Max
BOD (mg/L) - Max                 1.000                 0.050   -0.015
Temperature (C) - Max            0.050                 1.000   -0.262
pH - Max                        -0.015                -0.262    1.000

Z korelačnej matice vidíme, že vzťahy medzi premennými sú veľmi slabé:

  • BOD (mg/L) – Max a Temperature (C) – Max
    Korelácia 0.050 znamená, že medzi BOD a teplotou je len veľmi slabý pozitívny lineárny vzťah.

  • BOD (mg/L) – Max a pH – Max
    Korelácia –0.015 je takmer nulová, takže pH prakticky vôbec nesúvisí so zmenami hodnoty BOD.

  • Temperature (C) – Max a pH – Max
    Korelácia –0.262 predstavuje slabú negatívnu koreláciu – pri vyššej teplote má voda mierne tendenciu mať nižšie pH, ale vzťah je stále relatívne slabý.

Záver

Žiadny z korelačných koeficientov nie je dostatočne silný na to, aby naznačoval problém s multikolinearitou. Premenné Temperature (C) - Max a pH - Max sú voči sebe len slabo závislé, čo je pre regresnú analýzu priaznivé.

pairs(
  xvars,
  main = "Scatterplotová matica – premenné BOD, teplota a pH"
)

Zo scatterplotovej matice môžeme pozorovať tieto vzťahy medzi premennými:

1. BOD (mg/L) – Max vs. Temperature (C) – Max

  • Body sú roztrúsené bez zjavného smerovania.
  • Nevidíme žiadny jednoznačný lineárny vzťah.
  • To potvrdzuje aj veľmi nízka korelácia (0.050).

2. BOD (mg/L) – Max vs. pH – Max

  • Body opäť nevykazujú jasný vzor.
  • BOD sa prakticky nemení so zmenou pH.
  • Zodpovedá takmer nulovej korelácii (–0.015).

3. Temperature (C) – Max vs. pH – Max

  • Viditeľný je mierny negatívny sklon – pri vyššej teplote sa hodnoty pH znižujú.
  • Vzťah však nie je silný; body sú stále pomerne rozptýlené.
  • To je v súlade s koreláciou –0.262, ktorá naznačuje slabší negatívny lineárny vzťah.

Zhrnutie

Scatterplotová matica vizuálne potvrdzuje, že:

  • Medzi premennými nie sú prítomné žiadne silné lineárne vzťahy.
  • Vzťah medzi teplotou a pH je mierne negatívny, ale vo všeobecnosti slabý.
  • BOD sa nezdá byť výrazne ovplyvnený ani teplotou, ani pH v lineárnej podobe.

Pre regresný model to znamená, že premenné neprejavujú problém multikolinearity, čo je priaznivé pre stabilitu odhadov.

VIF

vif(model)
`Temperature (C) - Max`              `pH - Max` 
                1.07343                 1.07343 

Výsledky:

  • Temperature (C) - Max: 1.073
  • pH - Max: 1.073

Interpretácia:

  • Hodnoty VIF sú veľmi blízko 1, čo znamená, že vysvetľujúce premenné prakticky nie sú lineárne závislé.
  • VIF < 5 vždy naznačuje, že multikolinearita nepredstavuje problém.
  • V tvojom prípade sú hodnoty extrémne nízke → multikolinearita je zanedbateľná.

Condition Number

X <- model.matrix(model)[, -1]   # odstráni intercept
XtX <- t(X) %*% X                # X'X matica
eig <- eigen(XtX)                # vlastné čísla

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 15.04439

Interpretácia

Náš výsledok (15) patrí do pásma:

mierna multikolinearita, ktorá však nie je nebezpečná

To znamená:

  • Vysvetľujúce premenné vykazujú len malé prekrytie informácie.
  • Model je stabilný a koeficienty sú dobre interpretovateľné.
  • Multikolinearita nie je problémom pre tvoj regresný model.

Zhrnutie

  • VIF ≈ 1 → premenné sú takmer nezávislé.
  • Condition number ≈ 15 → mierna, ale neškodná multikolinearita.

Model je teda z pohľadu multikolinearity veľmi dobre nastavený a spoľahlivý.

Riešenia multikolinearity

model_noTemp <- lm(
  `BOD (mg/L) - Max` ~ 
    `pH - Max`,
  data = udaje
)

summary(model_noTemp)

Call:
lm(formula = `BOD (mg/L) - Max` ~ `pH - Max`, data = udaje)

Residuals:
   Min     1Q Median     3Q    Max 
-4.167 -2.998 -2.434 -2.072 85.036 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   7.7079    12.7843   0.603    0.547
`pH - Max`   -0.3387     1.5948  -0.212    0.832

Residual standard error: 10.2 on 192 degrees of freedom
Multiple R-squared:  0.0002349, Adjusted R-squared:  -0.004972 
F-statistic: 0.04512 on 1 and 192 DF,  p-value: 0.832

Interpretácia modelu bez premennej Temperature (C) – Max

V tomto modeli vysvetľujeme hodnotu BOD (mg/L) – Max iba pomocou jednej premennej:

  • pH - Max

Koeficienty modelu

  • Intercept: 7.7079
    Odhadovaná hodnota BOD pri pH = 0 (čisto technická hodnota bez reálnej interpretácie, pretože pH = 0 sa v dátach nevyskytuje).

  • pH - Max: –0.3387
    Zmena pH o 1 jednotku je spojená s poklesom BOD približne o 0.34 mg/L, ale tento efekt nie je štatisticky významný (p-value = 0.832).

Štatistická významnosť

  • t-hodnota je veľmi nízka (–0.212),
  • p-hodnota = 0.832, čo znamená, že pH nevysvetľuje variabilitu BOD.

Kvalita modelu

  • R-squared = 0.00023, Adjusted R-squared = –0.00497
    → Model prakticky nevysvetľuje variabilitu BOD.

  • Residual standard error = 10.2
    → Rozptyl chýb zostal takmer rovnaký ako v pôvodnom modeli.

  • F-test (p-value = 0.832)
    → Model ako celok nie je štatisticky významný.

Zhrnutie

Model bez premennej teplota ukazuje, že:

  • pH samo o sebe nedokáže vysvetliť BOD,
  • predikčná sila modelu je prakticky nulová,
  • vylúčenie teploty model nezlepšilo, ani nezjednodušilo v zmysluplnom smere.

Tento výsledok je konzistentný so slabými koreláciami medzi premennými.

model_noPH <- lm(
  `BOD (mg/L) - Max` ~ 
    `Temperature (C) - Max`,
  data = udaje
)

summary(model_noPH)

Call:
lm(formula = `BOD (mg/L) - Max` ~ `Temperature (C) - Max`, data = udaje)

Residuals:
   Min     1Q Median     3Q    Max 
-4.348 -3.051 -2.698 -1.841 85.117 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)
(Intercept)               2.8650     3.1580   0.907    0.365
`Temperature (C) - Max`   0.0776     0.1118   0.694    0.489

Residual standard error: 10.19 on 192 degrees of freedom
Multiple R-squared:  0.002502,  Adjusted R-squared:  -0.002694 
F-statistic: 0.4815 on 1 and 192 DF,  p-value: 0.4886

Interpretácia modelu bez premennej pH – Max

V tomto modeli vysvetľujeme hodnotu BOD (mg/L) – Max iba pomocou jednej premennej:

  • Temperature (C) - Max

Koeficienty modelu

  • Intercept: 2.8650
    Predpokladaná hodnota BOD pri teplote 0 °C (opäť ide o technickú hodnotu mimo reálneho rozsahu dát).

  • Temperature (C) - Max: 0.0776
    Zvýšenie maximálnej teploty o 1 °C je spojené s nárastom BOD o približne 0.078 mg/L, avšak tento efekt nie je štatisticky významný
    (p-value = 0.489).

Štatistická významnosť

  • t-hodnota = 0.694, čo je veľmi nízke.
  • p-hodnota = 0.489, takže teplota nemá významný lineárny vplyv na hodnoty BOD.

Kvalita modelu

  • R-squared = 0.0025, Adjusted R-squared = –0.0027
    → Model vysvetľuje iba 0.25 % variability BOD, čo je zanedbateľné.

  • Residual standard error = 10.19, čo je prakticky rovnaké ako v predošlých modeloch.

  • F-test (p-value = 0.4886)
    → Model ako celok nie je štatisticky významný.

Zhrnutie

Model bez premennej pH ukazuje, že:

  • teplota sama o sebe nevysvetľuje variabilitu BOD,
  • predikčná schopnosť modelu je extrémne nízka,
  • výsledky zodpovedajú veľmi slabým koreláciám medzi premennými.

Tento model teda nie je vhodný ako náhrada pôvodného modelu a ukazuje, že BOD nie je lineárne ovplyvnené ani samotnou teplotou.

Škálovanie premenných

# centrónne škálovanie premenných
udaje$Temperature_c <- scale(udaje$`Temperature (C) - Max`, center = TRUE, scale = TRUE)
udaje$PH_c          <- scale(udaje$`pH - Max`,               center = TRUE, scale = TRUE)

# centrónny model
model_centered <- lm(
  `BOD (mg/L) - Max` ~ Temperature_c + PH_c,
  data = udaje
)

summary(model_centered)

Call:
lm(formula = `BOD (mg/L) - Max` ~ Temperature_c + PH_c, data = udaje)

Residuals:
   Min     1Q Median     3Q    Max 
-4.344 -3.049 -2.699 -1.859 85.121 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)    4.99691    0.73323   6.815  1.2e-10 ***
Temperature_c  0.50239    0.76164   0.660    0.510    
PH_c          -0.02452    0.76164  -0.032    0.974    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.21 on 191 degrees of freedom
Multiple R-squared:  0.002507,  Adjusted R-squared:  -0.007938 
F-statistic:  0.24 on 2 and 191 DF,  p-value: 0.7868

Škálovanie premenných

Premenné Temperature (C) - Max a pH - Max boli štandardizované (centrované a škálované).
Tým získali nulový priemer a jednotkovú smerodajnú odchýlku.
Takéto škálovanie nemente vzťahy medzi premennými, ale umožňuje porovnávať veľkosť ich koeficientov v spoločnej mierke.

vif(model_centered)
Temperature_c          PH_c 
      1.07343       1.07343 
  • Hodnoty VIF sú veľmi blízko 1, čo znamená, že vysvetľujúce premenné nie sú lineárne závislé.
  • Multikolinearita nie je problém v tomto modeli.
X <- model.matrix(model_centered)[, -1]   # odstráni intercept
XtX <- t(X) %*% X                         # X'X matica
eig <- eigen(XtX)                         # vlastné čísla

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.307043
  • Condition number blízky 1 potvrdzuje, že multikolinearita je takmer nulová.
  • Model je preto numericky stabilný a odhady koeficientov sú spoľahlivé.

Iná úprava premennej, ktorá zachová interpretovateľnosť

Teplota (Temperature (C) - Max) a pH (pH - Max) sú v rozdielnych mierkach – teplota sa pohybuje približne v desiatkach °C, zatiaľ čo pH v jednotkách.
Aby sme získali porovnateľné rády vysvetľujúcich premenných a zároveň zachovali jednoduchú interpretáciu, vytvoríme novú premennú Temp10, ktorá bude merať teplotu v desiatkach stupňov Celzia.

udaje$Temp10 <- udaje$`Temperature (C) - Max` / 10
head(udaje)

Odhad lineárneho modelu s Temp10

model_Temp10 <- lm(
  `BOD (mg/L) - Max` ~ Temp10 + `pH - Max`,
  data = udaje
)

summary(model_Temp10)

Call:
lm(formula = `BOD (mg/L) - Max` ~ Temp10 + `pH - Max`, data = udaje)

Residuals:
   Min     1Q Median     3Q    Max 
-4.344 -3.049 -2.699 -1.859 85.121 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  3.31821   14.42947   0.230    0.818
Temp10       0.76623    1.16163   0.660    0.510
`pH - Max`  -0.05327    1.65470  -0.032    0.974

Residual standard error: 10.21 on 191 degrees of freedom
Multiple R-squared:  0.002507,  Adjusted R-squared:  -0.007938 
F-statistic:  0.24 on 2 and 191 DF,  p-value: 0.7868

VIF pre nový model

vif(model_Temp10)
    Temp10 `pH - Max` 
   1.07343    1.07343 
  • Hodnoty VIF sú veľmi blízko 1, čo znamená takmer žiadnu multikolinearitu.

Condition number pre model s Temp10

X <- model.matrix(model_Temp10)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 12.58774
  • Hodnota okolo 12 naznačuje miernu multikolinearitu, ktorá však nepredstavuje problém.
  • Model je z numerického hľadiska stabilný.

Zhrnutie

  • Ani Temp10, ani pH nemajú štatisticky významný vplyv na BOD.
  • Model nevysvetľuje variabilitu BOD (takmer nulové R²).
  • Multikolinearita nie je problémom, čo potvrdzujú veľmi nízke hodnoty VIF.
  • Condition number je mierne zvýšený, ale stále v bezpečnom pásme.
