Kvalita povrchových vôd je kľúčovým faktorom pre zdravie obyvateľstva, poľnohospodárstvo aj fungovanie ekosystémov. Stav vody sa v praxi monitoruje pomocou fyzikálnych a chemických ukazovateľov, ako sú teplota, pH, rozpustený kyslík, elektrická vodivosť, biologická spotreba kyslíka (BOD) a obsah dusíka vo forme dusičnanov.
Úroveň pH ovplyvňuje biochemické procesy v ekosystémoch a reakcie iných látok vo vode. Odchýlky od neutrálnej oblasti (približne 6,5–8,5) môžu signalizovať znečistenie alebo iné narušenie ekologickej rovnováhy. Cieľom tejto práce je ekonometricky modelovať maximálnu hodnotu pH v monitorovacích lokalitách v Indii a skúmať, ktoré faktory kvality vody majú na pH štatisticky významný vplyv.
Zároveň sa budeme venovať aj štandardným diagnostikám lineárneho regresného modelu, ako sú heteroskedasticita, špecifikácia modelu a multikolinearita. V závere pomocou zhlukovej analýzy klasifikujeme monitorovacie lokality podľa podobnosti kvality vody.
Tieto dáta pochádzajú z verejne dostupného datasetu na Kaggle - Indian Water Quality Data (2021-2023) Údaje pochádzajú z monitoringu kvality povrchových vôd v Indii. Pre účely tejto analýzy sme použili nasledovné premenné:
pH - Max – maximálna hodnota pH (vysvetľovaná
premenná),Temperature (C) - Max – maximálna teplota vody,Dissolved - Max – maximálny obsah rozpusteného
kyslíka,Conductivity (¬µmho/cm) - Max – elektrická
vodivosť,BOD (mg/L) - Max – biologická spotreba kyslíka,NitrateN (mg/L) - Max – obsah dusičnanového
dusíka.Pri pohľade na základné štatistiky vidíme, že rozsah dát pokrýva roky 2021 až 2023 a zahŕňa 194 monitorovacích lokalít v rôznych štátoch Indie. Teplota vody sa pohybuje v rozsahu približne od 1 °C po 39 °C, pričom stredné hodnoty indikujú typické teploty povrchových vôd tropického pásma.
Hodnoty rozpusteného kyslíka (DO) sa pohybujú prevažne medzi 6 a 9 mg/L, čo je bežný rozsah pre povrchové vody, hoci maximá presahujúce 13 mg/L môžu naznačovať špecifické lokálne podmienky merania. Hodnoty pH majú relatívne nízku variabilitu – mediány sa pohybujú v rozmedzí 7.0 až 8.0, čo je typické pre mierne zásadité povrchové vody.
Premenná elektrickej vodivosti má najväčší rozptyl spomedzi všetkých ukazovateľov. Hodnoty sa pohybujú od jednotiek až po desaťtisíce µmho/cm, čo naznačuje prítomnosť lokalít so zvýšeným obsahom rozpustených solí alebo kontaminácie. Podobne premenná BOD má prevažne nízke hodnoty, ale obsahuje aj extrémne hodnoty až do 90 mg/L, čo môže poukazovať na organické znečistenie v niektorých lokalitách.
Dusičnany (NitrateN) sú vo väčšine prípadov na nízkej úrovni, medián je okolo 1.8 mg/L, no maximálne hodnoty dosahujú až 17 mg/L, čo môže naznačovať poľnohospodárske alebo komunálne zdroje znečistenia.
Celkovo teda údaje vykazujú kombináciu stabilných premenných (pH, DO) a premenných s veľmi veľkým rozptylom (vodivosť, BOD, dusičnany), čo sa môže odraziť v správaní regresného modelu a diagnostikách, ktoré budeme skúmať v ďalších častiach práce.
Graf zobrazuje korelačnú maticu premenných BOD (mg/L) – Max, Dissolved
Oxygen – Max a Temperature (°C) – Max, pričom farebná škála vyjadruje
silu a smer korelácie v intervale –1 až 1. Z grafu vidíme, že BOD má
výrazne negatívnu koreláciu s rozpusteným kyslíkom, čo je typický prejav
organického znečistenia znižujúceho koncentráciu O₂ vo vode. Negatívny
je aj vzťah medzi BOD a teplotou, čo naznačuje, že vyššie teploty
podporujú biologické procesy spojené so zvýšenou spotrebou kyslíka.
Naopak, korelácia medzi rozpusteným kyslíkom a teplotou je slabá až
zanedbateľná, čo znamená, že teplota sama o sebe nevysvetľuje
variabilitu množstva rozpusteného kyslíka. Celkovo graf poukazuje na to,
že vyššie hodnoty BOD – ako ukazovateľ znečistenia – sú nepriaznivo
spojené s kvalitatívnymi parametrami vody.
V tejto práci sa zameriavame na modelovanie maximálnej hodnoty pH v monitorovacích lokalitách povrchových vôd v Indii. Cieľom je identifikovať faktory kvality vody, ktoré významne ovplyvňujú úroveň pH. Premenná pH – Max predstavuje maximálnu nameranú hodnotu pH na danej lokalite. Variabilitu tejto premennej budeme modelovať v závislosti od vybraných fyzikálnych a chemických ukazovateľov kvality vody: teploty vody, rozpusteného kyslíka, vodivosti, biologickej spotreby kyslíka (BOD) a obsahu dusičnanov (Nitrate).
Na základe odborných poznatkov predpokladáme nasledovné vzťahy: vyššia teplota vody môže viesť k poklesu pH, keďže teplé prostredie podporuje biologické procesy znižujúce zásaditosť vody. Vyššie hodnoty rozpusteného kyslíka zvyčajne signalizujú lepšiu kvalitu vody, a preto predpokladáme pozitívny vplyv na pH. Elektrická vodivosť vyjadruje koncentráciu rozpustených solí, pri ktorej je možné očakávať skôr rast pH. Premenná BOD môže ovplyvňovať pH oboma smermi – v závislosti od charakteru organického znečistenia. Dusičnany môžu meniť kyslosť aj zásaditosť vody, preto ich vplyv nie je jednoznačný.
Naša pracovná hypotéza predpokladá, že jednotlivé regresory budú mať štatisticky významný vplyv na pH. Očakávame negatívny vzťah medzi teplotou a pH, pozitívny vzťah medzi rozpusteným kyslíkom, vodivosťou a pH, pričom vplyvy BOD a dusičnanov sa môžu prejaviť oboma smermi. Tieto hypotézy budeme testovať pomocou t-testov štatistickej významnosti regresných koeficientov.
Model v jeho základnej podobe odhadujeme pomocou lineárnej regresie,
pričom vysvetľovanou premennou je maximálna hodnota pH
(pH - Max) a vysvetľujúcimi premennými sú maximálna teplota
vody, maximálna hodnota rozpusteného kyslíka, maximálna elektrická
vodivosť, maximálna biologická spotreba kyslíka (BOD) a maximálny obsah
dusičnanového dusíka.
Výsledky základného regresného modelu ukazujú, že odhadnutý intercept má hodnotu približne 7.83 a je štatisticky významný (p-hodnota < 0.001). Intercept predstavuje očakávanú hodnotu pH pri nulových hodnotách všetkých vysvetľujúcich premenných, čo je síce technická referenčná hodnota, ale neinterpretujeme ju vecne.
Premenná Temperature (C) – Max má koeficient približne –0.013 (p ≈ 0.008), čo znamená, že pri zvýšení maximálnej teploty vody o 1 °C klesne maximálne pH v priemere o 0.013 jednotky, ceteris paribus. Vyššia teplota je teda spojená s mierne kyslejšou vodou.
Koeficient pri premennnej Dissolved – Max (rozpustený kyslík) má hodnotu približne 0.049 (p ≈ 0.014), čo poukazuje na to, že vyšší obsah rozpusteného kyslíka je spojený s mierne vyšším pH. Tento vzťah má aj ekologické opodstatnenie, keďže dobre okysličené vody majú tendenciu byť menej kyslé.
Premenná Conductivity (µmho/cm) – Max má kladný a štatisticky významný koeficient približne 5.2 × 10⁻⁶ (p ≈ 0.001). Vyššia vodivosť, ktorá odráža vyššiu koncentráciu rozpustených iónov, je teda spojená s miernym nárastom pH.
Koeficient pri BOD (mg/L) – Max je približne 0.001 a nie je štatisticky významný (p ≈ 0.79). To znamená, že úroveň organického znečistenia meraná BOD nevysvetľuje variabilitu maximálneho pH v tomto modeli.
Premenná NitrateN (mg/L) – Max má koeficient približne 0.036 (p ≈ 0.002), čo je štatisticky významný pozitívny vzťah. Vyšší obsah dusičnanov je spojený s mierne vyšším pH, čo môže súvisieť so špecifickými chemickými procesmi prebiehajúcimi v jednotlivých lokalitách.
Kvalita vyrovnania modelu ukazuje, že koeficient determinácie je R² ≈ 0.182 a upravený koeficient determinácie R²_adj ≈ 0.161, čo znamená, že model vysvetľuje približne 16–18 % variability maximálneho pH medzi monitorovacími lokalitami. F-štatistika dosiahla hodnotu približne 8.39 s p-hodnotou < 0.001, takže model je ako celok štatisticky významný. Reziduálna smerodajná odchýlka je približne 0.42 pH jednotky, čo predstavuje priemernú veľkosť nevysvetlenej chyby modelu.
## Grafové interpretácie rezíduí
Residuals vs Fitted – červená LOESS krivka je mierne zakrivená, čo naznačuje možnú slabú nelinearitu vo vzťahu medzi vysvetľujúcimi premennými a pH. Väčšina bodov je pritom rovnomerne rozptýlená okolo nulovej osi a nepozorujeme výrazný „lievikovitý“ tvar, takže model nevykazuje silnú heteroskedasticitu.
Normal Q-Q – body sa nachádzajú relatívne blízko teoretickej priamky, čo naznačuje, že rozdelenie rezíduí je približne normálne. V oblasti chvostov sú viditeľné väčšie odchýlky, čo poukazuje na prítomnosť niekoľkých extrémnych rezíduí a mierne ťažších chvostov rozdelenia.
Scale-Location – LOESS krivka je pomerne plochá, čo znamená, že rozptyl štandardizovaných rezíduí je približne konštantný pre všetky hodnoty fitted hodnôt. Nezdá sa, že by heteroskedasticita predstavovala zásadný problém.
Residuals vs Leverage – väčšina pozorovaní má veľmi nízku pákovú hodnotu, ktorá je typická pre dobre rozložené údaje. Niekoľko bodov vykazuje vyššiu páku, avšak žiadny z nich nepresahuje Cookove hranice, čo znamená, že žiadne pozorovanie nemá neprimerane silný vplyv na odhadnuté regresné koeficienty.
Grafická analýza diagnostických grafov naznačila možné odchýlky od normality rezíduí, najmä v oblasti chvostov rozdelenia. Preto sme vykonali Jarque–Bera test normality rezíduí. Výsledok testu zamietol nulovú hypotézu o normálnom rozdelení rezíduí (p-hodnota < 0.05), čo znamená, že rezíduá modelu sa štatisticky významne odchyľujú od normálneho rozdelenia.
Keďže však model pracuje s pomerne veľkým počtom pozorovaní a v ďalšej časti budeme zvažovať aj alternatívne špecifikácie regresného modelu, mierne porušenie predpokladu normality nepovažujeme za zásadný problém. OLS odhady zostávajú za týchto podmienok konzistentné.
Z diagnostických grafov sme identifikovali niekoľko bodov s vyššou pákovou hodnotou, avšak žiadny z nich neprekračuje hranice Cookovej vzdialenosti. To naznačuje, že tieto pozorovania nepredstavujú výrazné riziko pre stabilitu odhadnutých regresných koeficientov a model nie je nimi zásadne ovplyvnený.
Tento záver potvrdil aj formálny test odľahlých hodnôt. Po aplikácii Bonferroniho korekcie bola p-hodnota testu väčšia ako 0.05, čo znamená, že odľahlé pozorovania nie sú štatisticky významné. Ich vplyv na výsledky modelu je zanedbateľný, a preto sa nimi v ďalšej analýze nebudeme osobitne zaoberať.
Prítomnosť heteroskedasticity môže spôsobovať skreslené vyhodnocovanie t-testov štatistickej významnosti regresných koeficientov. Preto je potrebné najskôr heteroskedasticitu detegovať (vizuálne aj pomocou formálnych testov) a v prípade jej prítomnosti aplikovať nápravné opatrenia.
V našom modeli sme už vizuálne analyzovali Scale-Location graf, ktorý nenaznačoval výrazný problém s heteroskedasticitou.
Formálne testovanie vykonáme pomocou Breusch–Paganovho testu.
Výsledok Breusch–Paganovho testu slúži na posúdenie, či je v regresnom modeli prítomná štatisticky významná heteroskedasticita. Ak je p-hodnota testu menšia ako 0.05, zamietame nulovú hypotézu o homoskedasticite a konštatujeme prítomnosť heteroskedasticity. Naopak, ak je p-hodnota väčšia ako 0.05, nulovú hypotézu nezamietame a model neobsahuje štatisticky významnú heteroskedasticitu.
V našom prípade je p-hodnota Breusch–Paganovho testu väčšia ako 0.05, čo znamená, že heteroskedasticitu v modeli štatisticky nepotvrdzujeme. Hoci vizuálna analýza naznačuje mierne nepravidelnosti v rozptyle rezíduí, formálne testy neidentifikujú heteroskedasticitu ako závažný problém regresného modelu.
Napriek tomu je vhodné uviesť aj robustné (Whiteove) smerodajné odchýlky, keďže pomáhajú stabilizovať testovanie koeficientov v prípade miernej heteroskedasticity.
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.8283e+00 2.4861e-01 31.4884 < 2.2e-16 ***
## Temperature..C....Max -1.3113e-02 3.2863e-03 -3.9901 9.455e-05 ***
## Dissolved...Max 4.9289e-02 2.5106e-02 1.9632 0.0510997 .
## Conductivity...µmho.cm....Max 5.1997e-06 1.2066e-06 4.3094 2.637e-05 ***
## BOD..mg.L....Max 9.4652e-04 2.7090e-03 0.3494 0.7271790
## NitrateN..mg.L....Max 3.6064e-02 1.0430e-02 3.4575 0.0006741 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Po aplikovaní Whiteovej korekcie sa môžu niektoré regresné koeficienty stať štatisticky významnými alebo naopak svoju významnosť stratiť, keďže sa menia odhady ich štandardných chýb. Použitie robustných štandardných chýb je vhodné najmä v situáciách, keď je heteroskedasticita graficky naznačená, aj keď ju formálne testy jednoznačne nepotvrdzujú.
V našom prípade sa po aplikovaní Whiteovej korekcie štatistická významnosť hlavných vysvetľujúcich premenných nemení zásadným spôsobom. To naznačuje, že odhadnutý model je relatívne stabilný a jeho výsledky nie sú citlivé na možné mierne porušenie predpokladu homoskedasticity.
V tejto časti sa zameriame na overenie správnosti funkčnej špecifikácie regresného modelu. Nesprávna špecifikácia môže znamenať, že model neobsahuje niektoré relevantné vysvetľujúce premenné alebo že zvolený funkčný tvar (lineárna forma) nie je vhodný.
Na testovanie správnosti špecifikácie použijeme Ramseyho RESET test, ktorý patrí medzi štandardné diagnostické nástroje lineárnej regresie. Test overuje, či pridanie nelineárnych kombinácií vyrovnaných hodnôt (zvyčajne ich druhých a tretích mocnín) vedie k štatisticky významnému zlepšeniu modelu.
Ak je model správne špecifikovaný, potom by tieto dodatočné členy nemali byť štatisticky významné.
Nulová hypotéza RESET testu hovorí, že model je správne špecifikovaný, t. j. že v modeli nechýbajú žiadne relevantné nelineárne vzťahy ani dôležité vysvetľujúce premenné.
Alternatívna hypotéza predpokladá, že model je nesprávne špecifikovaný.
Výsledok Ramseyho RESET testu ukazuje hodnotu testovacej štatistiky RESET = 1.6264 s príslušnou p-hodnotou 0.1994. Keďže p-hodnota testu je väčšia ako zvolená hladina významnosti 0.05, nulovú hypotézu o správnej špecifikácii modelu nezamietame.
To znamená, že na základe RESET testu neexistujú štatisticky významné dôkazy o tom, že by bol model nesprávne špecifikovaný, resp. že by v ňom chýbali dôležité nelineárne členy alebo relevantné vysvetľujúce premenné. Lineárna forma modelu sa preto javí ako primeraná.
Aj keď v predchádzajúcich diagnostických grafoch bolo možné pozorovať mierne zakrivenia LOESS kriviek, tieto odchýlky nie sú dostatočne výrazné na to, aby formálne testy potvrdili chybu špecifikácie. Model preto ponechávame v jeho pôvodnej lineárnej podobe a považujeme ho z hľadiska špecifikácie za prijateľný.
Pri skúmaní multikolinearity sa zameriavame na to, či sú vysvetľujúce premenné navzájom silno korelované, čo by mohlo zvyšovať štandardné chyby odhadnutých koeficientov a znižovať ich štatistickú významnosť.
V predchádzajúcej časti (Heatmapa korelácie) sme už vizuálne analyzovali korelačné vzťahy medzi vybranými ukazovateľmi kvality vody (BOD, rozpustený kyslík a teplota). Táto analýza ukázala najmä výraznú negatívnu koreláciu medzi BOD a rozpusteným kyslíkom, pričom ostatné vzťahy boli skôr slabé až stredné. Keďže multikolinearita sa týka vzájomných vzťahov medzi regresormi v modeli, na doplnenie tejto analýzy preto použijeme aj štandardnú diagnostiku pomocou ukazovateľa VIF.
Hodnoty faktora inflácie rozptylu (VIF) sa pri všetkých vysvetľujúcich premenných pohybujú veľmi blízko hodnoty 1. Konkrétne hodnoty VIF pre teplotu, rozpustený kyslík, vodivosť, BOD a dusičnany sa nachádzajú približne v intervale od 1.06 do 1.44, čo indikuje prakticky nulovú až veľmi slabú multikolinearitu.
Keďže žiadna z hodnôt VIF neprekračuje ani hranicu 5, môžeme konštatovať, že vzájomná korelácia medzi vysvetľujúcimi premennými nepredstavuje v tomto modeli významný problém. Regresné koeficienty sú z hľadiska multikolinearity stabilné a ich interpretácia je spoľahlivá.
Cieľom práce bolo ekonometricky modelovať maximálnu hodnotu pH v monitorovacích lokalitách povrchových vôd v Indii (2021–2023) a identifikovať faktory kvality vody, ktoré majú na pH štatisticky významný vplyv. Pracovali sme so 194 pozorovaniami a s premennými teplota, rozpustený kyslík, vodivosť, BOD a dusičnany, pričom chýbajúce hodnoty boli doplnené mediánmi.
Korelačná analýza ukázala očakávaný negatívny vzťah medzi BOD a rozpusteným kyslíkom, čo je v súlade s interpretáciou BOD ako ukazovateľa organického znečistenia. Základný lineárny model poukázal na to, že maximálne pH je v našich údajoch štatisticky významne ovplyvnené najmä teplotou (negatívny vplyv), rozpusteným kyslíkom (pozitívny vplyv), vodivosťou (pozitívny, ale veľmi malý efekt vzhľadom na jednotky) a dusičnanmi (pozitívny vplyv). Premenná BOD sa v modeli neukázala ako štatisticky významná, čo naznačuje, že jej vplyv na pH sa v týchto dátach buď neprejavuje priamo, alebo je zachytený inými premennými.
Z hľadiska kvality vyrovnania model vysvetľuje približne 16–18 % variability maximálneho pH. Hoci ide o relatívne nízku hodnotu, model je ako celok štatisticky významný, čo znamená, že zvolené premenné majú spoločný vysvetľujúci potenciál, no pH je pravdepodobne ovplyvňované aj ďalšími faktormi, ktoré v dataset-e nie sú zahrnuté (napr. geologické podmienky, hydrológia toku, sezónnosť,lokálne zdroje znečistenia a pod.).
Diagnostiky rezíduí ukázali, že normalita rezíduí je podľa Jarque–Bera testu porušená, avšak pri danom rozsahu vzorky to nepovažujeme za zásadný problém pre konzistentnosť OLS odhadov. Test odľahlých hodnôt nepotvrdil štatisticky významné outliery po Bonferroniho korekcii, a preto sme pozorovania z dát nevylučovali. Breusch–Paganov test heteroskedasticitu štatisticky nepotvrdil a Whiteovakorekcia nemenila významnosť hlavných premenných, čo podporuje stabilitu výsledkovaj pri prípadnej miernej heteroskedasticite. Ramseyho RESET test (p = 0.1994)nezamietol správnu špecifikáciu modelu, takže lineárna forma sa javí ako primeraná. Multikolinearita sa nepotvrdila – hodnoty VIF boli veľmi nízke (približne 1.06 až 1.44), čo znamená, že regresory nie sú navzájom silno lineárne závislé.
Celkovo môžeme konštatovať, že zvolený lineárny model je z pohľadu základných diagnostík použiteľný a interpretovateľný. Najdôležitejšie zistenia sú negatívny vzťah teploty k pH a pozitívny vzťah pH k rozpustenému kyslíku, vodivosti a dusičnanom, pričom BOD sa ako samostatný prediktor pH v tomto modeli neukázal ako významný. Pre zvýšenie vysvetľujúcej sily by bolo vhodné doplniť ďalšie relevantné premenné alebo uvažovať s alternatívnymi špecifikáciami (napr. sezónne efekty, priestorové členenie podľa štátov či typov vodných útvarov).