knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
install.packages(c(
  "tidyverse",
  "readr",
  "dplyr",
  "ggplot2",
  "knitr",
  "kableExtra",
  "broom",
  "stringr",
  "corrplot"
), dependencies = TRUE)

Import údajov z .csv

library(readr)
Indian_water_data <- read_csv("Indian_water_data.csv")
head(Indian_water_data)                                             
colnames(Indian_water_data)                                         
 [1] "STN code"                        
 [2] "Monitoring Location"             
 [3] "Year"                            
 [4] "Type Water Body"                 
 [5] "State Name"                      
 [6] "Temperature (C) - Min"           
 [7] "Temperature (C) - Max"           
 [8] "Dissolved - Min"                 
 [9] "Dissolved - Max"                 
[10] "pH - Min"                        
[11] "pH - Max"                        
[12] "Conductivity (µmho/cm) - Min"   
[13] "Conductivity (µmho/cm) - Max"   
[14] "BOD (mg/L) - Min"                
[15] "BOD (mg/L) - Max"                
[16] "NitrateN (mg/L) - Min"           
[17] "NitrateN (mg/L) - Max"           
[18] "Fecal Coliform (MPN/100ml) - Min"
[19] "Fecal Coliform (MPN/100ml) - Max"
[20] "Total Coliform (MPN/100ml) - Min"
[21] "Total Coliform (MPN/100ml) - Max"
[22] "Fecal - Min"                     
[23] "Fecal - Max"                     

Grafy

Scatter plot

library(dplyr)
library(ggplot2)

# Filter pre rok 2021

water_2021 <- Indian_water_data %>% filter(Year == 2021)

# Scatterplot s farbami a vylepšením

ggplot(water_2021, aes(x = `BOD (mg/L) - Max`, y = `Dissolved - Max`)) +
geom_point(aes(color = Year), size = 3) +
scale_color_gradient(low = "blue", high = "red") +  # Farebné zobrazenie bodov
theme_minimal() +
labs(
title = "Vzťah medzi znečistením a kvalitou vody v roku 2021",
x = "BOD (mg/L) - Max (Biochemical Oxygen Demand)",
y = "Dissolved - Max (Rozpustený kyslík)"
) +
theme(legend.position = "bottom")  # Pridanie legendy

Tento graf nám ukazuje vzťah medzi dvoma premennými:

  • BOD (Biochemical Oxygen Demand), čo je indikátor znečistenia vody, meraný ako množstvo kyslíka, ktoré mikroorganizmy spotrebujú na rozklad organických látok vo vode. Vysoká hodnota BOD naznačuje, že voda je viac znečistená.
  • Dissolved Oxygen (Rozpustený kyslík), čo je množstvo kyslíka rozpusteného vo vode. Tento ukazovateľ je dôležitý pre kvalitu vody, pretože mnohé vodné organizmy potrebujú kyslík na prežitie. Nižšie hodnoty rozpusteného kyslíka môžu naznačovať zhoršenú kvalitu vody.

Interpretácia grafu

  • Väčšina hodnôt pre rozpustený kyslík (Dissolved - Max) je v rozmedzí 5 - 10 mg/L, čo je bežná úroveň pre vodu v dobrom stave. Tieto hodnoty sú dostatočné na prežitie väčšiny vodných organizmov.
  • Vysoké hodnoty BOD (až do 80 mg/L) sú zriedkavé a indikujú, že v daných miestach môže byť voda silne znečistená (môže to byť spôsobené napríklad vysokým množstvom organického odpadu).
  • Neexistuje výrazný vzťah medzi BOD a rozpusteným kyslíkom, čo naznačuje, že aj keď vysoký BOD zvyčajne vedie k nižšiemu obsahu kyslíka, v tomto prípade to nie je úplne jednoznačné. Možno existujú aj ďalšie faktory, ktoré ovplyvňujú koncentráciu kyslíka vo vode (napríklad teplota vody alebo iné chemické vlastnosti).

Záver

  • Tento graf ukazuje, že vo väčšine pozorovaných dát za rok 2021 je voda s dostatočným množstvom kyslíka, ale niektoré miesta s vysokým BOD by mohli naznačovať zhoršenú kvalitu vody, najmä tam, kde sú hodnoty BOD veľmi vysoké.
  • Nie je jasný lineárny vzťah medzi znečistením vody a množstvom kyslíka, čo naznačuje, že iné faktory môžu ovplyvňovať kvalitu vody.

Boxplot

ggplot(Indian_water_data, aes(x = factor(Year), y = `Dissolved - Max`, fill = factor(Year))) +
geom_boxplot(color = "black", alpha = 0.6) +
scale_fill_brewer(palette = "Set3") +  # Farebné nastavenie
theme_minimal() +
labs(
title = "Boxplot rozpusteného kyslíka podľa rokov",
x = "Rok",
y = "Dissolved - Max (Rozpustený kyslík)"
)

Na tomto grafe je zobrazený boxplot pre hodnoty rozpusteného kyslíka (Dissolved - Max) v rokoch 2021, 2022, a 2023.

Popis grafu

  • Osa x: roky 2021, 2022, a 2023.
  • Osa y: hodnoty rozpusteného kyslíka medzi 5 a 10 mg/L.
  • Každý boxplot ukazuje:
    • Medián (stredná čierna čiara) pre daný rok.
    • 25. a 75. percentil (horný a dolný okraj boxu).
    • Whiskers (čiary mimo boxu) ukazujú rozsah hodnôt.
    • Outliers (body mimo whiskers) sú odľahlé hodnoty.

Interpretácia grafu

  • 2021: Najnižší medián rozpusteného kyslíka. Vyskytujú sa odľahlé hodnoty.
  • 2022: Hodnoty podobné 2021, ale s vyššou variabilitou. Odľahlé hodnoty nie sú také extrémne.
  • 2023: Najvyšší medián, lepšia kvalita vody, vyššie hodnoty kyslíka. Odľahlé hodnoty sú menej výrazné.

Záver

  • 2023 vykazuje lepšiu kvalitu vody s vyššími hodnotami kyslíka.
  • 2022 má najvyššiu variabilitu, čo naznačuje zmeny v podmienkach.
  • Odľahlé hodnoty v 2021 a 2022 môžu naznačovať miestne znečistenie alebo špecifické udalosti.

Graf naznačuje zlepšenie kvality vody v roku 2023, ale stále sú prítomné odchýlky, ktoré si vyžadujú ďalšiu analýzu.

Heatmapa korelácie

Heatmap korelácie medzi BOD, Dissolved a Teplotou

# Vytvorenie korelačnej matice 
cor_matrix <- cor(Indian_water_data[, c("BOD (mg/L) - Max", "Dissolved - Max", "Temperature (C) - Max")], use = "complete.obs") 
# Vytvorenie heatmapy korelácie 
corrplot(cor_matrix, method = "color", type = "upper", tl.col = "black", tl.srt = 20, col = colorRampPalette(c("blue", "white", "red"))(50))

Tento graf zobrazuje heatmapu korelácie medzi tromi premennými:

  • BOD (mg/L) - Max (Biochemical Oxygen Demand)
  • Dissolved - Max (Rozpustený kyslík)
  • Temperature (C) - Max (Teplota vody)

Popis grafu

  • Farebné bloky ukazujú koreláciu medzi jednotlivými premennými.
  • Korelácie sú zobrazené v rozsahu od -1 do 1, kde:
    • Červená farba znamená silnú pozitívnu koreláciu (t.j. hodnoty rastú spolu).
    • Modrá farba znamená negatívnu koreláciu (t.j. hodnoty rastú opačne).
    • Biela farba znamená slabú alebo žiadnu koreláciu.

Interpretácia grafu

  • BOD vs Dissolved - Max: Korelácia je silne negatívna (červená farba), čo znamená, že vyššie hodnoty BOD sú spojené s nižšími hodnotami rozpusteného kyslíka.
  • BOD vs Temperature: Korelácia je tiež silne negatívna, čo naznačuje, že vyššie teploty môžu byť spojené s vyšším BOD.
  • Dissolved - Max vs Temperature: Korelácia je slabá až nulová (biela farba), čo naznačuje, že teplota nemá výrazný vplyv na množstvo rozpusteného kyslíka.

Tento graf nám teda ukazuje, že znečistenie vody (BOD) je negatívne korelované s kvalitou vody (rozpustený kyslík) a teplotou vody.

Základné štatistiky

library(dplyr)
library(knitr)
library(kableExtra)

# základné štatistiky podľa roku

water.stats <- Indian_water_data %>%
group_by(Year) %>%
summarise(
n      = n(),
mean   = mean(`Dissolved - Max`, na.rm = TRUE),
sd     = sd(`Dissolved - Max`, na.rm = TRUE),
min    = min(`Dissolved - Max`, na.rm = TRUE),
q25    = quantile(`Dissolved - Max`, 0.25, na.rm = TRUE),
median = median(`Dissolved - Max`, na.rm = TRUE),
q75    = quantile(`Dissolved - Max`, 0.75, na.rm = TRUE),
max    = max(`Dissolved - Max`, na.rm = TRUE),
.groups = "drop"
)

# Create styled kableExtra table

water.stats %>%
kable(
digits = 2,
caption = "Základné štatistiky pre Dissolved - Max (Rozpustený kyslík) podľa rokov"
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed")
) %>%
column_spec(1, bold = TRUE) %>%                     # Zvýrazní prvý stĺpec (Year)
row_spec(0, bold = TRUE, background = "#f2f2f2")   # Štýl hlavičky
Základné štatistiky pre Dissolved - Max (Rozpustený kyslík) podľa rokov
Year n mean sd min q25 median q75 max
2021 44 7.80 1.70 1.4 6.90 8.00 9.40 10.2
2022 53 7.86 1.75 2.9 7.00 7.80 8.50 13.6
2023 97 7.47 1.88 1.1 6.18 7.75 8.72 11.0

Na tejto tabuľke sú uvedené základné štatistiky pre hodnoty Dissolved - Max (Rozpustený kyslík) podľa rokov (2021, 2022, 2023). Z týchto štatistík môžeme vyčítať niekoľko kľúčových informácií:

  • Priemerné hodnoty rozpusteného kyslíka klesli z 7.80 mg/L v roku 2021 na 7.47 mg/L v roku 2023.
  • Variabilita (štandardná odchýlka) sa zvyšuje, čo naznačuje väčšiu rozmanitosť hodnôt v roku 2023 v porovnaní s predchádzajúcimi rokmi.
  • Minimálne hodnoty v roku 2023 boli najnižšie, čo naznačuje nižšiu kvalitu vody v určitých miestach.
  • Medián a 75. percentil naznačujú, že väčšina hodnôt rozpusteného kyslíka sa pohybovala vo vyšších hodnotách v rokoch 2021 a 2022, zatiaľ čo v roku 2023 sa hodnoty trochu znížili.

Táto tabuľka poskytuje užitočné štatistiky na hodnotenie kvality vody v priebehu týchto troch rokov.

Testovanie hypotéz

t-test: Porovnanie priemeru Temperature (C) - Max v rokoch 2021 a 2023

library(kableExtra)

# Vykonanie t-testu

t.test.result <- t.test(
Indian_water_data$`Temperature (C) - Max`[Indian_water_data$Year == 2021],
Indian_water_data$`Temperature (C) - Max`[Indian_water_data$Year == 2023]
)

# Vytvorenie tabuľky s výsledkami t-testu

t.test.summary <- data.frame(
Statistic = c("t-statistic", "df", "p-value", "confidence interval (lower)", "confidence interval (upper)"),
Value = c(t.test.result$statistic,
t.test.result$parameter,
t.test.result$p.value,
t.test.result$conf.int[1],
t.test.result$conf.int[2])
)

# Zobrazenie tabuľky s kableExtra

t.test.summary %>%
kable(caption = "Výsledky t-testu medzi rokmi 2021 a 2023 pre teplotu (C) - Max") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky t-testu medzi rokmi 2021 a 2023 pre teplotu (C) - Max
Statistic Value
t-statistic -0.6440985
df 115.7404340
p-value 0.5207859
confidence interval (lower) -3.0826538
confidence interval (upper) 1.5697351

Táto tabuľka zobrazuje výsledky t-testu medzi rokmi 2021 a 2023 pre hodnoty teploty (C) - Max. Z týchto výsledkov môžeme vyčítať:

Výsledky

  • t-statistic: Hodnota t-testu je -0.6441, čo naznačuje, že rozdiel medzi priemernými hodnotami teploty v rokoch 2021 a 2023 nie je veľký.
  • df (degrees of freedom): Počet stupňov voľnosti je 115.74, čo je kombinovaná veľkosť oboch vzoriek.
  • p-value: Hodnota p = 0.5208, ktorá je vyššia ako prah 0.05, znamená, že rozdiel medzi rokmi 2021 a 2023 nie je štatisticky významný.
  • confidence interval (lower): Dolná hranica konfidenčného intervalu je -3.0827.
  • confidence interval (upper): Horná hranica konfidenčného intervalu je 1.5697.

Záver

Na základe p-hodnoty 0.5208 a konfidenčného intervalu, ktorý zahŕňa záporné aj kladné hodnoty, môžeme povedať, že rozdiel medzi teplotami v rokoch 2021 a 2023 nie je štatisticky významný. To znamená, že neexistuje dostatočný dôkaz, že by sa teplota medzi týmito dvoma rokmi výrazne menila.

ANOVA

library(kableExtra)

# Vykonanie ANOVA testu

anova.result <- aov(`Temperature (C) - Max` ~ factor(Year), data = Indian_water_data)

# Zhrnutie výsledkov ANOVA

anova.summary <- summary(anova.result)[[1]]

# Vytvorenie tabuľky s výsledkami ANOVA

anova.table <- data.frame(
Df = anova.summary$Df,
Sum_Sq = anova.summary$`Sum Sq`,
Mean_Sq = anova.summary$`Mean Sq`,
F_value = anova.summary$`F value`,
Pr_F = anova.summary$`Pr(>F)`
)

# Zobrazenie tabuľky s kableExtra

anova.table %>%
kable(caption = "Výsledky ANOVA testu pre teplotu (C) - Max podľa rokov") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky ANOVA testu pre teplotu (C) - Max podľa rokov
Df Sum_Sq Mean_Sq F_value Pr_F
2 78.3076 39.15380 0.9008998 0.407941
189 8214.0849 43.46077 NA NA

Táto tabuľka zobrazuje výsledky ANOVA testu pre teplotu (C) - Max podľa rokov.

Výsledky

  • Df (degrees of freedom):
    • 2 pre medzi-skupinovú variabilitu (roky).
    • 189 pre vnútor-skupinovú variabilitu (počet pozorovaní - 1).
  • Sum_Sq (Sum of Squares):
    • Pre medzi-skupinovú variabilitu je 78.3076.
    • Pre vnútor-skupinovú variabilitu je 8214.0849.
  • Mean_Sq (Mean Square):
    • Pre medzi-skupinovú variabilitu je 39.1538.
    • Pre vnútor-skupinovú variabilitu je 43.4608.
  • F_value: Hodnota F testu je 0.9009, čo naznačuje, že rozdiel medzi skupinami (rokmi) nie je výrazný.
  • Pr_F (p-value): Hodnota p je 0.4079, čo je vyššie než bežný prah 0.05, takže rozdiel medzi rokmi nie je štatisticky významný.

Záver

Na základe výsledkov ANOVA testu môžeme uzavrieť, že rozdiel medzi teplotami v rokoch 2021 a 2023 nie je štatisticky významný. To znamená, že na základe týchto údajov nemáme dôkaz, že by sa teplota medzi týmito dvoma rokmi líšila.

Linear Regression

library(kableExtra)

# Vykonanie lineárnej regresie

model <- lm(`BOD (mg/L) - Max` ~ `Temperature (C) - Max`, data = Indian_water_data)

# Zhrnutie modelu

model.summary <- summary(model)

# Vytvorenie tabuľky s výsledkami lineárnej regresie

model.table <- data.frame(
Term = rownames(model.summary$coefficients),
Estimate = model.summary$coefficients[, 1],
Std_Error = model.summary$coefficients[, 2],
t_value = model.summary$coefficients[, 3],
Pr_t = model.summary$coefficients[, 4]
)

# Zobrazenie tabuľky s kableExtra

model.table %>%
kable(caption = "Výsledky lineárnej regresie medzi BOD (mg/L) - Max a Teplotou (C) - Max") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky lineárnej regresie medzi BOD (mg/L) - Max a Teplotou (C) - Max
Term Estimate Std_Error t_value Pr_t
(Intercept) (Intercept) 3.2019962 3.2534658 0.9841801 0.3263780
`Temperature (C) - Max` `Temperature (C) - Max` 0.0638972 0.1144106 0.5584905 0.5772193

Táto tabuľka zobrazuje výsledky lineárnej regresie medzi BOD (mg/L) - Max a Teplotou (C) - Max.

Výsledky

  • (Intercept): Koeficient pre intercept (priesečník s osou Y) je 3.2019962. To znamená, že keď teplota je 0°C, predpokladaná hodnota BOD je približne 3.2 mg/L.
  • Temperature (C) - Max: Koeficient pre teplotu je 0.0638972, čo naznačuje, že pri každom zvýšení teploty o 1°C sa hodnota BOD zvýši približne o 0.064 mg/L.
  • Std_Error: Štandardná chyba koeficientov, ktorá meria variabilitu odhadovaných hodnôt:
    • Pre intercept je 3.2534658.
    • Pre teplotu je 0.1144106.
  • t_value: Testová hodnota (t-hodnota) pre obidve premenné:
    • Pre intercept je 0.9841801.
    • Pre teplotu je 0.5584905. Tieto hodnoty naznačujú, že t-test pre obe premenné nie je veľmi silný.
  • Pr_t (p-value): P-hodnota pre oba koeficienty:
    • Pre intercept je 0.3263780.
    • Pre teplotu je 0.5772193. Obidve p-hodnoty sú vyššie než bežný prah 0.05, čo znamená, že rozdiely medzi BOD a teplotou nie sú štatisticky významné.

Záver

Výsledky regresie naznačujú, že neexistuje štatisticky významný vzťah medzi teplotou a BOD, pretože p-hodnoty sú väčšie než 0.05. To znamená, že na základe týchto údajov nemáme dostatočný dôkaz, že by zmena teploty mala významný vplyv na hodnoty BOD.

