knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
install.packages(c(
"tidyverse",
"readr",
"dplyr",
"ggplot2",
"knitr",
"kableExtra",
"broom",
"stringr",
"corrplot"
), dependencies = TRUE)
Import údajov z .csv
library(readr)
Indian_water_data <- read_csv("Indian_water_data.csv")
head(Indian_water_data)
colnames(Indian_water_data)
[1] "STN code"
[2] "Monitoring Location"
[3] "Year"
[4] "Type Water Body"
[5] "State Name"
[6] "Temperature (C) - Min"
[7] "Temperature (C) - Max"
[8] "Dissolved - Min"
[9] "Dissolved - Max"
[10] "pH - Min"
[11] "pH - Max"
[12] "Conductivity (µmho/cm) - Min"
[13] "Conductivity (µmho/cm) - Max"
[14] "BOD (mg/L) - Min"
[15] "BOD (mg/L) - Max"
[16] "NitrateN (mg/L) - Min"
[17] "NitrateN (mg/L) - Max"
[18] "Fecal Coliform (MPN/100ml) - Min"
[19] "Fecal Coliform (MPN/100ml) - Max"
[20] "Total Coliform (MPN/100ml) - Min"
[21] "Total Coliform (MPN/100ml) - Max"
[22] "Fecal - Min"
[23] "Fecal - Max"
Grafy
Scatter plot
library(dplyr)
library(ggplot2)
# Filter pre rok 2021
water_2021 <- Indian_water_data %>% filter(Year == 2021)
# Scatterplot s farbami a vylepšením
ggplot(water_2021, aes(x = `BOD (mg/L) - Max`, y = `Dissolved - Max`)) +
geom_point(aes(color = Year), size = 3) +
scale_color_gradient(low = "blue", high = "red") + # Farebné zobrazenie bodov
theme_minimal() +
labs(
title = "Vzťah medzi znečistením a kvalitou vody v roku 2021",
x = "BOD (mg/L) - Max (Biochemical Oxygen Demand)",
y = "Dissolved - Max (Rozpustený kyslík)"
) +
theme(legend.position = "bottom") # Pridanie legendy

Tento graf nám ukazuje vzťah medzi dvoma premennými:
- BOD (Biochemical Oxygen Demand), čo je indikátor
znečistenia vody, meraný ako množstvo kyslíka, ktoré mikroorganizmy
spotrebujú na rozklad organických látok vo vode. Vysoká hodnota BOD
naznačuje, že voda je viac znečistená.
- Dissolved Oxygen (Rozpustený kyslík), čo je
množstvo kyslíka rozpusteného vo vode. Tento ukazovateľ je dôležitý pre
kvalitu vody, pretože mnohé vodné organizmy potrebujú kyslík na
prežitie. Nižšie hodnoty rozpusteného kyslíka môžu naznačovať zhoršenú
kvalitu vody.
Interpretácia grafu
- Väčšina hodnôt pre rozpustený kyslík (Dissolved -
Max) je v rozmedzí 5 - 10 mg/L, čo je bežná
úroveň pre vodu v dobrom stave. Tieto hodnoty sú dostatočné na prežitie
väčšiny vodných organizmov.
- Vysoké hodnoty BOD (až do 80 mg/L)
sú zriedkavé a indikujú, že v daných miestach môže byť voda silne
znečistená (môže to byť spôsobené napríklad vysokým množstvom
organického odpadu).
- Neexistuje výrazný vzťah medzi BOD a rozpusteným
kyslíkom, čo naznačuje, že aj keď vysoký BOD zvyčajne vedie k
nižšiemu obsahu kyslíka, v tomto prípade to nie je úplne jednoznačné.
Možno existujú aj ďalšie faktory, ktoré ovplyvňujú koncentráciu kyslíka
vo vode (napríklad teplota vody alebo iné chemické vlastnosti).
Záver
- Tento graf ukazuje, že vo väčšine pozorovaných dát za rok 2021 je
voda s dostatočným množstvom kyslíka, ale niektoré miesta s vysokým BOD
by mohli naznačovať zhoršenú kvalitu vody, najmä tam, kde sú hodnoty BOD
veľmi vysoké.
- Nie je jasný lineárny vzťah medzi znečistením vody a množstvom
kyslíka, čo naznačuje, že iné faktory môžu ovplyvňovať kvalitu
vody.
Boxplot
ggplot(Indian_water_data, aes(x = factor(Year), y = `Dissolved - Max`, fill = factor(Year))) +
geom_boxplot(color = "black", alpha = 0.6) +
scale_fill_brewer(palette = "Set3") + # Farebné nastavenie
theme_minimal() +
labs(
title = "Boxplot rozpusteného kyslíka podľa rokov",
x = "Rok",
y = "Dissolved - Max (Rozpustený kyslík)"
)

Na tomto grafe je zobrazený boxplot pre hodnoty
rozpusteného kyslíka (Dissolved - Max) v rokoch
2021, 2022, a 2023.
Popis grafu
- Osa x: roky 2021, 2022, a 2023.
- Osa y: hodnoty rozpusteného kyslíka medzi 5
a 10 mg/L.
- Každý boxplot ukazuje:
- Medián (stredná čierna čiara) pre daný rok.
- 25. a 75. percentil (horný a dolný okraj
boxu).
- Whiskers (čiary mimo boxu) ukazujú rozsah
hodnôt.
- Outliers (body mimo whiskers) sú odľahlé
hodnoty.
Interpretácia grafu
- 2021: Najnižší medián rozpusteného kyslíka.
Vyskytujú sa odľahlé hodnoty.
- 2022: Hodnoty podobné 2021, ale s vyššou
variabilitou. Odľahlé hodnoty nie sú také extrémne.
- 2023: Najvyšší medián, lepšia kvalita vody, vyššie
hodnoty kyslíka. Odľahlé hodnoty sú menej výrazné.
Záver
- 2023 vykazuje lepšiu kvalitu vody s vyššími
hodnotami kyslíka.
- 2022 má najvyššiu variabilitu, čo naznačuje zmeny v
podmienkach.
- Odľahlé hodnoty v 2021 a 2022 môžu
naznačovať miestne znečistenie alebo špecifické udalosti.
Graf naznačuje zlepšenie kvality vody v roku 2023, ale stále sú
prítomné odchýlky, ktoré si vyžadujú ďalšiu analýzu.
Heatmapa korelácie
Heatmap korelácie medzi BOD, Dissolved a Teplotou
# Vytvorenie korelačnej matice
cor_matrix <- cor(Indian_water_data[, c("BOD (mg/L) - Max", "Dissolved - Max", "Temperature (C) - Max")], use = "complete.obs")
# Vytvorenie heatmapy korelácie
corrplot(cor_matrix, method = "color", type = "upper", tl.col = "black", tl.srt = 20, col = colorRampPalette(c("blue", "white", "red"))(50))

Tento graf zobrazuje heatmapu korelácie medzi tromi
premennými:
- BOD (mg/L) - Max (Biochemical Oxygen Demand)
- Dissolved - Max (Rozpustený kyslík)
- Temperature (C) - Max (Teplota vody)
Popis grafu
- Farebné bloky ukazujú koreláciu medzi jednotlivými
premennými.
- Korelácie sú zobrazené v rozsahu od -1 do 1, kde:
- Červená farba znamená silnú pozitívnu
koreláciu (t.j. hodnoty rastú spolu).
- Modrá farba znamená negatívnu
koreláciu (t.j. hodnoty rastú opačne).
- Biela farba znamená slabú alebo žiadnu
koreláciu.
Interpretácia grafu
- BOD vs Dissolved - Max: Korelácia je silne
negatívna (červená farba), čo znamená, že vyššie hodnoty BOD sú
spojené s nižšími hodnotami rozpusteného kyslíka.
- BOD vs Temperature: Korelácia je tiež silne
negatívna, čo naznačuje, že vyššie teploty môžu byť spojené s
vyšším BOD.
- Dissolved - Max vs Temperature: Korelácia je
slabá až nulová (biela farba), čo naznačuje, že teplota
nemá výrazný vplyv na množstvo rozpusteného kyslíka.
Tento graf nám teda ukazuje, že znečistenie vody
(BOD) je negatívne korelované s kvalitou vody
(rozpustený kyslík) a teplotou vody.
Základné štatistiky
library(dplyr)
library(knitr)
library(kableExtra)
# základné štatistiky podľa roku
water.stats <- Indian_water_data %>%
group_by(Year) %>%
summarise(
n = n(),
mean = mean(`Dissolved - Max`, na.rm = TRUE),
sd = sd(`Dissolved - Max`, na.rm = TRUE),
min = min(`Dissolved - Max`, na.rm = TRUE),
q25 = quantile(`Dissolved - Max`, 0.25, na.rm = TRUE),
median = median(`Dissolved - Max`, na.rm = TRUE),
q75 = quantile(`Dissolved - Max`, 0.75, na.rm = TRUE),
max = max(`Dissolved - Max`, na.rm = TRUE),
.groups = "drop"
)
# Create styled kableExtra table
water.stats %>%
kable(
digits = 2,
caption = "Základné štatistiky pre Dissolved - Max (Rozpustený kyslík) podľa rokov"
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed")
) %>%
column_spec(1, bold = TRUE) %>% # Zvýrazní prvý stĺpec (Year)
row_spec(0, bold = TRUE, background = "#f2f2f2") # Štýl hlavičky
Základné štatistiky pre Dissolved - Max (Rozpustený kyslík) podľa rokov
| Year |
n |
mean |
sd |
min |
q25 |
median |
q75 |
max |
| 2021 |
44 |
7.80 |
1.70 |
1.4 |
6.90 |
8.00 |
9.40 |
10.2 |
| 2022 |
53 |
7.86 |
1.75 |
2.9 |
7.00 |
7.80 |
8.50 |
13.6 |
| 2023 |
97 |
7.47 |
1.88 |
1.1 |
6.18 |
7.75 |
8.72 |
11.0 |
Na tejto tabuľke sú uvedené základné štatistiky pre hodnoty
Dissolved - Max (Rozpustený kyslík) podľa rokov
(2021, 2022, 2023). Z
týchto štatistík môžeme vyčítať niekoľko kľúčových informácií:
- Priemerné hodnoty rozpusteného kyslíka klesli z
7.80 mg/L v roku 2021 na 7.47 mg/L v
roku 2023.
- Variabilita (štandardná odchýlka) sa zvyšuje, čo
naznačuje väčšiu rozmanitosť hodnôt v roku 2023 v porovnaní s
predchádzajúcimi rokmi.
- Minimálne hodnoty v roku 2023 boli
najnižšie, čo naznačuje nižšiu kvalitu vody v určitých
miestach.
- Medián a 75. percentil naznačujú, že väčšina hodnôt
rozpusteného kyslíka sa pohybovala vo vyšších hodnotách v rokoch
2021 a 2022, zatiaľ čo v roku
2023 sa hodnoty trochu znížili.
Táto tabuľka poskytuje užitočné štatistiky na hodnotenie
kvality vody v priebehu týchto troch rokov.
Testovanie hypotéz
t-test: Porovnanie priemeru Temperature (C) - Max v rokoch 2021 a
2023
library(kableExtra)
# Vykonanie t-testu
t.test.result <- t.test(
Indian_water_data$`Temperature (C) - Max`[Indian_water_data$Year == 2021],
Indian_water_data$`Temperature (C) - Max`[Indian_water_data$Year == 2023]
)
# Vytvorenie tabuľky s výsledkami t-testu
t.test.summary <- data.frame(
Statistic = c("t-statistic", "df", "p-value", "confidence interval (lower)", "confidence interval (upper)"),
Value = c(t.test.result$statistic,
t.test.result$parameter,
t.test.result$p.value,
t.test.result$conf.int[1],
t.test.result$conf.int[2])
)
# Zobrazenie tabuľky s kableExtra
t.test.summary %>%
kable(caption = "Výsledky t-testu medzi rokmi 2021 a 2023 pre teplotu (C) - Max") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky t-testu medzi rokmi 2021 a 2023 pre teplotu (C) - Max
| Statistic |
Value |
| t-statistic |
-0.6440985 |
| df |
115.7404340 |
| p-value |
0.5207859 |
| confidence interval (lower) |
-3.0826538 |
| confidence interval (upper) |
1.5697351 |
Táto tabuľka zobrazuje výsledky t-testu medzi rokmi
2021 a 2023 pre hodnoty
teploty (C) - Max. Z týchto výsledkov môžeme
vyčítať:
Výsledky
- t-statistic: Hodnota t-testu je
-0.6441, čo naznačuje, že rozdiel medzi priemernými
hodnotami teploty v rokoch 2021 a 2023 nie je veľký.
- df (degrees of freedom): Počet stupňov voľnosti je
115.74, čo je kombinovaná veľkosť oboch vzoriek.
- p-value: Hodnota p = 0.5208, ktorá
je vyššia ako prah 0.05, znamená, že rozdiel medzi
rokmi 2021 a 2023 nie je štatisticky významný.
- confidence interval (lower): Dolná hranica
konfidenčného intervalu je -3.0827.
- confidence interval (upper): Horná hranica
konfidenčného intervalu je 1.5697.
Záver
Na základe p-hodnoty 0.5208 a konfidenčného
intervalu, ktorý zahŕňa záporné aj kladné hodnoty, môžeme
povedať, že rozdiel medzi teplotami v rokoch 2021 a 2023 nie je
štatisticky významný. To znamená, že neexistuje dostatočný
dôkaz, že by sa teplota medzi týmito dvoma rokmi výrazne menila.
ANOVA
library(kableExtra)
# Vykonanie ANOVA testu
anova.result <- aov(`Temperature (C) - Max` ~ factor(Year), data = Indian_water_data)
# Zhrnutie výsledkov ANOVA
anova.summary <- summary(anova.result)[[1]]
# Vytvorenie tabuľky s výsledkami ANOVA
anova.table <- data.frame(
Df = anova.summary$Df,
Sum_Sq = anova.summary$`Sum Sq`,
Mean_Sq = anova.summary$`Mean Sq`,
F_value = anova.summary$`F value`,
Pr_F = anova.summary$`Pr(>F)`
)
# Zobrazenie tabuľky s kableExtra
anova.table %>%
kable(caption = "Výsledky ANOVA testu pre teplotu (C) - Max podľa rokov") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky ANOVA testu pre teplotu (C) - Max podľa rokov
| Df |
Sum_Sq |
Mean_Sq |
F_value |
Pr_F |
| 2 |
78.3076 |
39.15380 |
0.9008998 |
0.407941 |
| 189 |
8214.0849 |
43.46077 |
NA |
NA |
Táto tabuľka zobrazuje výsledky ANOVA testu pre
teplotu (C) - Max podľa rokov.
Výsledky
- Df (degrees of freedom):
- 2 pre medzi-skupinovú variabilitu (roky).
- 189 pre vnútor-skupinovú variabilitu (počet pozorovaní - 1).
- Sum_Sq (Sum of Squares):
- Pre medzi-skupinovú variabilitu je 78.3076.
- Pre vnútor-skupinovú variabilitu je 8214.0849.
- Mean_Sq (Mean Square):
- Pre medzi-skupinovú variabilitu je 39.1538.
- Pre vnútor-skupinovú variabilitu je 43.4608.
- F_value: Hodnota F testu je
0.9009, čo naznačuje, že rozdiel medzi skupinami
(rokmi) nie je výrazný.
- Pr_F (p-value): Hodnota p je
0.4079, čo je vyššie než bežný prah
0.05, takže rozdiel medzi rokmi nie je
štatisticky významný.
Záver
Na základe výsledkov ANOVA testu môžeme uzavrieť, že rozdiel
medzi teplotami v rokoch 2021 a 2023 nie je štatisticky
významný. To znamená, že na základe týchto údajov nemáme dôkaz,
že by sa teplota medzi týmito dvoma rokmi líšila.
Linear Regression
library(kableExtra)
# Vykonanie lineárnej regresie
model <- lm(`BOD (mg/L) - Max` ~ `Temperature (C) - Max`, data = Indian_water_data)
# Zhrnutie modelu
model.summary <- summary(model)
# Vytvorenie tabuľky s výsledkami lineárnej regresie
model.table <- data.frame(
Term = rownames(model.summary$coefficients),
Estimate = model.summary$coefficients[, 1],
Std_Error = model.summary$coefficients[, 2],
t_value = model.summary$coefficients[, 3],
Pr_t = model.summary$coefficients[, 4]
)
# Zobrazenie tabuľky s kableExtra
model.table %>%
kable(caption = "Výsledky lineárnej regresie medzi BOD (mg/L) - Max a Teplotou (C) - Max") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed")) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2")
Výsledky lineárnej regresie medzi BOD (mg/L) - Max a Teplotou (C) - Max
| |
Term |
Estimate |
Std_Error |
t_value |
Pr_t |
| (Intercept) |
(Intercept) |
3.2019962 |
3.2534658 |
0.9841801 |
0.3263780 |
| `Temperature (C) - Max` |
`Temperature (C) - Max` |
0.0638972 |
0.1144106 |
0.5584905 |
0.5772193 |
Táto tabuľka zobrazuje výsledky lineárnej regresie
medzi BOD (mg/L) - Max a Teplotou (C) -
Max.
Výsledky
- (Intercept): Koeficient pre intercept (priesečník s
osou Y) je 3.2019962. To znamená, že keď teplota je
0°C, predpokladaná hodnota BOD je približne 3.2
mg/L.
- Temperature (C) - Max: Koeficient pre teplotu je
0.0638972, čo naznačuje, že pri každom zvýšení teploty
o 1°C sa hodnota BOD zvýši približne o 0.064
mg/L.
- Std_Error: Štandardná chyba koeficientov, ktorá
meria variabilitu odhadovaných hodnôt:
- Pre intercept je 3.2534658.
- Pre teplotu je 0.1144106.
- t_value: Testová hodnota (t-hodnota) pre obidve
premenné:
- Pre intercept je 0.9841801.
- Pre teplotu je 0.5584905. Tieto hodnoty naznačujú,
že t-test pre obe premenné nie je veľmi silný.
- Pr_t (p-value): P-hodnota pre oba koeficienty:
- Pre intercept je 0.3263780.
- Pre teplotu je 0.5772193. Obidve p-hodnoty sú
vyššie než bežný prah 0.05, čo znamená, že
rozdiely medzi BOD a teplotou nie sú štatisticky
významné.
Záver
Výsledky regresie naznačujú, že neexistuje štatisticky
významný vzťah medzi teplotou a BOD, pretože p-hodnoty sú
väčšie než 0.05. To znamená, že na základe týchto údajov nemáme
dostatočný dôkaz, že by zmena teploty mala významný vplyv na hodnoty
BOD.
