knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Práca s údajmi
Tradičná práca s databázou
Príklad - moje cvičenie
Práca s jednotlivými stĺpcami
print(f1$Body) # vypíšeme stĺpec Body
[1] 400 350 280 260
print(mean(f1$Body)) # priemerný počet bodov
[1] 322.5
print(f1[Meno=="Lewis Hamilton",]) # vyberieme riadok podľa mena
print(f1[2,]) # vyberieme druhý riadok tabuľky
print(f1[,2:3]) # vyberieme stĺpce Tim a Body
print(f1[1,1]) # vypíšeme jednu bunku (1. riadok, 1. stĺpec)
[1] "Max Verstappen"
summary(f1) # základná štatistika tabuľky
Meno Tim Body
Length:4 Length:4 Min. :260.0
Class :character Class :character 1st Qu.:275.0
Mode :character Mode :character Median :315.0
Mean :322.5
3rd Qu.:362.5
Max. :400.0
Pridanie ďalšieho stĺpca
Napríklad pridáme, či jazdec má pole position v poslednej
kvalifikácii:
PolePosition <- c(TRUE, FALSE, FALSE,TRUE)
f1 <- cbind(f1, PolePosition)
print(f1)
Ak chceme pridať riadok, potom:
# pôvodná tabuľka
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
print(f1)
# nový riadok – musí mať rovnaké stĺpce a typy
novy.riadok <- data.frame(
Meno = "Fernando Alonso",
Tim = "Aston Martin",
Body = 210,
PolePosition = FALSE
)
# pridáme riadok k tabuľke
f1 <- rbind(f1, novy.riadok)
print(f1)
️ Farebná tabuľka jazdcov F1
library(knitr)
library(kableExtra)
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
# zafarbenie Body
f1$Body <- cell_spec(
f1$Body,
"html",
color = "white",
background = spec_color(as.numeric(Body), end = 0.7)
)
kable(
f1,
format = "html", # <<< tu musí byť html
escape = FALSE, # <<< aby sa vykreslili farby
caption = "Výsledky jazdcov F1 s farebným stĺpcom Body"
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "responsive"),
full_width = FALSE,
position = "center"
)
Výsledky jazdcov F1 s farebným stĺpcom Body
Meno |
Tim |
Body |
PolePosition |
Max Verstappen |
Red Bull |
400 |
TRUE |
Lewis Hamilton |
Mercedes |
350 |
FALSE |
Charles Leclerc |
Ferrari |
280 |
FALSE |
Lando Norris |
McLaren |
260 |
TRUE |
Fernando Alonso |
Aston Martin |
210 |
FALSE |
Tidyverse - moderná práca s údajmi
Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi.
Majú jednotný komunikačný štandard, vzájomne sa doplňujú.
# Load tidyverse
library(tidyverse)
dplyr - pre manipuláciu s údajmi
Výber a triedenie
library(tidyverse)
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
# vyberieme jazdcov s viac ako 250 bodmi a zoradíme podľa bodov zostupne
f1 %>%
filter(Body > 250) %>%
arrange(desc(Body)) %>%
knitr::kable(format = "html") %>%
kableExtra::kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "responsive"),
full_width = FALSE,
position = "center"
)
Meno |
Tim |
Body |
PolePosition |
Max Verstappen |
Red Bull |
400 |
TRUE |
Lewis Hamilton |
Mercedes |
350 |
FALSE |
Charles Leclerc |
Ferrari |
280 |
FALSE |
Lando Norris |
McLaren |
260 |
TRUE |
Import údajov
na základe viacerých datasetov z kaggle som si pripravila excel ktorý
obsahuje základné údaje z F1
library(readxl)
f1 <- read_excel("f1_long_dataset.xlsx")
head(f1)
Grafy
PolePosition vs Body
library(ggplot2)
ggplot(f1, aes(x = PolePosition, y = Body, color = Jazdec)) +
geom_point(size = 3) +
theme_minimal() +
labs(title = "Vzťah medzi pole position a počtom bodov",
x = "Počet pole position",
y = "Počet bodov")

Čiarový graf – Body podľa rokov
ggplot(f1, aes(x = Rok, y = Body, color = Jazdec, group = Jazdec)) +
geom_line(size = 1.2) +
geom_point(size = 3) +
theme_minimal() +
labs(title = "Vývoj bodov jazdcov F1 (2020–2024)",
x = "Rok",
y = "Body")

Boxplot – rozloženie bodov podľa jazdcov
ggplot(f1, aes(x = Jazdec, y = Body, fill = Jazdec)) +
geom_boxplot() +
theme_minimal() +
labs(title = "Rozloženie bodov podľa jazdcov",
x = "Jazdec",
y = "Body")

Základné štatistiky.
knitr - tabuľka
library(dplyr)
library(knitr)
library(kableExtra)
# Vypočítame základné štatistiky pre body F1 jazdcov podľa rokov
f1.stats <- f1 %>%
group_by(Rok) %>% # zoskupenie podľa roku
summarise(
n = n(), # počet záznamov (jazdcov v danom roku)
mean = mean(Body, na.rm = TRUE), # priemer bodov
sd = sd(Body, na.rm = TRUE), # smerodajná odchýlka
min = min(Body, na.rm = TRUE), # minimálny počet bodov
q25 = quantile(Body, 0.25, na.rm = TRUE), # 1. kvartil (25 %)
median = median(Body, na.rm = TRUE), # medián (50 %)
q75 = quantile(Body, 0.75, na.rm = TRUE), # 3. kvartil (75 %)
max = max(Body, na.rm = TRUE), # maximálny počet bodov
.groups = "drop" # odstránenie vnorených skupín
)
# Vytvoríme pekne naformátovanú tabuľku pomocou kableExtra
f1.stats %>%
kable(
digits = 2, # zaokrúhlenie na 2 desatinné miesta
caption = "Základné štatistiky bodov F1 podľa rokov" # názov tabuľky
) %>%
kable_styling(
full_width = FALSE, # tabuľka nebude cez celú šírku
bootstrap_options = c("striped", "hover", "condensed") # štýl tabuľky
) %>%
column_spec(1, bold = TRUE) %>% # prvý stĺpec (rok) bude tučný
row_spec(0, bold = TRUE, background = "#f2f2f2") %>% # hlavička bude tučná a so sivým pozadím
add_header_above(c(" " = 2, "Body Statistics" = 7)) # nadpis pre skupinu štatistík
Základné štatistiky bodov F1 podľa rokov
|
Body Statistics |
Rok |
n |
mean |
sd |
min |
q25 |
median |
q75 |
max |
2020 |
6 |
269.50 |
94.96 |
180 |
202.5 |
230 |
352.75 |
390 |
2021 |
6 |
275.83 |
89.58 |
190 |
212.5 |
240 |
350.00 |
395 |
2022 |
6 |
283.33 |
82.38 |
200 |
230.0 |
250 |
345.00 |
400 |
2023 |
6 |
290.00 |
78.49 |
210 |
240.0 |
260 |
340.00 |
410 |
2024 |
6 |
296.67 |
75.28 |
220 |
250.0 |
270 |
335.00 |
420 |
T-test – porovnanie priemeru bodov v dvoch rokoch
# t-test porovnanie priemeru bodov v rokoch 2020 a 2024
t.test.result <- t.test(
f1$Body[f1$Rok == 2020],
f1$Body[f1$Rok == 2024]
)
print(t.test.result)
Welch Two Sample t-test
data: f1$Body[f1$Rok == 2020] and f1$Body[f1$Rok == 2024]
t = -0.54915, df = 9.505, p-value = 0.5956
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-138.17750 83.84417
sample estimates:
mean of x mean of y
269.5000 296.6667
ANOVA – porovnanie priemerov medzi viacerými rokmi
# ANOVA: rozdiely v bodoch medzi rokmi
anova.result <- aov(Body ~ as.factor(Rok), data = f1)
summary(anova.result)
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(Rok) 4 2817 704 0.099 0.982
Residuals 25 178275 7131
Výsledky ANOVA testu (F = 0.099, p = 0.982) ukazujú, že medzi rokmi
2020–2024 neexistuje štatisticky významný rozdiel v priemernom počte
bodov jazdcov F1. Priemery bodov sa medzi jednotlivými rokmi nelíšia
Lineárna regresia - predpovedanie bodov
# Lineárna regresia: predikcia bodov podľa výhier a pole position
model <- lm(Body ~ Vyhry + PolePosition, data = f1)
summary(model)
Call:
lm(formula = Body ~ Vyhry + PolePosition, data = f1)
Residuals:
Min 1Q Median 3Q Max
-38.546 -11.681 -3.194 9.514 60.330
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 211.681 5.908 35.829 <2e-16 ***
Vyhry 7.860 5.430 1.447 0.159
PolePosition 12.897 8.245 1.564 0.129
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 23.19 on 27 degrees of freedom
Multiple R-squared: 0.9198, Adjusted R-squared: 0.9139
F-statistic: 154.9 on 2 and 27 DF, p-value: 1.603e-15
---
title: "Práca s databázou"
author: "Simona Vančová <br>
(s využitím verejne dostupných kódov)"
date: "September 2025"
output: 
  html_notebook:
    toc: true
    toc_float: true
    theme: united
    highlight: tango
editor_options: 
  markdown: 
    wrap: 72
---

```{r}
knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
```

<h1 style="color:orange;">

Práca s údajmi

</h1>

<h2 style="color:blue;">

Tradičná práca s databázou

</h2>

## Príklad - moje cvičenie

### 🏎️ Príklad – Formula 1

Majme údaje o jazdcoch F1, ktoré predstavujú štyri premenné – **Meno**,
**Tím** a **Body**:

```{r}
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
f1 <- data.frame(Meno, Tim, Body)
print(f1)
```

Tieto premenné tvoria tabuľku s jazdcami, ich tímami a počtom
bodov.\
Teraz napríklad zoradíme tabuľku podľa počtu bodov zostupne:

```{r}
f1_sorted <- f1_data[order(-f1_data$Body), ]
print(f1_sorted)
```

### Práca s jednotlivými stĺpcami

```{r}
print(f1$Body)                   # vypíšeme stĺpec Body
print(mean(f1$Body))             # priemerný počet bodov
print(f1[Meno=="Lewis Hamilton",])  # vyberieme riadok podľa mena
print(f1[2,])                    # vyberieme druhý riadok tabuľky
print(f1[,2:3])                  # vyberieme stĺpce Tim a Body
print(f1[1,1])                   # vypíšeme jednu bunku (1. riadok, 1. stĺpec)
summary(f1)                      # základná štatistika tabuľky
```

### Pridanie ďalšieho stĺpca

Napríklad pridáme, či jazdec má pole position v poslednej kvalifikácii:

```{r}
PolePosition <- c(TRUE, FALSE, FALSE,TRUE)
f1 <- cbind(f1, PolePosition)
print(f1)
```

Ak chceme pridať riadok, potom:

```{r}
# pôvodná tabuľka
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)
print(f1)

# nový riadok – musí mať rovnaké stĺpce a typy
novy.riadok <- data.frame(
  Meno = "Fernando Alonso",
  Tim = "Aston Martin",
  Body = 210,
  PolePosition = FALSE
)

# pridáme riadok k tabuľke
f1 <- rbind(f1, novy.riadok)
print(f1)
```

### Tabuľka jazdcov F1 v prostredí kableExtra

```{r}
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

kable(
  f1,
  digits = 0,
  align = c("l","c","r","c"),
  caption = "Výsledky jazdcov F1"
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
```

### ️ Farebná tabuľka jazdcov F1

```{r}
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# zafarbenie Body
f1$Body <- cell_spec(
  f1$Body,
  "html",
  color = "white",
  background = spec_color(as.numeric(Body), end = 0.7)
)

kable(
  f1,
  format = "html",   # <<< tu musí byť html
  escape = FALSE,    # <<< aby sa vykreslili farby
  caption = "Výsledky jazdcov F1 s farebným stĺpcom Body"
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
```

## Tidyverse - moderná práca s údajmi

Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi. Majú
jednotný komunikačný štandard, vzájomne sa doplňujú.

```{r}
# Load tidyverse
library(tidyverse)
```

### dplyr - pre manipuláciu s údajmi

#### Výber a triedenie

```{r}
library(tidyverse)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# vyberieme jazdcov s viac ako 250 bodmi a zoradíme podľa bodov zostupne
f1 %>%
  filter(Body > 250) %>%
  arrange(desc(Body)) %>%
  knitr::kable(format = "html") %>%
  kableExtra::kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
```

#### Zoskupenie a sumarizácia – Formula 1

```{r}
library(tidyverse)
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# zoskupíme podľa PolePosition a spočítame priemerné body a počet jazdcov
f1 %>%
  group_by(PolePosition) %>%
  summarise(
    PriemerBody = mean(Body),
    Pocet = n()
  ) %>%
  kable(
    caption = "Priemerné body podľa toho, či jazdec získal Pole Position",
    col.names = c("Pole Position", "Priemerné Body", "Počet"),
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
```

#### Vytváranie novej premennej – Formula 1

BodyDoCiela nám ukazuje o koľko boodov jazdec zaostáva za lídrom M.V.
Hodnotenie S- super výkon jazdec má viac ako 350bodov, B - priemer
jazdec má 250 až 299 bodov, C - slabý výkon jazdec má menej ako 250
bodov

```{r}
library(tidyverse)
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# vytvoríme nové stĺpce
f1 %>%
  mutate(
    Hodnotenie = case_when(
      Body >= 350 ~ "S",
      Body >= 300 ~ "A",
      Body >= 250 ~ "B",
      TRUE ~ "C"
    ),
    BodyDoCiela = max(Body) - Body
  ) %>%
  kable(
    caption = "F1 jazdci s novými premennými Hodnotenie a BodyDoCiela",
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
```

## Import údajov

na základe viacerých datasetov z kaggle som si pripravila excel ktorý
obsahuje základné údaje z F1

```{r}
library(readxl)

f1 <- read_excel("f1_long_dataset.xlsx")
head(f1)
```

## Grafy

### PolePosition vs Body

```{r}
library(ggplot2)

ggplot(f1, aes(x = PolePosition, y = Body, color = Jazdec)) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Vzťah medzi pole position a počtom bodov",
       x = "Počet pole position",
       y = "Počet bodov")
```

### Čiarový graf – Body podľa rokov

```{r}
ggplot(f1, aes(x = Rok, y = Body, color = Jazdec, group = Jazdec)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Vývoj bodov jazdcov F1 (2020–2024)",
       x = "Rok",
       y = "Body")
```

### Boxplot – rozloženie bodov podľa jazdcov

```{r}
ggplot(f1, aes(x = Jazdec, y = Body, fill = Jazdec)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Rozloženie bodov podľa jazdcov",
       x = "Jazdec",
       y = "Body")

```

# Základné štatistiky.

## knitr - tabuľka

```{r}
library(dplyr)
library(knitr)
library(kableExtra)

# Vypočítame základné štatistiky pre body F1 jazdcov podľa rokov
f1.stats <- f1 %>%
  group_by(Rok) %>%                        # zoskupenie podľa roku
  summarise(
    n       = n(),                         # počet záznamov (jazdcov v danom roku)
    mean    = mean(Body, na.rm = TRUE),    # priemer bodov
    sd      = sd(Body, na.rm = TRUE),      # smerodajná odchýlka
    min     = min(Body, na.rm = TRUE),     # minimálny počet bodov
    q25     = quantile(Body, 0.25, na.rm = TRUE), # 1. kvartil (25 %)
    median  = median(Body, na.rm = TRUE),  # medián (50 %)
    q75     = quantile(Body, 0.75, na.rm = TRUE), # 3. kvartil (75 %)
    max     = max(Body, na.rm = TRUE),     # maximálny počet bodov
    .groups = "drop"                       # odstránenie vnorených skupín
  )

# Vytvoríme pekne naformátovanú tabuľku pomocou kableExtra
f1.stats %>%
  kable(
    digits = 2,                                     # zaokrúhlenie na 2 desatinné miesta
    caption = "Základné štatistiky bodov F1 podľa rokov"  # názov tabuľky
  ) %>%
  kable_styling(
    full_width = FALSE,                             # tabuľka nebude cez celú šírku
    bootstrap_options = c("striped", "hover", "condensed") # štýl tabuľky
  ) %>%
  column_spec(1, bold = TRUE) %>%                   # prvý stĺpec (rok) bude tučný
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%  # hlavička bude tučná a so sivým pozadím
  add_header_above(c(" " = 2, "Body Statistics" = 7))    # nadpis pre skupinu štatistík
```

## T-test – porovnanie priemeru bodov v dvoch rokoch

```{r}
# t-test porovnanie priemeru bodov v rokoch 2020 a 2024
t.test.result <- t.test(
  f1$Body[f1$Rok == 2020],
  f1$Body[f1$Rok == 2024]
)

print(t.test.result)
```

## ANOVA – porovnanie priemerov medzi viacerými rokmi

```{r}
# ANOVA: rozdiely v bodoch medzi rokmi
anova.result <- aov(Body ~ as.factor(Rok), data = f1)
summary(anova.result)
```

Výsledky ANOVA testu (F = 0.099, p = 0.982) ukazujú, že medzi rokmi
2020–2024 neexistuje štatisticky významný rozdiel v priemernom počte
bodov jazdcov F1. Priemery bodov sa medzi jednotlivými rokmi nelíšia

## Lineárna regresia - predpovedanie bodov

```{r}
# Lineárna regresia: predikcia bodov podľa výhier a pole position
model <- lm(Body ~ Vyhry + PolePosition, data = f1)
summary(model)
```
