knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Práca s údajmi

Tradičná práca s databázou

Príklad - moje cvičenie

🏎️ Príklad – Formula 1

Majme údaje o jazdcoch F1, ktoré predstavujú štyri premenné – Meno, Tím a Body:

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
f1 <- data.frame(Meno, Tim, Body)
print(f1)

Tieto premenné tvoria tabuľku s jazdcami, ich tímami a počtom bodov.
Teraz napríklad zoradíme tabuľku podľa počtu bodov zostupne:

f1_sorted <- f1_data[order(-f1_data$Body), ]
print(f1_sorted)

Práca s jednotlivými stĺpcami

print(f1$Body)                   # vypíšeme stĺpec Body
[1] 400 350 280 260
print(mean(f1$Body))             # priemerný počet bodov
[1] 322.5
print(f1[Meno=="Lewis Hamilton",])  # vyberieme riadok podľa mena
print(f1[2,])                    # vyberieme druhý riadok tabuľky
print(f1[,2:3])                  # vyberieme stĺpce Tim a Body
print(f1[1,1])                   # vypíšeme jednu bunku (1. riadok, 1. stĺpec)
[1] "Max Verstappen"
summary(f1)                      # základná štatistika tabuľky
     Meno               Tim                 Body      
 Length:4           Length:4           Min.   :260.0  
 Class :character   Class :character   1st Qu.:275.0  
 Mode  :character   Mode  :character   Median :315.0  
                                       Mean   :322.5  
                                       3rd Qu.:362.5  
                                       Max.   :400.0  

Pridanie ďalšieho stĺpca

Napríklad pridáme, či jazdec má pole position v poslednej kvalifikácii:

PolePosition <- c(TRUE, FALSE, FALSE,TRUE)
f1 <- cbind(f1, PolePosition)
print(f1)

Ak chceme pridať riadok, potom:

# pôvodná tabuľka
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)
print(f1)

# nový riadok – musí mať rovnaké stĺpce a typy
novy.riadok <- data.frame(
  Meno = "Fernando Alonso",
  Tim = "Aston Martin",
  Body = 210,
  PolePosition = FALSE
)

# pridáme riadok k tabuľke
f1 <- rbind(f1, novy.riadok)
print(f1)

Tabuľka jazdcov F1 v prostredí kableExtra

library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

kable(
  f1,
  digits = 0,
  align = c("l","c","r","c"),
  caption = "Výsledky jazdcov F1"
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Výsledky jazdcov F1
Meno Tim Body PolePosition
Max Verstappen Red Bull 400 TRUE
Lewis Hamilton Mercedes 350 FALSE
Charles Leclerc Ferrari 280 FALSE
Lando Norris McLaren 260 TRUE
Fernando Alonso Aston Martin 210 FALSE

️ Farebná tabuľka jazdcov F1

library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# zafarbenie Body
f1$Body <- cell_spec(
  f1$Body,
  "html",
  color = "white",
  background = spec_color(as.numeric(Body), end = 0.7)
)

kable(
  f1,
  format = "html",   # <<< tu musí byť html
  escape = FALSE,    # <<< aby sa vykreslili farby
  caption = "Výsledky jazdcov F1 s farebným stĺpcom Body"
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Výsledky jazdcov F1 s farebným stĺpcom Body
Meno Tim Body PolePosition
Max Verstappen Red Bull 400 TRUE
Lewis Hamilton Mercedes 350 FALSE
Charles Leclerc Ferrari 280 FALSE
Lando Norris McLaren 260 TRUE
Fernando Alonso Aston Martin 210 FALSE

Tidyverse - moderná práca s údajmi

Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi. Majú jednotný komunikačný štandard, vzájomne sa doplňujú.

# Load tidyverse
library(tidyverse)

dplyr - pre manipuláciu s údajmi

Výber a triedenie

library(tidyverse)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# vyberieme jazdcov s viac ako 250 bodmi a zoradíme podľa bodov zostupne
f1 %>%
  filter(Body > 250) %>%
  arrange(desc(Body)) %>%
  knitr::kable(format = "html") %>%
  kableExtra::kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Meno Tim Body PolePosition
Max Verstappen Red Bull 400 TRUE
Lewis Hamilton Mercedes 350 FALSE
Charles Leclerc Ferrari 280 FALSE
Lando Norris McLaren 260 TRUE

Zoskupenie a sumarizácia – Formula 1

library(tidyverse)
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# zoskupíme podľa PolePosition a spočítame priemerné body a počet jazdcov
f1 %>%
  group_by(PolePosition) %>%
  summarise(
    PriemerBody = mean(Body),
    Pocet = n()
  ) %>%
  kable(
    caption = "Priemerné body podľa toho, či jazdec získal Pole Position",
    col.names = c("Pole Position", "Priemerné Body", "Počet"),
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
Priemerné body podľa toho, či jazdec získal Pole Position
Pole Position Priemerné Body Počet
FALSE 280 3
TRUE 330 2

Vytváranie novej premennej – Formula 1

BodyDoCiela nám ukazuje o koľko boodov jazdec zaostáva za lídrom M.V. Hodnotenie S- super výkon jazdec má viac ako 350bodov, B - priemer jazdec má 250 až 299 bodov, C - slabý výkon jazdec má menej ako 250 bodov

library(tidyverse)
library(knitr)
library(kableExtra)

Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)

f1 <- data.frame(Meno, Tim, Body, PolePosition)

# vytvoríme nové stĺpce
f1 %>%
  mutate(
    Hodnotenie = case_when(
      Body >= 350 ~ "S",
      Body >= 300 ~ "A",
      Body >= 250 ~ "B",
      TRUE ~ "C"
    ),
    BodyDoCiela = max(Body) - Body
  ) %>%
  kable(
    caption = "F1 jazdci s novými premennými Hodnotenie a BodyDoCiela",
    align = "c"
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  )
F1 jazdci s novými premennými Hodnotenie a BodyDoCiela
Meno Tim Body PolePosition Hodnotenie BodyDoCiela
Max Verstappen Red Bull 400 TRUE S 0
Lewis Hamilton Mercedes 350 FALSE S 50
Charles Leclerc Ferrari 280 FALSE B 120
Lando Norris McLaren 260 TRUE B 140
Fernando Alonso Aston Martin 210 FALSE C 190

Import údajov

na základe viacerých datasetov z kaggle som si pripravila excel ktorý obsahuje základné údaje z F1

library(readxl)

f1 <- read_excel("f1_long_dataset.xlsx")
head(f1)

Grafy

PolePosition vs Body

library(ggplot2)

ggplot(f1, aes(x = PolePosition, y = Body, color = Jazdec)) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Vzťah medzi pole position a počtom bodov",
       x = "Počet pole position",
       y = "Počet bodov")

Čiarový graf – Body podľa rokov

ggplot(f1, aes(x = Rok, y = Body, color = Jazdec, group = Jazdec)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Vývoj bodov jazdcov F1 (2020–2024)",
       x = "Rok",
       y = "Body")

Boxplot – rozloženie bodov podľa jazdcov

ggplot(f1, aes(x = Jazdec, y = Body, fill = Jazdec)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Rozloženie bodov podľa jazdcov",
       x = "Jazdec",
       y = "Body")

Základné štatistiky.

knitr - tabuľka

library(dplyr)
library(knitr)
library(kableExtra)

# Vypočítame základné štatistiky pre body F1 jazdcov podľa rokov
f1.stats <- f1 %>%
  group_by(Rok) %>%                        # zoskupenie podľa roku
  summarise(
    n       = n(),                         # počet záznamov (jazdcov v danom roku)
    mean    = mean(Body, na.rm = TRUE),    # priemer bodov
    sd      = sd(Body, na.rm = TRUE),      # smerodajná odchýlka
    min     = min(Body, na.rm = TRUE),     # minimálny počet bodov
    q25     = quantile(Body, 0.25, na.rm = TRUE), # 1. kvartil (25 %)
    median  = median(Body, na.rm = TRUE),  # medián (50 %)
    q75     = quantile(Body, 0.75, na.rm = TRUE), # 3. kvartil (75 %)
    max     = max(Body, na.rm = TRUE),     # maximálny počet bodov
    .groups = "drop"                       # odstránenie vnorených skupín
  )

# Vytvoríme pekne naformátovanú tabuľku pomocou kableExtra
f1.stats %>%
  kable(
    digits = 2,                                     # zaokrúhlenie na 2 desatinné miesta
    caption = "Základné štatistiky bodov F1 podľa rokov"  # názov tabuľky
  ) %>%
  kable_styling(
    full_width = FALSE,                             # tabuľka nebude cez celú šírku
    bootstrap_options = c("striped", "hover", "condensed") # štýl tabuľky
  ) %>%
  column_spec(1, bold = TRUE) %>%                   # prvý stĺpec (rok) bude tučný
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%  # hlavička bude tučná a so sivým pozadím
  add_header_above(c(" " = 2, "Body Statistics" = 7))    # nadpis pre skupinu štatistík
Základné štatistiky bodov F1 podľa rokov
Body Statistics
Rok n mean sd min q25 median q75 max
2020 6 269.50 94.96 180 202.5 230 352.75 390
2021 6 275.83 89.58 190 212.5 240 350.00 395
2022 6 283.33 82.38 200 230.0 250 345.00 400
2023 6 290.00 78.49 210 240.0 260 340.00 410
2024 6 296.67 75.28 220 250.0 270 335.00 420

T-test – porovnanie priemeru bodov v dvoch rokoch

# t-test porovnanie priemeru bodov v rokoch 2020 a 2024
t.test.result <- t.test(
  f1$Body[f1$Rok == 2020],
  f1$Body[f1$Rok == 2024]
)

print(t.test.result)

    Welch Two Sample t-test

data:  f1$Body[f1$Rok == 2020] and f1$Body[f1$Rok == 2024]
t = -0.54915, df = 9.505, p-value = 0.5956
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -138.17750   83.84417
sample estimates:
mean of x mean of y 
 269.5000  296.6667 

ANOVA – porovnanie priemerov medzi viacerými rokmi

# ANOVA: rozdiely v bodoch medzi rokmi
anova.result <- aov(Body ~ as.factor(Rok), data = f1)
summary(anova.result)
               Df Sum Sq Mean Sq F value Pr(>F)
as.factor(Rok)  4   2817     704   0.099  0.982
Residuals      25 178275    7131               

Výsledky ANOVA testu (F = 0.099, p = 0.982) ukazujú, že medzi rokmi 2020–2024 neexistuje štatisticky významný rozdiel v priemernom počte bodov jazdcov F1. Priemery bodov sa medzi jednotlivými rokmi nelíšia

Lineárna regresia - predpovedanie bodov

# Lineárna regresia: predikcia bodov podľa výhier a pole position
model <- lm(Body ~ Vyhry + PolePosition, data = f1)
summary(model)

Call:
lm(formula = Body ~ Vyhry + PolePosition, data = f1)

Residuals:
    Min      1Q  Median      3Q     Max 
-38.546 -11.681  -3.194   9.514  60.330 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   211.681      5.908  35.829   <2e-16 ***
Vyhry           7.860      5.430   1.447    0.159    
PolePosition   12.897      8.245   1.564    0.129    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 23.19 on 27 degrees of freedom
Multiple R-squared:  0.9198,    Adjusted R-squared:  0.9139 
F-statistic: 154.9 on 2 and 27 DF,  p-value: 1.603e-15
