knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Práca s údajmi
Tradičná práca s databázou
Príklad - moje cvičenie
Práca s jednotlivými stĺpcami
print(f1$Body) # vypíšeme stĺpec Body
[1] 400 350 280 260
print(mean(f1$Body)) # priemerný počet bodov
[1] 322.5
print(f1[Meno=="Lewis Hamilton",]) # vyberieme riadok podľa mena
print(f1[2,]) # vyberieme druhý riadok tabuľky
print(f1[,2:3]) # vyberieme stĺpce Tim a Body
print(f1[1,1]) # vypíšeme jednu bunku (1. riadok, 1. stĺpec)
[1] "Max Verstappen"
summary(f1) # základná štatistika tabuľky
Meno Tim Body
Length:4 Length:4 Min. :260.0
Class :character Class :character 1st Qu.:275.0
Mode :character Mode :character Median :315.0
Mean :322.5
3rd Qu.:362.5
Max. :400.0
Pridanie ďalšieho stĺpca
Napríklad pridáme, či jazdec má pole position v poslednej
kvalifikácii:
PolePosition <- c(TRUE, FALSE, FALSE,TRUE)
f1 <- cbind(f1, PolePosition)
print(f1)
Ak chceme pridať riadok, potom:
# pôvodná tabuľka
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren")
Body <- c(400, 350, 280, 260)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
print(f1)
# nový riadok – musí mať rovnaké stĺpce a typy
novy.riadok <- data.frame(
Meno = "Fernando Alonso",
Tim = "Aston Martin",
Body = 210,
PolePosition = FALSE
)
# pridáme riadok k tabuľke
f1 <- rbind(f1, novy.riadok)
print(f1)
️ Farebná tabuľka jazdcov F1
library(knitr)
library(kableExtra)
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
# zafarbenie Body
f1$Body <- cell_spec(
f1$Body,
"html",
color = "white",
background = spec_color(as.numeric(Body), end = 0.7)
)
kable(
f1,
format = "html", # <<< tu musí byť html
escape = FALSE, # <<< aby sa vykreslili farby
caption = "Výsledky jazdcov F1 s farebným stĺpcom Body"
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "responsive"),
full_width = FALSE,
position = "center"
)
Výsledky jazdcov F1 s farebným stĺpcom Body
Meno |
Tim |
Body |
PolePosition |
Max Verstappen |
Red Bull |
400 |
TRUE |
Lewis Hamilton |
Mercedes |
350 |
FALSE |
Charles Leclerc |
Ferrari |
280 |
FALSE |
Lando Norris |
McLaren |
260 |
TRUE |
Fernando Alonso |
Aston Martin |
210 |
FALSE |
Tidyverse - moderná práca s údajmi
Tidyverse je súbor knižníc, ktoré majú zjednodušiť prácu s údajmi.
Majú jednotný komunikačný štandard, vzájomne sa doplňujú.
# Load tidyverse
library(tidyverse)
dplyr - pre manipuláciu s údajmi
Výber a triedenie
library(tidyverse)
Meno <- c("Max Verstappen", "Lewis Hamilton", "Charles Leclerc", "Lando Norris", "Fernando Alonso")
Tim <- c("Red Bull", "Mercedes", "Ferrari", "McLaren", "Aston Martin")
Body <- c(400, 350, 280, 260, 210)
PolePosition <- c(TRUE, FALSE, FALSE, TRUE, FALSE)
f1 <- data.frame(Meno, Tim, Body, PolePosition)
# vyberieme jazdcov s viac ako 250 bodmi a zoradíme podľa bodov zostupne
f1 %>%
filter(Body > 250) %>%
arrange(desc(Body)) %>%
knitr::kable(format = "html") %>%
kableExtra::kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "responsive"),
full_width = FALSE,
position = "center"
)
Meno |
Tim |
Body |
PolePosition |
Max Verstappen |
Red Bull |
400 |
TRUE |
Lewis Hamilton |
Mercedes |
350 |
FALSE |
Charles Leclerc |
Ferrari |
280 |
FALSE |
Lando Norris |
McLaren |
260 |
TRUE |
Import údajov
na základe viacerých datasetov z kaggle som si pripravila excel ktorý
obsahuje základné údaje z F1
library(readxl)
f1 <- read_excel("f1_long_dataset.xlsx")
head(f1)
Grafy
PolePosition vs Body
library(ggplot2)
ggplot(f1, aes(x = PolePosition, y = Body, color = Jazdec)) +
geom_point(size = 3) +
theme_minimal() +
labs(title = "Vzťah medzi pole position a počtom bodov",
x = "Počet pole position",
y = "Počet bodov")

Čiarový graf – Body podľa rokov
ggplot(f1, aes(x = Rok, y = Body, color = Jazdec, group = Jazdec)) +
geom_line(size = 1.2) +
geom_point(size = 3) +
theme_minimal() +
labs(title = "Vývoj bodov jazdcov F1 (2020–2024)",
x = "Rok",
y = "Body")

Boxplot – rozloženie bodov podľa jazdcov
ggplot(f1, aes(x = Jazdec, y = Body, fill = Jazdec)) +
geom_boxplot() +
theme_minimal() +
labs(title = "Rozloženie bodov podľa jazdcov",
x = "Jazdec",
y = "Body")

Základné štatistiky.
knitr - tabuľka
library(dplyr)
library(knitr)
library(kableExtra)
# Vypočítame základné štatistiky pre body F1 jazdcov podľa rokov
f1.stats <- f1 %>%
group_by(Rok) %>% # zoskupenie podľa roku
summarise(
n = n(), # počet záznamov (jazdcov v danom roku)
mean = mean(Body, na.rm = TRUE), # priemer bodov
sd = sd(Body, na.rm = TRUE), # smerodajná odchýlka
min = min(Body, na.rm = TRUE), # minimálny počet bodov
q25 = quantile(Body, 0.25, na.rm = TRUE), # 1. kvartil (25 %)
median = median(Body, na.rm = TRUE), # medián (50 %)
q75 = quantile(Body, 0.75, na.rm = TRUE), # 3. kvartil (75 %)
max = max(Body, na.rm = TRUE), # maximálny počet bodov
.groups = "drop" # odstránenie vnorených skupín
)
# Vytvoríme pekne naformátovanú tabuľku pomocou kableExtra
f1.stats %>%
kable(
digits = 2, # zaokrúhlenie na 2 desatinné miesta
caption = "Základné štatistiky bodov F1 podľa rokov" # názov tabuľky
) %>%
kable_styling(
full_width = FALSE, # tabuľka nebude cez celú šírku
bootstrap_options = c("striped", "hover", "condensed") # štýl tabuľky
) %>%
column_spec(1, bold = TRUE) %>% # prvý stĺpec (rok) bude tučný
row_spec(0, bold = TRUE, background = "#f2f2f2") %>% # hlavička bude tučná a so sivým pozadím
add_header_above(c(" " = 2, "Body Statistics" = 7)) # nadpis pre skupinu štatistík
Základné štatistiky bodov F1 podľa rokov
|
Body Statistics |
Rok |
n |
mean |
sd |
min |
q25 |
median |
q75 |
max |
2020 |
6 |
269.50 |
94.96 |
180 |
202.5 |
230 |
352.75 |
390 |
2021 |
6 |
275.83 |
89.58 |
190 |
212.5 |
240 |
350.00 |
395 |
2022 |
6 |
283.33 |
82.38 |
200 |
230.0 |
250 |
345.00 |
400 |
2023 |
6 |
290.00 |
78.49 |
210 |
240.0 |
260 |
340.00 |
410 |
2024 |
6 |
296.67 |
75.28 |
220 |
250.0 |
270 |
335.00 |
420 |
T-test – porovnanie priemeru bodov v dvoch rokoch
# t-test porovnanie priemeru bodov v rokoch 2020 a 2024
t.test.result <- t.test(
f1$Body[f1$Rok == 2020],
f1$Body[f1$Rok == 2024]
)
print(t.test.result)
Welch Two Sample t-test
data: f1$Body[f1$Rok == 2020] and f1$Body[f1$Rok == 2024]
t = -0.54915, df = 9.505, p-value = 0.5956
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-138.17750 83.84417
sample estimates:
mean of x mean of y
269.5000 296.6667
ANOVA – porovnanie priemerov medzi viacerými rokmi
# ANOVA: rozdiely v bodoch medzi rokmi
anova.result <- aov(Body ~ as.factor(Rok), data = f1)
summary(anova.result)
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(Rok) 4 2817 704 0.099 0.982
Residuals 25 178275 7131
Výsledky ANOVA testu (F = 0.099, p = 0.982) ukazujú, že medzi rokmi
2020–2024 neexistuje štatisticky významný rozdiel v priemernom počte
bodov jazdcov F1. Priemery bodov sa medzi jednotlivými rokmi nelíšia
Lineárna regresia - predpovedanie bodov
# Lineárna regresia: predikcia bodov podľa výhier a pole position
model <- lm(Body ~ Vyhry + PolePosition, data = f1)
summary(model)
Call:
lm(formula = Body ~ Vyhry + PolePosition, data = f1)
Residuals:
Min 1Q Median 3Q Max
-38.546 -11.681 -3.194 9.514 60.330
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 211.681 5.908 35.829 <2e-16 ***
Vyhry 7.860 5.430 1.447 0.159
PolePosition 12.897 8.245 1.564 0.129
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 23.19 on 27 degrees of freedom
Multiple R-squared: 0.9198, Adjusted R-squared: 0.9139
F-statistic: 154.9 on 2 and 27 DF, p-value: 1.603e-15
