Cieľom tohto dokumentu je predstaviť kvantilovú regresiu na reálnych dátach svetového šampionátu Formuly 1. Na rozdiel od klasickej regresie (OLS), ktorá skúma priemerný vplyv, kvantilová regresia nám umožňuje vidieť, ako sa vzťah medzi štartovou a cieľovou pozíciou mení pre rôzne výkonnostné skupiny jazdcov.
V klasickej lineárnej regresii predpokladáme konštantný rozptyl chýb. V F1 to však neplatí.
ggplot(f1_data, aes(x = grid, y = positionOrder)) +
geom_jitter(alpha = 0.1, color = "gray20", width = 0.3, height = 0.3) +
labs(title = "Rozptyl cieľových pozícií podľa štartu",
x = "Štartová pozícia (Grid)", y = "Pozícia v cieli") +
theme_minimal()
Pozorovanie: Všimnite si “vejárovitý” tvar dát. Pri štarte z prvých
miest je výsledok vysoko predvídateľný (malý rozptyl). Čím horšia je
štartová pozícia, tým viac sa rozptyl cieľových umiestnení zväčšuje.
Toto je hlavný dôvod, prečo použiť kvantilovú regresiu. ## 2. Odhad
modelov (OLS vs. Kvantily) Porovnáme priemerný vplyv (OLS) s extrémami:
Q10 (úspešné výsledky/top tímy) a Q90 (neúspešné výsledky/chvost
poľa).
m_ols <- lm(positionOrder ~ grid, data = f1_data)
m_q10 <- rq(positionOrder ~ grid, tau = 0.1, data = f1_data)
m_q50 <- rq(positionOrder ~ grid, tau = 0.5, data = f1_data)
m_q90 <- rq(positionOrder ~ grid, tau = 0.9, data = f1_data)
# Porovnanie koeficientov
summary(m_q10)$coefficients## Value Std. Error t value Pr(>|t|)
## (Intercept) -0.09090909 0.08943742 -1.016455 0.3094516
## grid 0.54545455 0.01420254 38.405415 0.0000000
## Value Std. Error t value Pr(>|t|)
## (Intercept) 16.3333333 0.34765734 46.98113 0
## grid 0.2222222 0.01814215 12.24895 0
ggplot(f1_data, aes(x = grid, y = positionOrder)) +
geom_jitter(alpha = 0.05, color = "gray20", width = 0.3, height = 0.3) +
geom_abline(aes(intercept = coef(m_ols)[1], slope = coef(m_ols)[2], color = "Priemer (OLS)"), size = 1.2) +
geom_abline(aes(intercept = coef(m_q10)[1], slope = coef(m_q10)[2], color = "Q10 (Top výsledky)"), linetype = "dashed", size = 1.2) +
geom_abline(aes(intercept = coef(m_q90)[1], slope = coef(m_q90)[2], color = "Q90 (Chvost poľa)"), linetype = "dotted", size = 1.2) +
scale_color_manual(name = "Model", values = c("Priemer (OLS)" = "black", "Q10 (Top výsledky)" = "blue", "Q90 (Chvost poľa)" = "red")) +
theme_minimal() +
labs(title = "Porovnanie sklonov regresných priamok")
## Interpretácia koeficientov Sklon Q10 (0.55): U top výsledkov je
závislosť od štartu silná. Stratégia a čistá rýchlosť držia jazdca
vpredu.
Sklon Q90 (0.22): U najhorších výsledkov štartová pozícia takmer nehrá rolu. Tu dominujú nehody a technické zlyhania, ktoré sú nezávislé od toho, či jazdec štartoval 12. alebo 18.
Tento graf ukazuje, ako sa mení koeficient pre premennú grid pre všetky kvantily od 0.1 po 0.9.
taus <- seq(0.1, 0.9, by = 0.1)
m_many <- rq(positionOrder ~ grid, tau = taus, data = f1_data)
coef_many <- data.frame(tau = taus, slope = coef(m_many)[2, ])
ggplot(coef_many, aes(x = tau, y = slope)) +
geom_line(size = 1, color = "darkred") +
geom_point(size = 3) +
geom_hline(yintercept = coef(m_ols)[2], linetype = "dashed") +
labs(title = "Zmena vplyvu štartovej pozície podľa kvantilov",
x = "Kvantil (Tau)", y = "Odhadovaný sklon (Slope)") +
theme_minimal()
Kľúčové zistenie: Najväčší vplyv má kvalifikácia na stred poľa (tau 0.5
- 0.7). V strede poľa je najťažšie predbiehať a jazdci sú často
“zaseknutí” v poradí, v akom odštartovali.
Pozrime sa na rezíduá (chyby) klasickej OLS regresie.
f1_data$res <- residuals(m_ols)
ggplot(f1_data, aes(x = grid, y = res)) +
geom_jitter(alpha = 0.1) +
geom_hline(yintercept = 0, color = "red") +
labs(title = "Analýza rezíduí OLS", subtitle = "Nerovnomerný rozptyl potvrdzuje nevhodnosť OLS",
x = "Grid", y = "Rezíduá") +
theme_minimal()
Ak by bola OLS správna, body by mali byť rovnomerne rozložené okolo
červenej čiary. My však vidíme, že s rastúcim Gridom sa rozptyl
dramaticky zväčšuje.
Kvantilová regresia nám odhalila skrytú dynamiku Formuly 1:
Elitné výsledky sú predvídateľné a stabilné.
Stred poľa je najviac limitovaný štartovou pozíciou.
Spodná časť tabuľky podlieha náhode a chaosu, kde kvalifikácia stráca svoju výpovednú hodnotu.
Táto metóda poskytuje oveľa komplexnejší obraz o športe než jednoduchý priemer.