Úvod

Cieľom tohto dokumentu je predstaviť kvantilovú regresiu na reálnych dátach svetového šampionátu Formuly 1. Na rozdiel od klasickej regresie (OLS), ktorá skúma priemerný vplyv, kvantilová regresia nám umožňuje vidieť, ako sa vzťah medzi štartovou a cieľovou pozíciou mení pre rôzne výkonnostné skupiny jazdcov.

1. Vizualizácia dát a heteroskedasticita

V klasickej lineárnej regresii predpokladáme konštantný rozptyl chýb. V F1 to však neplatí.

ggplot(f1_data, aes(x = grid, y = positionOrder)) +
  geom_jitter(alpha = 0.1, color = "gray20", width = 0.3, height = 0.3) + 
  labs(title = "Rozptyl cieľových pozícií podľa štartu",
       x = "Štartová pozícia (Grid)", y = "Pozícia v cieli") +
  theme_minimal()

Pozorovanie: Všimnite si “vejárovitý” tvar dát. Pri štarte z prvých miest je výsledok vysoko predvídateľný (malý rozptyl). Čím horšia je štartová pozícia, tým viac sa rozptyl cieľových umiestnení zväčšuje. Toto je hlavný dôvod, prečo použiť kvantilovú regresiu. ## 2. Odhad modelov (OLS vs. Kvantily) Porovnáme priemerný vplyv (OLS) s extrémami: Q10 (úspešné výsledky/top tímy) a Q90 (neúspešné výsledky/chvost poľa).

m_ols <- lm(positionOrder ~ grid, data = f1_data)
m_q10 <- rq(positionOrder ~ grid, tau = 0.1, data = f1_data)
m_q50 <- rq(positionOrder ~ grid, tau = 0.5, data = f1_data)
m_q90 <- rq(positionOrder ~ grid, tau = 0.9, data = f1_data)

# Porovnanie koeficientov

summary(m_q10)$coefficients
##                   Value Std. Error   t value  Pr(>|t|)
## (Intercept) -0.09090909 0.08943742 -1.016455 0.3094516
## grid         0.54545455 0.01420254 38.405415 0.0000000
summary(m_q90)$coefficients
##                  Value Std. Error  t value Pr(>|t|)
## (Intercept) 16.3333333 0.34765734 46.98113        0
## grid         0.2222222 0.01814215 12.24895        0

3. Grafické porovnanie regresných priamok

ggplot(f1_data, aes(x = grid, y = positionOrder)) +
  geom_jitter(alpha = 0.05, color = "gray20", width = 0.3, height = 0.3) + 
  geom_abline(aes(intercept = coef(m_ols)[1], slope = coef(m_ols)[2], color = "Priemer (OLS)"), size = 1.2) +
  geom_abline(aes(intercept = coef(m_q10)[1], slope = coef(m_q10)[2], color = "Q10 (Top výsledky)"), linetype = "dashed", size = 1.2) +
  geom_abline(aes(intercept = coef(m_q90)[1], slope = coef(m_q90)[2], color = "Q90 (Chvost poľa)"), linetype = "dotted", size = 1.2) +
  scale_color_manual(name = "Model", values = c("Priemer (OLS)" = "black", "Q10 (Top výsledky)" = "blue", "Q90 (Chvost poľa)" = "red")) +
  theme_minimal() +
  labs(title = "Porovnanie sklonov regresných priamok")

## Interpretácia koeficientov Sklon Q10 (0.55): U top výsledkov je závislosť od štartu silná. Stratégia a čistá rýchlosť držia jazdca vpredu.

Sklon Q90 (0.22): U najhorších výsledkov štartová pozícia takmer nehrá rolu. Tu dominujú nehody a technické zlyhania, ktoré sú nezávislé od toho, či jazdec štartoval 12. alebo 18.

4. Analýza naprieč celým spektrom (Tau Plot)

Tento graf ukazuje, ako sa mení koeficient pre premennú grid pre všetky kvantily od 0.1 po 0.9.

taus <- seq(0.1, 0.9, by = 0.1)
m_many <- rq(positionOrder ~ grid, tau = taus, data = f1_data)
coef_many <- data.frame(tau = taus, slope = coef(m_many)[2, ])

ggplot(coef_many, aes(x = tau, y = slope)) +
  geom_line(size = 1, color = "darkred") +
  geom_point(size = 3) +
  geom_hline(yintercept = coef(m_ols)[2], linetype = "dashed") +
  labs(title = "Zmena vplyvu štartovej pozície podľa kvantilov",
       x = "Kvantil (Tau)", y = "Odhadovaný sklon (Slope)") +
  theme_minimal()

Kľúčové zistenie: Najväčší vplyv má kvalifikácia na stred poľa (tau 0.5 - 0.7). V strede poľa je najťažšie predbiehať a jazdci sú často “zaseknutí” v poradí, v akom odštartovali.

5. Prečo OLS zlyháva?

Pozrime sa na rezíduá (chyby) klasickej OLS regresie.

f1_data$res <- residuals(m_ols)

ggplot(f1_data, aes(x = grid, y = res)) +
  geom_jitter(alpha = 0.1) +
  geom_hline(yintercept = 0, color = "red") +
  labs(title = "Analýza rezíduí OLS", subtitle = "Nerovnomerný rozptyl potvrdzuje nevhodnosť OLS",
       x = "Grid", y = "Rezíduá") +
  theme_minimal()

Ak by bola OLS správna, body by mali byť rovnomerne rozložené okolo červenej čiary. My však vidíme, že s rastúcim Gridom sa rozptyl dramaticky zväčšuje.

Záver

Kvantilová regresia nám odhalila skrytú dynamiku Formuly 1:

Elitné výsledky sú predvídateľné a stabilné.

Stred poľa je najviac limitovaný štartovou pozíciou.

Spodná časť tabuľky podlieha náhode a chaosu, kde kvalifikácia stráca svoju výpovednú hodnotu.

Táto metóda poskytuje oveľa komplexnejší obraz o športe než jednoduchý priemer.