1 Úvod

Cieľom tohto projektu je aplikovať vybrané metódy ekonometrickej analýzy na reálne dáta zo sveta Formuly 1. Namiesto tradičných makroekonomických databáz pracujem s vlastnými údajmi o výkonnosti tímu Ferrari v jednotlivých sezónach.

V práci je použitá viacnásobná lineárna regresia a následne sú overované jej základné predpoklady, najmä správna špecifikácia modelu, heteroskedasticita, autokorelácia rezíduí a multikolinearita. Cieľom nie je vytvoriť predikčný model, ale demonštrovať správne použitie ekonometrických nástrojov a ich interpretáciu na netradičných dátach. # 1 Moje dáta

1.1 Popis dát

V analýze pracujem s vlastnými dátami zo sveta Formuly 1, ktoré boli agregované na úroveň jednotlivých sezón pre tím Ferrari. Každé pozorovanie predstavuje jednu sezónu a obsahuje informácie o výkonnosti tímu.

Vysvetľovanou premennou je celkový počet bodov získaných tímom v danej sezóne (points_season). Ako vysvetľujúce premenné sú použité:

avg_grid – priemerná štartovacia pozícia tímu v sezóne,
avg_laps – priemerný počet odjazdených kôl,
avg_speed – priemerná maximálna rýchlosť.

Dáta majú časový charakter a pokrývajú obdobie približne dvadsiatich sezón. Pred ďalšou analýzou boli odstránené pozorovania s chýbajúcimi hodnotami.

## Rows: 20
## Columns: 7
## $ year               <dbl> 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 201…
## $ points_season      <dbl> 30, 56, 70, 55, 19, 142, 104, 142, 145, 45, 151, 15…
## $ avg_grid           <dbl> 11.000000, 5.900000, 3.153846, 3.937500, 10.400000,…
## $ avg_laps           <dbl> 56.62500, 57.60000, 59.69231, 58.37500, 56.13333, 5…
## $ avg_speed          <dbl> 222.6793, 216.7538, 201.6080, 212.2803, 209.6865, 2…
## $ fitted             <dbl> 38.70370, 100.75522, 143.28749, 126.06740, 60.09928…
## $ points_season_lag1 <dbl> 83, 30, 56, 70, 55, 19, 142, 104, 142, 145, 45, 151…

1.2 Základné grafy

Pred odhadom regresného modelu je vhodné vykonať základnú grafickú analýzu premenných. Boxploty umožňujú rýchlo posúdiť rozdelenie dát a identifikovať prípadné extrémne hodnoty.

2 Regresný model

2.1 Odhad modelu

V tejto časti sa zameriavam na overenie správnej funkčnej špecifikácie regresného modelu. Základný predpoklad lineárnej regresie je, že vzťah medzi vysvetľovanou premennou a regresormi je správne zachytený zvolenou funkčnou formou. Ak je model nesprávne špecifikovaný, odhady regresných koeficientov môžu byť skreslené alebo neefektívne.

Ako východiskový model používam viacnásobnú lineárnu regresiu, v ktorej je bodový zisk tímu Ferrari v sezóne vysvetľovaný pomocou priemernej štartovej pozície, priemerného počtu odjazdených kôl a priemernej maximálnej rýchlosti:

\[ points\_season_t = \beta_0 + \beta_1 avg\_grid_t + \beta_2 avg\_laps_t + \beta_3 avg\_speed_t + u_t \]

## 
## Call:
## lm(formula = points_season ~ avg_grid + avg_laps + avg_speed, 
##     data = f1_team)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -76.309 -32.361  -8.477  32.777 116.523 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 471.9376   323.5969   1.458   0.1641  
## avg_grid    -11.6830     4.7833  -2.442   0.0266 *
## avg_laps     -1.7218     2.8823  -0.597   0.5586  
## avg_speed    -0.9226     1.2965  -0.712   0.4870  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 53.28 on 16 degrees of freedom
## Multiple R-squared:  0.3135, Adjusted R-squared:  0.1847 
## F-statistic: 2.435 on 3 and 16 DF,  p-value: 0.1025

2.2 RESET test

Na formálne overenie správnej špecifikácie modelu používam Ramseyho RESET test.

## 
##  RESET test
## 
## data:  model
## RESET = 2.0239, df1 = 2, df2 = 14, p-value = 0.169

2.2.1 Interpretácia Ramseyho RESET testu

Ramseyho RESET test poskytol p-hodnotu 0.169, ktorá je vyššia ako hladina významnosti 0.05. Na tomto základe nezamietame nulovú hypotézu o správnej špecifikácii modelu.

Lineárna funkčná forma modelu sa preto javí ako primeraná a nie je potrebné zavádzať dodatočné nelineárne členy. Model je možné použiť ako vhodný základ pre ďalšie diagnostické testy.

3 Heteroskedasticita

V tejto časti overujem predpoklad konštantného rozptylu rezíduí (homoskedasticity). Ak je rozptyl rezíduí nekonštantný, klasické OLS štandardné chyby môžu byť nespoľahlivé a t-testy významnosti koeficientov môžu viesť k chybným záverom.

Ako východiskový model používam regresiu z predchádzajúcej kapitoly.

3.1 Interpretácia grafickej kontroly

Z grafu Residuals vs. Fitted vidno, že rezíduá sú rozptýlené okolo nulovej hodnoty bez výrazného lievikovitého tvaru. Rozptyl rezíduí sa s rastúcimi vyrovnanými hodnotami systematicky nezväčšuje ani nezmenšuje, čo naznačuje, že predpoklad konštantného rozptylu je v tomto modeli približne splnený.

Červená vyhladzovacia krivka síce mierne kolíše, avšak nejde o výrazný alebo jednoznačný trend, ktorý by signalizoval vážny problém heteroskedasticity. Na základe vizuálnej kontroly preto neexistuje silný dôvod predpokladať porušenie tohto predpokladu

3.2 Breusch–Paganov test

Na formálne overenie prítomnosti heteroskedasticity v rezíduách používam Breusch–Paganov test.

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 7.2066, df = 3, p-value = 0.0656

3.2.1 Interpretácia Breusch–Paganovho testu

Keďže p-hodnota testu je vyššia ako 0.05, nulovú hypotézu o homoskedasticite nezamietam. Neexistuje teda štatistický dôkaz o prítomnosti heteroskedasticity v rezíduách modelu.

4 Nelineárne špecifikácie

V tejto kapitole sa zameriavam na overenie, či je lineárna funkčná forma regresného modelu primeraná, alebo či existujú náznaky nelineárnych vzťahov medzi vysvetľujúcimi premennými a bodovým ziskom tímu.

Formálne overenie správnej špecifikácie modelu pomocou Ramseyho RESET testu bolo vykonané už v kapitole 2. V tejto časti sa preto sústreďujem najmä na grafickú analýzu.

4.1 Grafická kontrola nelinearity

Na vizuálne posúdenie možných nelineárnych vzťahov používam Component + Residual (C+R) grafy, ktoré zobrazujú vzťah medzi jednotlivými regresormi a vysvetľovanou premennou po očistení o vplyv ostatných premenných.

4.1.1 Interpretácia C+R grafov

Component + Residual grafy nenaznačujú výrazné nelineárne vzťahy medzi vysvetľujúcimi premennými a bodovým ziskom tímu. V prípade priemernej štartovacej pozície (avg_grid) je možné pozorovať mierne zakrivenie vyhladenej krivky, avšak bez jasného systematického vzoru.

Pri premenných avg_laps a avg_speed sa vyhladené krivky pohybujú v blízkosti lineárneho trendu a neprejavujú výrazné odchýlky, ktoré by odôvodňovali zavedenie nelineárnych transformácií.

Na základe grafickej analýzy možno konštatovať, že lineárna funkčná forma modelu je primeraná a zavedenie nelineárnych členov by pravdepodobne neviedlo k podstatnému zlepšeniu špecifikácie modelu.

5 Autokorelácia rezíduí

V tejto kapitole overujem predpoklad nezávislosti rezíduí regresného modelu. Autokorelácia rezíduí sa typicky vyskytuje pri časových radoch a môže viesť k skresleným testom štatistickej významnosti.

Keďže údaje o bodovom zisku tímu Ferrari sú usporiadané v čase podľa jednotlivých sezón, je vhodné tento predpoklad overiť.

5.1 Autokorelačná funkcia rezíduí (ACF)

Najskôr vizuálne posudzujem prítomnosť autokorelácie pomocou autokorelačnej funkcie rezíduí.

5.1.1 Interpretácia ACF grafu

Z grafu autokorelačnej funkcie rezíduí vyplýva, že všetky autokorelačné koeficienty pre nenulové oneskorenia sa nachádzajú v rámci 95 % intervalov spoľahlivosti. Žiadny z lagov preto nie je štatisticky významný.

Tento výsledok naznačuje, že rezíduá modelu nevykazujú systematickú časovú závislosť a predpoklad nezávislosti rezíduí je splnený.

5.2 Durbin–Watsonov test

Na formálne overenie autokorelácie prvého rádu používam Durbin–Watsonov test.

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  model
## LM test = 0.3946, df = 1, p-value = 0.5299

5.2.1 Interpretácia Durbin–Watsonovho testu

P-hodnota Durbin–Watsonovho testu je vyššia ako 0.05, preto nulovú hypotézu o neexistencii pozitívnej autokorelácie rezíduí prvého rádu nezamietam. Výsledok testu nenaznačuje prítomnosť autokorelácie rezíduí v modeli.

5.3 Breusch–Godfreyov test

Ako doplnok používam Breusch–Godfreyov test, ktorý umožňuje testovať autokoreláciu rezíduí aj pri vyšších oneskoreniach.

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  model
## LM test = 0.3946, df = 1, p-value = 0.5299

5.3.1 Interpretácia Breusch–Godfreyovho testu

Breusch–Godfreyov test, ktorý umožňuje testovať autokoreláciu rezíduí aj pri vyšších oneskoreniach, poskytuje rovnaký záver. Keďže p-hodnota testu je výrazne vyššia ako 0.05, nulovú hypotézu o neexistencii sériovej korelácie rezíduí nezamietam.

Na základe oboch formálnych testov možno konštatovať, že rezíduá modelu nevykazujú štatisticky významnú autokoreláciu a predpoklad nezávislosti rezíduí je splnený.

6 Multikolinearita

V tejto kapitole overujem prítomnosť multikolinearity medzi vysvetľujúcimi premennými regresného modelu. Multikolinearita predstavuje problém vtedy, keď sú regresory medzi sebou silno lineárne závislé, čo môže viesť k nadhodnoteným štandardným chybám a nestabilným odhadom regresných koeficientov.

Ako východiskový model používam regresiu z kapitoly 2.

6.1 Korelačná matica regresorov

Najskôr skúmam vzájomné korelácie medzi vysvetľujúcimi premennými pomocou korelačnej matice.

##              avg_grid   avg_laps    avg_speed
## avg_grid  1.000000000  0.1366905  0.002609522
## avg_laps  0.136690470  1.0000000 -0.077769303
## avg_speed 0.002609522 -0.0777693  1.000000000

6.1.1 Interpretácia korelačnej matice

Z korelačnej matice vyplýva, že vzájomné korelácie medzi vysvetľujúcimi premennými sú veľmi nízke. Najvyššia korelácia je medzi premennými avg_grid a avg_laps, avšak jej hodnota je približne 0.14, čo nepredstavuje problém z hľadiska multikolinearity.

Korelácie medzi ostatnými dvojicami premenných sú blízke nule, čo naznačuje praktickú nezávislosť regresorov. Na základe korelačnej analýzy preto neexistuje náznak závažnej multikolinearity v modeli.

6.2 Variance Inflation Factor (VIF)

##  avg_grid  avg_laps avg_speed 
##  1.019223  1.025418  1.006266

6.2.1 Interpretácia VIF

Hodnoty Variance Inflation Factor (VIF) pre všetky vysvetľujúce premenné sú veľmi blízke hodnote 1. To znamená, že rozptyly odhadovaných regresných koeficientov nie sú nafukované vplyvom lineárnej závislosti medzi regresormi.

Keďže žiadna z hodnôt VIF neprekračuje bežne používané prahové hodnoty 5 alebo 10, možno konštatovať, že multikolinearita v tomto modeli nepredstavuje problém.

7 Záver

Cieľom tejto práce bolo aplikovať vybrané metódy ekonometrickej analýzy na reálne údaje zo sveta Formuly 1 a overiť základné predpoklady viacnásobnej lineárnej regresie na netradičných dátach. Vysvetľovanou premennou bol bodový zisk tímu Ferrari v jednotlivých sezónach, ktorý bol modelovaný pomocou vybraných technických a výkonnostných ukazovateľov.

Výsledky regresnej analýzy ukázali, že spomedzi uvažovaných premenných má štatisticky významný vplyv najmä priemerná štartovacia pozícia, čo potvrdzuje dôležitosť kvalifikačnej výkonnosti pre celkový bodový zisk v sezóne. Ostatné premenné sa v modeli neprejavili ako štatisticky významné, čo naznačuje, že bodový zisk je ovplyvnený aj ďalšími faktormi, ktoré v modeli neboli zahrnuté.

Následne boli overené základné predpoklady regresného modelu. Heteroskedasticita rezíduí sa na základe Breusch–Paganovho testu nepreukázala, autokorelácia rezíduí nebola potvrdená ani grafickou analýzou, ani formálnymi testami. Analýza multikolinearity pomocou korelačnej matice a VIF ukázala, že regresory nie sú medzi sebou silno lineárne závislé.

Na základe vykonanej analýzy možno konštatovať, že zvolený regresný model je z ekonometrického hľadiska korektne špecifikovaný a spĺňa základné predpoklady metódy najmenších štvorcov. Práca tak demonštruje praktické využitie ekonometrických nástrojov pri analýze športových údajov a poukazuje na možnosti ich aplikácie aj mimo tradičných ekonomických oblastí.

8 Vizualizácia dát Formuly 1

V poslednej časti práce prezentujem vybrané grafické výstupy, ktoré vizuálne ilustrujú základné vzťahy medzi bodovým ziskom tímu Ferrari a vybranými výkonnostnými charakteristikami v jednotlivých sezónach. Cieľom tejto časti nie je ďalšie testovanie hypotéz, ale intuitívna interpretácia dát.

8.1 Vývoj bodového zisku v čase

Najskôr znázorňujem vývoj bodového zisku tímu Ferrari v jednotlivých sezónach.

8.1.1 Interpretácia

Graf ukazuje výraznú volatilitu bodového zisku medzi jednotlivými sezónami. V niektorých obdobiach je možné pozorovať prudký nárast výkonnosti, zatiaľ čo v iných sezónach dochádza k výraznému poklesu, čo poukazuje na význam viacerých faktorov ovplyvňujúcich výsledky tímu v priebehu času.

8.2 Vzťah bodového zisku a priemernej štartovacej pozície

8.2.1 Interpretácia

Graf znázorňuje negatívny vzťah medzi priemernou štartovacou pozíciou a bodovým ziskom tímu Ferrari v jednotlivých sezónach. Klesajúca regresná priamka naznačuje, že horšie štartovacie pozície sú spojené s nižším počtom získaných bodov.

Tento vzťah je v súlade s výsledkami regresnej analýzy, v ktorej sa premenná priemernej štartovacej pozície ukázala ako štatisticky významný faktor ovplyvňujúci bodový zisk v sezóne.

8.3 Porovnanie empirických a vyrovnaných hodnôt

8.3.1 Interpretácia

Graf porovnáva empirické hodnoty bodového zisku tímu Ferrari v jednotlivých sezónach s hodnotami vyrovnanými regresným modelom. Vyrovnané hodnoty zachytávajú základný trend vývoja bodového zisku v čase, avšak v niektorých sezónach nedokážu presne reprodukovať extrémne výkyvy.

Rozdiely medzi empirickými a vyrovnanými hodnotami poukazujú na existenciu ďalších faktorov ovplyvňujúcich bodový zisk, ktoré nie sú v modeli explicitne zahrnuté, ako napríklad spoľahlivosť monopostu, strategické rozhodnutia či konkurenčné prostredie v danej sezóne.

Finalny projekt

Andrej Almásy

2025-12-13