Cieľom tohto projektu je aplikovať vybrané metódy ekonometrickej analýzy na reálne dáta zo sveta Formuly 1. Namiesto tradičných makroekonomických databáz pracujem s vlastnými údajmi o výkonnosti tímu Ferrari v jednotlivých sezónach.
V práci je použitá viacnásobná lineárna regresia a následne sú overované jej základné predpoklady, najmä správna špecifikácia modelu, heteroskedasticita, autokorelácia rezíduí a multikolinearita. Cieľom nie je vytvoriť predikčný model, ale demonštrovať správne použitie ekonometrických nástrojov a ich interpretáciu na netradičných dátach. # 1 Moje dáta
V analýze pracujem s vlastnými dátami zo sveta Formuly 1, ktoré boli agregované na úroveň jednotlivých sezón pre tím Ferrari. Každé pozorovanie predstavuje jednu sezónu a obsahuje informácie o výkonnosti tímu.
Vysvetľovanou premennou je celkový počet bodov získaných tímom v danej sezóne (points_season). Ako vysvetľujúce premenné sú použité:
Dáta majú časový charakter a pokrývajú obdobie približne dvadsiatich sezón. Pred ďalšou analýzou boli odstránené pozorovania s chýbajúcimi hodnotami.
## Rows: 20
## Columns: 7
## $ year <dbl> 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 201…
## $ points_season <dbl> 30, 56, 70, 55, 19, 142, 104, 142, 145, 45, 151, 15…
## $ avg_grid <dbl> 11.000000, 5.900000, 3.153846, 3.937500, 10.400000,…
## $ avg_laps <dbl> 56.62500, 57.60000, 59.69231, 58.37500, 56.13333, 5…
## $ avg_speed <dbl> 222.6793, 216.7538, 201.6080, 212.2803, 209.6865, 2…
## $ fitted <dbl> 38.70370, 100.75522, 143.28749, 126.06740, 60.09928…
## $ points_season_lag1 <dbl> 83, 30, 56, 70, 55, 19, 142, 104, 142, 145, 45, 151…
Pred odhadom regresného modelu je vhodné vykonať základnú grafickú
analýzu premenných. Boxploty umožňujú rýchlo posúdiť rozdelenie dát a
identifikovať prípadné extrémne hodnoty.
V tejto časti sa zameriavam na overenie správnej funkčnej špecifikácie regresného modelu. Základný predpoklad lineárnej regresie je, že vzťah medzi vysvetľovanou premennou a regresormi je správne zachytený zvolenou funkčnou formou. Ak je model nesprávne špecifikovaný, odhady regresných koeficientov môžu byť skreslené alebo neefektívne.
Ako východiskový model používam viacnásobnú lineárnu regresiu, v ktorej je bodový zisk tímu Ferrari v sezóne vysvetľovaný pomocou priemernej štartovej pozície, priemerného počtu odjazdených kôl a priemernej maximálnej rýchlosti:
\[ points\_season_t = \beta_0 + \beta_1 avg\_grid_t + \beta_2 avg\_laps_t + \beta_3 avg\_speed_t + u_t \]
##
## Call:
## lm(formula = points_season ~ avg_grid + avg_laps + avg_speed,
## data = f1_team)
##
## Residuals:
## Min 1Q Median 3Q Max
## -76.309 -32.361 -8.477 32.777 116.523
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 471.9376 323.5969 1.458 0.1641
## avg_grid -11.6830 4.7833 -2.442 0.0266 *
## avg_laps -1.7218 2.8823 -0.597 0.5586
## avg_speed -0.9226 1.2965 -0.712 0.4870
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 53.28 on 16 degrees of freedom
## Multiple R-squared: 0.3135, Adjusted R-squared: 0.1847
## F-statistic: 2.435 on 3 and 16 DF, p-value: 0.1025
Na formálne overenie správnej špecifikácie modelu používam Ramseyho RESET test.
##
## RESET test
##
## data: model
## RESET = 2.0239, df1 = 2, df2 = 14, p-value = 0.169
Ramseyho RESET test poskytol p-hodnotu 0.169, ktorá je vyššia ako hladina významnosti 0.05. Na tomto základe nezamietame nulovú hypotézu o správnej špecifikácii modelu.
Lineárna funkčná forma modelu sa preto javí ako primeraná a nie je potrebné zavádzať dodatočné nelineárne členy. Model je možné použiť ako vhodný základ pre ďalšie diagnostické testy.
V tejto časti overujem predpoklad konštantného rozptylu rezíduí (homoskedasticity). Ak je rozptyl rezíduí nekonštantný, klasické OLS štandardné chyby môžu byť nespoľahlivé a t-testy významnosti koeficientov môžu viesť k chybným záverom.
Ako východiskový model používam regresiu z predchádzajúcej kapitoly.
Z grafu Residuals vs. Fitted vidno, že rezíduá sú rozptýlené okolo nulovej hodnoty bez výrazného lievikovitého tvaru. Rozptyl rezíduí sa s rastúcimi vyrovnanými hodnotami systematicky nezväčšuje ani nezmenšuje, čo naznačuje, že predpoklad konštantného rozptylu je v tomto modeli približne splnený.
Červená vyhladzovacia krivka síce mierne kolíše, avšak nejde o výrazný alebo jednoznačný trend, ktorý by signalizoval vážny problém heteroskedasticity. Na základe vizuálnej kontroly preto neexistuje silný dôvod predpokladať porušenie tohto predpokladu
Na formálne overenie prítomnosti heteroskedasticity v rezíduách používam Breusch–Paganov test.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 7.2066, df = 3, p-value = 0.0656
Keďže p-hodnota testu je vyššia ako 0.05, nulovú hypotézu o homoskedasticite nezamietam. Neexistuje teda štatistický dôkaz o prítomnosti heteroskedasticity v rezíduách modelu.
V tejto kapitole sa zameriavam na overenie, či je lineárna funkčná forma regresného modelu primeraná, alebo či existujú náznaky nelineárnych vzťahov medzi vysvetľujúcimi premennými a bodovým ziskom tímu.
Formálne overenie správnej špecifikácie modelu pomocou Ramseyho RESET testu bolo vykonané už v kapitole 2. V tejto časti sa preto sústreďujem najmä na grafickú analýzu.
Na vizuálne posúdenie možných nelineárnych vzťahov používam Component + Residual (C+R) grafy, ktoré zobrazujú vzťah medzi jednotlivými regresormi a vysvetľovanou premennou po očistení o vplyv ostatných premenných.
Component + Residual grafy nenaznačujú výrazné nelineárne vzťahy medzi vysvetľujúcimi premennými a bodovým ziskom tímu. V prípade priemernej štartovacej pozície (avg_grid) je možné pozorovať mierne zakrivenie vyhladenej krivky, avšak bez jasného systematického vzoru.
Pri premenných avg_laps a avg_speed sa vyhladené krivky pohybujú v blízkosti lineárneho trendu a neprejavujú výrazné odchýlky, ktoré by odôvodňovali zavedenie nelineárnych transformácií.
Na základe grafickej analýzy možno konštatovať, že lineárna funkčná forma modelu je primeraná a zavedenie nelineárnych členov by pravdepodobne neviedlo k podstatnému zlepšeniu špecifikácie modelu.
V tejto kapitole overujem predpoklad nezávislosti rezíduí regresného modelu. Autokorelácia rezíduí sa typicky vyskytuje pri časových radoch a môže viesť k skresleným testom štatistickej významnosti.
Keďže údaje o bodovom zisku tímu Ferrari sú usporiadané v čase podľa jednotlivých sezón, je vhodné tento predpoklad overiť.
Najskôr vizuálne posudzujem prítomnosť autokorelácie pomocou autokorelačnej funkcie rezíduí.
Z grafu autokorelačnej funkcie rezíduí vyplýva, že všetky autokorelačné koeficienty pre nenulové oneskorenia sa nachádzajú v rámci 95 % intervalov spoľahlivosti. Žiadny z lagov preto nie je štatisticky významný.
Tento výsledok naznačuje, že rezíduá modelu nevykazujú systematickú časovú závislosť a predpoklad nezávislosti rezíduí je splnený.
Na formálne overenie autokorelácie prvého rádu používam Durbin–Watsonov test.
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 0.3946, df = 1, p-value = 0.5299
P-hodnota Durbin–Watsonovho testu je vyššia ako 0.05, preto nulovú hypotézu o neexistencii pozitívnej autokorelácie rezíduí prvého rádu nezamietam. Výsledok testu nenaznačuje prítomnosť autokorelácie rezíduí v modeli.
Ako doplnok používam Breusch–Godfreyov test, ktorý umožňuje testovať autokoreláciu rezíduí aj pri vyšších oneskoreniach.
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 0.3946, df = 1, p-value = 0.5299
Breusch–Godfreyov test, ktorý umožňuje testovať autokoreláciu rezíduí aj pri vyšších oneskoreniach, poskytuje rovnaký záver. Keďže p-hodnota testu je výrazne vyššia ako 0.05, nulovú hypotézu o neexistencii sériovej korelácie rezíduí nezamietam.
Na základe oboch formálnych testov možno konštatovať, že rezíduá modelu nevykazujú štatisticky významnú autokoreláciu a predpoklad nezávislosti rezíduí je splnený.
V tejto kapitole overujem prítomnosť multikolinearity medzi vysvetľujúcimi premennými regresného modelu. Multikolinearita predstavuje problém vtedy, keď sú regresory medzi sebou silno lineárne závislé, čo môže viesť k nadhodnoteným štandardným chybám a nestabilným odhadom regresných koeficientov.
Ako východiskový model používam regresiu z kapitoly 2.
Najskôr skúmam vzájomné korelácie medzi vysvetľujúcimi premennými pomocou korelačnej matice.
## avg_grid avg_laps avg_speed
## avg_grid 1.000000000 0.1366905 0.002609522
## avg_laps 0.136690470 1.0000000 -0.077769303
## avg_speed 0.002609522 -0.0777693 1.000000000
Z korelačnej matice vyplýva, že vzájomné korelácie medzi vysvetľujúcimi premennými sú veľmi nízke. Najvyššia korelácia je medzi premennými avg_grid a avg_laps, avšak jej hodnota je približne 0.14, čo nepredstavuje problém z hľadiska multikolinearity.
Korelácie medzi ostatnými dvojicami premenných sú blízke nule, čo naznačuje praktickú nezávislosť regresorov. Na základe korelačnej analýzy preto neexistuje náznak závažnej multikolinearity v modeli.
## avg_grid avg_laps avg_speed
## 1.019223 1.025418 1.006266
Hodnoty Variance Inflation Factor (VIF) pre všetky vysvetľujúce premenné sú veľmi blízke hodnote 1. To znamená, že rozptyly odhadovaných regresných koeficientov nie sú nafukované vplyvom lineárnej závislosti medzi regresormi.
Keďže žiadna z hodnôt VIF neprekračuje bežne používané prahové hodnoty 5 alebo 10, možno konštatovať, že multikolinearita v tomto modeli nepredstavuje problém.
Cieľom tejto práce bolo aplikovať vybrané metódy ekonometrickej analýzy na reálne údaje zo sveta Formuly 1 a overiť základné predpoklady viacnásobnej lineárnej regresie na netradičných dátach. Vysvetľovanou premennou bol bodový zisk tímu Ferrari v jednotlivých sezónach, ktorý bol modelovaný pomocou vybraných technických a výkonnostných ukazovateľov.
Výsledky regresnej analýzy ukázali, že spomedzi uvažovaných premenných má štatisticky významný vplyv najmä priemerná štartovacia pozícia, čo potvrdzuje dôležitosť kvalifikačnej výkonnosti pre celkový bodový zisk v sezóne. Ostatné premenné sa v modeli neprejavili ako štatisticky významné, čo naznačuje, že bodový zisk je ovplyvnený aj ďalšími faktormi, ktoré v modeli neboli zahrnuté.
Následne boli overené základné predpoklady regresného modelu. Heteroskedasticita rezíduí sa na základe Breusch–Paganovho testu nepreukázala, autokorelácia rezíduí nebola potvrdená ani grafickou analýzou, ani formálnymi testami. Analýza multikolinearity pomocou korelačnej matice a VIF ukázala, že regresory nie sú medzi sebou silno lineárne závislé.
Na základe vykonanej analýzy možno konštatovať, že zvolený regresný model je z ekonometrického hľadiska korektne špecifikovaný a spĺňa základné predpoklady metódy najmenších štvorcov. Práca tak demonštruje praktické využitie ekonometrických nástrojov pri analýze športových údajov a poukazuje na možnosti ich aplikácie aj mimo tradičných ekonomických oblastí.
V poslednej časti práce prezentujem vybrané grafické výstupy, ktoré vizuálne ilustrujú základné vzťahy medzi bodovým ziskom tímu Ferrari a vybranými výkonnostnými charakteristikami v jednotlivých sezónach. Cieľom tejto časti nie je ďalšie testovanie hypotéz, ale intuitívna interpretácia dát.
Najskôr znázorňujem vývoj bodového zisku tímu Ferrari v jednotlivých
sezónach.
Graf ukazuje výraznú volatilitu bodového zisku medzi jednotlivými sezónami. V niektorých obdobiach je možné pozorovať prudký nárast výkonnosti, zatiaľ čo v iných sezónach dochádza k výraznému poklesu, čo poukazuje na význam viacerých faktorov ovplyvňujúcich výsledky tímu v priebehu času.
Graf znázorňuje negatívny vzťah medzi priemernou štartovacou pozíciou a bodovým ziskom tímu Ferrari v jednotlivých sezónach. Klesajúca regresná priamka naznačuje, že horšie štartovacie pozície sú spojené s nižším počtom získaných bodov.
Tento vzťah je v súlade s výsledkami regresnej analýzy, v ktorej sa premenná priemernej štartovacej pozície ukázala ako štatisticky významný faktor ovplyvňujúci bodový zisk v sezóne.
Graf porovnáva empirické hodnoty bodového zisku tímu Ferrari v jednotlivých sezónach s hodnotami vyrovnanými regresným modelom. Vyrovnané hodnoty zachytávajú základný trend vývoja bodového zisku v čase, avšak v niektorých sezónach nedokážu presne reprodukovať extrémne výkyvy.
Rozdiely medzi empirickými a vyrovnanými hodnotami poukazujú na existenciu ďalších faktorov ovplyvňujúcich bodový zisk, ktoré nie sú v modeli explicitne zahrnuté, ako napríklad spoľahlivosť monopostu, strategické rozhodnutia či konkurenčné prostredie v danej sezóne.