Odhad modelu

Uvažujeme lineárny regresný model, v ktorom vysvetľujeme trhovú cenu hráča (v mil. €) pomocou jeho veku a výšky.

Model má tvar \(PRICE_i = \beta_0 + \beta_1 \cdot AGE_i + \beta_2 \cdot HEIGHT_i + \varepsilon_i\). Očakávame, že vek bude mať negatívny vplyv (\(\beta_1 < 0\)), keďže mladší hráči majú vyššiu trhovú hodnotu a dlhší zvyšný kariérny potenciál. Pri výške predpokladáme pozitívny vplyv (\(\beta_2 > 0\)), keďže vyšší hráči môžu byť na trhu hodnotení vyššie.

Diagnostické grafy

Residuals vs Fitted

Residuals vs Fitted

Residuals vs Fitted

Reziduály sú rozložené približne okolo nulovej hodnoty, čo naznačuje, že model nemá výrazné systematické skreslenie v predikciách. Červená vyhladzovacia krivka má mierne zakrivený tvar, čo môže naznačovať možnú nelinearitu vo vzťahu medzi vysvetľujúcimi premennými a trhovou cenou hráčov. Rozptyl rezíduí sa javí ako nekonštantný — pri vyšších vyrovnaných hodnotách sa variabilita zvyšuje, čo naznačuje možnú heteroskedasticitu. V grafe sa nachádzajú pozorovania s výrazne vyššími rezíduami, čo zodpovedá hráčom s trhovou cenou výrazne presahujúcou predikcie modelu.

Q-Q plot

Normal Q-Q plot

Normal Q-Q plot

Q-Q graf porovnáva empirické rozdelenie štandardizovaných rezíduí s teoretickým normálnym rozdelením. Väčšina bodov v strednej časti grafu leží pomerne blízko referenčnej priamky, čo naznačuje, že pre väčšinu pozorovaní je predpoklad normality približne splnený. Na pravom konci grafu však dochádza k výraznejšiemu odchýleniu bodov nad referenčnú priamku, čo znamená, že pravý chvost rozdelenia je ťažší než pri normálnom rozdelení. To zodpovedá prítomnosti hráčov s mimoriadne vysokými trhovými cenami, ktoré model výrazne podhodnocuje.

Scale-Location plot

Scale-Location plot

Scale-Location plot

Scale-Location graf slúži na posúdenie homoskedasticity, teda konštantnosti rozptylu rezíduí v závislosti od vyrovnaných hodnôt. Červená vyhladzovacia krivka má rastúci trend, čo naznačuje, že s rastúcimi vyrovnanými hodnotami sa zvyšuje aj variabilita rezíduí. Ide o indikátor heteroskedasticity, čo je v kontexte trhovej ceny hráčov prirodzené — pri lacnejších hráčoch sú ceny zoskupené tesnejšie, zatiaľ čo pri drahších hráčoch sa variabilita výrazne zvyšuje.

Residuals vs Leverage

Residuals vs Leverage

Residuals vs Leverage

Graf Residuals vs Leverage slúži na identifikáciu vplyvných pozorovaní. Väčšina pozorovaní má nízky leverage a je sústredená v ľavej časti grafu. Niekoľko pozorovaní sa vyznačuje vyššou hodnotou leverage alebo väčšími rezíduami, čo môže signalizovať potenciálne vplyvné body. Je vhodné preskúmať, či tieto pozorovania zodpovedajú skutočne výnimočným hráčom (napr. hráči s mimoriadne vysokou trhovou cenou).

Poznámka k LOESS krivke

Červená LOESS krivka predstavuje lokálne vyhladený trend medzi premennými bez predpokladu konkrétneho funkčného tvaru. Slúži na vizuálnu identifikáciu systematických odchýlok od náhodného rozloženia rezíduí. Ak je aproximne horizontálna, model je špecifikovaný vhodne; ak sa zakrivuje, môže to naznačovať nelinearitu alebo iný problém v modeli.

Test normality rezíduí

Shapiro-Wilkov test

Shapiro-Wilkov test overuje nulovú hypotézu, že reziduály pochádzajú z normálneho rozdelenia. Ak je p-hodnota menšia než zvolená hladina významnosti (0,05), nulovú hypotézu zamietame a usudzujeme, že reziduály nie sú normálne rozdelené. Shapiro-Wilkov test vrátil hodnotu testovej štatistiky W = 0,670 a p-hodnotu < 2,2e-16, čo je výrazne menej než hladina významnosti 0,05. Nulovú hypotézu o normalite rezíduí zamietame — reziduály nie sú normálne rozdelené.

Jarque-Bera test

Jarque-Bera test je ďalší test normality, ktorý je založený na šikmosti a špicatosti rezíduí. Malá p-hodnota signalizuje porušenie predpokladu normálneho rozdelenia. Jarque-Bera test vrátil testovaciu štatistiku X² = 37 479 a p-hodnotu < 2,2e-16. Nulovú hypotézu o normalite zamietame — rozdelenie rezíduí sa výrazne odlišuje od normálneho, čo naznačuje vysokú šikmosť a špicatosť typickú pre pravostranné rozdelenie trhovej ceny hráčov.

Test heteroskedasticity

Breusch-Pagan test

Breusch-Pagan test skúma nulovú hypotézu homoskedasticity, teda konštantného rozptylu rezíduí. Ak je p-hodnota malá, nulovú hypotézu zamietame a usudzujeme, že v modeli je prítomná heteroskedasticita. Breusch-Pagan test vrátil BP = 21,833 a p-hodnotu = 1,816e-05. Nulovú hypotézu o homoskedasticite zamietame — v modeli je prítomná heteroskedasticita, čo je konzistentné so zisteniami zo Scale-Location grafu.

Whiteov test

Táto verzia testu rozširuje Breusch-Paganov prístup a umožňuje zachytiť aj zložitejšie formy heteroskedasticity. Manuálny Whiteov test regresoval štvorcové rezíduá na vyrovnané hodnoty a ich kvadráty. F-štatistika modelu dosiahla hodnotu 10,89 s p-hodnotou = 1,947e-05, čo je menej než hladina významnosti 0,05. Prítomnosť heteroskedasticity sa potvrdzuje aj touto rozšírenou verziou testu.

Test autokorelácie

Durbin-Watson test

Durbin-Watson test skúma nulovú hypotézu, že reziduály nie sú autokorelované prvého rádu. Hodnota testovej štatistiky blízka 2 naznačuje neprítomnosť autokorelácie. Hodnoty výrazne nižšie než 2 naznačujú kladnú autokoreláciu, hodnoty výrazne vyššie než 2 zápornú autokoreláciu. Durbin-Watson test vrátil hodnotu DW = 1,270 a p-hodnotu < 2,2e-16. Keďže hodnota štatistiky je výrazne nižšia než 2 a p-hodnota je menšia než 0,05, nulovú hypotézu o neprítomnosti autokorelácie zamietame — v rezíduách je prítomná kladná autokorelácia prvého rádu.

Breusch-Godfrey test

Breusch-Godfrey test skúma prítomnosť autokorelácie rezíduí. Je všeobecnejší než Durbin-Watson test a umožňuje testovať aj vyššie rády autokorelácie. Ak je p-hodnota malá, nulovú hypotézu o neprítomnosti autokorelácie zamietame. Breusch-Godfrey test vrátil LM = 343,97 a p-hodnotu < 2,2e-16. Nulovú hypotézu o neprítomnosti autokorelácie zamietame — výsledok potvrdzuje záver Durbin-Watsonovho testu. Treba však poznamenať, že dáta nepredstavujú časový rad, preto môže byť autokorelácia spôsobená skôr systematickým usporiadaním pozorovaní v datasete (napr. podľa klubu alebo ligy) než skutočnou sériovou závislosťou.

Odľahlé a vplyvné pozorovania

Test na odľahlé hodnoty

Tento test pomáha identifikovať pozorovania s mimoriadne veľkými štandardizovanými rezíduami. V kontexte futbalových hráčov môžu odľahlé pozorovania zodpovedať hráčom s výnimočne vysokou trhovou cenou, ktorú model na základe veku a výšky nedokáže primerane vysvetliť. Funkcia outlierTest identifikovala viacero pozorovaní s mimoriadne veľkými štandardizovanými rezíduami. Pozorovania č. 2117 a 23 dosiahli hodnoty rstudent presahujúce 10, pričom Bonferroniho p-hodnoty sú štatisticky významné. Tieto pozorovania zodpovedajú hráčom s výnimočne vysokou trhovou cenou, ktorú model na základe veku a výšky nedokáže primerane vysvetliť.

Cookova vzdialenosť

Cookova vzdialenosť meria, nakoľko jednotlivé pozorovanie ovplyvňuje odhad regresných koeficientov. Väčšie hodnoty si zaslúžia dodatočnú pozornosť — môže ísť o hráčov, ktorých cena výrazne vybočuje od vzoru ostatných pozorovaní. Najvyššia Cookova vzdialenosť bola zaznamenaná pri pozorovaní č. 23 (hodnota 0,069), čo je výrazne pod bežne používanou hranicou 1. Žiadne pozorovanie teda zásadne neovplyvňuje odhad regresných koeficientov.

Krátke teoretické poznámky

Štandardizované rezíduá sú rezíduá vydelené ich odhadovanou smerodajnou odchýlkou, vďaka čomu sú medzi sebou porovnateľné a pri splnení predpokladov modelu sa správajú približne ako hodnoty zo štandardného normálneho rozdelenia.

Leverage vyjadruje, ako veľmi sa pozorovanie líši v hodnotách vysvetľujúcich premenných od ostatných a aký potenciál má ovplyvniť odhad regresného modelu. Formálne ide o diagonálne prvky tzv. hat matice, pričom hat matica je definovaná ako \(H = X(X'X)^{-1}X'\) a platí \(\hat{y} = Hy\).

Pre i-te pozorovanie je leverage daný vzťahom \(h_i = x_i'(X'X)^{-1}x_i\), kde \(x_i\) je stĺpcový vektor vysvetľujúcich premenných pre i-te pozorovanie.

Záverečná interpretačná poznámka

Pri interpretácii diagnostických testov je vhodné kombinovať grafické a formálne prístupy. Diagnostické grafy často odhalia problém intuitívne, zatiaľ čo testy poskytujú formálnejšie štatistické rozhodnutie. V prípade tohto modelu možno očakávať porušenie predpokladu normality rezíduí a prítomnosť heteroskedasticity — čo je typické pre modely trhovej ceny, kde sú rozdelenia výrazne pravostranné. Pri väčších vzorkách môžu byť testy veľmi citlivé, preto je rozumné posudzovať aj ekonomický a praktický význam zistených porušení.