1 Úvod

Cieľom tohto notebooku je predstaviť kvantilovú regresiu v kontexte analýzy trhovej ceny futbalových hráčov.

Táto metóda je užitočná, keď nechceme opísať iba priemerný vplyv vysvetľujúcej premennej na závislú premennú, ale aj to, ako sa tento vplyv líši pre pozorovania nachádzajúce sa v rôznych častiach podmieneného rozdelenia závislej premennej.

Namiesto otázky:

Ako vek a výška ovplyvňujú priemer trhovej ceny hráča?

sa môžeme opýtať:

Ako vek a výška ovplyvňujú 10. percentil, medián alebo 90. percentil trhovej ceny hráča?

Toto je obzvlášť užitočné v kontexte futbalových hráčov, pretože:

  • rozptyl cien sa výrazne líši medzi lacnými a drahými hráčmi,
  • vplyv veku a výšky nemusí byť rovnaký pre “hviezdy” a “priemerných” hráčov,
  • trh s hráčmi je heterogénny,
  • rozdelenie cien je skreslené doprava (niekoľko veľmi drahých hráčov).

2 Teoretické východisko

2.1 Základná myšlienka kvantilovej regresie

V klasickej lineárnej regresii odhadovanej metódou OLS modelujeme podmienený priemer:

\[ E(y_i \mid x_i) = \beta_0 + \beta_1 x_i \]

Naproti tomu v kvantilovej regresii modelujeme podmienený kvantil:

\[ Q_\tau(y_i \mid x_i) = \beta_0(\tau) + \beta_1(\tau) x_i \]

kde:

  • \(Q_\tau(y_i \mid x_i)\) je podmienený kvantil rádu \(\tau\),
  • \(\tau \in (0,1)\),
  • napríklad:
    • \(\tau = 0{,}10\) znamená 10. percentil,
    • \(\tau = 0{,}50\) znamená medián,
    • \(\tau = 0{,}90\) znamená 90. percentil.

2.2 Prečo je to užitočné v kontexte futbalových hráčov?

Predpokladajme, že vek ovplyvňuje trhovú cenu hráčov. OLS nám hovorí, ako vek mení priemernú cenu. Kvantilová regresia však môže ukázať, či má vek:

  • slabý vplyv medzi lacnými hráčmi (nižšie kvantilov),
  • mierny vplyv okolo mediánu,
  • silný vplyv medzi najdrahšími hráčmi (vyššie kvantily).

Týmto spôsobom nám kvantilová regresia umožňuje študovať heterogenitu efektov naprieč rôznymi segmentmi trhu s hráčmi.

2.3 OLS versus kvantilová regresia

Metóda Otázka
OLS O koľko sa zmení podmienený priemer ceny, keď sa vek zvýši o rok?
Kvantilová regresia O koľko sa zmení podmienený \(\tau\)-kvantil ceny, keď sa vek zvýši o rok?

3 Načítanie dát a príprava

Pracujeme s datasetom futbalových hráčov z top 5 európskych líg.

## Počet pozorovaní: 2591
## Priemerná cena: 10.69 mil. €
## Medián ceny: 4.5 mil. €

3.1 Vizualizácia vzťahu medzi vekom a cenou

Pozorovaný vzor: Variabilita cien je oveľa vyššia u mladších hráčov. To naznačuje heteroskedasticitu a robí kvantilovú regresiu vhodným nástrojom analýzy.

4 Odhad OLS a kvantilových regresií

Odhadneme:

  1. OLS model - podmienený priemer
  2. Q10 - 10. percentil (lacnejší hráči)
  3. Q50 - medián (priemerní hráči)
  4. Q90 - 90. percentil (najdrahší hráči)

4.1 Výsledky OLS

summary(m_ols)
## 
## Call:
## lm(formula = price ~ age + height, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.753  -8.146  -5.229   2.098 167.712 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  43.31313    8.47019   5.114 3.39e-07 ***
## age          -0.42759    0.06664  -6.417 1.65e-10 ***
## height      -11.66483    4.57390  -2.550   0.0108 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.65 on 2588 degrees of freedom
## Multiple R-squared:  0.01879,    Adjusted R-squared:  0.01803 
## F-statistic: 24.77 on 2 and 2588 DF,  p-value: 2.202e-11

4.1.1 Interpretácia OLS

Koeficient pri veku je -0.428, što znamená, že v priemere:

Zvýšenie veku o 1 rok je spojené so zmenou priemernej trhovej ceny o -0.428 mil. €.

4.2 Výsledky kvantilovej regresie

summary(m_q10)
## 
## Call: rq(formula = price ~ age + height, tau = 0.1, data = data)
## 
## tau: [1] 0.1
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept)  7.25217  0.87105    8.32583  0.00000
## age          0.00652  0.00635    1.02730  0.30437
## height      -3.69565  0.46450   -7.95616  0.00000
summary(m_q50)
## 
## Call: rq(formula = price ~ age + height, tau = 0.5, data = data)
## 
## tau: [1] 0.5
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept) 28.05882  3.90902    7.17797  0.00000
## age         -0.26471  0.02990   -8.85274  0.00000
## height      -8.82353  2.17115   -4.06399  0.00005
summary(m_q90)
## 
## Call: rq(formula = price ~ age + height, tau = 0.9, data = data)
## 
## tau: [1] 0.9
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept) 84.42187 27.13178    3.11155  0.00188
## age         -1.60156  0.16359   -9.79009  0.00000
## height      -8.59375 14.93289   -0.57549  0.56501

5 Porovnanie odhadnutých koeficientov

coef_table <- rbind(
  OLS = coef(m_ols),
  Q10 = coef(m_q10),
  Q50 = coef(m_q50),
  Q90 = coef(m_q90)
)

round(coef_table, 3)
##     (Intercept)    age  height
## OLS      43.313 -0.428 -11.665
## Q10       7.252  0.007  -3.696
## Q50      28.059 -0.265  -8.824
## Q90      84.422 -1.602  -8.594

5.1 Interpretácia koeficientov pri veku

Model Koeficient veku Interpretácia
OLS -0.428 Priemerný efekt naprieč všetkými hráčmi
Q10 0.007 Efekt v dolnej časti rozdelenia (lacnejší hráči)
Q50 -0.265 Efekt okolo mediánu (priemerní hráči)
Q90 -1.602 Efekt v hornej časti rozdelenia (najdrahší hráči)

5.1.1 Kľúčové zistenie

Ak sa koeficienty líšia naprieč kvantilmi, vplyv veku nie je rovnomerný:

  • Ak je koeficient veku menej negatívny (alebo pozitívny) v Q90 ako v Q10, znamená to, že vek má odlišný efekt na najdrahších hráčov ako na lacných.
  • Toto odhaľuje heterogenitu efektov, ktorú OLS nezachytí.

6 Grafické porovnanie

Graf ukazuje, ako sa podmienené rozdelenie trhovej ceny mení s vekom. Rôzne sklony regresných priamok naprieč kvantilmi odhaľujú heterogénny vplyv veku na rôzne segmenty trhu s hráčmi.

7 Analýza naprieč všetkými kvantilmi

Pre úplnejší obraz odhadneme kvantilové regresie pre \(\tau\) od 0,10 do 0,90 s krokom 0,05.

taus <- seq(0.10, 0.90, by = 0.05)
m_many <- rq(price ~ age + height, tau = taus, data = data)

7.1 Graf sklonu koeficientu veku naprieč kvantilmi

7.1.1 Interpretácia grafu

Tento graf je kľúčový pre pochopenie heterogénnych efektov:

  • Ak je priamka horizontálna → vplyv veku je rovnaký naprieč celým rozdelením
  • Ak priamka stúpa/klesá → vplyv veku sa líši medzi lacnými a drahými hráčmi
  • Vzdialenosť od červenej čiary (OLS) → miera, akou OLS nedostatočne zachytáva heterogenitu

8 Výhody kvantilovej regresie v kontexte futbalových hráčov

  1. Heterogénny trh - vplyvy sa líšia medzi “hviezdami” a “náhradníkmi”
  2. Heteroskedasticita - vyššia variabilita cien u mladých/talentovaných hráčov
  3. Robustnosť - menej citlivá na niekoľko extrémne drahých transferov
  4. Komplexný obraz - vidíme, ako sa faktory správajú v rôznych segmentoch trhu

9 Záver

Kvantilová regresia odhalila, že:

## 1. Koeficient veku v Q10: 0.007
## 2. Koeficient veku v Q50: -0.265
## 3. Koeficient veku v Q90: -1.602
## 4. OLS koeficient veku: -0.428

Praktický význam:

  • Kluby by mali brať do úvahy, že vplyv veku (a iných charakteristík) sa líši v závislosti od segmentu trhu
  • Pre top hráčov môžu platiť iné zákonitosti ako pre priemerných hráčov
  • OLS priemer môže skrývať dôležité rozdiely

Hlavný záver: Kvantilová regresia poskytuje bohatší a presnejší obraz vzťahov medzi charakteristikami hráčov a ich trhovou cenou než klasická OLS regresia.