Cieľom tohto notebooku je predstaviť kvantilovú regresiu v kontexte analýzy trhovej ceny futbalových hráčov.
Táto metóda je užitočná, keď nechceme opísať iba priemerný vplyv vysvetľujúcej premennej na závislú premennú, ale aj to, ako sa tento vplyv líši pre pozorovania nachádzajúce sa v rôznych častiach podmieneného rozdelenia závislej premennej.
Namiesto otázky:
Ako vek a výška ovplyvňujú priemer trhovej ceny hráča?
sa môžeme opýtať:
Ako vek a výška ovplyvňujú 10. percentil, medián alebo 90. percentil trhovej ceny hráča?
Toto je obzvlášť užitočné v kontexte futbalových hráčov, pretože:
V klasickej lineárnej regresii odhadovanej metódou OLS modelujeme podmienený priemer:
\[ E(y_i \mid x_i) = \beta_0 + \beta_1 x_i \]
Naproti tomu v kvantilovej regresii modelujeme podmienený kvantil:
\[ Q_\tau(y_i \mid x_i) = \beta_0(\tau) + \beta_1(\tau) x_i \]
kde:
Predpokladajme, že vek ovplyvňuje trhovú cenu hráčov. OLS nám hovorí, ako vek mení priemernú cenu. Kvantilová regresia však môže ukázať, či má vek:
Týmto spôsobom nám kvantilová regresia umožňuje študovať heterogenitu efektov naprieč rôznymi segmentmi trhu s hráčmi.
| Metóda | Otázka |
|---|---|
| OLS | O koľko sa zmení podmienený priemer ceny, keď sa vek zvýši o rok? |
| Kvantilová regresia | O koľko sa zmení podmienený \(\tau\)-kvantil ceny, keď sa vek zvýši o rok? |
Pracujeme s datasetom futbalových hráčov z top 5 európskych líg.
## Počet pozorovaní: 2591
## Priemerná cena: 10.69 mil. €
## Medián ceny: 4.5 mil. €
Pozorovaný vzor: Variabilita cien je oveľa vyššia u mladších hráčov. To naznačuje heteroskedasticitu a robí kvantilovú regresiu vhodným nástrojom analýzy.
Odhadneme:
summary(m_ols)
##
## Call:
## lm(formula = price ~ age + height, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.753 -8.146 -5.229 2.098 167.712
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 43.31313 8.47019 5.114 3.39e-07 ***
## age -0.42759 0.06664 -6.417 1.65e-10 ***
## height -11.66483 4.57390 -2.550 0.0108 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.65 on 2588 degrees of freedom
## Multiple R-squared: 0.01879, Adjusted R-squared: 0.01803
## F-statistic: 24.77 on 2 and 2588 DF, p-value: 2.202e-11
Koeficient pri veku je -0.428, što znamená, že v priemere:
Zvýšenie veku o 1 rok je spojené so zmenou priemernej trhovej ceny o -0.428 mil. €.
summary(m_q10)
##
## Call: rq(formula = price ~ age + height, tau = 0.1, data = data)
##
## tau: [1] 0.1
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 7.25217 0.87105 8.32583 0.00000
## age 0.00652 0.00635 1.02730 0.30437
## height -3.69565 0.46450 -7.95616 0.00000
summary(m_q50)
##
## Call: rq(formula = price ~ age + height, tau = 0.5, data = data)
##
## tau: [1] 0.5
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 28.05882 3.90902 7.17797 0.00000
## age -0.26471 0.02990 -8.85274 0.00000
## height -8.82353 2.17115 -4.06399 0.00005
summary(m_q90)
##
## Call: rq(formula = price ~ age + height, tau = 0.9, data = data)
##
## tau: [1] 0.9
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 84.42187 27.13178 3.11155 0.00188
## age -1.60156 0.16359 -9.79009 0.00000
## height -8.59375 14.93289 -0.57549 0.56501
coef_table <- rbind(
OLS = coef(m_ols),
Q10 = coef(m_q10),
Q50 = coef(m_q50),
Q90 = coef(m_q90)
)
round(coef_table, 3)
## (Intercept) age height
## OLS 43.313 -0.428 -11.665
## Q10 7.252 0.007 -3.696
## Q50 28.059 -0.265 -8.824
## Q90 84.422 -1.602 -8.594
| Model | Koeficient veku | Interpretácia |
|---|---|---|
| OLS | -0.428 | Priemerný efekt naprieč všetkými hráčmi |
| Q10 | 0.007 | Efekt v dolnej časti rozdelenia (lacnejší hráči) |
| Q50 | -0.265 | Efekt okolo mediánu (priemerní hráči) |
| Q90 | -1.602 | Efekt v hornej časti rozdelenia (najdrahší hráči) |
Ak sa koeficienty líšia naprieč kvantilmi, vplyv veku nie je rovnomerný:
Graf ukazuje, ako sa podmienené rozdelenie trhovej ceny mení s vekom. Rôzne sklony regresných priamok naprieč kvantilmi odhaľujú heterogénny vplyv veku na rôzne segmenty trhu s hráčmi.
Pre úplnejší obraz odhadneme kvantilové regresie pre \(\tau\) od 0,10 do 0,90 s krokom 0,05.
taus <- seq(0.10, 0.90, by = 0.05)
m_many <- rq(price ~ age + height, tau = taus, data = data)
Tento graf je kľúčový pre pochopenie heterogénnych efektov:
Kvantilová regresia odhalila, že:
## 1. Koeficient veku v Q10: 0.007
## 2. Koeficient veku v Q50: -0.265
## 3. Koeficient veku v Q90: -1.602
## 4. OLS koeficient veku: -0.428
Praktický význam:
Hlavný záver: Kvantilová regresia poskytuje bohatší a presnejší obraz vzťahov medzi charakteristikami hráčov a ich trhovou cenou než klasická OLS regresia.