Wprowadzenie
Regresja kwantylowa (ang. quantile regression) została zaproponowana
przez Koenkera i Bassetta (1978). Szczególny przypadek regresji
kwantylowej dla kwantyla rzędu 0,5 (czyli mediany) jest równoważny
estymatorowi LAD (ang. Least Absolute Deviation) – minimalizuje sumę
bezwzględnych błędów.
Wprowadzenie różnych kwantyli regresji daje pełniejszy opis rozkładów
warunkowych zwłaszcza w przypadku rozkładów asymetrycznych lub
uciętych.
Regresja kwantylowa jest kolejną wariacją na temat najmniejszych
kwadratów . Stratą jest współczynnik \(l_1\) funkcji:
\[
\phi(u) = \tau\max(u,0) - (1-\tau)\max(-u,0) = \frac{1}{2}|u| +
\left(\tau - \frac{1}{2}\right)u,
\]
gdzie \(\tau \in (0,1)\) oznacza
konkretny kwantyl. Problemem jak poprzednio jest minimalizacja
całkowitej straty resztowej. Model ten jest powszechnie stosowany w
ekologii, ochronie zdrowia i innych dziedzinach, gdzie sama średnia nie
wystarcza do uchwycenia złożonych zależności między zmiennymi.
Przykład 1.
Wykorzystamy przykład z pakietu quantreg.
Jaki jest związek między całkowitym dochodem gospodarstwa domowego a
odsetkiem dochodów wydatkowanych na żywność? Prawo Engela w ekonomii
głosi, że w miarę wzrostu dochodów, część dochodów wydatkowanych na
żywność spada, nawet jeśli wydatki na żywność bezwzględnie rosną.
Stosując regresję kwantylową do tych danych, można określić, jakie
wydatki na żywność ponosi 90% rodzin (dla 100 rodzin z danym dochodem),
gdy nie interesują nas średnie wydatki na żywność.
Dane, które wykorzystamy - to zbiór “engel” - dane dotyczące wydatków
na żywność. Jest to zbiór danych regresyjnych składający się z 235
obserwacji dotyczących dochodów i wydatków na żywność dla belgijskich
gospodarstw domowych klasy robotniczej.

Powyższy wykres przedstawia dopasowanie regresji kwantylowej dla
\(\tau = (0.1, 0.25, 0.5, 0.75, 0.90,
0.95)\). Dopasowanie KMNK to gruba czarna linia.
Poniżej znajduje się tabela z oszacowanymi współczynnikami.
knitr::kable(fits, format = "html", caption = "Oszacowania z KMNK oraz `quantreg`") %>%
kable_styling("striped") %>%
column_spec(1:8, background = "grey")
Oszacowania z KMNK oraz quantreg
|
|
OLS
|
\(\tau_{0.10}\)
|
\(\tau_{0.25}\)
|
\(\tau_{0.50}\)
|
\(\tau_{0.75}\)
|
\(\tau_{0.90}\)
|
\(\tau_{0.95}\)
|
|
(Intercept)
|
147.4753885
|
110.1415742
|
95.4835396
|
81.4822474
|
62.3965855
|
67.3508721
|
64.1039632
|
|
income
|
0.4851784
|
0.4017658
|
0.4741032
|
0.5601806
|
0.6440141
|
0.6862995
|
0.7090685
|
Ok, możemy to zrobić bardziej przejrzyście i sformatować w ładnej
tabeli wyników:
##
## Wyniki regresji kwantylowych
## ==========================================
## Dependent variable:
## -----------------------------
## foodexp
## (1) (2) (3)
## ------------------------------------------
## income 0.474*** 0.560*** 0.644***
## (0.029) (0.028) (0.023)
##
## Constant 95.484*** 81.482*** 62.397***
## (21.392) (19.251) (16.305)
##
## ------------------------------------------
## Observations 235 235 235
## ==========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Finalnie, zaprezentujmy wyłącznie te 3 modele na wykresie:

Przykład 2.
Tutaj przeprowadzimy testy użycia pakietu quantreg, wykorzystując
wbudowany zbiór danych “mtcars”. Zmienna
“mpg” oznacza spalanie samochodów
(mile/galon).
Zamodulejmy zależność regresyjną dla tej zmiennej od kilku
predyktorów.
Najpierw oszacujmy regresję KMNK:
kmnk <- lm(mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
summary(kmnk)
##
## Call:
## lm(formula = mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.7981 -1.9532 0.0111 1.5665 5.6321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.832119 2.890418 8.591 3.32e-09 ***
## disp -0.008304 0.010087 -0.823 0.41757
## hp -0.037623 0.013846 -2.717 0.01135 *
## factor(am)1 4.419257 1.493243 2.960 0.00634 **
## factor(vs)1 2.052472 1.627096 1.261 0.21794
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.812 on 27 degrees of freedom
## Multiple R-squared: 0.8104, Adjusted R-squared: 0.7823
## F-statistic: 28.85 on 4 and 27 DF, p-value: 2.13e-09
Teraz oszacujmy warunkowe regresje kwantylowe na różnych kwantylach,
błąd standardowy uzyskany przez bootstrap.
Zauważ, że istnieje gradient we współczynnikach kwantylowych
hp, jak również disp. Znak
disp odwraca się, również współczynnik na czynniku
am jest różny w zależności od kwantyli:
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle,data = mtcars)
summary(reg_kwantylowa, se = "boot")
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 25.34665 1.46648 17.28399 0.00000
## disp -0.02441 0.00874 -2.79296 0.00931
## hp -0.01672 0.01658 -1.00848 0.32186
## factor(am)1 1.39719 1.22510 1.14047 0.26375
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.5
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 27.49722 1.71191 16.06230 0.00000
## disp -0.02253 0.01614 -1.39605 0.17367
## hp -0.02713 0.02298 -1.18070 0.24766
## factor(am)1 3.37328 2.15080 1.56839 0.12802
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 28.06384 1.69072 16.59871 0.00000
## disp 0.00445 0.01651 0.26963 0.78942
## hp -0.06662 0.02294 -2.90444 0.00711
## factor(am)1 7.91402 2.61149 3.03046 0.00521
Testy współczynników
Użyjemy funkcji rq.anova z pakietu regresji kwantylowej, aby
przeprowadzić test WALDA. Pamiętaj, że test WALDA mówi, że biorąc pod
uwagę nieograniczone oszacowania modelu, przetestujemy hipotezę zerową
mówiącą, że współczynniki spełniają pewne liniowe ograniczenia.
Aby ją przetestować, użyjemy obiektu zwróconego z uruchomienia
rq z różnymi liczbami kwantyli i ustawimy
opcję joint na true lub false. Gdy
joint jest true: “równość współczynników
kierunkowych powinna być wykonana jako wspólne testy na wszystkich
parametrach nachylenia”, gdy joint jest false:
“należy zgłaszać oddzielne testy na każdym z parametrów nachylenia”.
Zauważ, że testy kwantylowe są testami “linii równoległej”. Oznacza
to, że powinniśmy wyjąć różne x-wyrazy_wolne dla każdego kwantyla,
ponieważ reprezentują one poziomy rozkładów warunkowych. Jeśli jednak
współczynniki kwantyli dla współczynnikow są takie same, to nie ma
efektów specyficznych dla kwantyli, wystarczą efekty średnie.
Badanie statystycznej różnicy między 25. i 50. kwantylem
warunkowym:
Biorąc pod uwagę powyższe oszacowania kwantyli, różnica między
kwantylami 0,25 i 0,50 istnieje, ale czy są one wystarczająco duże, aby
być statystycznie różne? Jaka jest wartość p? Przeglądając poniższe
wyniki, nie są one statystycznie różne!
Po pierwsze, joint = TRUE. To nie jest testowanie, czy współczynnik
na disp jest taki sam jak współczynnik na hp. To jest wspólne
testowanie, czy współczynniki dla różnych kwantyli disp i różnych
kwantyli hp są takie same dla każdej zmiennej.
kwantyle <- c(0.25, 0.50)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 }
##
## Df Resid Df F value Pr(>F)
## 1 3 61 0.8421 0.4761
Po drugie, joint = False:
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 }
##
## Df Resid Df F value Pr(>F)
## disp 1 63 0.0305 0.8619
## hp 1 63 0.5461 0.4627
## factor(am)1 1 63 1.3500 0.2497
Badanie statystycznej różnicy między 25, 50 i 75 kwantylem
warunkowym:
Pierwszy kwartyl i mediana nie wydają się być statystycznie różne,
teraz dołączymy trzeci kwartyl. Jak widać wcześniej, kwartyle wspólnie
wykazują gradient. Teraz możemy zobaczyć, że disp,
hp i am są oddzielnie statystycznie
różne.
Po pierwsze, joint = TRUE:
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## 1 6 90 3.3173 0.005367 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Po drugie, joint = False:
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## disp 2 94 5.4903 0.005558 **
## hp 2 94 6.7221 0.001868 **
## factor(am)1 2 94 7.2758 0.001154 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dobroć dopasowania
Możemy obliczyć współczynniki dobroci dopasowania regresji
kwantylowej z wykorzystaniem reszt i reszt bezwarunkowych:
goodfit(resid, resid_nl, tau)
Miara dobroci dopasowania dla regresji kwantylowej jest szacowana
jako 1 minus stosunek sumy odchyleń bezwzględnych w modelach w pełni
sparametryzowanych do sumy odchyleń bezwzględnych w zerowym
(bezwarunkowym) modelu kwantylowym.
Wartości te są przydatne do porównań między modelami kwantylowymi,
ale nie są porównywalne ze standardowymi współczynnikami determinacji.
Te ostatnie oparte są na wariancji odchyleń kwadratowych, natomiast
wartości dobroci dopasowania dla regresji kwantylowej oparte są na
odchyleniach bezwzględnych. Wartości dobroci dopasowania zawsze będą
mniejsze niż wartości R2.
## model kwantylowy
model1 <- rq(mpg ~ disp + hp + factor(am),tau = 0.5, data = mtcars)
reszty1 <- resid(model1)
## bezwarunkowy (pusty) model kwantylowy
model2 <- rq(mpg ~ 1, tau = 0.5,data=mtcars)
reszty2 <- resid(model2)
goodfit(reszty1, reszty2, 0.5)
## [1] 0.5403311
## r2 modelu KMNK dla porównania
model_lm <- lm(mpg ~ disp + hp + factor(am), data = mtcars)
summary(model_lm)$r.squared
## [1] 0.7992061
Zadanie
Teraz Wasza kolej ;-)
Waszym zadaniem dzisiaj jest zamodelowanie - porównanie KMNK oraz
regresji kwantylowej (różno-poziomowej) dla zmiennej “earnings” -
wynagrodzenia.
Dobierz i przetestuj predyktory, kwantyle dla modeli. Wykonaj testy
różnic współczynnikow dla finalnych modeli.
W przypadku problemów - obejrzyj video tutorial (włącz polskie
napisy) oraz wejdź na jego stronę ze źródłami. Możesz również
wykorzystać w/w przykłady.
Import danych
Poniżej zaimportowano zbiór danych CPSSW9298, w którym znajdują się
badane wynagrodzenia.
data("CPSSW9298")
dane <- CPSSW9298
Wizualizacja danych
Na poniższym histogramie przedstawiono rozkład wynagrodzeń.
wykres0 <- ggplot(dane, aes(x=earnings)) +
geom_histogram(bins=30, color="dodgerblue4", fill="lightblue") +
xlab("Zarobki") + ylab("Częstość") +
ggtitle("Histogram rozkładu wynagrodzeń") +
xlab("Wynagrodzenia") + ylab("Częstość")
ggplotly(wykres0)
Na podstawie powyższego rysunku można zauważyć występowanie asymetrii
prawostronnej. Oznacza to, że w badanej próbie przeważają wynagordzenia
o wartości poniżej średniej.
Na poniższym rysunku przedstawiono porównanie wynagrodzeń kobiet i
mężczyzn.
wykres1 <- ggplot(dane, aes(y=earnings, x=gender, fill=gender)) +
geom_boxplot() +
ggtitle("Porówanie wynagrodzeń kobiet i mężczyzn") +
xlab("Płeć") + ylab("Wynagrodzenia") +
labs(fill="Płeć")
ggplotly(wykres1)
Na podstawie powyższego rysunku można zauważyć, że mężczyźni
posiadają wyższe wynagrodzenia względem kobiet.
Na poniższym rysunku przedstawiono porównanie wynagrodzeń w
zależności od wykształcenia.
wykres2 <- ggplot(dane, aes(y=earnings, x=degree, fill= degree)) +
geom_boxplot() +
ggtitle("Porówanie wynagrodzeń w zależności od wykształcenia") +
xlab("Wykształcenie") + ylab("Wynagrodzenia") +
labs(fill="Wykształcenie")
ggplotly(wykres2)
Na podstawie powyższego rysunku można zauważyć, że osoby posiadające
tytuł licencjata posiadają wyższe wynagrodzenia względem osób, które
ukończyły jedynie szkołę średnią.
Na poniższym rysunku przedstawiono porównanie wynagrodzeń w
zależności od płci i wykształcenia.
wykres3 <- ggplot(dane, aes(y=earnings, x=degree, fill=gender)) +
geom_boxplot() +
ggtitle("Porówanie wynagrodzeń kobiet i mężczyzn w zależności od wykształcenia") +
xlab("Wykształcenie") + ylab("Wynagrodzenia") +
labs(fill="Płeć")
wykres3
Na podstawie powyższego rysunku można zauważyć, że najwwyższe
wynagrodzenia posiadają mężczyźni z tytułem licencjata, a najniższe
absolwentki szkoły średniej.
Regresja KMNK
Poniżej zbudowano model regresji liniowej szacowanej za pomocą
klasycznej metody najmnijeszych kwadratwów. Zmienną wynikową stanowiły
wynagrodzenia, natomiast wśród predyktorów uwzględniono: wiek, stopień
wykształcenia oraz płeć.
kmnk <- lm(earnings ~ age + degree + gender, data = dane)
summary(kmnk)
##
## Call:
## lm(formula = earnings ~ age + degree + gender, data = dane)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.023 -3.735 -0.819 2.755 33.526
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.70477 0.52435 3.251 0.00115 **
## age 0.33245 0.01740 19.106 < 2e-16 ***
## degreebachelor 4.91123 0.09938 49.418 < 2e-16 ***
## genderfemale -2.24217 0.09902 -22.643 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.665 on 13497 degrees of freedom
## Multiple R-squared: 0.1877, Adjusted R-squared: 0.1876
## F-statistic: 1040 on 3 and 13497 DF, p-value: < 2.2e-16
Na podstawie uzyskanych wyników można zauważyć, że na poziom
wyngrodzeń statystycznie istotnie wpływają: wiek, ukończenie studiów na
poziomie licencjackim oraz płeć kobieca.
Regresja kwantylowa
Poniżej zbudowano model regresji kwantylowej odpowiednio dla
pierwszego (Q1=0,25), drugiego (Q2=0,5) i trzeciego kwartyla (Q3=0,75).
Podobnie jak w poprzednim przypadku zmienną wynikową stanowiły
wynagrodzenia, natomiast jako predyktory wybrano: wiek, stopień
wykształcenia oraz płeć.
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(earnings ~ age + degree + gender , tau = kwantyle, data = dane)
summary(reg_kwantylowa, se = "boot")
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = dane)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 2.67308 0.37674 7.09526 0.00000
## age 0.17308 0.01338 12.93260 0.00000
## degreebachelor 3.59188 0.09142 39.28839 0.00000
## genderfemale -1.32265 0.08139 -16.25171 0.00000
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = dane)
##
## tau: [1] 0.5
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.45427 0.52005 2.79641 0.00517
## age 0.31389 0.01805 17.38934 0.00000
## degreebachelor 4.70043 0.11483 40.93469 0.00000
## genderfemale -2.12970 0.11439 -18.61718 0.00000
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = dane)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.53846 0.92699 1.65963 0.09701
## age 0.43269 0.03052 14.17740 0.00000
## degreebachelor 5.75962 0.17179 33.52789 0.00000
## genderfemale -2.97009 0.11448 -25.94337 0.00000
Przyjmując za poziom istotności statystycznej 5% (alfa=0,05) można
zauważyć, że zarówno dla pierwszego, jak i drugiego kwartyla wszystkie
predyktory istotnie statystcznie wpływają na poziom wynagrodzeń.
Jednakże w przypadku trzeciego kwartyla wiek okazał się być staystycznie
nieistonym czynniem kształtującym wysokość wynagrodzeń.
Weryfikacja statystyczna istotności różnic między pierwszym, drugim
i trzecim kwartylem
Poniżej wykonano test ANOVA w celu zbadania czy pomiędzy rozważanymi
kwartylami wystepują statystycznie istotne różnice.
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: earnings ~ age + degree + gender
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## 1 6 40497 90.65 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Na podstawie uzyskanego wyniku można zauważyć, że zarówno pierwszy,
drugi, jak i trzeci kwartyl łącznie istotnie statystycznie różnią się
między sobą.
Poniżej wykonao test ANOVA w celu zbadania czy analizowane
determinanty wynagrodzeń są istotnie statystycznie różne.
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: earnings ~ age + degree + gender
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## age 2 40501 72.465 < 2.2e-16 ***
## degreebachelor 2 40501 117.817 < 2.2e-16 ***
## genderfemale 2 40501 88.771 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Na podstawie uzyskanych wyników możemy zobaczyć, że uwzględnione w
badaniu predyktory wynagrodzeń są oddzielnie statystycznie różne.
Dobroć dopasowania
Poniżej obliczono współczynniki dobroci dopasowania regresji
kwantylowej z wykorzystaniem reszt i reszt bezwarunkowych:
# Testy reszt:
reszty0 <- resid(kmnk)
# Bezwarunkowy (pusty) model kwantylowy dla Q2 = 0.5
model2 <- rq(earnings ~ 1, tau = 0.5,data=dane)
reszty2 <- resid(model2)
goodfit(reszty0, reszty2, 0.5)
## [1] 0.09465109
# Bezwarunkowy (pusty) model kwantylowy dla Q3 = 0.75
model3 <- rq(earnings ~ 1, tau = 0.75,data=dane)
reszty3 <- resid(model3)
goodfit(reszty0, reszty3, 0.75)
## [1] 0.01350041
# Współczynnik dterminacji modelu KMNK dla porównania
summary(kmnk)$r.squared
## [1] 0.1877333
Na podstawie uzyskanych wyników można zauważyć, że współczynnik
determinacji dla regresji liniowej uzyskał najwyższą wartość. Oznacza
to, że niniejszy model najlepiej wyjaśnia badane zjawisko. Regresja
liniowa lepiej dopasowała się do danych empirycznych wobec regresji
kwantylowej zarówno dla drugiego, jak i trzeciego kwartyla.
