Dlaczego kwantylowa?
Dlaczego potrzebujemy regresji kwantylowej (QR)?
W szczególności, QR:
jest odporna na punkty odstające i wpływowe
nie zakłada stałej wariancji (znanej jako homoskedastyczność) dla
zmiennej odpowiedzi lub reszt
nie zakłada normalności ale główną zaletą QR w porównaniu z
regresją liniową (LR) jest to, że QR bada różne wartości zmiennej
odpowiedzi, a nie tylko średnią, i dostarcza w związku z tym
pełniejszego obrazu związków między zmiennymi!
Wprowadzenie
Regresja kwantylowa (ang. quantile regression) została zaproponowana
przez Koenkera i Bassetta (1978). Szczególny przypadek regresji
kwantylowej dla kwantyla rzędu 0,5 (czyli mediany) jest równoważny
estymatorowi LAD (ang. Least Absolute Deviation) – minimalizuje sumę
bezwzględnych błędów.
Wprowadzenie różnych kwantyli regresji daje pełniejszy opis rozkładów
warunkowych zwłaszcza w przypadku rozkładów asymetrycznych lub
uciętych.
Regresja kwantylowa jest kolejną wariacją na temat najmniejszych
kwadratów . Stratą jest współczynnik \(l_1\) funkcji:
\[
\phi(u) = \tau\max(u,0) - (1-\tau)\max(-u,0) = \frac{1}{2}|u| +
\left(\tau - \frac{1}{2}\right)u,
\]
gdzie \(\tau \in (0,1)\) oznacza
konkretny kwantyl. Problemem jak poprzednio jest minimalizacja
całkowitej straty resztowej. Model ten jest powszechnie stosowany w
ekologii, ochronie zdrowia i innych dziedzinach, gdzie sama średnia nie
wystarcza do uchwycenia złożonych zależności między zmiennymi.
Wymagania
Wymagana jest jedna liczbowa zmienna zależna. Zmienna przewidywana
musi być zmienną ilościową. Predyktory mogą być zmiennymi ilościowymi
lub sztucznymi zmiennymi w przypadku predyktorów jakościowych. Aby można
było uruchomić analizę, wymagany jest wyraz wolny lub co najmniej jeden
predyktor.
Regresja kwantylowa nie czyni założeń dotyczących rozkładu zmiennej
przewidywanej i jest odporna na wpływ obserwacji odstających.
Analiza kwantylowa jest pokrewna regresji metodą najmniejszych
kwadratów.
Przykład 1.
Wykorzystamy przykład z pakietu quantreg.
Jaki jest związek między całkowitym dochodem gospodarstwa domowego a
odsetkiem dochodów wydatkowanych na żywność? Prawo Engela w ekonomii
głosi, że w miarę wzrostu dochodów, część dochodów wydatkowanych na
żywność spada, nawet jeśli wydatki na żywność bezwzględnie rosną.
Stosując regresję kwantylową do tych danych, można określić, jakie
wydatki na żywność ponosi 90% rodzin (dla 100 rodzin z danym dochodem),
gdy nie interesują nas średnie wydatki na żywność.
Dane, które wykorzystamy - to zbiór “engel” - dane dotyczące wydatków
na żywność. Jest to zbiór danych regresyjnych składający się z 235
obserwacji dotyczących dochodów i wydatków na żywność dla belgijskich
gospodarstw domowych klasy robotniczej.

Powyższy wykres przedstawia dopasowanie regresji kwantylowej dla
\(\tau = (0.1, 0.25, 0.5, 0.75, 0.90,
0.95)\). Dopasowanie KMNK to gruba czarna linia.
Poniżej znajduje się tabela z oszacowanymi współczynnikami.
knitr::kable(fits, format = "html", caption = "Oszacowania z KMNK oraz `quantreg`") %>%
kable_styling("striped") %>%
column_spec(1:8, background = "#ececec")
Oszacowania z KMNK oraz quantreg
|
|
OLS
|
\(\tau_{0.10}\)
|
\(\tau_{0.25}\)
|
\(\tau_{0.50}\)
|
\(\tau_{0.75}\)
|
\(\tau_{0.90}\)
|
\(\tau_{0.95}\)
|
|
(Intercept)
|
147.4753885
|
110.1415742
|
95.4835396
|
81.4822474
|
62.3965855
|
67.3508721
|
64.1039632
|
|
income
|
0.4851784
|
0.4017658
|
0.4741032
|
0.5601806
|
0.6440141
|
0.6862995
|
0.7090685
|
Ok, możemy to zrobić bardziej przejrzyście i sformatować w ładnej
tabeli wyników:
##
## Wyniki regresji kwantylowych
## ==========================================
## Dependent variable:
## -----------------------------
## foodexp
## (1) (2) (3)
## ------------------------------------------
## income 0.474*** 0.560*** 0.644***
## (0.029) (0.028) (0.023)
##
## Constant 95.484*** 81.482*** 62.397***
## (21.392) (19.251) (16.305)
##
## ------------------------------------------
## Observations 235 235 235
## ==========================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Finalnie, zaprezentujmy wyłącznie te 3 modele na wykresie:

Przykład 2.
Tutaj przeprowadzimy testy użycia pakietu quantreg, wykorzystując
wbudowany zbiór danych “mtcars”. Zmienna
“mpg” oznacza spalanie samochodów
(mile/galon).
Zamodulejmy zależność regresyjną dla tej zmiennej od kilku
predyktorów.
Najpierw oszacujmy regresję KMNK:
kmnk <- lm(mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
summary(kmnk)
##
## Call:
## lm(formula = mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.7981 -1.9532 0.0111 1.5665 5.6321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.832119 2.890418 8.591 3.32e-09 ***
## disp -0.008304 0.010087 -0.823 0.41757
## hp -0.037623 0.013846 -2.717 0.01135 *
## factor(am)1 4.419257 1.493243 2.960 0.00634 **
## factor(vs)1 2.052472 1.627096 1.261 0.21794
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.812 on 27 degrees of freedom
## Multiple R-squared: 0.8104, Adjusted R-squared: 0.7823
## F-statistic: 28.85 on 4 and 27 DF, p-value: 2.13e-09
Teraz oszacujmy warunkowe regresje kwantylowe na różnych kwantylach,
błąd standardowy uzyskany przez bootstrap.
Zauważ, że istnieje gradient we współczynnikach kwantylowych
hp, jak również disp. Znak
disp odwraca się, również współczynnik na czynniku
am jest różny w zależności od kwantyli:
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle,data = mtcars)
summary(reg_kwantylowa, se = "boot")
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 25.34665 1.52409 16.63070 0.00000
## disp -0.02441 0.00783 -3.11780 0.00419
## hp -0.01672 0.01487 -1.12393 0.27059
## factor(am)1 1.39719 1.33824 1.04406 0.30539
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.5
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 27.49722 1.81353 15.16229 0.00000
## disp -0.02253 0.01659 -1.35799 0.18531
## hp -0.02713 0.02432 -1.11549 0.27412
## factor(am)1 3.37328 2.00874 1.67930 0.10422
##
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 28.06384 1.60415 17.49448 0.00000
## disp 0.00445 0.01494 0.29795 0.76794
## hp -0.06662 0.01859 -3.58294 0.00127
## factor(am)1 7.91402 2.47587 3.19646 0.00344
Testy współczynników
Użyjemy funkcji rq.anova z pakietu regresji kwantylowej, aby
przeprowadzić test WALDA. Pamiętaj, że test WALDA mówi, że biorąc pod
uwagę nieograniczone oszacowania modelu, przetestujemy hipotezę zerową
mówiącą, że współczynniki spełniają pewne liniowe ograniczenia.
Aby ją przetestować, użyjemy obiektu zwróconego z uruchomienia
rq z różnymi liczbami kwantyli i ustawimy
opcję joint na true lub false. Gdy
joint jest true: “równość współczynników
kierunkowych powinna być wykonana jako wspólne testy na wszystkich
parametrach nachylenia”, gdy joint jest false:
“należy zgłaszać oddzielne testy na każdym z parametrów nachylenia”.
Zauważ, że testy kwantylowe są testami “linii równoległej”. Oznacza
to, że powinniśmy wyjąć różne x-wyrazy_wolne dla każdego kwantyla,
ponieważ reprezentują one poziomy rozkładów warunkowych. Jeśli jednak
współczynniki kwantyli dla współczynnikow są takie same, to nie ma
efektów specyficznych dla kwantyli, wystarczą efekty średnie.
Badanie statystycznej różnicy między 25. i 50. kwantylem
warunkowym:
Biorąc pod uwagę powyższe oszacowania kwantyli, różnica między
kwantylami 0,25 i 0,50 istnieje, ale czy są one wystarczająco duże, aby
być statystycznie różne? Jaka jest wartość p? Przeglądając poniższe
wyniki, nie są one statystycznie różne!
Po pierwsze, joint = TRUE. To nie jest testowanie, czy współczynnik
na disp jest taki sam jak współczynnik na hp. To jest wspólne
testowanie, czy współczynniki dla różnych kwantyli disp i różnych
kwantyli hp są takie same dla każdej zmiennej.
kwantyle <- c(0.25, 0.50)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 }
##
## Df Resid Df F value Pr(>F)
## 1 3 61 0.8421 0.4761
Po drugie, joint = False:
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 }
##
## Df Resid Df F value Pr(>F)
## disp 1 63 0.0305 0.8619
## hp 1 63 0.5461 0.4627
## factor(am)1 1 63 1.3500 0.2497
Badanie statystycznej różnicy między 25, 50 i 75 kwantylem
warunkowym:
Pierwszy kwartyl i mediana nie wydają się być statystycznie różne,
teraz dołączymy trzeci kwartyl. Jak widać wcześniej, kwartyle wspólnie
wykazują gradient. Teraz możemy zobaczyć, że disp,
hp i am są oddzielnie statystycznie
różne.
Po pierwsze, joint = TRUE:
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## 1 6 90 3.3173 0.005367 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Po drugie, joint = False:
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## disp 2 94 5.4903 0.005558 **
## hp 2 94 6.7221 0.001868 **
## factor(am)1 2 94 7.2758 0.001154 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dobroć dopasowania
Możemy obliczyć współczynniki dobroci dopasowania regresji
kwantylowej z wykorzystaniem reszt i reszt bezwarunkowych:
goodfit(resid, resid_nl, tau)
Miara dobroci dopasowania dla regresji kwantylowej jest szacowana
jako 1 minus stosunek sumy odchyleń bezwzględnych w modelach w pełni
sparametryzowanych do sumy odchyleń bezwzględnych w zerowym
(bezwarunkowym) modelu kwantylowym.
Wartości te są przydatne do porównań między modelami kwantylowymi,
ale nie są porównywalne ze standardowymi współczynnikami determinacji.
Te ostatnie oparte są na wariancji odchyleń kwadratowych, natomiast
wartości dobroci dopasowania dla regresji kwantylowej oparte są na
odchyleniach bezwzględnych. Wartości dobroci dopasowania zawsze będą
mniejsze niż wartości R2.
## model kwantylowy
model1 <- rq(mpg ~ disp + hp + factor(am),tau = 0.5, data = mtcars)
reszty1 <- resid(model1)
## bezwarunkowy (pusty) model kwantylowy
model2 <- rq(mpg ~ 1, tau = 0.5,data=mtcars)
reszty2 <- resid(model2)
goodfit(reszty1, reszty2, 0.5)
## [1] 0.5403311
## r2 modelu KMNK dla porównania
model_lm <- lm(mpg ~ disp + hp + factor(am), data = mtcars)
summary(model_lm)$r.squared
## [1] 0.7992061
Zadanie
Teraz Wasza kolej ;-)
Waszym zadaniem dzisiaj jest zamodelowanie - porównanie KMNK oraz
regresji kwantylowej (różno-poziomowej) dla zmiennej “earnings” -
wynagrodzenia.
Dobierz i przetestuj predyktory, kwantyle dla modeli. Wykonaj testy
różnic współczynnikow dla finalnych modeli.
W przypadku problemów - obejrzyj video tutorial (włącz polskie
napisy) oraz wejdź na jego stronę ze źródłami. Możesz również
wykorzystać w/w przykłady.
data("CPSSW9298")
dane <- CPSSW9298
dane92 <- dane %>% filter(year==1992)
dane98 <- dane %>% filter(year==1998)
Analiza zmiennej “earnings” w 1992 roku
plot <- ggplot(data = dane92) +
geom_point(mapping = aes(x = age, y = earnings), color = "purple")+ labs(title= "Wykres rozrzutu earnings względem age")
plot

Budowa i porównanie modeli za pomocą KMNK oraz regresji
kwantylowej.
model_liniowy <- lm(earnings~degree+gender+age, data=dane92)
model_qr1 <- rq(earnings~degree+gender+age, data=dane92, tau=0.25)
model_qr2 <- rq(earnings~degree+gender+age, data=dane92, tau=0.5)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
model_qr3 <- rq(earnings~degree+gender+age, data=dane92, tau=0.75)
summary(model_qr1)
##
## Call: rq(formula = earnings ~ degree + gender + age, tau = 0.25, data = dane92)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.92427 0.58803 3.27240 0.00107
## degreebachelor 3.41880 0.13130 26.03821 0.00000
## genderfemale -1.14850 0.11186 -10.26773 0.00000
## age 0.18222 0.01990 9.15846 0.00000
summary(model_qr3)
##
## Call: rq(formula = earnings ~ degree + gender + age, tau = 0.75, data = dane92)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.24944 0.84896 1.47173 0.14114
## degreebachelor 5.17262 0.17629 29.34186 0.00000
## genderfemale -2.52525 0.16201 -15.58689 0.00000
## age 0.40965 0.02869 14.27611 0.00000
AIC(model_liniowy, model_qr1, model_qr2, model_qr3)
## df AIC
## model_liniowy 5 45918.10
## model_qr1 4 45184.45
## model_qr2 4 45737.55
## model_qr3 4 48091.87
AIC jest najniższe dla modelu “model_qr1”, co oznacza że model
regresji kwantylowej z tau=0.25 w najlepszy sposób wyjaśnia zmienność
tych danych spośród tych modeli. Model liniowy stworzony metodą KMNK
gorzej objaśnia zmienną niż model kwantylowy dla pierwszego kwantyla i
dla mediany.
W grupie osób, których zarobki znajdują się w pierwszym kwantylu (25%
najmniej zarabiających) posiadanie wyższego wykształcenia przykłada się
na zarobki wyższe srednio o 3,42 jednostki pieniężnej więcej względem
osób z wykształceniem średnim. Wsród 25% najlepiej zarabiających
(tau=0,75) różnica w zarobkach jest większa i wynosi 5,17 jednostek
pieniężnych na korzyść osób wyżej wykształconych. Kobiety w pierwszej
grupie zarabiają średnio o 1,14 jednostek mniej od mężczyzn, zaś w
grupie o najwyższych zarobkach ta różnica również jest większa, 2,52
jednotki na niekorzyść kobiet. Wraz z wiekiem w obu grupach zarobki
rosną przy czym również ta różnica jest wyższa w grupie
najbogatszych.
model_rq5 <- rq(earnings~degree+gender+age, data=dane92, tau = seq(0.25, 0.75, 0.25))
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
intercept_slope <- model_rq5 %>%
coef() %>%
t() %>%
data.frame() %>%
rename(intercept = X.Intercept., slope = age) %>%
mutate(quantile = row.names(.))
ggplot() +
geom_point(data = dane92, aes(age, earnings), alpha = 0.5) +
geom_abline(data = intercept_slope, aes(intercept = intercept, slope = slope, color = quantile)) +
theme_minimal() +
labs(x = "Wiek", y = "Zarobki", title = "Regresje kwantylowe z tau = 0.25, 0.50 oraz 0.75")

hist(dane92$earnings)

hist(log(dane92$earnings))

Na podstawie histogramu przedstawiającego rozkład zmiennej można
zauważyć, że zlogarytmowanie zmiennej może pomóc w uzyskaniu lepszego
modelu.
dane92$log_earnings <- log(dane92$earnings)
plot2 <- ggplot(data = dane92) +
geom_point(mapping = aes(x = age, y = log_earnings), color = "purple")+ labs(title= "Wykres rozrzutu log(earnings) względem age")
plot2

Budowa i porównanie modeli za pomocą KMNK oraz regresji kwantylowej
dla zmiennej earnings zlogarytmowanej.
model_liniowy2 <- lm(log_earnings~degree+gender+age, data=dane92)
model_qrlog1 <- rq(log_earnings~degree+gender+age, data=dane92, tau=0.25)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
model_qrlog2 <- rq(log_earnings~degree+gender+age, data=dane92, tau=0.5)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
model_qrlog3 <- rq(log_earnings~degree+gender+age, data=dane92, tau=0.75)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
summary(model_qrlog1)
##
## Call: rq(formula = log_earnings ~ degree + gender + age, tau = 0.25,
## data = dane92)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.32454 0.08001 16.55439 0.00000
## degreebachelor 0.41185 0.01520 27.10356 0.00000
## genderfemale -0.14206 0.01490 -9.53162 0.00000
## age 0.02206 0.00266 8.29927 0.00000
AIC(model_liniowy2, model_qrlog1, model_qrlog2, model_qrlog3)
## df AIC
## model_liniowy2 5 8750.943
## model_qrlog1 4 10873.415
## model_qrlog2 4 9249.473
## model_qrlog3 4 9527.585
W przypadku zlogarytmowanej zmiennej objaśnianej lepszą objaśnialność
ma model liniowy (najniższe AIC) niż modele regresji kwantylowej.
Spośród modeli regresji kwartylowej najlepszy zdaje się ten dla
mediany.
Według wybranego modelu, czyli modelu liniowego osoby posiadające
wykształcenie wyższe zarabiają średnio o 0,41 jednostki pieniężnej na
godzinę więcej niż osoby posiadające wykształcenie średnie. Kobiety
zarabiają przeciętnie 0,14 jednostki pieniężnej mniej niż mężczyźni.
Wraz ze starzeniem się, z każdym kolejnym rokiem zarabia się średno 0,02
jednostki pieniężne na godzinę więcej.
Analiza zmiennej “earnings” w 1998 roku
plot3 <- ggplot(data = dane98) +
geom_point(mapping = aes(x = age, y = earnings), color = "pink")+ labs(title= "Wykres rozrzutu earnings względem age")
plot3

Budowa i porównanie modeli za pomocą KMNK oraz regresji
kwantylowej.
model_liniowy3 <- lm(earnings~degree+gender+age, data=dane98)
model_qr6 <- rq(earnings~degree+gender+age, data=dane98, tau=0.25)
model_qr7 <- rq(earnings~degree+gender+age, data=dane98, tau=0.5)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
model_qr8 <- rq(earnings~degree+gender+age, data=dane98, tau=0.75)
summary(model_qr6)
##
## Call: rq(formula = earnings ~ degree + gender + age, tau = 0.25, data = dane98)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 3.12432 0.79243 3.94273 0.00008
## degreebachelor 3.80303 0.16637 22.85934 0.00000
## genderfemale -1.64320 0.15013 -10.94525 0.00000
## age 0.18444 0.02659 6.93726 0.00000
summary(model_qr8)
##
## Call: rq(formula = earnings ~ degree + gender + age, tau = 0.75, data = dane98)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.44231 1.29329 1.11522 0.26480
## degreebachelor 6.25000 0.27978 22.33862 0.00000
## genderfemale -3.36538 0.24212 -13.89986 0.00000
## age 0.48077 0.04298 11.18579 0.00000
AIC(model_liniowy3, model_qr6, model_qr7, model_qr8)
## df AIC
## model_liniowy3 5 38436.17
## model_qr6 4 37529.01
## model_qr7 4 38116.57
## model_qr8 4 40304.82
W 1998 roku podobnie jak w 1992 roku model regresji kwantylowej z
tau=0.25 (najniższe AIC) w najlepszy sposób wyjaśnia zmienność zarobków.
Model liniowy gorzej objaśnia zmienną niż model kwantylowy dla
pierwszego kwantyla i dla mediany.
W 1998 roku w grupie osób, których zarobki znajdują się w pierwszym
kwantylu (25% najmniej zarabiających) posiadanie wyższego wykształcenia
przykłada się na zarobki wyższe srednio o 3,8 jednostki pieniężnej
więcej względem osób z wykształceniem średnim. Wsród 25% najlepiej
zarabiających (tau=0,75) różnica w zarobkach jest większa i wynosi 6,25
jednostek pieniężnych na korzyść osób wyżej wykształconych. Kobiety w
pierwszej grupie zarabiają średnio o 1,64 jednostek mniej od mężczyzn,
zaś w grupie o najwyższych zarobkach ta różnica również jest większa,
3,36 jednotki na niekorzyść kobiet. Wraz z wiekiem w obu grupach zarobki
rosną przy czym również ta różnica jest wyższa w grupie
najbogatszych.
Można zauważyć, że na przestrzeni lat od 1992 do 1998 roku w obu
grupach, tej zarabiąjących najmniej, jak i tej zarabiających najwięcej
różnice w osiąganych zarobkach ze względu na posiadane wykształcenie,
płeć oraz wiek pogłębiły się. Posiadanie wyższego wykształcenia bardziej
podwyższa zarobki, kobiety zarabiają jeszcze mniej względem mężczyzn, a
zarobki jeszcze bardziej rosną wraz z wiekiem (w przypadku tej zmiennej
głównie w grupie najlepiej zarabiających).
model_rq4 <- rq(earnings~degree+gender+age, data=dane98, tau = seq(0.25, 0.75, 0.25))
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
intercept_slope <- model_rq4 %>%
coef() %>%
t() %>%
data.frame() %>%
rename(intercept = X.Intercept., slope = age) %>%
mutate(quantile = row.names(.))
ggplot() +
geom_point(data = dane98, aes(age, earnings), alpha = 0.5) +
geom_abline(data = intercept_slope, aes(intercept = intercept, slope = slope, color = quantile)) +
theme_minimal() +
labs(x = "Wiek", y = "Zarobki", title = "Regresje kwantylowe z tau = 0.25, 0.50 oraz 0.75")

hist(dane98$earnings)

hist(log(dane98$earnings))

Również na podstawie histogramu danych z 1998 roku można zauważyć, że
zlogarytmowanie zmiennej może pomóc w uzyskaniu lepszego modelu.
dane98$log_earnings <- log(dane98$earnings)
plot4 <- ggplot(data = dane98) +
geom_point(mapping = aes(x = age, y = log_earnings), color = "pink")+ labs(title= "Wykres rozrzutu log(earnings) względem age")
plot4

Budowa i porównanie modeli za pomocą KMNK oraz regresji kwantylowej
dla zmiennej earnings zlogarytmowanej.
model_liniowy4 <- lm(log_earnings~degree+gender+age, data=dane98)
model_qrlog6 <- rq(log_earnings~degree+gender+age, data=dane98, tau=0.25)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
model_qrlog7 <- rq(log_earnings~degree+gender+age, data=dane98, tau=0.5)
model_qrlog8 <- rq(log_earnings~degree+gender+age, data=dane98, tau=0.75)
summary(model_liniowy4)
##
## Call:
## lm(formula = log_earnings ~ degree + gender + age, data = dane98)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.96583 -0.27644 0.02536 0.30209 1.50215
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.78845 0.06230 28.71 <2e-16 ***
## degreebachelor 0.38277 0.01173 32.64 <2e-16 ***
## genderfemale -0.18003 0.01182 -15.23 <2e-16 ***
## age 0.02142 0.00207 10.35 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4457 on 5907 degrees of freedom
## Multiple R-squared: 0.1828, Adjusted R-squared: 0.1824
## F-statistic: 440.5 on 3 and 5907 DF, p-value: < 2.2e-16
AIC(model_liniowy4, model_qrlog6, model_qrlog7, model_qrlog8)
## df AIC
## model_liniowy4 5 7228.160
## model_qrlog6 4 8725.172
## model_qrlog7 4 7555.391
## model_qrlog8 4 7968.480
W 1998 roku tak samo jak w 1992 w przypadku zlogarytmowanej zmiennej
objaśnianej dotyczącej zarobków lepszą objaśnialność ma model liniowy
(najniższe AIC) niż modele regresji kwantylowej. Spośród modeli regresji
kwartylowej najlepszy zdaje się ten dla mediany.
Według wybranego modelu, czyli modelu liniowego osoby posiadające
wykształcenie wyższe zarabiają średnio o 0,38 jednostki pieniężnej na
godzinę więcej niż osoby posiadające wykształcenie średnie. Kobiety
zarabiają przeciętnie 0,18 jednostki pieniężnej mniej niż mężczyźni.
Wraz ze starzeniem się, z każdym kolejnym rokiem zarabia się średno 0,02
jednostki pieniężne na godzinę więcej.
