Dlaczego kwantylowa?

Dlaczego potrzebujemy regresji kwantylowej (QR)?

W szczególności, QR:

  • jest odporna na punkty odstające i wpływowe

  • nie zakłada stałej wariancji (znanej jako homoskedastyczność) dla zmiennej odpowiedzi lub reszt

  • nie zakłada normalności ale główną zaletą QR w porównaniu z regresją liniową (LR) jest to, że QR bada różne wartości zmiennej odpowiedzi, a nie tylko średnią, i dostarcza w związku z tym pełniejszego obrazu związków między zmiennymi!

Wprowadzenie

Regresja kwantylowa (ang. quantile regression) została zaproponowana przez Koenkera i Bassetta (1978). Szczególny przypadek regresji kwantylowej dla kwantyla rzędu 0,5 (czyli mediany) jest równoważny estymatorowi LAD (ang. Least Absolute Deviation) – minimalizuje sumę bezwzględnych błędów.
Wprowadzenie różnych kwantyli regresji daje pełniejszy opis rozkładów warunkowych zwłaszcza w przypadku rozkładów asymetrycznych lub uciętych.

Regresja kwantylowa jest kolejną wariacją na temat najmniejszych kwadratów . Stratą jest współczynnik \(l_1\) funkcji:

\[ \phi(u) = \tau\max(u,0) - (1-\tau)\max(-u,0) = \frac{1}{2}|u| + \left(\tau - \frac{1}{2}\right)u, \]

gdzie \(\tau \in (0,1)\) oznacza konkretny kwantyl. Problemem jak poprzednio jest minimalizacja całkowitej straty resztowej. Model ten jest powszechnie stosowany w ekologii, ochronie zdrowia i innych dziedzinach, gdzie sama średnia nie wystarcza do uchwycenia złożonych zależności między zmiennymi.

Wymagania

Wymagana jest jedna liczbowa zmienna zależna. Zmienna przewidywana musi być zmienną ilościową. Predyktory mogą być zmiennymi ilościowymi lub sztucznymi zmiennymi w przypadku predyktorów jakościowych. Aby można było uruchomić analizę, wymagany jest wyraz wolny lub co najmniej jeden predyktor.

Regresja kwantylowa nie czyni założeń dotyczących rozkładu zmiennej przewidywanej i jest odporna na wpływ obserwacji odstających.

Analiza kwantylowa jest pokrewna regresji metodą najmniejszych kwadratów.

Przykład 1.

Wykorzystamy przykład z pakietu quantreg.

Jaki jest związek między całkowitym dochodem gospodarstwa domowego a odsetkiem dochodów wydatkowanych na żywność? Prawo Engela w ekonomii głosi, że w miarę wzrostu dochodów, część dochodów wydatkowanych na żywność spada, nawet jeśli wydatki na żywność bezwzględnie rosną. Stosując regresję kwantylową do tych danych, można określić, jakie wydatki na żywność ponosi 90% rodzin (dla 100 rodzin z danym dochodem), gdy nie interesują nas średnie wydatki na żywność.

Dane, które wykorzystamy - to zbiór “engel” - dane dotyczące wydatków na żywność. Jest to zbiór danych regresyjnych składający się z 235 obserwacji dotyczących dochodów i wydatków na żywność dla belgijskich gospodarstw domowych klasy robotniczej.

Powyższy wykres przedstawia dopasowanie regresji kwantylowej dla \(\tau = (0.1, 0.25, 0.5, 0.75, 0.90, 0.95)\). Dopasowanie KMNK to gruba czarna linia.

Poniżej znajduje się tabela z oszacowanymi współczynnikami.

knitr::kable(fits, format = "html", caption = "Oszacowania z KMNK oraz `quantreg`") %>%
    kable_styling("striped") %>%
    column_spec(1:8, background = "#ececec")
Oszacowania z KMNK oraz quantreg
OLS \(\tau_{0.10}\) \(\tau_{0.25}\) \(\tau_{0.50}\) \(\tau_{0.75}\) \(\tau_{0.90}\) \(\tau_{0.95}\)
(Intercept) 147.4753885 110.1415742 95.4835396 81.4822474 62.3965855 67.3508721 64.1039632
income 0.4851784 0.4017658 0.4741032 0.5601806 0.6440141 0.6862995 0.7090685

Ok, możemy to zrobić bardziej przejrzyście i sformatować w ładnej tabeli wyników:

## 
## Wyniki regresji kwantylowych
## ==========================================
##                   Dependent variable:     
##              -----------------------------
##                         foodexp           
##                 (1)       (2)       (3)   
## ------------------------------------------
## income       0.474***  0.560***  0.644*** 
##               (0.029)   (0.028)   (0.023) 
##                                           
## Constant     95.484*** 81.482*** 62.397***
##              (21.392)  (19.251)  (16.305) 
##                                           
## ------------------------------------------
## Observations    235       235       235   
## ==========================================
## Note:          *p<0.1; **p<0.05; ***p<0.01

Finalnie, zaprezentujmy wyłącznie te 3 modele na wykresie:

Przykład 2.

Tutaj przeprowadzimy testy użycia pakietu quantreg, wykorzystując wbudowany zbiór danych “mtcars”. Zmienna “mpg” oznacza spalanie samochodów (mile/galon).

Zamodulejmy zależność regresyjną dla tej zmiennej od kilku predyktorów.

Najpierw oszacujmy regresję KMNK:

kmnk <- lm(mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
summary(kmnk)
## 
## Call:
## lm(formula = mpg ~ disp + hp + factor(am) + factor(vs), data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.7981 -1.9532  0.0111  1.5665  5.6321 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 24.832119   2.890418   8.591 3.32e-09 ***
## disp        -0.008304   0.010087  -0.823  0.41757    
## hp          -0.037623   0.013846  -2.717  0.01135 *  
## factor(am)1  4.419257   1.493243   2.960  0.00634 ** 
## factor(vs)1  2.052472   1.627096   1.261  0.21794    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.812 on 27 degrees of freedom
## Multiple R-squared:  0.8104, Adjusted R-squared:  0.7823 
## F-statistic: 28.85 on 4 and 27 DF,  p-value: 2.13e-09

Teraz oszacujmy warunkowe regresje kwantylowe na różnych kwantylach, błąd standardowy uzyskany przez bootstrap.

Zauważ, że istnieje gradient we współczynnikach kwantylowych hp, jak również disp. Znak disp odwraca się, również współczynnik na czynniku am jest różny w zależności od kwantyli:

kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle,data = mtcars)
summary(reg_kwantylowa, se = "boot")
## 
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
## 
## tau: [1] 0.25
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept) 25.34665  1.64529   15.40562  0.00000
## disp        -0.02441  0.00715   -3.41565  0.00196
## hp          -0.01672  0.01419   -1.17802  0.24870
## factor(am)1  1.39719  1.32924    1.05112  0.30219
## 
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
## 
## tau: [1] 0.5
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept) 27.49722  1.77331   15.50614  0.00000
## disp        -0.02253  0.01505   -1.49723  0.14552
## hp          -0.02713  0.02274   -1.19293  0.24291
## factor(am)1  3.37328  1.97993    1.70374  0.09951
## 
## Call: rq(formula = mpg ~ disp + hp + factor(am), tau = kwantyle, data = mtcars)
## 
## tau: [1] 0.75
## 
## Coefficients:
##             Value    Std. Error t value  Pr(>|t|)
## (Intercept) 28.06384  1.61326   17.39574  0.00000
## disp         0.00445  0.01454    0.30620  0.76172
## hp          -0.06662  0.01803   -3.69577  0.00094
## factor(am)1  7.91402  2.34432    3.37582  0.00217

Testy współczynników

Użyjemy funkcji rq.anova z pakietu regresji kwantylowej, aby przeprowadzić test WALDA. Pamiętaj, że test WALDA mówi, że biorąc pod uwagę nieograniczone oszacowania modelu, przetestujemy hipotezę zerową mówiącą, że współczynniki spełniają pewne liniowe ograniczenia.

Aby ją przetestować, użyjemy obiektu zwróconego z uruchomienia rq z różnymi liczbami kwantyli i ustawimy opcję joint na true lub false. Gdy joint jest true: “równość współczynników kierunkowych powinna być wykonana jako wspólne testy na wszystkich parametrach nachylenia”, gdy joint jest false: “należy zgłaszać oddzielne testy na każdym z parametrów nachylenia”.

Zauważ, że testy kwantylowe są testami “linii równoległej”. Oznacza to, że powinniśmy wyjąć różne x-wyrazy_wolne dla każdego kwantyla, ponieważ reprezentują one poziomy rozkładów warunkowych. Jeśli jednak współczynniki kwantyli dla współczynnikow są takie same, to nie ma efektów specyficznych dla kwantyli, wystarczą efekty średnie.

Badanie statystycznej różnicy między 25. i 50. kwantylem warunkowym:

Biorąc pod uwagę powyższe oszacowania kwantyli, różnica między kwantylami 0,25 i 0,50 istnieje, ale czy są one wystarczająco duże, aby być statystycznie różne? Jaka jest wartość p? Przeglądając poniższe wyniki, nie są one statystycznie różne!

Po pierwsze, joint = TRUE. To nie jest testowanie, czy współczynnik na disp jest taki sam jak współczynnik na hp. To jest wspólne testowanie, czy współczynniki dla różnych kwantyli disp i różnych kwantyli hp są takie same dla każdej zmiennej.

kwantyle <- c(0.25, 0.50)
reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in {  0.25 0.5  }
## 
##   Df Resid Df F value Pr(>F)
## 1  3       61  0.8421 0.4761

Po drugie, joint = False:

anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in {  0.25 0.5  }
## 
##             Df Resid Df F value Pr(>F)
## disp         1       63  0.0305 0.8619
## hp           1       63  0.5461 0.4627
## factor(am)1  1       63  1.3500 0.2497

Badanie statystycznej różnicy między 25, 50 i 75 kwantylem warunkowym:

Pierwszy kwartyl i mediana nie wydają się być statystycznie różne, teraz dołączymy trzeci kwartyl. Jak widać wcześniej, kwartyle wspólnie wykazują gradient. Teraz możemy zobaczyć, że disp, hp i am są oddzielnie statystycznie różne.

Po pierwsze, joint = TRUE:

kwantyle <- c(0.25, 0.50, 0.75)

reg_kwantylowa <- rq(mpg ~ disp + hp + factor(am),tau = kwantyle, data = mtcars)

anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: mpg ~ disp + hp + factor(am)
## Joint Test of Equality of Slopes: tau in {  0.25 0.5 0.75  }
## 
##   Df Resid Df F value   Pr(>F)   
## 1  6       90  3.3173 0.005367 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Po drugie, joint = False:

anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: mpg ~ disp + hp + factor(am)
## Tests of Equality of Distinct Slopes: tau in {  0.25 0.5 0.75  }
## 
##             Df Resid Df F value   Pr(>F)   
## disp         2       94  5.4903 0.005558 **
## hp           2       94  6.7221 0.001868 **
## factor(am)1  2       94  7.2758 0.001154 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dobroć dopasowania

Możemy obliczyć współczynniki dobroci dopasowania regresji kwantylowej z wykorzystaniem reszt i reszt bezwarunkowych:

goodfit(resid, resid_nl, tau)

Miara dobroci dopasowania dla regresji kwantylowej jest szacowana jako 1 minus stosunek sumy odchyleń bezwzględnych w modelach w pełni sparametryzowanych do sumy odchyleń bezwzględnych w zerowym (bezwarunkowym) modelu kwantylowym.

Wartości te są przydatne do porównań między modelami kwantylowymi, ale nie są porównywalne ze standardowymi współczynnikami determinacji. Te ostatnie oparte są na wariancji odchyleń kwadratowych, natomiast wartości dobroci dopasowania dla regresji kwantylowej oparte są na odchyleniach bezwzględnych. Wartości dobroci dopasowania zawsze będą mniejsze niż wartości R2.

## model kwantylowy
model1 <- rq(mpg ~ disp + hp + factor(am),tau = 0.5, data = mtcars)
reszty1 <- resid(model1)

## bezwarunkowy (pusty) model kwantylowy
model2 <- rq(mpg ~ 1, tau = 0.5,data=mtcars)
reszty2 <- resid(model2)

goodfit(reszty1, reszty2, 0.5)
## [1] 0.5403311
## r2 modelu KMNK dla porównania
model_lm <- lm(mpg ~ disp + hp + factor(am), data = mtcars)

summary(model_lm)$r.squared
## [1] 0.7992061

Zadanie

Teraz Wasza kolej ;-)

Waszym zadaniem dzisiaj jest zamodelowanie - porównanie KMNK oraz regresji kwantylowej (różno-poziomowej) dla zmiennej “earnings” - wynagrodzenia (średnie zarobki godzinowe (suma rocznych wynagrodzeń przed opodatkowaniem, pensji, napiwków i premii, podzielona przez liczbę godzin przepracowanych w ciągu roku).

Stock i Watson (2007) podają kilka podzbiorów utworzonych z marcowych Current Population Surveys (CPS) z danymi dotyczącymi relacji zarobków i wykształcenia na przestrzeni kilku lat.

Dobierz i przetestuj predyktory, kwantyle dla modeli. Wykonaj testy różnic współczynnikow dla finalnych modeli.

W przypadku problemów - obejrzyj video tutorial (włącz polskie napisy) oraz wejdź na jego stronę ze źródłami. Możesz również wykorzystać w/w przykłady.

data(CPSSW9298)

library(performance)
## Warning: pakiet 'performance' został zbudowany w wersji R 4.1.3
set.seed(1) 
lr <- lm(earnings ~ degree, data = CPSSW9298)
check_outliers(lr)
## OK: No outliers detected.
## - Based on the following method and threshold: cook (0.69).
## - For variable: (Whole model)
check_normality(lr)
## Warning: Non-normality of residuals detected (p < .001).
check_homogeneity(lr)
## Warning: Variances differ between groups (Bartlett Test, p = 0.000).

Dane nie mają wartości odstających, a także nie mają rozkładu normalnego i wariancje są różne. Dane są zatem heteroskedastyczne.

##Porównanie modelu liniowego i modelu regresji kwantylowej

mr <- rq(earnings ~ degree, data = CPSSW9298)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
library(sjPlot)
plot_models(
  lr, mr, show.values=T,
  m.labels = c("Model liniowy", "Model regresji kwantylowej"),
  legend.title = "Typ modelu")

Model liniowy pokazuje, że średnie zarobki godzinowe osób z wykształceniem wyższym jest o 4.68 wyższe niż osób z tylko ukończoną szkołą średnią i ta różnica jest istotna. Regresja kwantylowa pokazuje, że osoby z wyższym wykształceniem zarabiają o 4.81 na godzinę więcej niż osoby bez takiego wykształcenia i ta różnica jest również znacząca.

#Weryfikacja modelu na podstawie kryterium Akaikego

AIC(lr, mr)
##    df      AIC
## lr  3 86009.69
## mr  2 85325.05

Model o mniejszej wartości AIC uważany jest za lepszy, ponieważ ma mniejszą złożoność, a jednocześnie najlepiej pasuje do danych.Na podstawie kryterium informacyjnego Akaikego możemy zauważyć, że regresja kwantylowa działa lepiej niż liniowa.

library(ggridges)
## Warning: pakiet 'ggridges' został zbudowany w wersji R 4.1.3
#Wizualizacja kilku kwantyli
ggplot(CPSSW9298, aes(x=earnings, y=degree,
                      fill = factor(stat(quantile))))+
  stat_density_ridges(
    geom="density_ridges_gradient", calc_ecdf=TRUE,
    quantile_lines=TRUE, quantiles=c(.25,.5,.75))+
  scale_fill_viridis_d(name="Quantiles")
## Warning: `stat(quantile)` was deprecated in ggplot2 3.4.0.
## i Please use `after_stat(quantile)` instead.
## Picking joint bandwidth of 0.863
## Warning: Using the `size` aesthetic with geom_segment was deprecated in ggplot2 3.4.0.
## i Please use the `linewidth` aesthetic instead.

lr <- lm(earnings ~ degree, data=CPSSW9298)
qm25 <- rq(earnings ~ degree , data = CPSSW9298, tau = 0.25)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
qm50 <- rq(earnings ~ degree , data = CPSSW9298, tau = 0.5)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
qm75 <- rq(earnings ~ degree , data = CPSSW9298, tau = 0.75)
## Warning in rq.fit.br(x, y, tau = tau, ...): Solution may be nonunique
plot_models(
  lr, qm25, qm50, qm75,
  show.values=TRUE,
  m.labels=c("LR", "QR 25%", "QR 50%", "QR 75%"),
  legend.title="Model type")+
  ylab("Wzrost zarobów na godzinę według wykształcenia")

Wyniki regresji kwantylowej pokazują, że dla niskich zarobków różnica w wynagrodzeniu osób z wykształceniem wyższym a osób z wykształceniem średnim jest niższa niż dla średnich i wysokich zarobków. Regresja liniowa opisuje tylko średnią zmianę wynagrodzeń pracowników o różnym wykształceniu. Regresja kwantylowa ujawnia pełniejszy obraz rzeczywistości. Pracownicy po studiach o niskim zarobkach zarabiają o 3.37 na godzinę więcej niż osoby bez wykształcenia. Pracownicy po studiach o średnich zarobkach zarabiają o 4.81 na godzinę więcej niż osoby bez wykształcenia. Pracownicy po studiach o wysokich zarobkach zarabiają o 5.81 na godzinę więcej niż osoby bez wykształcenia.

## 
## Wyniki regresji kwantylowych
## ============================================
##                     Dependent variable:     
##                -----------------------------
##                          earnings           
##                   (1)       (2)       (3)   
## --------------------------------------------
## degreebachelor 3.365***  4.808***  5.814*** 
##                 (0.107)   (0.106)   (0.134) 
##                                             
## Constant       7.212***  9.615***  13.417***
##                 (0.040)   (0.052)   (0.091) 
##                                             
## --------------------------------------------
## Observations    13,501    13,501    13,501  
## ============================================
## Note:            *p<0.1; **p<0.05; ***p<0.01

Oszacowanie regresji KMNK:

kmnk <- lm(earnings ~ degree, data = CPSSW9298)
summary(kmnk)
## 
## Call:
## lm(formula = earnings ~ degree, data = CPSSW9298)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -13.489  -4.004  -1.064   2.857  34.038 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    10.73450    0.06565  163.50   <2e-16 ***
## degreebachelor  4.67780    0.10226   45.74   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.849 on 13499 degrees of freedom
## Multiple R-squared:  0.1342, Adjusted R-squared:  0.1341 
## F-statistic:  2092 on 1 and 13499 DF,  p-value: < 2.2e-16

##Oszacowanie warunkowej regresji kwantylowej na różnych kwantylach, błąd standardowy uzyskany przez bootstrap:

kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(earnings ~ degree,tau = kwantyle,data = CPSSW9298)
summary(reg_kwantylowa, se = "boot")
## 
## Call: rq(formula = earnings ~ degree, tau = kwantyle, data = CPSSW9298)
## 
## tau: [1] 0.25
## 
## Coefficients:
##                Value     Std. Error t value   Pr(>|t|) 
## (Intercept)      7.21154   0.02515  286.74798   0.00000
## degreebachelor   3.36539   0.07344   45.82244   0.00000
## 
## Call: rq(formula = earnings ~ degree, tau = kwantyle, data = CPSSW9298)
## 
## tau: [1] 0.5
## 
## Coefficients:
##                Value     Std. Error t value   Pr(>|t|) 
## (Intercept)      9.61539   0.09100  105.66869   0.00000
## degreebachelor   4.80769   0.12711   37.82361   0.00000
## 
## Call: rq(formula = earnings ~ degree, tau = kwantyle, data = CPSSW9298)
## 
## tau: [1] 0.75
## 
## Coefficients:
##                Value    Std. Error t value  Pr(>|t|)
## (Intercept)    13.41682  0.13980   95.97092  0.00000
## degreebachelor  5.81395  0.22796   25.50406  0.00000

###Testy współczynników

Biorąc pod uwagę powyższe oszacowania kwantyli, różnica między kwantylami 0,25 i 0,50 istnieje. Za pomocą testu Walda sprawdźmy czy różnice te są statystycznie istotne.

kwantyle1_2 <- c(0.25, 0.50)
reg_kwantylowa <- rq(earnings ~ degree,tau = kwantyle1_2, data = CPSSW9298)
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: earnings ~ degree
## Tests of Equality of Distinct Slopes: tau in {  0.25 0.5  }
## 
##                Df Resid Df F value    Pr(>F)    
## degreebachelor  1    27001  214.47 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Na podstawie powyższych wyników różnice między kwantylami 0,25 i 0,5 są istotne statystycznie.

##Badanie statystycznej różnicy między 25, 50 i 75 kwantylem warunkowym:

kwantyle <- c(0.25, 0.50, 0.75)

reg_kwantylowa <- rq(earnings ~ degree,tau = kwantyle, data = CPSSW9298)

anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
## 
## Model: earnings ~ degree
## Tests of Equality of Distinct Slopes: tau in {  0.25 0.5 0.75  }
## 
##                Df Resid Df F value    Pr(>F)    
## degreebachelor  2    40501  161.65 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pierwszy kwartyl i mediana wydają się być statystycznie różne, teraz dołączymy trzeci kwartyl. Jak widać wcześniej, kwartyle wykazują gradient.

##Dobroć dopasowania

#Kwantyl 1

## model kwantylowy
model1 <- rq(earnings ~ degree,tau = 0.25, data = CPSSW9298)
reszty1 <- resid(model1)

## bezwarunkowy (pusty) model kwantylowy
model2 <- rq(earnings ~ 1, tau = 0.25,data=CPSSW9298)
reszty2 <- resid(model2)

dop1<-goodfit(reszty1, reszty2, 0.25)
#Kwantyl 2
## model kwantylowy
model3 <- rq(earnings ~ degree,tau = 0.5, data = CPSSW9298)
reszty3 <- resid(model3)

## bezwarunkowy (pusty) model kwantylowy
model4 <- rq(earnings ~ 1, tau = 0.5,data=CPSSW9298)
reszty4 <- resid(model4)

dop2<-goodfit(reszty3, reszty4, 0.5)
#Kwantyl 3
## model kwantylowy
model5 <- rq(earnings ~ degree,tau = 0.75, data = CPSSW9298)
reszty5 <- resid(model5)

## bezwarunkowy (pusty) model kwantylowy
model6 <- rq(earnings ~ 1, tau = 0.75,data=CPSSW9298)
reszty6 <- resid(model6)

dop3<-goodfit(reszty5, reszty6, 0.75)


## r2 modelu KMNK dla porównania
model_lm <- lm(earnings ~ degree, data = CPSSW9298)

r2kmnk<-summary(model_lm)$r.squared
Wynik<-c(dop1, dop2, dop3)
Kwantyl<-c("QR 25%", "QR 50%", "QR 75%")
ramka <- data.frame(Wynik, Kwantyl)
ramka %>%
  kbl(caption="Miara dobroci dopasowania dla regresji kwantylowej") %>%
  kable_material(c("striped", "hover"))
Miara dobroci dopasowania dla regresji kwantylowej
Wynik Kwantyl
0.0662781 QR 25%
0.0746035 QR 50%
0.0848644 QR 75%
Wynik<-c(r2kmnk)
Model_liniowy<-c("R2")
ramka1 <- data.frame(Wynik, Model_liniowy)
ramka1 %>%
  kbl(caption="Współczynnik dopasowania R2 dla modelu liniowego") %>%
  kable_material(c("striped", "hover"))
Współczynnik dopasowania R2 dla modelu liniowego
Wynik Model_liniowy
0.1342072 R2

Wartości te są przydatne do porównań między modelami kwantylowymi, ale nie są porównywalne ze standardowymi współczynnikami determinacji. Te ostatnie oparte są na wariancji odchyleń kwadratowych, natomiast wartości dobroci dopasowania dla regresji kwantylowej oparte są na odchyleniach bezwzględnych. Wartości dobroci dopasowania zawsze będą mniejsze niż wartości R2.

Współczynnik determinacji R2 wynosi \(0.1342\), zatem model nie jest dobrze dopasowany. Współczynnik dobroci dopasowania regresji kwantylowej jest najwyższy dla kwantyla 3 i wynosi \(0.085.\)

