Zadanie
Teraz Wasza kolej ;-)
Waszym zadaniem dzisiaj jest zamodelowanie - porównanie KMNK oraz
regresji kwantylowej (różno-poziomowej) dla zmiennej “earnings” -
wynagrodzenia.
Dobierz i przetestuj predyktory, kwantyle dla modeli. Wykonaj testy
różnic współczynnikow dla finalnych modeli.
W przypadku problemów - obejrzyj video tutorial (włącz polskie
napisy) oraz wejdź na jego stronę ze źródłami. Możesz również
wykorzystać w/w przykłady.
Na początku wczytujemy dane:
data("CPSSW9298")
#?CPSSW9298
Zestaw danych CPSSW9298 jest używany do analizy rynku pracy. Obejmuje
następujące zmienne:
-year: Rok, w którym dane zostały zebrane -earnings: Wynagrodzenie
badanej osoby (wyrażone w tysiącach) -degree: Poziom wykształcenia
badanej osoby, np. “highschool” (szkoła średnia), “bachelor” (tytuł
licencjata) -gender: Płeć osoby, np. “male” (mężczyzna), “female”
(kobieta) -age: Wiek badanej osoby
Wizualizacja danych
Teraz zostanie przeprowadzona analiza kilku wykresów, aby zbadać i
lepiej zrozumieć zależności pomiędzy różnymi zmiennymi.
ggplot(CPSSW9298, aes(x = earnings)) +
geom_histogram(bins = 30, fill = "mediumpurple", color = "black") +
labs(
title = "Rozkład wynagrodzeń",
x = "Wynagrodzenie (w tysiącach)",
y = "Liczba obserwacji"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, color = "black"),
axis.title = element_text(size = 12, color = "black"),
axis.text = element_text(size = 10)
)

Rozkład wynagrodzeń jest asymetryczny, z wyraźnym prawostronnym
ogonem, co oznacza, że większa liczba osób zarabia niższe wynagrodzenia,
podczas gdy wyższe wynagrodzenia są rzadsze. Kształt sugeruje, że
wynagrodzenia mogą być rozkładem skośnym (skośność
prawostronna).Najwięcej osób zarabia około 10 tysięcy (zauważalny
najwyższy słupek histogramu w tej okolicy).
ggplot(CPSSW9298, aes(x = degree, y = earnings, fill = degree)) +
geom_boxplot() +
scale_fill_manual(values = c("mediumpurple", "gold")) +
labs(
title = "Wynagrodzenie względem wykształcenia",
x = "Poziom wykształcenia",
y = "Wynagrodzenie (w tysiącach)"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, color = "black"),
axis.title = element_text(size = 12, color = "black"),
axis.text = element_text(size = 10),
legend.position = "none"
)

Osoby z wykształceniem “bachelor” (licencjackim) mają wyższą medianę
wynagrodzeń w porównaniu do osób z wykształceniem “highschool”
(średnim).Wynagrodzenia dla obu grup są zróżnicowane, ale rozstęp
międzykwartylowy (odległość między dolnym i górnym kwartylem) jest
większy dla osób z wykształceniem licencjackim, co wskazuje na większe
zróżnicowanie wynagrodzeń w tej grupie.W obu grupach widać obecność
wartości odstających (outliers), czyli osób zarabiających znacznie
więcej niż większość. Liczba wartości odstających jest wyższa w grupie z
wykształceniem “bachelor”.
ggplot(CPSSW9298, aes(x = year, y = earnings)) +
stat_summary(fun = "mean", geom = "line", aes(group = 1), color = "darkorchid", linewidth = 1) +
stat_summary(fun = "mean", geom = "point", color = "purple", size = 2) +
labs(
title = "Średnie wynagrodzenie w czasie",
x = "Rok",
y = "Średnie wynagrodzenie (w tysiącach)"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, color = "black"),
axis.title = element_text(size = 12, color = "black"),
axis.text = element_text(size = 10)
)

Średnie wynagrodzenie systematycznie rosło w czasie w analizowanym
okresie (1992–1998). Taki wzrost może wynikać z ogólnej poprawy
gospodarki, inflacji, lub zmian w strukturze rynku pracy.
ggplot(CPSSW9298, aes(x = gender, y = earnings, fill = gender)) +
geom_boxplot() +
scale_fill_manual(values = c("mediumpurple", "gold")) +
labs(
title = "Wynagrodzenie względem płci",
x = "Płeć",
y = "Wynagrodzenie (w tysiącach)"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, color = "black"),
axis.title = element_text(size = 12, color = "black"),
axis.text = element_text(size = 10),
legend.position = "none"
)

Mężczyźni (“male”) mają wyższą medianę wynagrodzeń w porównaniu do
kobiet (“female”).Wynagrodzenia zarówno mężczyzn, jak i kobiet
charakteryzują się obecnością wartości odstających, ale mężczyźni mają
większy rozstęp maksymalnych wynagrodzeń.
ggplot(CPSSW9298, aes(x = earnings, fill = gender)) +
geom_histogram(alpha = 0.7, bins = 30, position = "identity") +
scale_fill_manual(values = c("mediumpurple", "gold")) +
labs(
title = "Rozkład wynagrodzeń według płci",
x = "Wynagrodzenie (w tysiącach)",
y = "Liczba obserwacji"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
axis.title = element_text(size = 14),
axis.text = element_text(size = 12),
legend.title = element_blank()
)

Wynagrodzenia dla obu płci mają prawostronną skośność – większość
osób zarabia w dolnym zakresie wynagrodzeń (poniżej 20 tysięcy), a
liczba osób zarabiających więcej systematycznie maleje. Mężczyźni
osiągają szerszy zakres wynagrodzeń, w tym najwyższe zarobki, co
potwierdzają dłuższe „ogony” fioletowego rozkładu.
ggplot(CPSSW9298, aes(x = age, y = earnings)) +
geom_point(alpha = 0.7, color = "mediumpurple") +
geom_smooth(aes(x = age, y = earnings), method = "lm", formula = y ~ x, se = FALSE, linetype = "dashed", color = "gold") +
labs(
title = "Wynagrodzenie względem wieku",
x = "wiek",
y = "wynagrodzenie (w tysiącach)"
) +
facet_grid(gender ~ degree) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
axis.title = element_text(size = 14),
axis.text = element_text(size = 12)
)

Powyższy wykres potwierdza dotychczasowe obserwacje.Osoby z
wykształceniem “bachelor” (licencjackim) osiągają wyższe wynagrodzenia w
porównaniu do osób z wykształceniem “highschool” (średnim). Jest to
widoczne zarówno w przypadku mężczyzn, jak i kobiet.Różnica między
wynagrodzeniami mężczyzn i kobiet jest widoczna zarówno w grupie osób z
wykształceniem średnim, jak i licencjackim.
Model liniowy
model_lm <- lm(CPSSW9298$earnings ~ CPSSW9298$degree + CPSSW9298$gender + CPSSW9298$age)
summary(model_lm)
##
## Call:
## lm(formula = CPSSW9298$earnings ~ CPSSW9298$degree + CPSSW9298$gender +
## CPSSW9298$age)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.023 -3.735 -0.819 2.755 33.526
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.70477 0.52435 3.251 0.00115 **
## CPSSW9298$degreebachelor 4.91123 0.09938 49.418 < 2e-16 ***
## CPSSW9298$genderfemale -2.24217 0.09902 -22.643 < 2e-16 ***
## CPSSW9298$age 0.33245 0.01740 19.106 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.665 on 13497 degrees of freedom
## Multiple R-squared: 0.1877, Adjusted R-squared: 0.1876
## F-statistic: 1040 on 3 and 13497 DF, p-value: < 2.2e-16
Interpretacje:
- Osoby z wykształceniem licencjackim zarabiają średnio o 4.91 tys.
więcej niż osoby z wykształceniem średnim (przy stałej płci i
wieku).
- Kobiety zarabiają średnio o 2.24 tys. mniej niż mężczyźni (przy
stałym poziomie wykształcenia i wieku).
- Każdy dodatkowy rok życia zwiększa zarobki średnio o 0.33 tys. (przy
stałej płci i wykształceniu).
Model wyjaśnia około 18.77% zmienności w zarobkach. Oznacza to, że
model nie uwzględnia wielu innych czynników, które wpływają na zarobki
(np. branża, lokalizacja, doświadczenie zawodowe).
Regresja kwantylowa
data <- CPSSW9298
kwantyle <- c(0.25, 0.50, 0.75)
reg_kwantylowa <- rq(earnings ~ age + degree + gender , tau = kwantyle, data = data)
summary(reg_kwantylowa, se = "boot")
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = data)
##
## tau: [1] 0.25
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 2.67308 0.38777 6.89339 0.00000
## age 0.17308 0.01365 12.67920 0.00000
## degreebachelor 3.59188 0.06431 55.84980 0.00000
## genderfemale -1.32265 0.07062 -18.72785 0.00000
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = data)
##
## tau: [1] 0.5
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.45427 0.49704 2.92588 0.00344
## age 0.31389 0.01729 18.15274 0.00000
## degreebachelor 4.70043 0.11085 42.40338 0.00000
## genderfemale -2.12970 0.09624 -22.12868 0.00000
##
## Call: rq(formula = earnings ~ age + degree + gender, tau = kwantyle,
## data = data)
##
## tau: [1] 0.75
##
## Coefficients:
## Value Std. Error t value Pr(>|t|)
## (Intercept) 1.53846 0.92264 1.66747 0.09544
## age 0.43269 0.02998 14.43478 0.00000
## degreebachelor 5.75962 0.15277 37.70122 0.00000
## genderfemale -2.97009 0.12878 -23.06241 0.00000
Analiza wpływu wieku, wykształcenia i płci na zarobki w różnych
kwantylach dostarcza interesujących wniosków. Wyniki wskazują, że
starszy wiek ma większy wpływ na zarobki osób znajdujących się w
wyższych kwantylach wynagrodzeń. W dolnym 25% zarobków każdy rok życia
zwiększa wynagrodzenie o 0.17 tys., podczas gdy w grupie najlepiej
zarabiających (75%) wzrost wynosi już 0.43 tys. Oznacza to, że starszy
wiek bardziej korzystnie wpływa na osoby osiągające wyższe dochody.
Wykształcenie licencjackie również odgrywa istotną rolę, szczególnie
w medianie i górnych kwantylach. W grupie osób z najniższymi zarobkami
wykształcenie licencjackie zwiększa wynagrodzenie średnio o 3.59 tys.,
ale w medianie i wśród najlepiej zarabiających wpływ ten rośnie do 4.70
tys. Świadczy to o tym, że wyższe wykształcenie ma szczególną wartość
wśród osób z wyższymi dochodami.
Różnice w wynagrodzeniach między płciami są widoczne we wszystkich
kwantylach, ale najbardziej niepokojące są w górnym 25% zarobków.
Kobiety zarabiają mniej niż mężczyźni, a różnice te rosną w zależności
od poziomu dochodów: od 1.32 tys. w najniższych zarobkach do 2.97 tys.
wśród najlepiej zarabiających.
plot(rq(earnings ~ age + degree + gender, tau = c(0.25, 0.5, 0.75), data = data))

kwantyle <- c(0.25, 0.50, 0.75)
model_q25 <- rq(earnings ~ age + degree + gender, tau = 0.25, data = data)
model_q50 <- rq(earnings ~ age + degree + gender, tau = 0.50, data = data)
model_q75 <- rq(earnings ~ age + degree + gender, tau = 0.75, data = data)
coef_q25 <- coef(model_q25)
coef_q50 <- coef(model_q50)
coef_q75 <- coef(model_q75)
coef_table <- data.frame(
Kwantyl = c(0.25, 0.50, 0.75),
Intercept = c(coef_q25[1], coef_q50[1], coef_q75[1]),
Age = c(coef_q25["age"], coef_q50["age"], coef_q75["age"]),
Degree = c(coef_q25["degreebachelor"], coef_q50["degreebachelor"], coef_q75["degreebachelor"]),
Gender = c(coef_q25["genderfemale"], coef_q50["genderfemale"], coef_q75["genderfemale"])
)
print(coef_table)
## Kwantyl Intercept Age Degree Gender
## 1 0.25 2.673078 0.1730769 3.591880 -1.322649
## 2 0.50 1.454274 0.3138889 4.700427 -2.129701
## 3 0.75 1.538464 0.4326922 5.759616 -2.970085
Tabela przedstawia wyniki regresji kwantylowej dla trzech wybranych
kwantyli: 0.25 (dolne 25% zarobków), 0.50 (mediana zarobków), i 0.75
(górne 25% zarobków). Jest to analiza, która pozwala zobaczyć, jak
zmienne niezależne wpływają na zarobki w różnych częściach rozkładu
wynagrodzeń, a nie tylko na średnią (jak w klasycznej regresji
liniowej).
Weryfikacja statystyczna istotności różnic między pierwszym, drugim
i trzecim kwartylem
anova(reg_kwantylowa, test = "Wald", joint=TRUE)
## Quantile Regression Analysis of Deviance Table
##
## Model: earnings ~ age + degree + gender
## Joint Test of Equality of Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## 1 6 40497 90.65 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hipoteza zerowa: Współczynniki dla kwantyli są takie same. Hipoteza
alternatywna: Współczynniki różnią się między kwantylami.
Ponieważ wartość p jest bardzo niska, odrzucamy hipotezę zerową.
Oznacza to, że wpływ zmiennych (wiek, wykształcenie, płeć) różni się w
różnych częściach rozkładu zarobków.
anova(reg_kwantylowa, test = "Wald", joint=FALSE)
## Quantile Regression Analysis of Deviance Table
##
## Model: earnings ~ age + degree + gender
## Tests of Equality of Distinct Slopes: tau in { 0.25 0.5 0.75 }
##
## Df Resid Df F value Pr(>F)
## age 2 40501 72.465 < 2.2e-16 ***
## degreebachelor 2 40501 117.817 < 2.2e-16 ***
## genderfemale 2 40501 88.771 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Wszystkie zmienne (age, degreebachelor, genderfemale) mają istotnie
różny wpływ na zarobki w zależności od kwantyla.
Dobroć dopasowania
# Obliczenie reszt dla modeli
reszty_lm <- resid(model_lm)
model2 <- rq(earnings ~ 1, tau = 0.25, data = data)
reszty_2 <- resid(model2)
model3 <- rq(earnings ~ 1, tau = 0.75,data=data)
reszty3 <- resid(model3)
par(mfrow = c(1, 3)) # Podziel przestrzeń na 3 kolumny
# Histogram dla modelu liniowego
hist(reszty_lm,
main = "Histogram reszt (model liniowy)",
xlab = "Reszty",
col = "black", border = "grey")
# Histogram dla modelu kwantylowego tau = 0.25
hist(reszty_2,
main = "Histogram reszt (tau = 0.25)",
xlab = "Reszty",
col = "gold", border = "black")
# Histogram dla modelu kwantylowego tau = 0.75
hist(reszty3,
main = "Histogram reszt (tau = 0.75)",
xlab = "Reszty",
col = "purple", border = "black")

coef_long <- reshape2::melt(coef_table, id.vars = "Kwantyl",
variable.name = "Zmienna", value.name = "Współczynnik")
ggplot(coef_long, aes(x = Kwantyl, y = Współczynnik, color = Zmienna)) +
geom_line(size = 1) +
geom_point(size = 2) +
labs(
title = "Współczynniki regresji kwantylowej",
x = "Kwantyl",
y = "Współczynnik",
color = "Zmienna"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 16),
axis.title = element_text(size = 12),
legend.title = element_text(size = 12)
)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Wpływ zmiennych jest zróżnicowany w różnych częściach rozkładu
zarobków, co wskazuje na to, że klasyczna regresja liniowa (która
zakłada stały wpływ zmiennych na całość rozkładu) mogłaby nie uchwycić
tych różnic.
-Wpływ wieku rośnie wraz ze wzrostem kwantyla. Starszy wiek ma
największy wpływ na zarobki w grupie najlepiej zarabiających, co jest
zgodne z oczekiwaniem, że doświadczenie zawodowe bardziej się opłaca w
tej grupie. - Wykształcenie ma rosnący wpływ w miarę wzrostu kwantyla.
Sugeruje to, że wartość wyższego wykształcenia jest bardziej doceniana w
grupie osób osiągających najwyższe dochody. - Wartości ujemne
współczynnika Gender wskazują na niższe zarobki kobiet w porównaniu do
mężczyzn.
