Zastosowanie modelu selekcji Heckmana do modelowania aktywności zawodowej kobiet

Autorzy
Afiliacja

Filip Piotrowski

Wydział Nauk Ekonomicznych UW

Gabriela Gruchała

Opublikowano

9 czerwca 2025

1 Wstęp

Celem niniejszej pracy jest empiryczna analiza wpływu selekcji próby na oszacowania modelu płacowego wśród kobiet, z wykorzystaniem klasycznego modelu selekcji Heckmana. W badaniu wykorzystano dane z przekroju panelowego PSID (zbiór Mroz87), zawierające informacje o zamężnych kobietach w USA w 1975 roku. Analiza obejmuje porównanie wyników estymacji klasycznej regresji OLS oraz modelu Heckmana, który uwzględnia możliwość systematycznego różnicowania się populacji aktywnej i nieaktywnej zawodowo. Główna hipoteza badawcza zakłada, że nieuwzględnienie mechanizmu selekcji prowadzi do istotnie odmiennych wniosków niż model z korektą selekcyjną. Estymacja została przeprowadzona metodą dwustopniową, zgodnie z oryginalną propozycją Heckmana. Co istotne, procedura ta została w całości zaimplementowana samodzielnie w języku R – bez użycia gotowych funkcji pakietów do modeli selekcji, co pozwoliło na pełną kontrolę nad obliczeniami i przeprowadzenie niezależnej diagnostyki każdego z etapów modelu. Praca opiera się na założeniu, że część czynników wpływa jedynie na decyzję o uczestnictwie w rynku pracy, nie oddziałując bezpośrednio na poziom wynagrodzenia. Weryfikacja hipotezy pozwala ocenić zasadność stosowania bardziej złożonych narzędzi ekonometrycznych w analizach ekonomii pracy.

2 Przegląd literatury

Zagadnienie uczestnictwa w rynku pracy było przedmiotem intensywnych analiz ekonomicznych od lat 60. XX wieku, jednak przełomowe podejścia pojawiły się w kolejnych dekadach, wraz z rosnącym udziałem kobiet w zatrudnieniu. Wczesne modele mikroekonometryczne, takie jak te opracowane przez Mincera (1974), koncentrowały się na zależności między edukacją, doświadczeniem zawodowym a płacą. Mincer zaproponował tzw. funkcję zarobków, która jednak zakładała dostępność danych płacowych dla wszystkich jednostek. Takie podejście ignorowało problem selekcji próby, istotny w sytuacji, gdy płace obserwuje się tylko dla osób pracujących.

Gronau (1974) jako jeden z pierwszych badaczy wskazał na potrzebę jednoczesnego modelowania decyzji o uczestnictwie oraz poziomu zarobków, zauważając, że kobiety aktywne zawodowo mogą różnić się od tych nieaktywnych w sposób systematyczny (np. pod względem preferencji, umiejętności czy sytuacji rodzinnej). To podejście zostało rozwinięte przez Heckmana (1979), który w klasycznym artykule zaproponował dwustopniowy model selekcji próby, znany dziś jako model Heckmana. Jego podejście pozwalało uwzględnić zależność pomiędzy składnikami zakłócającymi decyzję o zatrudnieniu i poziomem płacy. Kluczową innowacją było wprowadzenie tzw. „korekty selekcji” (lambda Heckmana), która umożliwia uzyskanie nieskorygowanych estymatorów parametrów w równaniu płacowym.

W kolejnych dekadach model Heckmana był szeroko stosowany w analizach rynku pracy. Killingsworth i Heckman (1986) przedstawili przegląd teoretyczny i empiryczny dotyczący uczestnictwa kobiet w rynku pracy, zwracając uwagę na rolę edukacji, liczby dzieci, statusu małżeńskiego oraz warunków instytucjonalnych. Badania te potwierdzały, że ignorowanie selekcji próby prowadzi do zaniżenia lub zawyżenia oszacowań współczynników w modelach płacowych.

Ekonometrzy tacy jak Wooldridge (2010) czy Cameron i Trivedi (2005) w swoich podręcznikach metod ilościowych podkreślają, że model Heckmana ma zastosowanie nie tylko w analizie płac, ale w każdej sytuacji, w której obserwujemy zmienną zależną tylko dla wybranej części populacji (tzw. cenzurowanie lub selekcja próby). Obaj autorzy omawiają też ograniczenia tego podejścia, w tym silne założenie o normalności rozkładu błędów i potrzebę dobrego instrumentu w równaniu selekcji – zmiennej, która wpływa na decyzję o pracy, ale nie bezpośrednio na płacę (np. liczba małych dzieci). Empiryczne badania oparte na danych PSID (Panel Study of Income Dynamics), takich jak w niniejszym opracowaniu, są powszechnie cytowane w literaturze. Na przykład, Blau i Kahn (2007) analizowali różnice w partycypacji zawodowej kobiet między USA a Europą, wykorzystując dane z PSID oraz Europejskiego Panelu Gospodarstw Domowych. Udowodnili, że różnice w politykach podatkowych, urlopach macierzyńskich i dostępności usług opiekuńczych wpływają na poziom aktywności zawodowej kobiet.

Ponadto, najnowsze badania empiryczne podkreślają, że tradycyjne modele regresji – nawet po kontroli zmiennych demograficznych, nie są wystarczające do uchwycenia mechanizmów decyzyjnych związanych z podjęciem pracy (Bertrand, Goldin, i Katz 2010; Goldin 2014). Modele strukturalne, takie jak Heckman, pozostają zatem niezbędnym narzędziem analizy w sytuacjach, gdy dane są ograniczone do aktywnych zawodowo, a zainteresowanie badawcze dotyczy całej populacji.

3 Metodologia

3.1 Model selekcji Heckmana

W badaniach empirycznych, szczególnie dotyczących rynku pracy, często występuje problem selekcji próby (sample selection bias). Typowym przypadkiem jest analiza płac, gdzie dane o wynagrodzeniach dostępne są tylko dla osób aktywnych zawodowo. Jeżeli osoby pracujące różnią się systematycznie od tych, które nie pracują, estymacja modeli przy użyciu klasycznych metod (np. OLS) prowadzi do obciążonych wyników. Aby temu przeciwdziałać, James Heckman zaproponował dwustopniowy model selekcji próby, znany jako model Heckmana (Heckman selection model) (Heckman 1976).

Model Heckmana składa się z dwóch równań:

  1. Równanie nieobserwowalnego procesu selekcji (selection equation – np. decyzja o uczestnictwie w rynku pracy), estymowane za pomocą modelu probitowego:

\[ \mathbf{z^*} = \mathbf{w}\gamma + \mathbf{u} \]

w którym obserwujemy zmienną zero-jedynkową \(z_i\):

\[ z_i = \begin{cases} 1 & \text{dla } z^*_i > 0 \\ 0 & \text{dla } z^*_i \leq 0 \end{cases} \]

  1. Równanie wyniku (outcome equation):

\[ \mathbf{y} = \mathbf{x\beta} + \mathbf{\varepsilon} \]

gdzie:

  • \(\mathbf{u} \sim N(0,1)\)
  • \(\mathbf{\varepsilon} \sim N(0,\sigma)\)
  • \(\operatorname{corr}(\mathbf{u}, \mathbf{\varepsilon}) = \rho\)

3.2 Estymacja dwustopniowa (two-step estimation)

W celu przeprowadzenia pogłębionej diagnostyki obu regresji, postanowiliśmy zaimplementować model Heckmana samodzielnie, nie używając wbudowanych funkcji lub dodatkowych bibliotek w pakietach statystycznych. Ręczne przeprowadzenie tej procedury pozwala na zastosowanie popularnych narzędzi/testów diagnostycznych dla obu modeli oddzielnie. Jest to istotne szczególnie w języku R, gdyż dedykowany pakiet do modeli selekcji sampleSelection (Toomet i Henningsen 2008) ma dość ograniczony zbiór funkcji.

Większość implementacji modelu Heckmana w popularnych pakietach statystycznych – zarówno polecenie rheckman w STATA jak i pakiet sampleSelection w R – przyjmuje MNW jako domyślną metodę estymacji. W kontekście samodzielnej implementacji modelu prostszym rozwiązaniem jest estymacja dwustopniowa (two-step estimation), będąca rozwiązaniem oryginalnie zaproponowanym przez Heckmana.

Kolejne etapy procedury prezentuja się następująco:

  1. Model probit równania selekcji dostarcza oszacowania prawdopodobieństw:

\[ Pr(y_i \mid \mathbf{w_i}) = \Phi(\mathbf{w_i}\gamma) \]

  1. Z tych oszacowań liczone jest prawdopodobieństwo, że obserwacja nie zostanie włączona do próby, co Heckman nazwał odwrotnością współczynnika Millsa (inversed Mills ratio - IMR)

\[ IMR = \frac{\phi(\mathbf{w_i}\hat{\gamma})}{\Phi(\mathbf{w_i}\hat{\gamma})} \]

  1. Równanie wynikowe rozbudowujemy o dodatkową zmienną \(IMR\) oznaczającą ryzyko niewybrania (nonselection hazard). Otrzymujemy macierz zmiennych objaśniających \([X \quad m]\), a co za tym idzie – dodatkowe oszacowanie \(\beta_{IMR}\).

  2. Obliczenie zgodnego estymatora wariancji błędu w regresji uwzględniającej IMR jest możliwe, ale wykracza poza ramy tej pracy.

4 Dane

4.1 Opis zbioru danych

W niniejszym badaniu wykorzystano znany i szeroko używany w ekonometrii do celów edukacyjnych zbiór danych Mroz87, oryginalnie opracowany na potrzeby artykułu autorstwa Mroza (1987). Zbiór jest dołączony do pakietu sampleSelection, skąd został załadowany do środowiska R.

Źródłem danych jest Panel Study of Income Dynamics (PSID) – jeden z najdłużej prowadzonych paneli gospodarstw domowych na świecie, prowadzony przez University of Michigan. Dane użyte w tym badaniu pochodzą z przekroju za rok 1976, który odnosi się do sytuacji respondentów w roku 1975. Zbiór zawiera 753 obserwacje dotyczące zamężnych kobiet i składa się z 22 zmiennych demograficznych, społecznych i ekonomicznych, które opisuje Tabela 1.

Tabela 1: Opis zmiennych zawartych w zbiorze danych Mroz87
Zmienna Opis
lfp Zmienna zero-jedynkowa wskazująca na uczestnictwo żony w rynku pracy
hours Liczba godzin przepracowanych przez żonę w 1975 roku
kids5 Liczba dzieci w wieku 5 lat lub młodszych
kids618 Liczba dzieci w wieku od 6 do 18 lat
age Wiek żony
educ Liczba lat edukacji żony
wage Średnie godzinowe wynagrodzenie żony w dolarach z 1975 roku
repwage Wynagrodzenie żony zadeklarowane podczas wywiadu w 1976 roku
hushrs Liczba godzin przepracowanych przez męża w 1975 roku
husage Wiek męża
huseduc Liczba lat edukacji męża
huswage Wynagrodzenie męża w dolarach z 1975 roku
faminc Dochód rodziny w dolarach z 1975 roku
mtr Krańcowa stawka podatkowa dla żony
motheduc Liczba lat edukacji matki żony
fatheduc Liczba lat edukacji ojca żony
unem Stopa bezrobocia w hrabstwie zamieszkania (w punktach procentowych)
city Zmienna zero-jedynkowa: 1 = mieszka w dużym mieście, 0 = inaczej
exper Faktyczna liczba lat doświadczenia zawodowego żony
nwifeinc Dochód spoza pracy żony
wifecoll Zmienna zero-jedynkowa: czy żona uczęszczała na studia
huscoll Zmienna zero-jedynkowa: czy mąż uczęszczał na studia

4.2 Wstępna analiza danych

Przed przystąpieniem do modelowania, kluczowa jest wstępna analiza danych (Exploratory Data Analysis – EDA). Jej celem jest zrozumienie struktury zbioru danych, identyfikacja potencjalnych problemów (braki danych, wartości odstające), a także odkrycie zależności między zmiennymi. Tabela 2 przedstawia podstawowe statystyki opisowe dla wszystkich zmiennych w zbiorze danych.

Tabela 2: Podstawowe statystyki opisowe
variable Obs Mean Std. dev. Min Max
age 753 42.54 8.07 30.00 60.00
city 753 0.64 0.48 0.00 1.00
educ 753 12.29 2.28 5.00 17.00
exper 753 10.63 8.07 0.00 45.00
faminc 753 23080.59 12190.20 1500.00 96000.00
fatheduc 753 8.81 3.57 0.00 17.00
hours 753 740.58 871.31 0.00 4950.00
husage 753 45.12 8.06 30.00 60.00
huscoll 753 0.39 0.49 0.00 1.00
huseduc 753 12.49 3.02 3.00 17.00
hushrs 753 2267.27 595.57 175.00 5010.00
huswage 753 7.48 4.23 0.41 40.51
kids5 753 0.24 0.52 0.00 3.00
kids618 753 1.35 1.32 0.00 8.00
motheduc 753 9.25 3.37 0.00 17.00
mtr 753 0.68 0.08 0.44 0.94
nwifeinc 753 20.13 11.63 -0.03 96.00
repwage 753 1.85 2.42 0.00 9.98
unem 753 8.62 3.11 3.00 14.00
wage 753 2.37 3.24 0.00 25.00
wifecoll 753 0.28 0.45 0.00 1.00

Pierwszym etapem budowy modelu Heckmana jest równanie selekcji. Warto wobec tego porównać zmienne w zbiorze w podziale na kobiety pracujące i niepracujące, aby wykryć cechy najbardziej różnicujące obie te grupy.

Rysunek 1 ilustruje rozkład wybranych zmiennych dyskretnych w podziale na status aktywności zawodowej. Na osi Y przedstawiono odsetek kobiet z danej grupy (pracujących lub niepracujących) charakteryzujących się wartością cechy określonej na osi X. Najbardziej wyraźną różnicą między rozkładami charakteryzuje się zmienna kids5. Znacznie większy odsetek kobiet nieaktywnych zawodowo posiada przynajmniej jedno dziecko w wieku do 5 lat. Pozostałe rozkłady wyglądają podobnie.

Rysunek 1: Rozkład wybranych zmiennych dyskretnych w podziale na status aktywności zawodowej

Rozkłady zmiennych ciągłych i quasi-ciągłych w podziale na status aktywności zawodowej prezentuje Rysunek 2. Kobiety pracujące charakteryzują się wyższymi wartościami zmiennych takich jak: educ, exper, faminc, huseduc.

Rysunek 2: Wykresy pudełkowe wybranych zmiennych w podziale na status aktywności zawodowej

Rysunek 3 przedstawia macierz korelacji dla wszystkich zmiennych w zbiorze danych. Zmienne są uporządkowane hierarchicznie na podstawie podobieństwa korelacji, co ułatwia dostrzeżenie skupień zmiennych o silnych wzajemnych zależnościach. Macierz korelacji może również pomóc w identyfikacji potencjalnych problemów współliniowości w danych.

Grupy zmiennych o wysokich korelacjach wewnętrznych:

  1. Zmienne edukacyjne:
    • educ, huseduc, motheduc, fatheduc – wszystkie zmienne edukacyjne są dodatnio skorelowane (0.28-0.61)
    • Wysoka korelacja między edukacją żony a męża (0.61) wskazuje na homogamię edukacyjną
  2. Zmienne dochodowe
    • faminc, nwifeinc, huswage– silna dodatnia korelacja
    • interpretacja: zazwyczaj większość dochodu rodziny stanowi dochód męża
    • hours, wage, repwage – silna dodatnia korelacja
    • krańcowa stopa opodatkowania mtr jest ujemnie skorelowane ze zmiennymi dochodowymi, co może odzwierciedlać progresywny charakter systemu podatkowego.
  3. Zmienne demograficzne:
    • age i husage (0.89) – małżonkowie mają podobny wiek
    • age i exper (0.33) – umiarkowana korelacja
    • interpretacja: starsze kobiety mają większą szansę mieć większe doświadczenie
Rysunek 3: Macierz korelacji zmiennych

5 Hipoteza badawcza

Celem niniejszego badania jest empiryczne sprawdzenie, czy klasyczny model regresji liniowej (OLS) prowadzi do różnych wyników w porównaniu z modelem Heckmana, który uwzględnia selekcję próby. W tym celu estymowane będą dwa modele:

  1. Model regresji OLS dla logarytmu płacy godzinowej,
  2. Model Heckmana, w którym pierwszy etap obejmuje decyzję o uczestnictwie w rynku pracy, a drugi etap – poziom płacy.

Hipoteza badawcza:

  • \(H_0\): Oszacowania modelu OLS nie różnią się istotnie od oszacowań modelu Heckmana.
  • \(H_1\): Oszacowania modelu Heckmana różnią się istotnie od oszacowań OLS – co oznacza, że występuje selekcja próby.

Weryfikacja hipotezy opierać się będzie na porównaniu współczynników w obu modelach oraz na ocenie istotności statystycznej odwrotności współczynnika Millsa (IMR). Odrzucenie hipotezy zerowej będzie świadczyć o konieczności stosowania modelu selekcji zamiast klasycznego OLS.

6 Wyniki

6.1 Równanie selekcji

6.1.1 Model

Poniższy model został wybrany w procedurze ręcznej selekcji zmiennych, uwzględniającej kryteria statystyczne (istotność zmiennych), diagnostyczne, zgodność z teorią i interpretowalność.

Kluczową rolę w identyfikacji modeli selekcji pełnią zmienne, które wpływają na prawdopodobieństwo selekcji, ale niekoniecznie na wysokość płacy. Umożliwia to odróżnienie decyzji o uczestnictwie od wyniku płacowego. Choć teoretycznie identyfikacja może opierać się wyłącznie na założeniach dotyczących funkcji postaci modelu, brak zmiennych identyfikujących podważa wiarygodność wyników, ponieważ takie założenia są często arbitralne i trudne do obrony empirycznej (Heckman 1979).

W poniższym modelu celowo zostały zatem uwzględnione zmienne, które wpływają na decyzję o podjęciu pracy, ale nie przekładają się bezpośrednio na wysokość zarobków. Zmienna I(age - exper) reprezentuje wpływ wielkości “luki” w życiorysie zawodowym na prawdopodobieństwo rozpoczęcia pracy.

W modelu probitowym możemy bezpośrednio interpretować znak współczynników. Z wydruku można wywnioskować, że posiadanie jednego lub dwójki dzieci wpływa negatywnie na decyzję o wstąpieniu na rynek pracy w porównaniu do scenariusza bazowego – braku małych dzieci. Większa liczba godzin pracy i wysokość zarobków męża również negatywnie wpływa na aktywność zawodową. Co ciekawe, posiadanie wykształcenia wyższego przez męża ma pozytywny wpływ na decyzję o podjęciu pracy przez żonę.

\[ \begin{aligned} P( \operatorname{lfp} = \operatorname{1} ) &= \Phi[\beta_{0} + \beta_{1}(\operatorname{kids5}) + \beta_{2}(\operatorname{huswage}) + \beta_{3}(\operatorname{hushrs})\ + \\ &\qquad\ \beta_{4}(\operatorname{age\ -\ \exp}) + \beta_{5}(\operatorname{huscoll}_{\operatorname{TRUE}})] \end{aligned} \]


Call:
glm(formula = select.formula, family = binomial(link = "probit"), 
    data = data.df)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     3.086e+00  3.156e-01   9.780   <2e-16 ***
kids5          -9.084e-01  1.071e-01  -8.481   <2e-16 ***
huswage        -2.292e-02  1.351e-02  -1.696   0.0899 .  
hushrs         -1.985e-04  8.908e-05  -2.228   0.0259 *  
I(age - exper) -6.742e-02  6.144e-03 -10.974   <2e-16 ***
huscollTRUE     2.728e-01  1.161e-01   2.350   0.0188 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1029.75  on 752  degrees of freedom
Residual deviance:  835.55  on 747  degrees of freedom
AIC: 847.55

Number of Fisher Scoring iterations: 4

6.1.2 Diagnostyka

W celu oceny poprawności przyjętej specyfikacji modelu probitowego przeprowadzono szereg testów diagnostycznych.

6.1.2.1 Jakość dopasowania

W pierwszej kolejności oceniono jakość dopasowania za pomocą testu Hosmera-Lemenshowa, który porównuje obserwowane i oczekiwane liczby sukcesów w podgrupach na podstawie przewidywanych prawdopodobieństw (Mycielski 2010). Wysokie p-value w tym teście świadczy o braku istotnych rozbieżności i tym samym sugeruje, że model został dobrze dopasowany.


    Hosmer and Lemeshow goodness of fit (GOF) test

data:  data.df$lfp, select.fitted.prob
X-squared = 3.8942, df = 8, p-value = 0.8665

Ogólną jakość dopasowania modelu za pomocą wskaźnika pseudo-\(R^2\) McFaddena. Choć wartości tego wskaźnika są z reguły niższe niż w klasycznych modelach liniowych, wartości powyżej 0.2 wskazują na względnie dobre dopasowanie modelu binarnego. W przypadku omawianego modelu selekcji wartość pseudo-\(R^2\) McFaddena wynosi \(0.189\) i można ją uznać za akceptowalną.

fitting null model for pseudo-r2
         llh      llhNull           G2     McFadden         r2ML         r2CU 
-417.7733291 -514.8732046  194.1997508    0.1885899    0.2273286    0.3050312 

Ocenę uzupełniono analizą krzywej ROC Rysunek 4, która obrazuje zdolność modelu do odróżniania obserwacji z różnych klas. Wartość AUC (area under curve) równa \(0.779\), oznacza akceptowalną trafność klasyfikacyjną modelu.

Area under the curve: 0.778
Rysunek 4: Krzywa ROC

Jako dodatkowy punkt odniesienia w diagnostyce dopasowania modelu zamieszczono tabelę klasyfikacyjną, ze standardowym progiem odcięcia równym \(0.5\).

         actual
predicted   0   1
        0 199  96
        1 126 332

6.1.2.2 Forma funkcyjna

Do testowania formy funkcyjnej zastosowano test typu związku (linktest). Najpierw utworzono zmienną \(\widehat{y}_i^* = x_i\widetilde{\beta}\), a następnie przeprowadzono regresję probitową \(y_i\) na stałej, \(\widehat{y}_i^*\) i \(\left(\widehat{y}_i^*\right)^2\). Niestotny współczynnik przy zmiennej I(y.hat^2) nie pozwala nam odrzucić hipotezy zerowej o poprawności funkcyjnej.


Call:
glm(formula = lfp ~ y.hat + I(y.hat^2), family = binomial(link = "probit"), 
    data = data.df)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.003561   0.063896   0.056    0.956    
y.hat        1.002669   0.083324  12.033   <2e-16 ***
I(y.hat^2)  -0.009338   0.096771  -0.096    0.923    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1029.75  on 752  degrees of freedom
Residual deviance:  835.54  on 750  degrees of freedom
AIC: 841.54

Number of Fisher Scoring iterations: 4

6.2 Równanie wynikowe

6.2.1 Model

Specyfikacja modelu wynikowego opiera się na regresji metodą MNK logarytmu godzinowej stawki płacy (log(wage)) dla kobiet aktywnych zawodowo (\(\text{lfp} = 1\)), z uwzględnieniem poprawki na błąd wynikający z selekcji próby poprzez dołączenie zmiennej IMR (inversed Mills ratio). Model ten został estymowany na próbie ograniczonej do pracujących kobiet, co wymagało korekty selekcyjnej, by zapewnić nieobciążone oszacowania parametrów.

W modelu przyjęto nieliniową postać zmiennych exper i educ, które są typowymi determinantami płac w teorii kapitału ludzkiego. Doświadczenie zawodowe zostało ujęte w postaci logarytmu skorygowanego o jeden (log(exper + 1)), co pozwala uchwycić malejące przyrosty płacy wraz ze wzrostem doświadczenia. Dodanie \(1\) zapobiega problemom z logarytmem zera, w przypadku gdy exper przyjmuje wartość \(0\). Wpływ edukacji natomiast został odwzorowana za pomocą funkcji ortogonalnego wielomianu drugiego stopnia (poly(educ, 2)), co umożliwia modelowi wychwycenie nieliniowych efektów wykształcenia na płace bez współliniowości między składnikami.

Istotnym elementem estymacji jest zastosowanie odpornej macierzy wariancji (HC3), w celu wyeliminowania problemu heteroskedastyczności.

\[ \begin{aligned} \operatorname{log(wage)} &= \beta_{0} + \beta_{1}(\operatorname{\log(\exp\ +\ 1)}) + \beta_{2}(\operatorname{educ}) + \beta_{3}(\operatorname{educ^2}) + \beta_{4}(\operatorname{mtr})\ + \\ &\quad \beta_{5}(\operatorname{motheduc}) + \beta_{6}(\operatorname{wifecoll}_{\operatorname{TRUE}}) + \beta_{7}(\operatorname{IMR}) + \epsilon \end{aligned} \]


t test of coefficients:

                Estimate Std. Error t value  Pr(>|t|)    
(Intercept)     2.715130   0.404935  6.7051 6.511e-11 ***
log(exper + 1)  0.171255   0.059932  2.8575  0.004482 ** 
poly(educ, 2)1  5.872026   1.170443  5.0169 7.765e-07 ***
poly(educ, 2)2  1.543472   0.666920  2.3143  0.021131 *  
mtr            -2.463867   0.423175 -5.8223 1.154e-08 ***
motheduc       -0.018420   0.010683 -1.7242  0.085404 .  
wifecollTRUE   -0.250368   0.126681 -1.9764  0.048766 *  
IMR            -0.066835   0.152577 -0.4380  0.661582    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Wyniki modelu regresji są zgodne z teorią ekonomiczną – większe doświadczenie i wykształcenie sprzyjają wyższym zarobkom, natomiast wyższy poziom opodatkowania działa negatywnie.

Najważniejszym wnioskiem metodologicznym jest brak statystycznej istotności współczynnika dla odwróconego współczynnika Millsa (IMR), co sugeruje, że w tym modelu nie ma istotnego obciążenia wynikającego z selekcji próby. Oznacza to, że po uwzględnieniu zmiennych z równania selekcji, czynniki nienamierzalne wpływające na decyzję o podjęciu pracy nie są już istotnie skorelowane z czynnikami nienamierzalnymi wpływającymi na wysokość płacy.

6.2.2 Diagnostyka

6.2.2.1 Normalność reszt

W pierwszym kroku zbadano rozkład reszt, aby ocenić założenie normalności. Wykonano histogram reszt oraz wykres Q-Q (kwantyl-kwantyl, Rysunek 5), który umożliwia wizualną ocenę zgodności rozkładu reszt z rozkładem normalnym. Dodatkowo zastosowano test Shapiro-Wilka, który formalnie weryfikuje hipotezę normalności. P-value bliskie zera każe odrzucić hipotezę zerową o normalności rozkładu. Próba jest jednak na tyle duża, że niespełnienie warunku normalności nie jest problematyczne w praktyce (ze wzlędu na Centralne Twierdzenie Graniczne).


    Shapiro-Wilk normality test

data:  outcome.res
W = 0.93548, p-value = 1.176e-12
Rysunek 5: Wykres Q-Q ilustrujący zależność pomiędzy resztami a teoretycznymi kwantylami rozkładu normalnego

6.2.2.2 Założenie homoskedastyczności

Następnie zbadano założenie homoskedastyczności. W tym celu wygenerowano wykres reszt względem wartości dopasowanych Rysunek 6. Nie wykazuje on wyraźnych systematycznych wzorców ani struktury. Punkty są rozproszone względnie losowo wokół osi poziomej (reszta ≈ 0). Wizualna inspekcja nie dostarcza silnych dowodów na heteroskedastyczność w tym modelu. Natomiast niskie \(p-value\) testu Breuscha-Pagana pozwala odrzucić hipotezę zerową o homoskedastycznej wariancji błędów. Wskazuje to na konieczność zastosowania standardowych błędów odpornych na heteroskedastyczność, co zostało zasygnalizowane w sekcji 6.2.1


    studentized Breusch-Pagan test

data:  outcome.model
BP = 24.945, df = 7, p-value = 0.0007761
Rysunek 6: Wykres reszt względem wartości dopasowanych dla równania wynikowego (outcome equation)

6.2.2.3 Poprawność formy funkcyjnej

W celu wykrycia ogólnych problemów ze specyfikacją modelu, w tym pominiętych zmiennych istotnych (omitted variable bias) oraz niewłaściwej formy funkcyjnej, przeprowadzono test RESET. Wysoka wartość p-value wskazuje na brak podstaw do odrzucenia hipotezy zerowej o poprawnej formie funkcyjnej modelu.


    RESET test

data:  outcome.model
RESET = 0.43295, df1 = 2, df2 = 418, p-value = 0.6489

6.2.2.4 Współliniowość

Na końcu oszacowano wartości współczynników VIF (Variance Inflation Factor) dla modelu wynikowego. Na wydruku widać, że wszystkie wartości GVIF^(1/(2*Df)) są znacznie poniżej powszechnie stosowanego progu 5 (a nawet 2), co oznacza, że zmienne nie są ze sobą współliniowe.

                   GVIF Df GVIF^(1/(2*Df))
log(exper + 1) 1.621670  1        1.273448
poly(educ, 2)  3.526653  2        1.370379
mtr            1.232930  1        1.110374
motheduc       1.233301  1        1.110541
wifecoll       3.246395  1        1.801775
IMR            1.617476  1        1.271800

7 Weryfikacja hipotezy

Na wydruku równania wynikowego (poniżej) w modelu Heckmana widać, że współczynnik przy IMR nie jest statystycznie istotny. Oznacza to, że nie ma dowodów na selekcję próby, a model Heckmana można zastąpić modelem OLS. Rysunek 7 prezentuje wizualne porównanie wielkości współczynników w obu modelach.


t test of coefficients:

                Estimate Std. Error t value  Pr(>|t|)    
(Intercept)     2.715130   0.404935  6.7051 6.511e-11 ***
log(exper + 1)  0.171255   0.059932  2.8575  0.004482 ** 
poly(educ, 2)1  5.872026   1.170443  5.0169 7.765e-07 ***
poly(educ, 2)2  1.543472   0.666920  2.3143  0.021131 *  
mtr            -2.463867   0.423175 -5.8223 1.154e-08 ***
motheduc       -0.018420   0.010683 -1.7242  0.085404 .  
wifecollTRUE   -0.250368   0.126681 -1.9764  0.048766 *  
IMR            -0.066835   0.152577 -0.4380  0.661582    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Rysunek 7: Porównanie wartości współczynników w modelach Heckmana i OLS

8 Podsumowanie

Mimo zastosowania dwuetapowego modelu Heckmana, kluczowym wnioskiem jest brak statystycznie istotnego obciążenia wynikającego z selekcji próby.

Wnioski z równania płacowego są zgodne z teorią kapitału ludzkiego, potwierdzając istotny i pozytywny wpływ doświadczenia zawodowego oraz wykształcenia na wysokość stawki godzinowej, przy czym edukacja wykazuje nieliniowe, rosnące korzyści krańcowe. Wyższa krańcowa stopa podatkowa (mtr) negatywnie koreluje z płacą, co jest zgodne z oczekiwaniami ekonomicznymi. Pomimo pewnego odchylenia od normalności reszt, duży rozmiar próby pozwala na ufność w asymptotyczną wiarygodność wyników.

Wyniki te nie oznaczają jednak uniwersalnej przewagi OLS nad modelami selekcji. Potencjalne rozwinięcia badania powinny obejmować:

  1. analizę współczesnych danych, gdzie mechanizmy selekcji mogą być bardziej złożone ze względu na zmiany społeczno-ekonomiczne,
  2. zastosowanie alternatywnych zmiennych instrumentalnych w równaniu selekcji,
  3. porównanie wyników z metodą maksymalnej wiarygodności zamiast estymacji dwustopniowej, oraz
  4. rozszerzenie analizy o inne grupy demograficzne i rynki pracy.

9 Bibliografia

Bertrand, Marianne, Claudia Goldin, i Lawrence F Katz. 2010. „Dynamics of the gender gap for young professionals in the financial and corporate sectors”. American economic journal: applied economics 2 (3): 228–55.
Blau, Francine D, i Lawrence M Kahn. 2007. „Changes in the labor supply behavior of married women: 1980–2000”. Journal of Labor economics 25 (3): 393–438.
Cameron, A Colin, i Pravin K Trivedi. 2005. Microeconometrics: methods and applications. Cambridge university press.
Goldin, Claudia. 2014. „A grand gender convergence: Its last chapter”. American economic review 104 (4): 1091–1119.
Gronau, Reuben. 1974. „Wage comparisons–A selectivity bias”. Journal of political Economy 82 (6): 1119–43.
Heckman, James J. 1976. „The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models”. W Annals of economic and social measurement, volume 5, number 4, 475–92. NBER.
———. 1979. „Sample selection bias as a specification error”. Econometrica: Journal of the econometric society, 153–61.
Killingsworth, Mark R, i James J Heckman. 1986. „Female labor supply: A survey”. Handbook of labor economics 1: 103–204.
Mincer, Jacob. 1974. Schooling, Experience, and Earnings. New York: Columbia University Press.
Mroz, Thomas A. 1987. „The Sensitivity of an Empirical Model of Married Women’s Hours of Work to Economic and Statistical Assumptions”. Econometrica 55 (4): 765–99. https://doi.org/10.2307/1911104.
Mycielski, Jerzy. 2010. „Ekonometria”. Uniwersytet Warszawski, Wydział Nauk Ekonomicznych.
Toomet, Ott, i Arne Henningsen. 2008. „Sample Selection Models in R: Package sampleSelection. Journal of Statistical Software 27 (7). https://www.jstatsoft.org/v27/i07/.
Wooldridge, Jeffrey M. 2010. Econometric analysis of cross section and panel data. MIT press.