La brecha salarial es uno de los problemas más persistentes en el mercado laboral chileno. A pesar de los distintos avances que se han promovido, como lo son la escolarización femenina y diversas propuestas que promueven la equidad, las mujeres siguen percibiendo menores ingresos que los hombres en el área laboral. Según datos de la encuesta Casen 2022, esta brecha es de un 20,8%.
Este fenómeno responde a múltiples factores socioeconómicos, demográficos y estructurales. El nivel educacional, la categoría ocupacional, la zona geográfica, el estado civil, la nacionalidad, la edad y las horas de trabajo son variables que, según la literatura económica, influyen de manera significativa en el ingreso laboral percibido por las mujeres. Esta investigación las utiliza para responder a la siguiente pregunta:
¿Cuáles son los factores socioeconómicos y demográficos que determinan el ingreso laboral de las mujeres ocupadas en Chile, y cuál es la magnitud de su efecto?
El objetivo de este estudio es identificar y cuantificar, mediante un modelo de regresión lineal múltiple estimado con datos de la Encuesta Casen 2024, las variables que influyen significativamente en el ingreso laboral neto de las mujeres. La relevancia de este estudio se puede resumir en cuatro dimensiones clave:
El análisis de los determinantes del ingreso laboral se fundamenta en la teoría del capital humano y en la ecuación minceriana del salario, que constituyen el marco estándar en la literatura empírica sobre salarios. Basado en el modelo de Mincer, que plantea el logaritmo del ingreso como función de la educación y la experiencia laboral, este trabajo especifica una ecuación log-lineal para las mujeres ocupadas en Chile, lo que permite interpretar los coeficientes como retornos porcentuales al capital humano. En el caso chileno, estudios recientes muestran que, aunque la brecha de ingresos entre hombres y mujeres se ha reducido desde la década de 1990, se mantiene en torno a 18–20% y que una parte significativa de dicha brecha no se explica por diferencias observables en educación o experiencia, sino por factores estructurales y posibles sesgos de género.
Más allá de las características individuales, la literatura sobre brecha salarial de género en Chile documenta un papel clave de la segregación ocupacional y sectorial: las mayores diferencias salariales se observan entre sectores productivos y no tanto al interior de cada uno, lo que refleja la concentración de mujeres en actividades de menor productividad relativa. Esto justifica incorporar en el modelo variables que capturen el segmento del mercado laboral donde se inserta la trabajadora, interpretando sus coeficientes como primas o penalizaciones asociadas a la posición de las mujeres en la estructura productiva.
Desde la perspectiva de la economía de género, diversos trabajos muestran que, incluso controlando por capital humano, persiste un componente importante de la brecha de ingresos asociado a normas sociales, responsabilidades de cuidado y características institucionales del mercado laboral. En particular, se ha documentado que la distribución desigual del trabajo doméstico y de cuidados limita la autonomía económica de las mujeres y condiciona su inserción en empleos de menor jornada o menor protección social, afectando negativamente sus ingresos laborales. En este marco, resulta relevante considerar variables como el estado civil y la nacionalidad para aproximar diferencias en cargas de cuidado y en barreras de inserción formal, especialmente en el caso de mujeres migrantes, que presentan mayores tasas de empleo informal y menor acceso a trabajos de alta calificación.
Para analizar los factores que influyen en el ingreso laboral femenino, se estimó un modelo de regresión lineal múltiple mediante el método de Mínimos Cuadrados Ordinarios (MCO). Se utilizó una especificación log-lineal basada en la ecuación minceriana, ampliamente aplicada en estudios empíricos sobre determinación salarial, ya que permite evaluar cómo distintas características personales y laborales afectan el nivel de ingreso.
La especificación formal del modelo estimado es la siguiente:
\[\ln(\text{ingreso_laboral})_i = \beta_0
+ \beta_1 \cdot \text{edad}_i + \beta_2 \cdot \text{edad}^2_i + \beta_3
\cdot \text{educ_cat}_i + \beta_4 \cdot \text{zona}_i + \beta_5 \cdot
\text{esta_civil}_i + \beta_6 \cdot \ln(\text{horas_trabajo})_i +
\beta_7 \cdot \text{chilena}_i + \beta_8 \cdot \text{cat_ocup}_i +
\varepsilon_i\] Donde: La variable dependiente corresponde al
logaritmo natural del ingreso laboral neto mensual
(y1). Esta transformación se utiliza porque los ingresos
suelen presentar una distribución sesgada a la derecha, y al aplicar
logaritmos se obtiene una distribución más simétrica y adecuada para el
análisis econométrico. Además, los coeficientes estimados pueden
interpretarse como variaciones porcentuales promedio en el salario
frente a cambios unitarios en las variables explicativas. De igual
manera, la variable de horas trabajadas se transformó
en logaritmo natural, generando una relación tipo log-log, lo
que permite interpretar el coeficiente asociado como la
elasticidad del salario respecto a las horas
trabajadas. El modelo incorpora tanto variables continuas como
categóricas. La edad y su término
cuadrático capturan posibles efectos no lineales (parabólicos)
del ciclo de vida sobre los ingresos. También se incluyen variables
categóricas relacionadas con el nivel educacional,
zona geográfica, estado civil,
nacionalidad y categoría ocupacional.
Las variables categóricas fueron incorporadas mediante factores de R,
definiendo categorías de referencia omitidas para evitar problemas de
multicolinealidad perfecta y facilitar la interpretación de los
resultados.
La estimación se realizó utilizando la función lm() de
R.Posteriormente, se evaluaron los supuestos del modelo, especialmente
la presencia de multicolinealidad entre las variables explicativas
mediante el Factor de Inflación de la Varianza (VIF) de
la librería car. Los resultados del modelo fueron
organizados y presentados de forma estilizada con
stargazer.
# Carga de librerías
library(haven)
library(dplyr)
library(tidyverse)
library(car)
library(stargazer)
library(knitr)
# Verificación y carga del conjunto de datos Casen 2024
if (!exists("casen_2024")) {
if (file.exists("casen_2024.RData")) {
load("casen_2024.RData")
} else {
stop("No se encontró 'casen_2024' en memoria ni el archivo 'casen_2024.RData' en el directorio.")
}
}Restringimos la muestra únicamente a mujeres con ingresos laborales y horas trabajadas válidas (mayores a cero), eliminando casos con valores faltantes e implementando la codificación de las variables explicativas de acuerdo con el script original.
datos_mujeres <- casen_2024 %>%
# Filtrar por mujeres
filter(sexo == 2) %>%
# Seleccionar variables del script original
select(y1, y2_hrs, edad, region, e6a, ecivil, r1a, o15) %>%
# Creación y recodificación de variables explicativas
mutate(
ingreso_laboral = ifelse(y1 <= 0, NA, y1),
horas_trabajo = ifelse(y2_hrs <= 0, NA, y2_hrs),
edad_cuadrado = edad^2,
esta_civil = factor(ifelse(ecivil == 1, "Casada", "No Casada"),
levels = c("No Casada", "Casada")),
chilena = ifelse(as.numeric(r1a) %in% c(1, 2), 1, 0),
# 1. Zonas geográficas mediante ifelse anidado
zona = ifelse(region == 13, "RM",
ifelse(region %in% c(15, 1, 2, 3, 4), "Norte",
ifelse(region %in% c(5, 6, 7, 16), "Centro",
ifelse(region %in% c(8, 9, 14, 10, 11, 12), "Sur", "Otra")))),
zona = relevel(as.factor(zona), ref = "RM"),
# 2. Categorías de Educación
educ_cat = ifelse(as.numeric(e6a) %in% c(1:7), "1_Basica",
ifelse(as.numeric(e6a) %in% c(8:11), "2_Media",
ifelse(as.numeric(e6a) %in% c(12:13), "3_Superior",
ifelse(as.numeric(e6a) %in% c(14, 15), "4_Plus", NA_character_)))),
educ_cat = relevel(as.factor(educ_cat), ref = "1_Basica"),
# 3. Categoría de ocupación
cat_ocup = ifelse(as.numeric(o15) %in% c(3, 4), "2_Asalariado_Publico",
ifelse(as.numeric(o15) == 5, "1_Asalariado_Privado",
ifelse(as.numeric(o15) %in% c(1, 2, 6, 7, 8), "3_Cuenta_Propia", NA_character_))),
cat_ocup = relevel(as.factor(cat_ocup), ref = "3_Cuenta_Propia")
) %>%
# Exclusión de registros incompletos
filter(!is.na(ingreso_laboral), !is.na(horas_trabajo), !is.na(zona), !is.na(educ_cat),
!is.na(chilena), !is.na(cat_ocup)) %>%
droplevels()La muestra depurada para el modelamiento econométrico final consta de 31.476 observaciones de mujeres ocupadas. A continuación, se presenta un análisis descriptivo de las variables cuantitativas y categóricas.
La siguiente tabla resume la media, desviación estándar, valores mínimo y máximo de las variables numéricas clave de la muestra:
| Variable | Media | Desv. Est. | Mínimo | Máximo |
|---|---|---|---|---|
| Ingreso Laboral Neto ($) | 729.081,19 | 611.765,66 | 8.333 | 1,4e+07 |
| Horas de Trabajo Semanales | 155,63 | 42,38 | 1 | 5,2e+02 |
| Edad (Años) | 42,02 | 12,54 | 15 | 8,8e+01 |
A continuación, se detalla la distribución de frecuencias absolutas y relativas (porcentajes) para cada factor incorporado en el modelo econométrico:
| Variable | Categoría | Frecuencia | Porcentaje |
|---|---|---|---|
| Nivel Educativo | 1_Basica | 2.809 | 8,92 |
| Nivel Educativo | 2_Media | 12.117 | 38,50 |
| Nivel Educativo | 3_Superior | 15.496 | 49,23 |
| Nivel Educativo | 4_Plus | 1.054 | 3,35 |
| Zona Geográfica | RM | 6.952 | 22,09 |
| Zona Geográfica | Centro | 8.542 | 27,14 |
| Zona Geográfica | Norte | 6.611 | 21,00 |
| Zona Geográfica | Sur | 9.371 | 29,77 |
| Estado Civil | No Casada | 24.184 | 76,83 |
| Estado Civil | Casada | 7.292 | 23,17 |
| Nacionalidad | Chilena | 28.692 | 91,16 |
| Nacionalidad | Extranjera | 2.784 | 8,84 |
| Categoría Ocupación | 3_Cuenta_Propia | 2.565 | 8,15 |
| Categoría Ocupación | 1_Asalariado_Privado | 20.397 | 64,80 |
| Categoría Ocupación | 2_Asalariado_Publico | 8.514 | 27,05 |
Estimamos los coeficientes del modelo econométrico exactamente con la especificación del script original:
Utilizamos stargazer para representar de forma
interactiva y con formato de revista académica los resultados
estimados.
| Log(Ingreso Laboral Neto) | |
| Edad | 0.0379*** |
| (0.0014) | |
| Edad al Cuadrado | -0.0004*** |
| (0.0000) | |
| Educación: Media (Ref: Básica) | 0.1446*** |
| (0.0103) | |
| Educación: Superior | 0.5780*** |
| (0.0107) | |
| Educación: Postgrado/Plus | 1.2142*** |
| (0.0177) | |
| Zona: Centro (Ref: RM) | -0.1753*** |
| (0.0077) | |
| Zona: Norte | -0.0893*** |
| (0.0082) | |
| Zona: Sur | -0.1463*** |
| (0.0076) | |
| Estado Civil: Casada (Ref: No Casada) | 0.0604*** |
| (0.0065) | |
| Log(Horas de Trabajo Semanales) | 0.6577*** |
| (0.0061) | |
| Nacionalidad: Chilena (Ref: Extranjera) | 0.0898*** |
| (0.0097) | |
| Categoría Ocup.: Asalariada Privada (Ref: Cuenta Propia) | 0.1581*** |
| (0.0106) | |
| Categoría Ocup.: Asalariada Pública | 0.2747*** |
| (0.0118) | |
| Constante | 8.5880*** |
| (0.0408) | |
| Observations | 31,476 |
| R2 | 0.5116 |
| Adjusted R2 | 0.5114 |
| Residual Std. Error | 0.4701 (df = 31462) |
| F Statistic | 2,535.2570*** (df = 13; 31462) |
| Notes: | ***Significant at the 1 percent level. |
| **Significant at the 5 percent level. | |
| *Significant at the 10 percent level. | |
Para descartar problemas graves de colinealidad que inflen las varianzas de los estimadores, calculamos el Factor de Inflación de la Varianza (VIF):
GVIF Df GVIF^(1/(2*Df))
edad 45.802785 1 6.767775
edad_cuadrado 45.824733 1 6.769397
educ_cat 1.334470 3 1.049264
zona 1.072727 3 1.011769
esta_civil 1.082356 1 1.040363
log(horas_trabajo) 1.103149 1 1.050309
chilena 1.078662 1 1.038587
cat_ocup 1.326240 2 1.073138
edad y edad_cuadrado (las cuales presentan
VIFs cercanos a 44 debido a su perfecta dependencia cuadrática
matemática, lo que es normal y esperado en especificaciones de Mincer),
todos los demás regresores exhiben valores de VIF sumamente bajos
(menores a 1.8). Esto confirma la ausencia de problemas de
multicolinealidad en el modelo, asegurando la robustez e independencia
de las estimaciones obtenidas.