1. Introducción

La brecha salarial es uno de los problemas más persistentes en el mercado laboral chileno. A pesar de los distintos avances que se han promovido, como lo son la escolarización femenina y diversas propuestas que promueven la equidad, las mujeres siguen percibiendo menores ingresos que los hombres en el área laboral. Según datos de la encuesta Casen 2022, esta brecha es de un 20,8%.

Este fenómeno responde a múltiples factores socioeconómicos, demográficos y estructurales. El nivel educacional, la categoría ocupacional, la zona geográfica, el estado civil, la nacionalidad, la edad y las horas de trabajo son variables que, según la literatura económica, influyen de manera significativa en el ingreso laboral percibido por las mujeres. Esta investigación las utiliza para responder a la siguiente pregunta:

¿Cuáles son los factores socioeconómicos y demográficos que determinan el ingreso laboral de las mujeres ocupadas en Chile, y cuál es la magnitud de su efecto?

El objetivo de este estudio es identificar y cuantificar, mediante un modelo de regresión lineal múltiple estimado con datos de la Encuesta Casen 2024, las variables que influyen significativamente en el ingreso laboral neto de las mujeres. La relevancia de este estudio se puede resumir en cuatro dimensiones clave:

  • Impacto económico: La remuneración femenina repercute directamente sobre el crecimiento económico y la productividad del país.
  • Reducción de la desigualdad: La autonomía económica es un factor clave para elevar la calidad de vida y el bienestar de los hogares.
  • Equidad de género: Cuantificar los determinantes de la brecha salarial de género es el primer paso para disminuirla con políticas eficaces.
  • Optimización del capital humano: La investigación evalúa el rendimiento efectivo de los años de estudio y la experiencia laboral en el segmento de mujeres ocupadas.

2. Marco Conceptual

El análisis de los determinantes del ingreso laboral se fundamenta en la teoría del capital humano y en la ecuación minceriana del salario, que constituyen el marco estándar en la literatura empírica sobre salarios. Basado en el modelo de Mincer, que plantea el logaritmo del ingreso como función de la educación y la experiencia laboral, este trabajo especifica una ecuación log-lineal para las mujeres ocupadas en Chile, lo que permite interpretar los coeficientes como retornos porcentuales al capital humano. En el caso chileno, estudios recientes muestran que, aunque la brecha de ingresos entre hombres y mujeres se ha reducido desde la década de 1990, se mantiene en torno a 18–20% y que una parte significativa de dicha brecha no se explica por diferencias observables en educación o experiencia, sino por factores estructurales y posibles sesgos de género.

Más allá de las características individuales, la literatura sobre brecha salarial de género en Chile documenta un papel clave de la segregación ocupacional y sectorial: las mayores diferencias salariales se observan entre sectores productivos y no tanto al interior de cada uno, lo que refleja la concentración de mujeres en actividades de menor productividad relativa. Esto justifica incorporar en el modelo variables que capturen el segmento del mercado laboral donde se inserta la trabajadora, interpretando sus coeficientes como primas o penalizaciones asociadas a la posición de las mujeres en la estructura productiva.

Desde la perspectiva de la economía de género, diversos trabajos muestran que, incluso controlando por capital humano, persiste un componente importante de la brecha de ingresos asociado a normas sociales, responsabilidades de cuidado y características institucionales del mercado laboral. En particular, se ha documentado que la distribución desigual del trabajo doméstico y de cuidados limita la autonomía económica de las mujeres y condiciona su inserción en empleos de menor jornada o menor protección social, afectando negativamente sus ingresos laborales. En este marco, resulta relevante considerar variables como el estado civil y la nacionalidad para aproximar diferencias en cargas de cuidado y en barreras de inserción formal, especialmente en el caso de mujeres migrantes, que presentan mayores tasas de empleo informal y menor acceso a trabajos de alta calificación.

3. Metodología

Para analizar los factores que influyen en el ingreso laboral femenino, se estimó un modelo de regresión lineal múltiple mediante el método de Mínimos Cuadrados Ordinarios (MCO). Se utilizó una especificación log-lineal basada en la ecuación minceriana, ampliamente aplicada en estudios empíricos sobre determinación salarial, ya que permite evaluar cómo distintas características personales y laborales afectan el nivel de ingreso.

La especificación formal del modelo estimado es la siguiente:

\[\ln(\text{ingreso_laboral})_i = \beta_0 + \beta_1 \cdot \text{edad}_i + \beta_2 \cdot \text{edad}^2_i + \beta_3 \cdot \text{educ_cat}_i + \beta_4 \cdot \text{zona}_i + \beta_5 \cdot \text{esta_civil}_i + \beta_6 \cdot \ln(\text{horas_trabajo})_i + \beta_7 \cdot \text{chilena}_i + \beta_8 \cdot \text{cat_ocup}_i + \varepsilon_i\] Donde: La variable dependiente corresponde al logaritmo natural del ingreso laboral neto mensual (y1). Esta transformación se utiliza porque los ingresos suelen presentar una distribución sesgada a la derecha, y al aplicar logaritmos se obtiene una distribución más simétrica y adecuada para el análisis econométrico. Además, los coeficientes estimados pueden interpretarse como variaciones porcentuales promedio en el salario frente a cambios unitarios en las variables explicativas. De igual manera, la variable de horas trabajadas se transformó en logaritmo natural, generando una relación tipo log-log, lo que permite interpretar el coeficiente asociado como la elasticidad del salario respecto a las horas trabajadas. El modelo incorpora tanto variables continuas como categóricas. La edad y su término cuadrático capturan posibles efectos no lineales (parabólicos) del ciclo de vida sobre los ingresos. También se incluyen variables categóricas relacionadas con el nivel educacional, zona geográfica, estado civil, nacionalidad y categoría ocupacional. Las variables categóricas fueron incorporadas mediante factores de R, definiendo categorías de referencia omitidas para evitar problemas de multicolinealidad perfecta y facilitar la interpretación de los resultados.

La estimación se realizó utilizando la función lm() de R.Posteriormente, se evaluaron los supuestos del modelo, especialmente la presencia de multicolinealidad entre las variables explicativas mediante el Factor de Inflación de la Varianza (VIF) de la librería car. Los resultados del modelo fueron organizados y presentados de forma estilizada con stargazer.

Carga de Librerías y Preparación del Entorno

# Carga de librerías
library(haven)
library(dplyr)
library(tidyverse)
library(car)
library(stargazer)
library(knitr)

# Verificación y carga del conjunto de datos Casen 2024
if (!exists("casen_2024")) {
  if (file.exists("casen_2024.RData")) {
    load("casen_2024.RData")
  } else {
    stop("No se encontró 'casen_2024' en memoria ni el archivo 'casen_2024.RData' en el directorio.")
  }
}

Limpieza y Recodificación de Variables

Restringimos la muestra únicamente a mujeres con ingresos laborales y horas trabajadas válidas (mayores a cero), eliminando casos con valores faltantes e implementando la codificación de las variables explicativas de acuerdo con el script original.

datos_mujeres <- casen_2024 %>%
  # Filtrar por mujeres
  filter(sexo == 2) %>% 
  # Seleccionar variables del script original
  select(y1, y2_hrs, edad, region, e6a, ecivil, r1a, o15) %>%
  # Creación y recodificación de variables explicativas
  mutate(
    ingreso_laboral = ifelse(y1 <= 0, NA, y1),
    horas_trabajo = ifelse(y2_hrs <= 0, NA, y2_hrs),
    edad_cuadrado = edad^2,
    esta_civil = factor(ifelse(ecivil == 1, "Casada", "No Casada"), 
                        levels = c("No Casada", "Casada")),
    chilena = ifelse(as.numeric(r1a) %in% c(1, 2), 1, 0),
    
    # 1. Zonas geográficas mediante ifelse anidado
    zona = ifelse(region == 13, "RM",
                  ifelse(region %in% c(15, 1, 2, 3, 4), "Norte",
                         ifelse(region %in% c(5, 6, 7, 16), "Centro",
                                ifelse(region %in% c(8, 9, 14, 10, 11, 12), "Sur", "Otra")))),
    zona = relevel(as.factor(zona), ref = "RM"),
    
    # 2. Categorías de Educación
    educ_cat = ifelse(as.numeric(e6a) %in% c(1:7), "1_Basica",
                      ifelse(as.numeric(e6a) %in% c(8:11), "2_Media",
                             ifelse(as.numeric(e6a) %in% c(12:13), "3_Superior", 
                                    ifelse(as.numeric(e6a) %in% c(14, 15), "4_Plus", NA_character_)))),
    educ_cat = relevel(as.factor(educ_cat), ref = "1_Basica"),
    
    # 3. Categoría de ocupación
    cat_ocup = ifelse(as.numeric(o15) %in% c(3, 4), "2_Asalariado_Publico",
                      ifelse(as.numeric(o15) == 5, "1_Asalariado_Privado",
                             ifelse(as.numeric(o15) %in% c(1, 2, 6, 7, 8), "3_Cuenta_Propia", NA_character_))),
    cat_ocup = relevel(as.factor(cat_ocup), ref = "3_Cuenta_Propia")
  ) %>%
  # Exclusión de registros incompletos
  filter(!is.na(ingreso_laboral), !is.na(horas_trabajo), !is.na(zona), !is.na(educ_cat), 
         !is.na(chilena), !is.na(cat_ocup)) %>%
  droplevels()

4. Descripción Preliminar de los Datos

La muestra depurada para el modelamiento econométrico final consta de 31.476 observaciones de mujeres ocupadas. A continuación, se presenta un análisis descriptivo de las variables cuantitativas y categóricas.

4.1. Estadísticas Descriptivas: Variables Cuantitativas

La siguiente tabla resume la media, desviación estándar, valores mínimo y máximo de las variables numéricas clave de la muestra:

Tabla 1. Estadísticas Descriptivas de las Variables Cuantitativas
Variable Media Desv. Est. Mínimo Máximo
Ingreso Laboral Neto ($) 729.081,19 611.765,66 8.333 1,4e+07
Horas de Trabajo Semanales 155,63 42,38 1 5,2e+02
Edad (Años) 42,02 12,54 15 8,8e+01

4.2. Distribución y Frecuencias: Variables Categóricas

A continuación, se detalla la distribución de frecuencias absolutas y relativas (porcentajes) para cada factor incorporado en el modelo econométrico:

Tabla 2. Distribución de Frecuencias de las Variables Categóricas
Variable Categoría Frecuencia Porcentaje
Nivel Educativo 1_Basica 2.809 8,92
Nivel Educativo 2_Media 12.117 38,50
Nivel Educativo 3_Superior 15.496 49,23
Nivel Educativo 4_Plus 1.054 3,35
Zona Geográfica RM 6.952 22,09
Zona Geográfica Centro 8.542 27,14
Zona Geográfica Norte 6.611 21,00
Zona Geográfica Sur 9.371 29,77
Estado Civil No Casada 24.184 76,83
Estado Civil Casada 7.292 23,17
Nacionalidad Chilena 28.692 91,16
Nacionalidad Extranjera 2.784 8,84
Categoría Ocupación 3_Cuenta_Propia 2.565 8,15
Categoría Ocupación 1_Asalariado_Privado 20.397 64,80
Categoría Ocupación 2_Asalariado_Publico 8.514 27,05

5. Estimación del Modelo y Resultados

Ajuste de la Regresión OLS

Estimamos los coeficientes del modelo econométrico exactamente con la especificación del script original:

modelo_mujeres <- lm(log(ingreso_laboral) ~ edad + edad_cuadrado + educ_cat + zona + esta_civil +  
                       log(horas_trabajo) + chilena + cat_ocup, 
                     data = datos_mujeres)

Tabla de Regresión Formal

Utilizamos stargazer para representar de forma interactiva y con formato de revista académica los resultados estimados.

Tabla 3. Estimaciones del Modelo de Ingreso Laboral Femenino
Log(Ingreso Laboral Neto)
Edad 0.0379***
(0.0014)
Edad al Cuadrado -0.0004***
(0.0000)
Educación: Media (Ref: Básica) 0.1446***
(0.0103)
Educación: Superior 0.5780***
(0.0107)
Educación: Postgrado/Plus 1.2142***
(0.0177)
Zona: Centro (Ref: RM) -0.1753***
(0.0077)
Zona: Norte -0.0893***
(0.0082)
Zona: Sur -0.1463***
(0.0076)
Estado Civil: Casada (Ref: No Casada) 0.0604***
(0.0065)
Log(Horas de Trabajo Semanales) 0.6577***
(0.0061)
Nacionalidad: Chilena (Ref: Extranjera) 0.0898***
(0.0097)
Categoría Ocup.: Asalariada Privada (Ref: Cuenta Propia) 0.1581***
(0.0106)
Categoría Ocup.: Asalariada Pública 0.2747***
(0.0118)
Constante 8.5880***
(0.0408)
Observations 31,476
R2 0.5116
Adjusted R2 0.5114
Residual Std. Error 0.4701 (df = 31462)
F Statistic 2,535.2570*** (df = 13; 31462)
Notes: ***Significant at the 1 percent level.
**Significant at the 5 percent level.
*Significant at the 10 percent level.

6. Diagnóstico del Modelo

Evaluación de Multicolinealidad (VIF)

Para descartar problemas graves de colinealidad que inflen las varianzas de los estimadores, calculamos el Factor de Inflación de la Varianza (VIF):

vif(modelo_mujeres)
                        GVIF Df GVIF^(1/(2*Df))
edad               45.802785  1        6.767775
edad_cuadrado      45.824733  1        6.769397
educ_cat            1.334470  3        1.049264
zona                1.072727  3        1.011769
esta_civil          1.082356  1        1.040363
log(horas_trabajo)  1.103149  1        1.050309
chilena             1.078662  1        1.038587
cat_ocup            1.326240  2        1.073138
  • Interpretación: Exceptuando las variables edad y edad_cuadrado (las cuales presentan VIFs cercanos a 44 debido a su perfecta dependencia cuadrática matemática, lo que es normal y esperado en especificaciones de Mincer), todos los demás regresores exhiben valores de VIF sumamente bajos (menores a 1.8). Esto confirma la ausencia de problemas de multicolinealidad en el modelo, asegurando la robustez e independencia de las estimaciones obtenidas.