1. Datos y modelo log-lineal

Se usa la base wage1 de Wooldridge, que contiene información de salarios por hora en el mercado laboral estadounidense junto con características individuales de los trabajadores (años de educación formal, experiencia potencial y antigüedad en el empleo, entre otras).

La variable dependiente es el salario por hora wage y las explicativas que se consideran en el modelo básico son:

En vez de modelar directamente wage, se trabaja con el logaritmo natural del salario lwage = log(wage). Esta transformación tiene tres motivaciones:

  1. Estadística: el salario suele ser asimétrico a la derecha (muchos salarios bajos y pocos muy altos). El logaritmo comprime la cola alta y hace la distribución más simétrica, favoreciendo la normalidad de los errores.
  2. Heterocedasticidad: los salarios con valores altos tienden a mostrar mayor variabilidad. Al tomar logaritmos se reducen las diferencias de escala y se aproxima la homocedasticidad.
  3. Interpretación económica: en un modelo log-lineal, los coeficientes se interpretan como cambios porcentuales aproximados en el salario ante cambios unitarios en las explicativas, lo cual es consistente con la literatura de ecuaciones de Mincer y teoría del capital humano.

El modelo log-lineal planteado es:

\[ \ln(wage_i) = \beta_0 + \beta_1,educ_i + \beta_2,exper_i + \beta_3,tenure_i + u_i. \]

En este contexto, \[(\beta_1)\], \[(\beta_2)\] y \[(\beta_3)\] son semielasticidades: aproximadamente, un aumento de una unidad en cada regresor se traduce en un cambio porcentual en el salario, manteniendo constantes las demás variables.

2. Estimación por Mínimos Cuadrados Ordinarios

## 
## Call:
## lm(formula = lwage ~ educ + exper + tenure, data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.05802 -0.29645 -0.03265  0.28788  1.42809 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.284360   0.104190   2.729  0.00656 ** 
## educ        0.092029   0.007330  12.555  < 2e-16 ***
## exper       0.004121   0.001723   2.391  0.01714 *  
## tenure      0.022067   0.003094   7.133 3.29e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4409 on 522 degrees of freedom
## Multiple R-squared:  0.316,  Adjusted R-squared:  0.3121 
## F-statistic: 80.39 on 3 and 522 DF,  p-value: < 2.2e-16

Los coeficientes estimados son aproximadamente:

y las medidas de ajuste del modelo:

## R^2 = 0.316
## R^2 ajustado = 0.312

Interpretación económica de los coeficientes (modelo log-lin)

Dado que la variable dependiente está en logaritmos y las explicativas están en niveles, los coeficientes se pueden interpretar como aproximaciones a cambios porcentuales:

  • El coeficiente de educ es aproximadamente: 0.092.

    • Interpretación: un año adicional de educación se asocia, en promedio, con un incremento de aproximadamente 9,2% en el salario por hora, ceteris paribus.
    • Comparando dos individuos que difieren en 4 años de educación (por ejemplo, 12 vs 8 años) pero son iguales en experiencia y tenure, el modelo sugiere una diferencia salarial aproximada de \[(4 \times 9,2% \approx 36,8%)\] a favor del más educado.
  • El coeficiente de exper es aproximadamente 0.0041.

    • Interpretación: un año adicional de experiencia potencial se asocia con un incremento cercano al 0,4% en el salario por hora, manteniendo constantes educación y tenure.
    • En horizontes largos, 10 años extra de experiencia implicarían un aumento aproximado de \[(10 \times 0,4% = 4%)\], lo que indica retornos más modestos de la experiencia relativa a la educación formal.
  • El coeficiente de tenure es aproximadamente 0.0221.

    • Interpretación: un año adicional de antigüedad con el mismo empleador se asocia con un aumento cercano al 2,2% en el salario, ceteris paribus.
    • Esto es consistente con la idea de capital humano específico de la firma (acumulación de conocimientos y relaciones específicas de la empresa).
  • El intercepto (aproximadamente 0.284) representa el valor esperado de \[(\ln(wage))\] cuando todas las explicativas son cero. Su interpretación directa no es muy interesante económicamente (pocos individuos tienen 0 años de educación, experiencia y tenure), pero es necesaria para la estructura del modelo.

En conjunto, el modelo captura un patrón típico: el salario responde fuertemente a la educación, moderadamente a la antigüedad y en menor medida a la experiencia potencial.

En términos de ajuste global, el (R^2) en torno a 0,316 indica que cerca del 31–32% de la variación en el logaritmo del salario se explica por estas tres variables. El resto se atribuye a factores no observados (habilidades, calidad del empleo, sector, localización, preferencias, etc.), por lo que el modelo debe interpretarse como una primera aproximación parsimoniosa, no como una explicación exhaustiva de los salarios.

3. Validación de supuestos del MRLM/MRLS

3.1 Linealidad y especificación funcional

## 
##  RESET test
## 
## data:  m_ols
## RESET = 6.5566, df1 = 2, df2 = 520, p-value = 0.001541

En los resultados se obtiene un estadístico RESET aproximadamente 6,56 con p-valor aproximadamente 0,0015. Esto implica rechazar la hipótesis nula de correcta especificación lineal al 1% de significancia: hay indicios de que podrían faltar términos no lineales (por ejemplo, cuadrados o interacciones) o variables omitidas relevantes.

Esto no invalida inmediatamente el modelo básico, pero sí sugiere que conviene explorar especificaciones alternativas (como las que se estudian en la sección 4, con términos cuadráticos e interacciones).

Gráficos componente + residuo:

Figura 1. Gráficos componente + residuo (residuos parciales) para cada regresor en el modelo log-lineal.

Figura 1. Gráficos componente + residuo (residuos parciales) para cada regresor en el modelo log-lineal.

Interpretación: si las curvas son aproximadamente rectas alrededor de cero y no muestran curvaturas sistemáticas, la relación condicional entre \[(\ln(wage))\] y cada regresor es compatible con una forma funcional lineal. Ciertas curvaturas sugerirían, en cambio, la conveniencia de añadir términos no lineales (como (exper^2) o (tenure^2)), lo que está en línea con lo que sugiere la prueba RESET.

Gráficos de residuos parciales con suavizamiento loess:

Figura 2. Residuos parciales con suavizamiento loess para educ, exper y tenure en el modelo log-lineal.

Figura 2. Residuos parciales con suavizamiento loess para educ, exper y tenure en el modelo log-lineal.

Interpretación: las curvas loess permiten ver de forma flexible si hay curvaturas importantes. Si se observa que, por ejemplo, la pendiente se aplana o se invierte a altos niveles de experiencia o tenure, esto respalda la inclusión de términos cuadráticos para capturar rendimientos decrecientes o crecientes.

3.2 Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  m_ols
## BP = 10.761, df = 3, p-value = 0.01309
## 
##  studentized Breusch-Pagan test
## 
## data:  m_ols
## BP = 6.6953, df = 2, p-value = 0.03517

Los resultados son:

  • Breusch–Pagan: BP aproximadamente 10,76 con p-valor aproximadamente 0,013.
  • White aproximado: BP aproximadamente 6,70 con p-valor aproximadamente 0,035.

En ambos casos se rechaza la hipótesis nula de homocedasticidad al 5% de significancia. Esto indica que la varianza de los errores no es constante a lo largo del rango de valores ajustados; en la práctica, los errores tienden a ser más dispersos para ciertos grupos de individuos (por ejemplo, salarios más altos).

Gráfico residuos vs ajustados:

Figura 3. Residuos frente a valores ajustados del modelo log-lineal.

Figura 3. Residuos frente a valores ajustados del modelo log-lineal.

Interpretación: si el gráfico muestra un patrón en abanico (residuos con mayor dispersión para ciertos valores ajustados), se refuerza la evidencia de heterocedasticidad. Este diagnóstico motiva el uso de errores estándar robustos y la estimación WLS como correcciones econométricas.

3.3 Normalidad del error

## 
##  Shapiro-Wilk normality test
## 
## data:  resid_ols
## W = 0.98946, p-value = 0.000787
## Warning: Non-normality of residuals detected (p < .001).

El test de Shapiro–Wilk arroja p-valor aproximadamente 0,0008 (muy pequeño), por lo que se rechaza la hipótesis de normalidad exacta de los residuos. Sin embargo, el tamaño muestral es relativamente grande (más de 500 observaciones), de modo que gracias a resultados asintóticos la inferencia basada en OLS sigue siendo razonable, especialmente si se corrigen los errores estándar por heterocedasticidad.

Gráfico Q-Q:

Figura 4. Gráfico Q-Q de los residuos del modelo log-lineal.

Figura 4. Gráfico Q-Q de los residuos del modelo log-lineal.

Interpretación: pequeñas desviaciones en las colas indican cierta asimetría o colas pesadas; aun así, si el grueso de los puntos sigue la recta, la aproximación normal es aceptable.

3.4 Multicolinealidad

##     educ    exper   tenure 
## 1.112771 1.477618 1.349296
## [1] 121.4176

En los resultados se obtienen VIF en torno a 1,1–1,5 y un número de condición aproximadamente 121. Esto indica:

  • No hay multicolinealidad extrema (VIF mucho mayores que 10), por lo que los coeficientes de educ, exper y tenure están razonablemente identificados de manera separada.
  • El número de condición sugiere cierta dependencia lineal entre las columnas de la matriz de diseño, pero no en un nivel crítico. En la práctica, no parece que la colinealidad sea una fuente principal de problemas en este modelo.

4. Correcciones y especificaciones alternativas

4.1 Errores estándar robustos (HC1)

## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept) 0.2843596  0.1117069  2.5456   0.01120 *  
## educ        0.0920290  0.0079212 11.6181 < 2.2e-16 ***
## exper       0.0041211  0.0017459  2.3605   0.01862 *  
## tenure      0.0220672  0.0037820  5.8348 9.461e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comparando con los errores estándar clásicos, los robustos (HC1) son ligeramente mayores, en particular para el intercepto y tenure. Aun así:

  • educ sigue siendo altamente significativo (t aproximadamente 11,6; p < 0,01).
  • exper se mantiene significativo al 5%.
  • tenure sigue siendo muy significativo (t aproximadamente 5,8; p < 0,01).

Interpretación económica: la magnitud de los efectos (9,2% por año adicional de educación, 0,4% por año de experiencia y 2,2% por año de antigüedad) es robusta a la presencia de heterocedasticidad. Lo que cambia es la precisión con la que se estiman estos efectos, pero no la conclusión cualitativa.

4.2 Mínimos Cuadrados Ponderados (WLS)

## 
## Call:
## lm(formula = lwage ~ educ + exper + tenure, data = df, weights = w)
## 
## Weighted Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.4462 -0.1972 -0.0138  0.1653  1.0700 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.617451   0.081185   7.606 1.33e-13 ***
## educ        0.064118   0.005825  11.008  < 2e-16 ***
## exper       0.004495   0.001602   2.805  0.00521 ** 
## tenure      0.022870   0.003432   6.665 6.76e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.279 on 522 degrees of freedom
## Multiple R-squared:  0.2722, Adjusted R-squared:  0.268 
## F-statistic: 65.08 on 3 and 522 DF,  p-value: < 2.2e-16

En el modelo WLS se observa que:

  • El coeficiente de educ baja de aproximadamente 0,092 a aproximadamente 0,064.
  • exper pasa de aproximadamente 0,0041 a aproximadamente 0,0045.
  • tenure se mantiene en torno a 0,022–0,023.

Interpretación económica:

  • El retorno estimado a la educación se reduce de alrededor del 9,2% al 6,4% por año cuando se da menos peso a las observaciones con mayor varianza (en general, salarios muy altos). Esto sugiere que parte del fuerte retorno estimado en OLS está impulsado por observaciones con salarios muy altos que pueden considerarse más “volátiles”.
  • Los retornos de la experiencia y la antigüedad permanecen positivos y significativos, por lo que la evidencia de que estos factores elevan el salario es robusta a la corrección por heterocedasticidad mediante WLS.

El (R^2) de WLS es algo menor que el de OLS (aproximadamente 0,27 vs 0,32), lo que indica un ajuste ligeramente inferior, pero el objetivo de WLS es mejorar la eficiencia en presencia de heterocedasticidad más que maximizar el (R^2).

4.3 Términos cuadráticos e interacción

## 
## Call:
## lm(formula = lwage ~ educ + exper + tenure + I(educ^2) + I(exper^2) + 
##     I(tenure^2) + educ:exper, data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.92471 -0.23971 -0.03199  0.26951  1.32299 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.134e-01  3.445e-01   2.651  0.00826 ** 
## educ        -4.632e-02  4.631e-02  -1.000  0.31766    
## exper        3.225e-02  1.030e-02   3.132  0.00183 ** 
## tenure       3.524e-02  7.139e-03   4.936 1.08e-06 ***
## I(educ^2)    5.625e-03  1.601e-03   3.514  0.00048 ***
## I(exper^2)  -6.430e-04  1.203e-04  -5.347 1.35e-07 ***
## I(tenure^2) -5.643e-04  2.462e-04  -2.292  0.02232 *  
## educ:exper  -9.517e-05  5.930e-04  -0.160  0.87255    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4177 on 518 degrees of freedom
## Multiple R-squared:  0.3908, Adjusted R-squared:  0.3825 
## F-statistic: 47.46 on 7 and 518 DF,  p-value: < 2.2e-16

En el modelo con términos cuadráticos e interacción:

  • I(educ^2) resulta positivo y significativo.
  • I(exper^2) y I(tenure^2) resultan negativos y significativos.
  • El (R^2) aumenta de aproximadamente 0,316 a aproximadamente 0,391, lo que indica un mejor ajuste global.

Interpretación económica:

  • El término cuadrático positivo en educación sugiere que los retornos a la educación podrían ser crecientes a niveles altos de escolaridad (por ejemplo, educación universitaria y posgrado), lo cual es consistente con la idea de que ciertos títulos (profesionales, maestrías) generan saltos adicionales en el salario.
  • Los términos cuadráticos negativos en experiencia y antigüedad indican rendimientos decrecientes: los primeros años de experiencia y permanencia en la empresa tienen efectos salariales más fuertes que los años adicionales, coherente con la curva de aprendizaje y la saturación del capital humano específico.
  • La interacción educ:exper no es significativa, lo que sugiere que, en este conjunto de datos, el efecto de la experiencia sobre el salario no varía de forma estadísticamente clara con el nivel educativo (al menos en esta especificación).

Desde el punto de vista econométrico, el aumento en (R^2) y la significancia de varios términos cuadráticos apoyan la idea, sugerida por la prueba RESET, de que la forma funcional estrictamente lineal en los regresores puede ser demasiado restrictiva.

5. conclusiones

En síntesis:

En un contexto aplicado, este tipo de ejercicio muestra cómo un economista puede pasar de un modelo lineal simple a especificaciones más realistas, apoyándose en los supuestos del MRLM/MRLS, en las pruebas de diagnóstico y en la teoría económica subyacente para justificar transformaciones logarítmicas y formas funcionales no lineales.