Se usa la base wage1 de Wooldridge, que contiene
información de salarios por hora en el mercado laboral estadounidense
junto con características individuales de los trabajadores (años de
educación formal, experiencia potencial y antigüedad en el empleo, entre
otras).
La variable dependiente es el salario por hora wage y
las explicativas que se consideran en el modelo básico son:
educ: años de educación formal completados.exper: experiencia laboral potencial (en años).tenure: antigüedad con el empleador actual (en
años).En vez de modelar directamente wage, se trabaja con el
logaritmo natural del salario
lwage = log(wage). Esta transformación tiene tres
motivaciones:
El modelo log-lineal planteado es:
\[ \ln(wage_i) = \beta_0 + \beta_1,educ_i + \beta_2,exper_i + \beta_3,tenure_i + u_i. \]
En este contexto, \[(\beta_1)\], \[(\beta_2)\] y \[(\beta_3)\] son semielasticidades: aproximadamente, un aumento de una unidad en cada regresor se traduce en un cambio porcentual en el salario, manteniendo constantes las demás variables.
##
## Call:
## lm(formula = lwage ~ educ + exper + tenure, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.05802 -0.29645 -0.03265 0.28788 1.42809
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.284360 0.104190 2.729 0.00656 **
## educ 0.092029 0.007330 12.555 < 2e-16 ***
## exper 0.004121 0.001723 2.391 0.01714 *
## tenure 0.022067 0.003094 7.133 3.29e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4409 on 522 degrees of freedom
## Multiple R-squared: 0.316, Adjusted R-squared: 0.3121
## F-statistic: 80.39 on 3 and 522 DF, p-value: < 2.2e-16
Los coeficientes estimados son aproximadamente:
educ: 0.092exper: 0.0041tenure: 0.0221y las medidas de ajuste del modelo:
## R^2 = 0.316
## R^2 ajustado = 0.312
Dado que la variable dependiente está en logaritmos y las explicativas están en niveles, los coeficientes se pueden interpretar como aproximaciones a cambios porcentuales:
El coeficiente de educ es aproximadamente:
0.092.
El coeficiente de exper es aproximadamente
0.0041.
El coeficiente de tenure es aproximadamente
0.0221.
El intercepto (aproximadamente 0.284) representa el valor esperado de \[(\ln(wage))\] cuando todas las explicativas son cero. Su interpretación directa no es muy interesante económicamente (pocos individuos tienen 0 años de educación, experiencia y tenure), pero es necesaria para la estructura del modelo.
En conjunto, el modelo captura un patrón típico: el salario responde fuertemente a la educación, moderadamente a la antigüedad y en menor medida a la experiencia potencial.
En términos de ajuste global, el (R^2) en torno a 0,316 indica que cerca del 31–32% de la variación en el logaritmo del salario se explica por estas tres variables. El resto se atribuye a factores no observados (habilidades, calidad del empleo, sector, localización, preferencias, etc.), por lo que el modelo debe interpretarse como una primera aproximación parsimoniosa, no como una explicación exhaustiva de los salarios.
##
## RESET test
##
## data: m_ols
## RESET = 6.5566, df1 = 2, df2 = 520, p-value = 0.001541
En los resultados se obtiene un estadístico RESET aproximadamente 6,56 con p-valor aproximadamente 0,0015. Esto implica rechazar la hipótesis nula de correcta especificación lineal al 1% de significancia: hay indicios de que podrían faltar términos no lineales (por ejemplo, cuadrados o interacciones) o variables omitidas relevantes.
Esto no invalida inmediatamente el modelo básico, pero sí sugiere que conviene explorar especificaciones alternativas (como las que se estudian en la sección 4, con términos cuadráticos e interacciones).
Gráficos componente + residuo:
Figura 1. Gráficos componente + residuo (residuos parciales) para cada regresor en el modelo log-lineal.
Interpretación: si las curvas son aproximadamente rectas alrededor de cero y no muestran curvaturas sistemáticas, la relación condicional entre \[(\ln(wage))\] y cada regresor es compatible con una forma funcional lineal. Ciertas curvaturas sugerirían, en cambio, la conveniencia de añadir términos no lineales (como (exper^2) o (tenure^2)), lo que está en línea con lo que sugiere la prueba RESET.
Gráficos de residuos parciales con suavizamiento loess:
Figura 2. Residuos parciales con suavizamiento loess para educ, exper y tenure en el modelo log-lineal.
Interpretación: las curvas loess permiten ver de forma flexible si hay curvaturas importantes. Si se observa que, por ejemplo, la pendiente se aplana o se invierte a altos niveles de experiencia o tenure, esto respalda la inclusión de términos cuadráticos para capturar rendimientos decrecientes o crecientes.
##
## studentized Breusch-Pagan test
##
## data: m_ols
## BP = 10.761, df = 3, p-value = 0.01309
##
## studentized Breusch-Pagan test
##
## data: m_ols
## BP = 6.6953, df = 2, p-value = 0.03517
Los resultados son:
En ambos casos se rechaza la hipótesis nula de homocedasticidad al 5% de significancia. Esto indica que la varianza de los errores no es constante a lo largo del rango de valores ajustados; en la práctica, los errores tienden a ser más dispersos para ciertos grupos de individuos (por ejemplo, salarios más altos).
Gráfico residuos vs ajustados:
Figura 3. Residuos frente a valores ajustados del modelo log-lineal.
Interpretación: si el gráfico muestra un patrón en abanico (residuos con mayor dispersión para ciertos valores ajustados), se refuerza la evidencia de heterocedasticidad. Este diagnóstico motiva el uso de errores estándar robustos y la estimación WLS como correcciones econométricas.
##
## Shapiro-Wilk normality test
##
## data: resid_ols
## W = 0.98946, p-value = 0.000787
## Warning: Non-normality of residuals detected (p < .001).
El test de Shapiro–Wilk arroja p-valor aproximadamente 0,0008 (muy pequeño), por lo que se rechaza la hipótesis de normalidad exacta de los residuos. Sin embargo, el tamaño muestral es relativamente grande (más de 500 observaciones), de modo que gracias a resultados asintóticos la inferencia basada en OLS sigue siendo razonable, especialmente si se corrigen los errores estándar por heterocedasticidad.
Gráfico Q-Q:
Figura 4. Gráfico Q-Q de los residuos del modelo log-lineal.
Interpretación: pequeñas desviaciones en las colas indican cierta asimetría o colas pesadas; aun así, si el grueso de los puntos sigue la recta, la aproximación normal es aceptable.
## educ exper tenure
## 1.112771 1.477618 1.349296
## [1] 121.4176
En los resultados se obtienen VIF en torno a 1,1–1,5 y un número de condición aproximadamente 121. Esto indica:
educ,
exper y tenure están razonablemente
identificados de manera separada.##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.2843596 0.1117069 2.5456 0.01120 *
## educ 0.0920290 0.0079212 11.6181 < 2.2e-16 ***
## exper 0.0041211 0.0017459 2.3605 0.01862 *
## tenure 0.0220672 0.0037820 5.8348 9.461e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Comparando con los errores estándar clásicos, los robustos (HC1) son
ligeramente mayores, en particular para el intercepto y
tenure. Aun así:
educ sigue siendo altamente significativo (t
aproximadamente 11,6; p < 0,01).exper se mantiene significativo al 5%.tenure sigue siendo muy significativo (t
aproximadamente 5,8; p < 0,01).Interpretación económica: la magnitud de los efectos (9,2% por año adicional de educación, 0,4% por año de experiencia y 2,2% por año de antigüedad) es robusta a la presencia de heterocedasticidad. Lo que cambia es la precisión con la que se estiman estos efectos, pero no la conclusión cualitativa.
##
## Call:
## lm(formula = lwage ~ educ + exper + tenure, data = df, weights = w)
##
## Weighted Residuals:
## Min 1Q Median 3Q Max
## -1.4462 -0.1972 -0.0138 0.1653 1.0700
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.617451 0.081185 7.606 1.33e-13 ***
## educ 0.064118 0.005825 11.008 < 2e-16 ***
## exper 0.004495 0.001602 2.805 0.00521 **
## tenure 0.022870 0.003432 6.665 6.76e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.279 on 522 degrees of freedom
## Multiple R-squared: 0.2722, Adjusted R-squared: 0.268
## F-statistic: 65.08 on 3 and 522 DF, p-value: < 2.2e-16
En el modelo WLS se observa que:
educ baja de aproximadamente 0,092 a
aproximadamente 0,064.exper pasa de aproximadamente 0,0041 a aproximadamente
0,0045.tenure se mantiene en torno a 0,022–0,023.Interpretación económica:
El (R^2) de WLS es algo menor que el de OLS (aproximadamente 0,27 vs 0,32), lo que indica un ajuste ligeramente inferior, pero el objetivo de WLS es mejorar la eficiencia en presencia de heterocedasticidad más que maximizar el (R^2).
##
## Call:
## lm(formula = lwage ~ educ + exper + tenure + I(educ^2) + I(exper^2) +
## I(tenure^2) + educ:exper, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.92471 -0.23971 -0.03199 0.26951 1.32299
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.134e-01 3.445e-01 2.651 0.00826 **
## educ -4.632e-02 4.631e-02 -1.000 0.31766
## exper 3.225e-02 1.030e-02 3.132 0.00183 **
## tenure 3.524e-02 7.139e-03 4.936 1.08e-06 ***
## I(educ^2) 5.625e-03 1.601e-03 3.514 0.00048 ***
## I(exper^2) -6.430e-04 1.203e-04 -5.347 1.35e-07 ***
## I(tenure^2) -5.643e-04 2.462e-04 -2.292 0.02232 *
## educ:exper -9.517e-05 5.930e-04 -0.160 0.87255
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4177 on 518 degrees of freedom
## Multiple R-squared: 0.3908, Adjusted R-squared: 0.3825
## F-statistic: 47.46 on 7 and 518 DF, p-value: < 2.2e-16
En el modelo con términos cuadráticos e interacción:
I(educ^2) resulta positivo y significativo.I(exper^2) y I(tenure^2) resultan
negativos y significativos.Interpretación económica:
educ:exper no es significativa, lo que
sugiere que, en este conjunto de datos, el efecto de la experiencia
sobre el salario no varía de forma estadísticamente clara con el nivel
educativo (al menos en esta especificación).Desde el punto de vista econométrico, el aumento en (R^2) y la significancia de varios términos cuadráticos apoyan la idea, sugerida por la prueba RESET, de que la forma funcional estrictamente lineal en los regresores puede ser demasiado restrictiva.
En síntesis:
En un contexto aplicado, este tipo de ejercicio muestra cómo un economista puede pasar de un modelo lineal simple a especificaciones más realistas, apoyándose en los supuestos del MRLM/MRLS, en las pruebas de diagnóstico y en la teoría económica subyacente para justificar transformaciones logarítmicas y formas funcionales no lineales.