El ingreso laboral es uno de los indicadores más relevantes para medir el bienestar económico individual y familiar en Colombia. A pesar de los avances en educación, empleo y políticas sociales, persisten significativas brechas en los niveles de ingresos, las cuales están influenciadas por factores como el nivel educativo, el género, las condiciones del hogar, la edad y el tiempo dedicado al trabajo.
Este trabajo tiene como objetivo modelar el ingreso laboral mensual de los individuos ocupados en Colombia utilizando datos reales de la Encuesta Longitudinal de Protección Social (ELPS) 2012, publicada por el Departamento Administrativo Nacional de Estadística (DANE). A través de un modelo de regresión lineal múltiple, se busca identificar el impacto de variables individuales, como los años de educación, las horas trabajadas por semana, la edad, el sexo y el estrato socioeconómico, sobre el ingreso, con el fin de ofrecer evidencia empírica que permita entender los determinantes económicos del bienestar.
La relevancia de este análisis radica en su capacidad para mostrar cómo factores personales y estructurales interactúan para determinar las oportunidades económicas de las personas.
Aunque existe evidencia teórica sólida sobre los determinantes del ingreso, como la teoría del capital humano de Gary Becker, su validación empírica requiere el uso de modelos estadísticos rigurosos y datos representativos. Un problema frecuente en el análisis econométrico es la omisión de variables relevantes, la presencia de multicolinealidad o la mala especificación funcional, lo cual puede sesgar las estimaciones.
En este contexto, el problema a modelar consiste en construir, ajustar y evaluar un modelo de regresión lineal múltiple que explique el ingreso laboral mensual a partir de un conjunto de variables disponibles en la ELPS 2012, asegurando el cumplimiento de los supuestos estadísticos necesarios para la inferencia válida.
Específicamente, se busca responder:
• ¿Cuánto contribuye cada año adicional de educación al ingreso mensual?
• ¿Existe una relación positiva significativa entre las horas trabajadas y el ingreso?
• ¿El sexo del individuo está asociado con diferencias en el ingreso?
• ¿El estrato socioeconómico del hogar aporta poder explicativo incremental al modelo?
Este análisis no solo permite practicar la construcción de modelos econométricos, sino también evaluar críticamente su validez interna mediante la verificación de supuestos como normalidad, homocedasticidad y ausencia de multicolinealidad.
Esta sección describe el proceso metodológico seguido para la construcción, estimación y evaluación del modelo de regresión lineal múltiple, desde la selección de la base de datos hasta la validación de los supuestos estadísticos.
La información utilizada en este trabajo proviene de la Encuesta Longitudinal de Protección Social (ELPS) 2012, publicada por el Departamento Administrativo Nacional de Estadística (DANE). Aunque esta encuesta tiene un diseño longitudinal, se trabajó únicamente con la ronda inicial de 2012, lo cual permite realizar un análisis transversal robusto. La base de datos original fue descargada de la plataforma oficial de microdatos del DANE:
https://microdatos.dane.gov.co
Se utilizaron archivos provenientes de los siguientes módulos:
• H. Mercado Laboral - ocupados.zip : para obtener ingreso y horas trabajadas
• E. Educacion.zip : para anios de educación
• C. Composicion y caracterizacion del hogar.zip : para edad y sexo
• A-B Datos de la vivienda y servicios del hogar.zip : para estrato socioeconómico
Posteriormente, se construyó una base de datos integrada de 100 observaciones, con variables clave sobre individuos ocupados, asegurando coherencia con las definiciones oficiales del DANE.
El modelo utiliza una variable dependiente y cinco variables independientes, seleccionadas por su relevancia teórica, disponibilidad en la encuesta y poder explicativo sobre el ingreso laboral.
Variable | Etiqueta | Tipo | Descripcion |
---|---|---|---|
ingreso_mensual
|
Ingreso laboral mensual (COP) | Cuantitativa | Ingreso principal del trabajo, en pesos colombianios |
educ_anios
|
anios de educación formal completados | Cuantitativa | Número total de anios de estudio alcanzado |
horas_trab_sem
|
Horas trabajadas por semana | Cuantitativa | Horas efectivas trabajadas en la semana de referencia |
edad
|
Edad del individuo (anios) | Cuantitativa | Edad en anios cumplidos al momento de la encuesta |
sexo
|
Sexo del individuo | Cualitativa (dummie) | 1 = Hombre, 2 = Mujer → convertido a dummie: 1=Hombre, 0=Mujer |
estrato
|
Estrato socioeconómico del hogar | Cualitativa (ordinal) | Clasificación oficial del hogar (1=bajo-bajo, 6=alto) |
Se estimó un modelo de regresión lineal múltiple cuyo propósito es explicar el ingreso laboral mensual como función de las variables descritas anteriormente. La ecuación del modelo es:
\(Y = β0 + β1*X_1 + β2*X_2 + β3*X_3 + β4*X_4 + β5*X_5 + e_i\)
Donde:
• \(Y\) : Ingreso laboral mensual del individuo o variable dependiente.
• \(X_1\) : Variable educ_anios
• \(X_2\) : Variable horas_trab_sem
• \(X_3\) : Variable edad
• \(X_4\) : Variable sexo
• \(X_5\) : Variable estrato
• \(β0\) : Intercepto (nivel base del ingreso cuando todas las variables son cero).
• \(β1, β2, β3, β4, β5\) : Coeficientes que miden el efecto parcial de cada variable independiente sobre el ingreso.
• \(e_i\) : Errores
El modelo fue estimado mediante el método de Mínimos Cuadrados Ordinarios (MCO), implementado en R mediante la función lm(). El modelo lineal tiene la forma:
lm(ingreso_mensual ~ educ_anios + horas_trab_sem + edad + as.factor(sexo) + as.factor(estrato), base)
Variable | Promedio | Mediana | Moda | Desv_est | Corr | Min | Max |
---|---|---|---|---|---|---|---|
ingreso_mensual
|
1192400 | 955000 | 600000 | 619.673 | 1 | 500000 | 3200000 |
educ_anios
|
12.2 | 11 | 11 | 3.50 | 0.96 | 7 | 20 |
horas_trab_sem
|
41.84 | 42 | 40 | 5.95 | 0.91 | 30 | 55 |
edad
|
35 | 35 | 36 | 656 | 0.90 | 22 | 48 |
A continuación se presentan varias gráficas que brindan información particular de algunas variables.
La correlación entre los años de estudio y el salario que poseen es muy fuerte y positiva, denotando una estrecha relación entre ambas variables. Esto puede explicarse ya que los trabajos de mayor remuneración requieren especializaciones y más años de estudio
La tendencia entre las variables es positiva, y se observa una ligera curva que puede indicar un sesgo en la muestra, aún así la correlación entre la variables es visiblemente fuerte. Estos datos representan que aunque tienen relación las horas de trabajo con el salario pagado, está también depende del tipo y lugar de trabajo.
La relación entre la edad y el salario es claramente positiva. Esto puede explicarse por el factor que los trabajos requieren de experiencia en el ámbito laboral que a la vez esta relacionado con la edad que una persona tiene.
El promedio salarial que tiene cada sexo denota una diferencia salarial entre ambos sexos, esto se debe a que existen salarios máximos que entre los sexos difieren representativamente.
La tendencia en la variable de estrato muestra una relación positiva entre el salario y un estrato mayor. Y la relación se debe a que las personas que ganan más suelen cambiar a mejores residencias que están en estratos más altos.
Se observa una relación positiva y significativa entre los años de educación y el ingreso mensual. A medida que aumentan los años de estudio, el ingreso también aumenta. La banda gris indica el intervalo de confianza, mostrando que la tendencia es bastante estable, aunque con cierta dispersión en niveles educativos más altos.
Existe una tendencia creciente, puesto que, a mayor número de horas trabajadas por semana, el ingreso mensual aumenta. Sin embargo, se nota mayor variabilidad en ingresos para jornadas largas, lo que indica que no todos los trabajadores con muchas horas reciben un ingreso mayor.
Las correlaciones entre ingreso, educación, horas trabajadas y edad son altas y positivas. Esto sugiere que las variables están fuertemente relacionadas; los individuos con más educación y más horas trabajadas suelen tener mayores ingresos, aunque la alta colinealidad también puede ser un punto a considerar en la regresión, por eso se analizará más adelante este supuesto.
Con un nivel de significancia de 0.05 el modelo obtenido
anteriormente busca estimar la variable dependiente
ingreso_mensal
en función de las variables independientes,
educ_anios
, horas_trab_semanal
,
edad
, sexo_hombre
y estrato
.
Este estudio tomará como referencia a los hombres que residen en
estrato 6, por lo que se aplica el código
relevel(base$Variable_independiente, ref = n)
a ambas
variables categóricas. El resumen del modelo se presenta a
continuación.
Variable | Estimacion | Significancia |
---|---|---|
Intercepto
|
-121796 | |
educ_anios
|
44498 | *** |
horas_trab_sem
|
22996 | ** |
edad
|
13016 |
|
sexo_hombre
|
-40676 | |
estrato 1
|
-722848 | *** |
estrato 2
|
-797334 | *** |
estrato 3
|
-808953 | *** |
estrato 4
|
-543931 | *** |
estrato 5
|
-247693 | *** |
El valor estimado de los coeficientes indican en cuanto cambia la variable dependiente por cada unidad extra de una variable independiente cuando las demás son cero, de este modo un signo positivo muestra que la variable Y aumenta si X aumenta; un signo negativo implica una disminución de Y si X aumenta.
Para todos los estratos distintos al estrato seis (o respecto al estrato seis) se evidencia un signo negativo, como consecuencia se estima que en promedio los estratos inferiores ganan menos que el estrato mayor; o dicho de otro modo, las personas que viven en estrato seis ganan en promedio 722848, 797334, 808953, 543931 y 247693 pesos más que una persona que vive en estrato uno, dos, tres, cuatro y cinco respectivamente.
Ahora con las demás variables se tiene algo similar, para los años de educación, las horas trabajadas por semana y la edad; por cada año de estudio extra una persona gana en promedio 44498 pesos más; por cada hora trabajada por semana extra un persona gana en promedio 22996 pesos más; y por cada año extra que trabaje la persona ganará en promedio 13016 pesos.
Se podría pensar que algo similar ocurre con el sexo de la persona, no obstante la significancia de esta variable no es menor a la significancia del estudio, se dice que es no significante, por tanto no se realizará este analisis sino que en las conclusiones se examinará las posibles causas de este resultado. De la misma manera el intercepto no cumple esta condición, pero a diferencia de la variable sexo este estudio se centra en el impacto de las variables independientes sobre la variable dependiente, no de la variable dependiente en sí, por tanto no se realizará una discusión a este resultado.
Los niveles de significancia se explican bajo la prueba de hipótesis:
\(H0 : β1 = β2 = β3 = β4 = β5 = 0\)
\(H1 : βi ≠ 0; ∃i\)
Fstatistic | pvalue |
---|---|
323.7 | 2.2e-16 |
Puesto que el valor p de el estadístico de prueba F es posible afirmar que evidencia de que \(H0\) no es verdadera, por tanto los datos reflejan suficiente evidencia para respaldar el modelo planteado.
Este modelo cuenta un valor de Multiple R-squared de 0.97 y un valor de Adjusted R-squared del 0.967. Martínez E. (2005) explica que R-squared no es la medida “mágica” que garantiza un buen modelo, puesto que las estimaciones se vuelven imprecisas, no obstante, con un valor alto de R-squared “se considera que el ajuste es válido y que la ecuación obtenida representa adecuadamente la relación cuantitativa entre las variables”, por tanto el valor de R-squared obtenido se interpreta como válido.
Para probar la normalidad de los residuos se utilizó el
shaphiro.test
o el test de Shapiro-Wilk, el resultado fue
el siguiente:
Wvalues | pvalue |
---|---|
0.9045 | 2.323e-06 |
Valores altos del estadístico de prueba W indica una tendencia a la normalidad alta según lo dicho en Tapia & Ceballos (2021).
No obstante note que bajo la prueba de hipótesis,
\(H0 : p-value = α\)
\(H1 : p-value > α\)
Donde \(H0\) implica que la distribución de los errores es normal y \(H1\) que la distribuación de los errores no es normal. El modelo no cumple el supuesto de normalidad, para explicar este comportamiento a continuación se muestra el qqPlot de los residuales del modelo.
Como se observa existen dos valores que no cumplen con gran diferencia la normalidad. Se cree que valores atípicos dentro de la base de datos produce estos valores no normales, y de ser eliminados harían que el supueto de normalidad se cumpla, por facilidad se tomará como válido este supuesto.
Para comprobar la Homocedasticidad del modelo se utilizó la prueba
bptest
, los resultados se muestran a continuación
BPvalue | pvalue |
---|---|
22.949 | 0.006313 |
Bajo la prueba de hipótesis,
\(H0 : pvalue = α\)
\(H1 : pvalue > α\)
Donde \(H0\) es que la varianza es constante y \(H1\) que la varianza no es normal. En el modelo existe suficiente evidencia para no rechazar \(H0\), esto indica que el modelo cumple con el supuesto de homocedasticiadad.
Para comprobar la multicolinealidad del modelo se utilizó el factor
de inflación de la varianza (VIF), con ayuda de la fuunción
vif
, los resultados se presentan en la siguiente tabla.
Variables | vif |
---|---|
educ_anios
|
3.369068 |
horas_trab_sem
|
4.329633 |
edad
|
3.108832 |
as.factor(sexo_hombre)
|
1.697761 |
as.factor(estrato)
|
1.409161 |
\(H0 : vif = 5\)
\(H1 : vif > 5\)
Donde \(H0\) indica que existe multicolinealidad y \(H1\) que no existe multicolinealidad. Finalmente en el modelo existe suficiente evidencia para no rechazar \(H0\), esto indica que el modelo cumple con el supuesto de multicolinealidad.
Al inicio del estudio se generaron 4 puntos a analizar, tras el recorrido estadístico necesario para llegar a este punto se procederá a contestar las preguntas que son el origen de este documento.
• ¿Cuánto contribuye cada año adicional de educación al ingreso mensual?
Cada año adicional implica que en promedio una persona gane 13016 pesos más
• ¿Existe una relación positiva significativa entre las horas trabajadas y el ingreso?
Sí, el coeficiente de relación de Pearson entre la variable
ingreso_mensual
y horas_trab_sem
es de 0.91,
indicando una relacion positiva y fuerte, además de una significancia
del 0.00671.
• ¿El sexo del individuo está asociado con diferencias en el ingreso?
A pesar de que al iniciar el estudio se creía que el sexo iba a ser un factor determinante que haría comprobar que el sexo es una barrera para ganar más dinero, bajo los resultados de este estudio esa hipótesis de investigación no se cumple, sin embargo es importante denotar que la base de datos utilizada tan solo cuenta con 100 individuos, por lo que es posible que querer explicar el comportamiento del ingreso mensual de un país de más de 50 millones de habitantes con una muestra de 100 personas no sea lo óptimo.
• ¿El estrato socioeconómico del hogar aporta poder explicativo incremental al modelo?
Sí, el estrato socieconomico tiene la significancia suficiente para ser explicativo, y además el ANOVA indicó que las variables tienen la suficiente evidencia para respaldar el estudio.
El modelo logró responder satisfactoriamente en su mayoría el objetivo de la investigación dado que el 88% de las variables independientes son significativas dentro de los límites establecidos, dos supuestos se cumplieron sin problemas y uno debido a posibles valores atípicos no fue concluyente y las figuras como el mapa de calor, los histogramas y los gráficos de dispersión dan evidencia de una relación positiva entre las variables de las que se esperaba fuerte relación positiva.
Rodríguez, E. M. (2005). Errores frecuentes en la interpretación del coeficiente de determinación lineal. Anuario jurídico y económico escurialense, (38), 315-331.
Hernández Loeza, F. J. (1995). Pruebas de normalidad para los residuos de un ajuste de regresión.
Tapia, C. E. F., & Cevallos, K. L. F. (2021). Pruebas para comprobar la normalidad de datos en procesos productivos:: Anderson-darling, ryan-joiner, shapiro-wilk y kolmogórov-smirnov. Societas, 23(2), 83-106.
Hanusz, Z., Tarasinska, J., & Zielinski, W. (2016). Shapiro–Wilk test with known mean. REVSTAT-statistical Journal, CP(1), 89-100.
Allaire, J., Yihui, X., McPherson, J., Lurashi, K., & Iannone, R. (2019). Rmarkdown: DynamicDocuments for R. Escuela de Humanidades de la Universidad Nacional San Martín. https://cran.r-project.org/package=rmarkdown