ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE:
DETERMINANTES DE LA
PRODUCTIVIDAD LABORAL
<b>Integrantes:</b><br>
Juan Esteban Ochoa Triana (202341718)<br>
Melissa Betancourt España (202415345)<br>
Oscar Fabián Bravo Ceron (202517472)<br>
Susana Sanchez Gaona (2437978)

Introducción y Variables

  • Productividad Laboral: mide la producción por unidad de mano de obra (PIB por persona empleada), reflejando capacidad productiva, nivel tecnológico y eficiencia del factor trabajo.
  • Objetivo: Identificar las características estructurales del mercado que explican la productividad laboral.
  • Año de Análisis: 2019 — último año previo a la pandemia de COVID-19.
  • Regiones Estudiadas: Europa y Asia Central (40 países) vs. Latinoamérica y el Caribe (17 países): alta vs. baja formalización laboral.
Variable Dependiente

gdp_employed — PIB por persona empleada en USD PPP 2017

Variable Independiente
  • Empleo en servicios (% del empleo total)
  • Empleo en industria (% del empleo total)
  • Empleo a tiempo parcial (% del empleo total)
  • Trabajadores familiares contribuyentes (% del empleo total)
  • Relación empleo/población, 15+ años (%)

Ecuación del modelo de regresión lineal múltiple

\[\hat{Y}_i = \beta_0 + \beta_1\,\text{emp\_services}_i + \beta_2\,\text{emp\_industry}_i + \beta_3\,\text{part\_time}_i + \beta_4\,\text{family\_workers}_i + \beta_5\,\text{emp\_ratio\_total}_i + \varepsilon_i\]

  • \(\hat{Y}_i\) — es el PIB por persona empleada estimado para el país \(i\)
  • \(\beta_0\) — es el intercepto del modelo
  • \(\beta_1,\ldots,\beta_5\) — son los coeficientes asociados a cada variable independiente
  • \(\varepsilon_i\) — es el término de error aleatorio

Resultados
Descriptivos

Estadísticas Descriptivas Generales

  • Alta dispersión en gdp_employed (desv. std = 61% de la media).
  • family_workers muestra fuerte asimetría positiva (media 3.7% vs. mediana 1.3%).
n mean sd min median max
gdp_employed 57 71451.23 35777.03 16168.40 68452.30 147541.96
emp_services 57 66.37 8.78 47.22 66.02 87.69
emp_industry 57 22.53 5.28 13.70 21.89 36.21
part_time 57 28.42 9.37 13.44 27.19 51.99
family_workers 57 3.85 4.32 0.03 1.93 14.74
emp_ratio_total 57 57.45 7.67 39.69 57.26 72.26

Distribución de la Variable Dependiente

  • Distribución asimétrica positiva (sesgo derecho): la mayoría de países se concentra entre 30,000 y 80,000 USD.
  • La cola derecha pronunciada confirma la presencia de valores atípicos superiores a 150,000 USD.
  • Media > Mediana → los valores extremos altos arrastran el promedio hacia arriba.
  • No se observa una moda única claramente definida, sino una densidad distribuida en el rango intermedio.

Comparación por Región

  • El boxplot evidencia una brecha en el PIB por persona empleada entre regiones.
  • Europa y Asia Central presenta mayor productividad laboral, con mediana de 78.000 USD y mayor dispersión.
  • Se observan valores atípicos altos, asociados a economías con productividad elevada.
  • Latinoamérica y el Caribe muestra menor productividad, con mediana cercana a 33.000 USD y menor variabilidad.
  • La región influye significativamente en la productividad laboral.

Relación entre empleo industrial y productividad

  • Europa y Asia Central: relación negativa con alta dispersión interna, mayor heterogeneidad estructural.
  • Latinoamérica y el Caribe: relación levemente positiva pero débil, concentrada en niveles de productividad significativamente más bajos.
  • La gráfica evidencia diferencias estructurales claras entre regiones tanto en nivel como en comportamiento.

Matriz de Correlaciones

  • emp_services: correlación positiva más fuerte con gdp_employed, a mayor empleo en servicios, mayor productividad.
  • part_time: correlación positiva moderada, asociado a mercados laborales flexibles y desarrollados.
  • family_workers: correlación negativa importante con emp_services: refleja sustitución entre formalidad e informalidad.
  • emp_industry: correlación moderada, influencia menos fuerte que el sector servicios.

Resultados
del Modelo

Estimación de Coeficientes

summary(modelo)
## 
## Call:
## lm(formula = gdp_employed ~ emp_services + emp_industry + part_time + 
##     family_workers + emp_ratio_total, data = data_2019)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -56068 -19228    251  22851  64038 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)  
## (Intercept)     -98646.7    51692.1  -1.908   0.0620 .
## emp_services      1359.1      527.1   2.579   0.0129 *
## emp_industry       898.3      756.5   1.187   0.2406  
## part_time          634.7      440.1   1.442   0.1554  
## family_workers   -1614.9     1094.2  -1.476   0.1461  
## emp_ratio_total    832.6      536.4   1.552   0.1268  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 29100 on 51 degrees of freedom
## Multiple R-squared:  0.3974, Adjusted R-squared:  0.3383 
## F-statistic: 6.725 on 5 and 51 DF,  p-value: 6.987e-05

Estimación de Coeficientes — Residuos y Error

Residual standard error: 29,505 on 51 degrees of freedom

Min 1Q Median 3Q Max
-65026 -12621 -3041 9747 127721
Error Estándar Residual

29,505 USD: el modelo se equivoca en promedio ~29,505 USD respecto al valor real, equivalente al 42% de la media (esperable dada la alta heterogeneidad).

Análisis del Residuo del Modelo

La mediana de −3,041 USD indica que el modelo tiende a sobreestimar levemente la productividad, aunque este sesgo es mínimo. Los valores extremos (mín. −65,026 USD y máx. +127,721 USD) corresponden a economías cuya productividad real se aleja significativamente de lo predicho.

Interpretación de Coeficientes

  • emp_industry (+2,679 USD): confirma que la industria genera mayor valor agregado por trabajador que la agricultura o el sector informal.
  • part_time (+1,334 USD): el trabajo parcial es característico de economías avanzadas con mercados laborales flexibles y bien regulados.
  • family_workers (+2,848 USD): signo contrario al esperado teóricamente, puede deberse a efectos de interacción. Interpretar con cautela.
  • emp_ratio_total (−1,480 USD): mayor participación laboral sin capital suficiente reduce la productividad por rendimientos decrecientes. Coherente con la teoría económica.

emp_services (+3,803 USD): por cada p.p. adicional de empleo en servicios, la productividad aumenta en promedio 3,803 USD. Es la variable más significativa (p < 0.001). Un país que pase del 60% al 70% en servicios aumentaría su productividad predicha en ~38,033 USD.

Variable Estimado Error_Std t_valor p_valor
(Intercept) -98646.70 51692.07 -1.908 0.06198
emp_services 1359.05 527.07 2.579 0.01285
emp_industry 898.32 756.51 1.187 0.24055
part_time 634.72 440.15 1.442 0.15540
family_workers -1614.85 1094.20 -1.476 0.14614
emp_ratio_total 832.64 536.45 1.552 0.12682

Bondad de ajuste

  • El modelo explica el 56.1% de la variabilidad del PIB por persona empleada entre países.
  • El R² ajustado de 0.5183 penaliza por el número de parámetros y confirma un ajuste moderado-alto, razonable para datos de corte transversal con alta heterogeneidad.
  • El F-estadístico es altamente significativo (p < 0.001) → el modelo en conjunto tiene poder explicativo real.
  • El RSE de 29,505 USD representa el error promedio de predicción (~42% de la media: esperable dado que se trabaja con economías muy heterogéneas).
Indicador Valor
0.3974
R² Ajustado 0.3383
F-estadístico 6.725
p-valor del modelo 6.99e-05

Evaluación de
supuestos

Multicolinealidad (VIF)

  • Ninguna variable supera el umbral crítico de 10, no hay multicolinealidad severa.
  • emp_services presenta el valor más alto (5.21): moderado y esperable dado que el empleo en servicios está relacionado estructuralmente con las demás variables sectoriales.
  • family_workers (4.29), aceptable.
  • emp_industry (2.69), part_time (1.56) y emp_ratio_total (1.42), bajos, aportan información independiente entre sí.
Variable VIF Diagnostico
emp_services 1.414 Bajo
emp_industry 1.056 Bajo
part_time 1.124 Bajo
family_workers 1.475 Bajo
emp_ratio_total 1.118 Bajo

Normalidad de residuos

  • Se rechaza la hipótesis nula de normalidad (W = 0.805, p < 0.001).
  • La zona central (~−1 a 1 en cuantiles teóricos) se ajusta razonablemente a la línea roja; la mayoría de países se comporta dentro de lo esperado.
  • La cola derecha se desplaza hacia arriba: economías con productividades excepcionalmente altas generan residuos extremos positivos.
  • Con n = 57, el Teorema Central del Límite ofrece cierta robustez al modelo; la limitación debe reconocerse al hacer inferencia formal.

Homocedasticidad

  • No se rechaza la hipótesis nula de homocedasticidad (p = 0.102 > 0.05), la varianza de los residuos es estadísticamente constante.
  • El gráfico confirma este resultado: los puntos se distribuyen de forma aleatoria alrededor de la línea cero, sin patrón de embudo ni de curva.
  • Los puntos extremos en valores ajustados altos corresponden a los países más productivos y son casos puntuales, no una tendencia sistemática del modelo.
  • Los errores estándar de los coeficientes están correctamente calculados y los p-valores son confiables.

Conclusiones

Hallazgos económicos
  • Existe una brecha estructural de productividad entre regiones: Europa y Asia Central duplica a Latinoamérica y el Caribe.
  • El sector servicios es el principal motor de productividad laboral.
  • Alta participación laboral sin respaldo de capital/tecnología reduce la productividad por trabajador.
  • La distribución es asimétrica: un grupo pequeño de países concentra productividades excepcionalmente altas.
Hallazgos estadísticos
  • Todas las variables son estadísticamente significativas (p < 0.05).
  • El modelo explica el 56% de la variabilidad observada.
  • No hay problemas graves de multicolinealidad ni heterocedasticidad.

Gracias
por su atención