Introducción

La productividad laboral es un factor clave para analizar el nivel de desarrollo económico de los países y el Producto Interno Bruto por persona empleada permite medir la eficiencia del trabajo y comparar el desempeño económico entre diferentes economías.

En este sentido, la estructura del empleo, es decir, la distribución de los trabajadores entre sectores como la agricultura, la industria y formas de empleo como el trabajo familiar o el empleo vulnerable, puede influir significativamente en los niveles de productividad. De acuerdo con datos del World Bank, los países con mayor participación en sectores más productivos tienden a presentar mejores resultados económicos.

El objetivo de este trabajo es analizar la relación entre la estructura del empleo y la productividad laboral para un conjunto de países en el año 2013. Para ello, se realiza un análisis descriptivo de las variables y se estima un modelo de regresión lineal en R, con el fin de identificar los factores que influyen en el PIB por persona empleada.

Metodología

Las variables que se escogio son: Employment in agriculture (% of total employment); Employment in industry (% of total employment); Contributing family workers, total (% of total employment); Vulnerable employment, total (% of total employment); Employers, total (% of total employment).

La distribución del empleo entre sectores productivos tiene un impacto importante sobre la productividad. El sector agrícola suele caracterizarse por menores niveles de mecanización, menor incorporación de tecnología y menor valor agregado por trabajador, especialmente en economías en desarrollo. En contraste, el sector industrial tiende a presentar mayores niveles de capital físico, innovación tecnológica y economías de escala, lo que permite generar mayores niveles de producción por trabajador.

Además de la estructura sectorial del empleo, la calidad del empleo también influye en el desempeño productivo de una economía. El empleo vulnerable, que incluye trabajadores por cuenta propia y trabajadores familiares no remunerados, suele caracterizarse por bajos niveles de estabilidad laboral, menor acceso a protección social y menores niveles de productividad. Una alta proporción de empleo vulnerable puede reflejar la presencia de informalidad laboral y limitaciones estructurales del mercado de trabajo, lo cual afecta negativamente la eficiencia económica.

En este contexto, la presencia de trabajadores familiares contribuyentes también se asocia con menores niveles de productividad, ya que este tipo de empleo suele desarrollarse en unidades productivas de pequeña escala, con bajos niveles de capital y limitada capacidad de generación de valor agregado.

Por otro lado, la proporción de empleadores dentro del total de trabajadores puede interpretarse como un indicador de dinamismo empresarial y capacidad emprendedora dentro de la economía. Un mayor número de empleadores puede reflejar la existencia de más unidades productivas, mayor inversión y generación de empleo, factores que contribuyen positivamente al crecimiento económico y a la productividad laboral.

Para el analisis de regresion lineal se tiene el siguiente modelo:

\[ \begin{align} GDP_i &= \beta_0 + \beta_1(emp\_agri_i) + \beta_2(emp\_ind_i) \\ &+ \beta_3(contri\_fam_i) + \beta_4(vulnerable_i) \\ &+ \beta_5(employers_i)+ \varepsilon_i \end{align} \]

En esta ecuación, GDPi representa la productividad laboral del país 𝑖. El término 𝛽0 es el intercepto del modelo, mientras que 𝛽1, 𝛽2, 𝛽3, 𝛽4 y 𝛽5 representan el efecto de cada variable explicativa sobre la productividad laboral. Finalmente, 𝜀𝑖 representa la parte de la variación que el modelo no logra explicar.

Filtración de la base de datos

Inicialmente se filtro la base de datos para el año 2013 eliminando datos que solo contenian puntos, posteriormente, se clasifico los países según su ubicación geográfica para finalmente seleccionar los países la región y las variables escogidas.

datos<- read_excel("~/R/Taller 1/2013 Taller 1.xlsx")
datos
latam <- c("Argentina","Bahamas, The","Barbados","Belize","Bolivia",
           "Brazil","Chile","Colombia","Costa Rica","Dominican Republic",
           "Ecuador","El Salvador","Guatemala","Guyana","Haiti",
           "Honduras","Jamaica","Mexico","Nicaragua","Panama",
           "Paraguay","Peru","Suriname","Uruguay","Venezuela")

europa <- c("Austria","Belgium","Bulgaria","Croatia","Cyprus","Czechia",
            "Denmark","Estonia","Finland","France","Germany","Greece",
            "Hungary","Ireland","Italy","Latvia","Lithuania",
            "Luxembourg","Netherlands","Norway","Poland","Portugal",
            "Romania","Slovakia","Slovenia","Spain","Sweden",
            "Switzerland","United Kingdom")

asia_central <- c("Armenia","Azerbaijan","Georgia","Kazakhstan",
                  "Kyrgyz Republic","Tajikistan","Turkmenistan",
                  "Uzbekistan")
datos$Region <- "Otra"

datos$Region[datos$`Country Name` %in% latam] <- "Latinoamérica y el Caribe"
datos$Region[datos$`Country Name` %in% europa] <- "Europa"
datos$Region[datos$`Country Name` %in% asia_central] <- "Asia Central"

datos$Region[datos$`Country Name` %in% c("Puerto Rico",
                                         "St. Lucia","St. Vincent and the Grenadines",
                                         "Trinidad and Tobago")] <- "Latinoamérica y el Caribe"

datos$Region[datos$`Country Name` %in% c("Albania","Bosnia and Herzegovina",
                                         "Iceland","Montenegro","North Macedonia",
                                         "Serbia","Slovak Republic","Turkiye","Ukraine")] <- "Europa"

datos$Region[datos$`Country Name` %in% c("Belarus","Moldova",
                                         "Russian Federation")] <- "Asia Central"
datos <- datos[!datos$`Country Name` %in% c("Canada","United States"), ]

base_final <- datos %>%
  select(
    country = `Country Name`,
    region = Region,
    gdp = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
    emp_agri = `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`,
    emp_ind = `Employment in industry (% of total employment) (modeled ILO estimate) [SL.IND.EMPL.ZS]`,
    contri_fam= `Contributing family workers, total (% of total employment) (modeled ILO estimate) [SL.FAM.WORK.ZS]`,
    vulnerable = `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`,
    employers = `Employers, total (% of total employment) (modeled ILO estimate) [SL.EMP.MPYR.ZS]`
  )
base_final

Análisis Descriptivo

Las estadísticas descriptivas permiten comprender el comportamiento general de las variables analizadas entre los países incluidos en la muestra.

Variables Cuantitativas

Las variables analizadas son:

  1. PIB por persona empleada (gdp)
  2. Empleo en agricultura (emp_agri)
  3. Empleo en industria (emp_ind)
  4. Trabajadores familiares contribuyentes (contri_fam)
  5. Empleo vulnerable (vulnerable)
  6. Empleadores (employers)

Estadísticas básicas

Para comprender el comportamiento de las variables numéricas se hace un resumen con las estadísticas básicas:

Histogramas

Los histogramas permiten observar la distribución de las variables entre los países analizados.

ggplot(base_final, aes(x = gdp)) +
geom_histogram(fill = "#BF4932", color = "black", bins = 10) +
labs(title = "Distribución del PIB por persona empleada",
     x = "PIB",
     y = "Frecuencia") +
theme_minimal()

El PIB por persona empleada presenta una distribución asimétrica hacia la derecha, lo que indica que la mayoría de los países se concentran en niveles bajos y medios de productividad,mientras que un grupo reducido alcanza valores altos. Esto evidencia la existencia de diferencias de productividad entre economías.

ggplot(base_final, aes(x = emp_agri)) +
geom_histogram(fill = "#9AB858", color = "black", bins = 10) +
labs(title = "Distribución del empleo en la agricultura",
     x = "Empleo en la agricultura",
     y = "Frecuencia") +
theme_minimal()

El empleo en agricultura muestra una distribución sesgada positivamente ya que se presenta un asimetría hacia la derecha, con una alta concentración de países en niveles bajos y algunos con valores elevados. Esto indica que solo ciertas economías dependen fuertemente de este sector.

ggplot(base_final, aes(x = emp_ind)) +
geom_histogram(fill = "#6E85C4", color = "black", bins = 10) +
labs(title = "Distribución del empleo en la industria",
     x = "Empleo en la industria",
     y = "Frecuencia") +
theme_minimal()

El empleo en industria presenta una distribución más concentrada en valores intermedios, lo cual indica que la mayoría de los países tienen una participación moderada de este sector.

ggplot(base_final, aes(x = contri_fam)) +
geom_histogram(fill = "#AD1F03", color = "black", bins = 10) +
labs(title = "Distribución de trabajadores familiares contribuyentes ",
     x = "Trabajadores familiares contribuyentes",
     y = "Frecuencia") +
theme_minimal()

La variable de trabajadores familiares contribuyentes presenta una asimetría hacia la derecha, evidenciando que en la mayoría de los países este tipo de empleo es reducido, aunque existen casos donde tiene una participación considerable.

ggplot(base_final, aes(x = vulnerable)) +
geom_histogram(fill = "#CF770E", color = "black", bins = 10) +
labs(title = "Distribución del empleo vulnerable",
     x = "Empleo vulnerable",
     y = "Frecuencia") +
theme_minimal()

La distribución del empleo vulnerable presenta una clara asimetría positiva o sesgo hacia la derecha,lo que indica que la mayoría de las observaciones se concentran en niveles bajos de vulnerabilidad laboral, mientras que un grupo reducido alcanza valores altos.Esto demuestra una diferencia en la calidad del empleo entre las distintas unidades analizadas.

ggplot(base_final, aes(x = employers)) +
geom_histogram(fill = "#C7B43E", color = "black", bins = 10) +
labs(title = "Distribución de empleadores",
     x = "Empleadores",
     y = "Frecuencia") +
theme_minimal()

El gráfico de distribución de empleadores revela una asimetría positiva hacia la derecha, lo que refleja que la mayoría de las unidades se agrupan en los tramos más bajos de empleadores, mientras que solo unos pocos casos registran valores elevados. Esto evidencia que en la mayoría de los países la generación de empleo está en manos de una pequeña proporción de la población.

Diagrama Box Plot

Los diagramas de caja permiten comparar las variables entre las regiones consideradas:

I. Latinoamérica y el Caribe II. Europa III. Asia Central

ggplot(base_final, aes(x = region, y = gdp, fill = region)) +
geom_boxplot() +
labs(title = "PIB por región",
     x = "Región",
     y = "PIB por persona empleada") +
theme_minimal()

En el gráfico correspondiente PIB por región, se observa que Europa presenta los niveles más altos de productividad laboral, con una mediana que supera ampliamente a la de las otras dos regiones. Además, muestra una mayor dispersión y presencia de valores atípicos superiores, lo que indica que algunos países europeos alcanzan niveles de productividad excepcionalmente altos. Por su parte, Latinoamérica y el Caribe y Asia Central presentan medianas similares y más bajas, con una dispersión más reducida y sin valores extremos pronunciados, esto demuestra que el desarrollo de los países europeos incide en una mayor productividad.

ggplot(base_final, aes(x = region, y = emp_agri, fill = region)) +
geom_boxplot() +
labs(title = "Empleo en la agricultura por región",
     x = "Región",
     y = "Empleo en la agricultura") +
theme_minimal()

En la gráfica empleo en la agricultura por región se evidencia que Asia Central es la región con mayor proporción de empleo agrícola, mostrando una mediana elevada y una amplia dispersión, junto con algunos valores atípicos superiores. Latinoamérica y el Caribe ocupa una posición intermedia, mientras que Europa presenta los valores más bajos y una dispersión mínima, reflejando economías donde el sector agrícola tiene menor peso relativo en el empleo total.

ggplot(base_final, aes(x = region, y = emp_ind, fill = region)) +
geom_boxplot() +
labs(title = "Empleo en la industria por región",
     x = "Región",
     y = "Empleo en la industria")+
theme_minimal()

El diagrama de caja de empleo en industria muestra que la región de Europa presenta una mediana mayor a las regiones de Asia Central y Latinoamérica y el caribe, mostrando estas últimas una mediana similar con la diferencia de variabilidad , pues es Asia central quien tienen mayor dispersión de datos como sucede con Europa. El avance tecnológico demuestra que las grandes ciudades ya desarrolladas pueden ofrecer un empleo mayor en el sector de la industria.

ggplot(base_final, aes(x = region, y = contri_fam, fill = region)) +
  geom_boxplot() +
  labs(title = "Trabajadores familiares contribuyentes por región",
       x = "Región",
       y = "Trabajadores familiares contribuyentes") +
  theme_minimal()

En la gráfica trabajadores familiares contribuyentes se observa que Asia Central destaca por tener la mediana más alta y la mayor dispersión en esta variable, lo que indica una presencia relevante de empleo familiar no asalariado en esa región. Latinoamérica y el Caribe presenta una mediana intermedia con dispersión moderada. Europa, en cambio, muestra valores cercanos a cero y una dispersión prácticamente nula, reflejando la baja incidencia de este tipo de empleo en las economías europeas.

ggplot(base_final, aes(x = region, y = vulnerable, fill = region)) +
  geom_boxplot() +
  labs(title = "Empleo vulnerable por región",
       x = "Región",
       y = "Empleo vulnerable ") +
  theme_minimal()

El gráfico empleo vulnerable por región evidencia que tanto Asia Central como Latinoamérica y el Caribe presentan niveles altos de empleo vulnerable, observando las medianas que presentan y una dispersión considerable. En contraste, Europa muestra valores muy reducidos, con una mediana cercana al 10% y una dispersión baja, lo que refleja mercados laborales con mayor formalidad y protección social.

ggplot(base_final, aes(x = region, y = employers, fill = region)) +
  geom_boxplot() +
  labs(title = "Empleadores por región",
       x = "Región",
       y = "Empleadores") +
  theme_minimal()

Finalmente, en la empleadores por región se observa que Latinoamérica y el Caribe lidera la proporción de empleadores, con una mediana superior a la de las otras regiones y una dispersión moderada. Europa ocupa una posición cercana a la mediana de Latinoamérica y el Caribe, mientras que Asia Central presenta los valores más bajos, lo que podría estar asociado con menor dinamismo empresarial y una mayor presencia de empleo por cuenta propia no empleador.

Variables Categóricas

En esta seccción se encuentran los países que fueron clasificados en regiones por ubicación geográfica.

Frecuencia para cada región

tabla_region <- as.data.frame(table(base_final$region))
tabla_region

El porcentaje que representa cada región es:

prop.table(table(base_final$region)) * 100

             Asia Central                    Europa Latinoamérica y el Caribe 
                 14.47368                  48.68421                  36.84211 

Diagrama circular

ggplot(base_final, aes(x = "", fill = region)) +
  geom_bar(width = 1) +
  coord_polar("y") +
  geom_text(stat = "count",
            aes(label = scales::percent(..count../sum(..count..))),
            position = position_stack(vjust = 0.5)) +
  theme_void() +
  labs(title = "Distribución de países por región")

De acuerdo a los porcentajes, la base de datos filtrada indica que aproximadamente la mitad correponde a la región de Europa y la otra mitad contiene los paises de las otras regiones. Con el 37% la región de Latinoamerica y el caribe y el 14% la región de Asia central.

Matriz de correlación

La matriz de correlación permite analizar la relación lineal entre las variables incluidas en el modelo. Los valores cercanos a 1 indican una correlación positiva fuerte, mientras que valores cercanos a -1 indican una correlación negativa fuerte. Valores cercanos a 0 indican una relación débil entre las variables.

vars <- base_final[, c("gdp","emp_agri","emp_ind","contri_fam","vulnerable","employers")]
round(cor(vars),2)
             gdp emp_agri emp_ind contri_fam vulnerable employers
gdp         1.00    -0.66    0.04      -0.45      -0.66      0.12
emp_agri   -0.66     1.00   -0.31       0.83       0.86     -0.18
emp_ind     0.04    -0.31    1.00      -0.35      -0.43     -0.04
contri_fam -0.45     0.83   -0.35       1.00       0.81     -0.03
vulnerable -0.66     0.86   -0.43       0.81       1.00     -0.05
employers   0.12    -0.18   -0.04      -0.03      -0.05      1.00
correlaciones <- cor(vars)
corrplot(correlaciones,
         method = "color",
         type = "upper",
         addCoef.col = "black",
         tl.col = "black")

Se calculó la matriz de correlación entre las variables del modelo con el fin de identificar posibles problemas de multicolinealidad. Se observan correlaciones moderadas entre algunas variables relacionadas con la estructura del empleo, lo cual es esperado dado que los sectores económicos representan proporciones del empleo total. Sin embargo, las correlaciones no superan niveles críticos, por lo que las variables se mantienen en el modelo para su análisis.

Resultados del Modelo

Con el objetivo de analizar la relación entre la estructura del empleo y la productividad laboral, se estimó un modelo de regresión lineal múltiple donde la variable dependiente es el PIB por persona empleada (GDP per person employed), utilizado como indicador de productividad laboral entre países.

En primer lugar, se presenta la estimacion del modelo con el summary.

modelo2<- lm(gdp ~ emp_agri + emp_ind + contri_fam + vulnerable + employers, 
             data = base_final)
summary(modelo2)

Call:
lm(formula = gdp ~ emp_agri + emp_ind + contri_fam + vulnerable + 
    employers, data = base_final)

Residuals:
   Min     1Q Median     3Q    Max 
-53052 -14981  -1055  10562 128437 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 147193.85   16616.57   8.858 4.81e-13 ***
emp_agri     -1712.56     556.76  -3.076 0.002993 ** 
emp_ind      -1687.53     553.72  -3.048 0.003253 ** 
contri_fam    2430.02     787.65   3.085 0.002912 ** 
vulnerable   -1638.35     408.77  -4.008 0.000151 ***
employers      -65.97    1417.28  -0.047 0.963009    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 25620 on 70 degrees of freedom
Multiple R-squared:  0.5926,    Adjusted R-squared:  0.5635 
F-statistic: 20.36 on 5 and 70 DF,  p-value: 1.728e-12

Posteriormente, se presenta la tabla de coeficientes.

modelo2<- lm(gdp ~ emp_agri + emp_ind + contri_fam + vulnerable + employers, 
             data = base_final)

tabla_modelo <- as.data.frame(summary(modelo2)$coefficients)

tabla_modelo$Variable <- rownames(tabla_modelo)

tabla_modelo <- tabla_modelo[, c("Variable",
                                 "Estimate",
                                 "Std. Error",
                                 "t value",
                                 "Pr(>|t|)")]
colnames(tabla_modelo) <- c("Variable",
                            "Coeficiente",
                            "Error_estandar",
                            "t",
                            "p_valor")
tabla_modelo$Significancia <- ifelse(tabla_modelo$p_valor < 0.001, "***",
                                     ifelse(tabla_modelo$p_valor < 0.01, "**",
                                            ifelse(tabla_modelo$p_valor < 0.05, "*", "")))
library(knitr)

kable(tabla_modelo,
      caption = "**Resultados del modelo de regresión**")
Resultados del modelo de regresión
Variable Coeficiente Error_estandar t p_valor Significancia
(Intercept) (Intercept) 147193.84699 16616.5721 8.8582559 0.0000000 ***
emp_agri emp_agri -1712.55603 556.7637 -3.0759117 0.0029931 **
emp_ind emp_ind -1687.52970 553.7195 -3.0476255 0.0032527 **
contri_fam contri_fam 2430.02344 787.6463 3.0851711 0.0029124 **
vulnerable vulnerable -1638.34990 408.7744 -4.0079565 0.0001509 ***
employers employers -65.96597 1417.2763 -0.0465442 0.9630091

Análisis de resultados del modelo

Los resultados del modelo indican que variables como el empleo en agricultura, industria, trabajadores familiares y empleo vulnerable tienen un efecto significativo sobre la productividad laboral. En particular, el empleo vulnerable presenta una relación negativa y altamente significativa, lo que nos dice que mayores niveles de informalidad laboral reducen la productividad. Por otro lado, la variable de empleadores no resultó estadísticamente significativa, indicando que no tiene un impacto relevante en la explicación del PIB.

R2

El modelo estimado presenta un R² de aproximadamente 0.5926, lo que indica que cerca del 59,26% de la variación en la productividad laboral entre los países analizados puede explicarse por las variables incluidas en el modelo. Este resultado sugiere que la estructura del empleo tiene un papel importante en la explicación de las diferencias de productividad entre economías.

F-Test

El F-test permite evaluar la significancia global del modelo. Un valor p pequeño indica que, en conjunto, las variables explicativas contribuyen significativamente a explicar las variaciones del PIB por persona empleada. El valor que resulta para este modelo es p-value: 1.728e-12 por tanto se cumple que p-valor<0.05

Evaluación de supuestos

Adicionalmente, se evaluaron los principales supuestos del modelo de regresión lineal, incluyendo la homocedasticidad, la normalidad de los residuos y la multicolinealidad entre las variables explicativas. El análisis de los diagnósticos permite identificar posibles limitaciones del modelo, particularmente relacionadas con la correlación entre algunas variables de empleo, lo cual es esperable dado que varias de ellas representan diferentes categorías dentro de la estructura laboral.

Normalidad

plot(modelo2, 2)

shapiro.test(residuals(modelo2))

    Shapiro-Wilk normality test

data:  residuals(modelo2)
W = 0.885, p-value = 4.887e-06

Para evaluar la normalidad de los residuos se realizo el grafico Q-Q en el que los puntos deben seguir la linea recta, en este caso, hay puntos que estan bastante alejados como es el caso con el dato 44. por otro lado, se aplicó la prueba de Shapiro-Wilk. El resultado arrojó un p-value de 4.887e-06, menor al nivel de significancia de 0.05, por lo que se rechaza la hipótesis nula de normalidad. Esto indica que los residuos del modelo no siguen una distribución normal. Sin embargo, dado el tamaño de la muestra y el carácter exploratorio del análisis, el modelo puede seguir utilizándose para interpretar las relaciones entre las variables.

Homocedasticidad

plot(modelo2, 3)

bptest(modelo2)

    studentized Breusch-Pagan test

data:  modelo2
BP = 9.4253, df = 5, p-value = 0.09326

Para verificar si la varianza de los errores es constante se realiza iniciacialmente el grafico, si se observa una nube se puede afirmar que existe la homocedasticidad, en este caso, tiene una tendecia a curvearce sin embargo no es tan pronunciada, ademas se realizo el test en el que se evidencia que el p-valor es de 0.09 que cumple que p-valor>0.05 por lo tanto, se cumple el supuesto de homocedasticidad.

Multicolinealidad

vif(modelo2)
  emp_agri    emp_ind contri_fam vulnerable  employers 
  5.415950   1.261794   3.736981   4.830757   1.104022 

Los valores del VIF muestran que no existe multicolinealidad severa en el modelo. Todas las variables presentan valores inferiores a 10, lo que indica que las variables explicativas no están altamente correlacionadas entre sí. Aunque la variable de empleo agrícola presenta el valor más alto (VIF ≈ 5.4), este aún se encuentra dentro de un rango aceptable para la estimación del modelo.

Conclusiones

En general, se observa que la distribución del empleo entre los distintos sectores productivos tiene un impacto importante sobre el nivel de productividad. Particularmente, una mayor participación del empleo en sectores con mayor valor agregado tiende a asociarse con mayores niveles de productividad económica, mientras que, variables asociadas con formas de empleo más precarias o informales, como el empleo vulnerable o el trabajo familiar no remunerado, pueden reflejar economías con menor nivel de desarrollo productivo.

Esto sugiere que la estructura del mercado laboral es un elemento clave para explicar las diferencias en productividad entre países.

Mediante el modelo de regresión lineal fue posible identificar la dirección y magnitud del efecto de las variables explicativas sobre la variable dependiente. Además, el análisis de significancia estadística permitió evaluar cuáles variables presentan mayor relevancia en la explicación de la productividad, por lo tanto, sí, el modelo econométrico permitió analizar la relación entre la estructura del empleo y la productividad laboral, lo cual corresponde al objetivo de la investigación.

Cabe resaltar que, aunque el modelo ofrece evidencia útil para comprender los factores asociados a la productividad laboral, los resultados deben interpretarse como una aproximación al fenómeno estudiado y no como una explicación completa del mismo.

Bibliografía

Mankiw, N. G. (2006). Principios de Economia. McGraw-Hill Interamericana.

World Bank. (2023). World Development Indicators.Recuperado de https://data.worldbank.org/