1 Introducción

La productividad laboral constituye un indicador clave en el análisis del desempeño económico, la competitividad y la calidad de vida (Isham, Mair, & Jackson, 2021). Comúnmente, la productividad laboral representa la cantidad de valor de mercado (la producción bruta, por ejemplo) que se puede generar a partir de una cantidad especifica de trabajo, desempeñando así, un papel fundamental en la comprensión y determinación de la manera en que las economías utilizan y distribuyen los recursos (Horizonte Laboral, s.f.).

Una de las medidas más precisas de la productividad laboral es el producto interno bruto dividido el empleo total o mejor conocido como el PIB por persona empleada, ajustado, además, a las tasas de paridad del poder adquisitivo de 2017, con el fin de tener en cuenta diferencias en los costos de vida entre los países.

Esta medida no se encuentra aislada, sino que está asociada con diferentes características del mercado laboral; tales como el nivel del capital humano, la calidad del empleo y la estructura sectorial, además de factores geográficos y diferencias regionales. En un año como 2016, periodo caracterizado por una reactivación mundial débil (marcada por tasas de crecimiento económico históricamente bajas, un crecimiento lento de la productividad y una fuerte devaluación de las monedas en economías emergentes) (Oficina Internacional del Trabajo, 2017), estas variables cobran una relevancia especial.

En este contexto, el presente informe busca analizar el comportamiento del PIB por persona empleada y su relación con ciertas variables laborales y geográficas, con el fin de determinar que variables están asociadas con mayores niveles de PIB por persona empleada.

2 Metodología

La metodología se centró en la aplicación de un enfoque cuantitativo que hizo uso de datos de 103 países correspondientes al año 2016, articulando un análisis descriptivo del PIB por persona empleada y de las variables que buscan explicar su comportamiento junto con la formulación de un modelo de regresión lineal.

Los datos utilizados para el enfoque cuantitativo tienen su origen en la base de datos Indicadores de Desarrollo Mundial (actualizada hasta el año 2022), siendo la principal recopilación del Banco Mundial de cifras sobre el desarrollo.

2.1 Descripción de variables utilizadas

Variable dependiente

PIB por persona empleada ($): definida como la variación de la producción calculada en términos de Producto Interior Bruto obtenida por unidad de trabajo, de acuerdo al número de personas empleadas. (DANE, s.f.).

Variables independientes

Empleo en industria (% de empleo total): indica la proporción de personas que realizan actividades que requieren de habilidades técnicas y operativas. Normalmente suele ser uno de los sectores con mayor peso dentro de la economía e indica el nivel de industrialización.
Empleo vulnerable (% de empleo total): precariedad, falta de protección social y baja remuneración. Está asociado a la informalidad, predominante en economías en desarrollo y de empleos de baja calidad.
Participación de mujeres en cargos de media y alta dirección (%) : implica equidad de género, diversidad e inclusión laboral. Refleja la igualdad de oportunidades, así como la ausencia o existencia de barreras estructurales e indica el nivel de aprovechamiento del capital humano.
Tasa de empleo respecto a la población, +15 (%): proporción de la población mayor a 15 años que esta empleada. Está asociada al grado de utilización de la fuerza laboral y captura la intensidad de empleo y la absorción laboral.
Total de empleadores (% de empleo total): refleja el nivel de emprendimiento, mide el tamaño del tejido empresarial y el grado de generación de empleo. Puede implicar informalidad.

Adicionalmente, se incluyó la variable Continente, con el fin de clasificar los paises según su ubicación geográfica. Esto permite identificar patrones y disparidades regionales.

# Librerias
library(ggplot2)
library(dplyr)
library(tidyr)
library(ggthemes)
library(colorspace)
library(scales)
library(showtext)
library(webr)
library(ggtext)
library(svglite)
library(readxl)
library(scales)
library(hrbrthemes)
library(naniar)
library(plotly)
library(forcats)
library(ggcorrplot)
library(corrplot)
library(gt)
library(rstatix)
library(knitr)
library(kableExtra)
library(nortest)
library(lmtest)
library(car)

# Tipografia
font_add("segoe", regular = "C:/Windows/Fonts/segoeui.ttf") 
font_add("segoe_b", regular = "C:/Windows/Fonts/segoeuib.ttf")
showtext_auto()

# Base de datos
Base_de_datos_Taller1 <- read_excel("Base de datos - Taller1.xlsx", 
                                    col_types = c("numeric", "text", "text", 
                                                  "text", "numeric", "numeric", "numeric", 
                                                  "numeric", "numeric", "numeric"))
View(Base_de_datos_Taller1)

Base_de_datos_Taller1 <- Base_de_datos_Taller1 %>%
  mutate(Continente = as.factor(Continente))
View(Base_de_datos_Taller1)

2.2 Modelo de regresión lineal

Con el objetivo de analizar los factores que influyen en la productividad laboral, se estimó un modelo de regresión lineal múltiple. La variable dependiente es el PIB por persona empleada, mientras que las variables independientes describen la estructura del mercado laboral.

$PBI\ por\ persona\ empleada_{i}$ = $β_{0}$ + $β_{1}$ (Mujeres empleadas en puestos de media y alta dirección) + $β_{2}$ (Total de empleadores) + $β_{3}$ (Tasa de empleo respecto a la población, 15+) + $β_{4}$ (Empleo vulnerable)+ $β_{5}$ (Empleo en la industria) + $γD_{i}$ + $ε_{i}$

Donde:

$β_{0}$ es el término constante del modelo o valor de ajuste.
$β_{k}$ son los coeficientes correspondientes a cada variable independiente.
γ es la diferencia promedio en el PIB entre el continente al que pertence el país y el continente base (Latinoamérica y el Caribe).
$D_{i}$ es la variable que indica el continente al que pertence el país.
$ε_{i}$ es el término de error aleatorio.

datos_modelo <- Base_de_datos_Taller1 %>%
  select(GDP_por_persona_empleada,
         Mujeres_alta_direccion,
         Total_empleadores,
         Radio_empleo,
         Empleo_vulnerable,
         Empleo_industria, 
         Continente) %>%
  na.omit()


datos_modelo$Continente2 <-factor(datos_modelo$Continente)
datos_modelo$Continente2 <- relevel(datos_modelo$Continente2, ref = 4)

modelo2 <- lm(GDP_por_persona_empleada ~ Mujeres_alta_direccion +
               Total_empleadores +
               Radio_empleo +
               Empleo_vulnerable +
               Empleo_industria + 
               + as.factor(Continente2),
             data = datos_modelo)

3 Resultados descriptivos

3.1 Calidad de los datos y representación geográfica

Antes de profundizar en el análisis de las variables, es importante dimensionar la calidad de los datos disponibles.

Faltantes <- Base_de_datos_Taller1 %>%
  select(-Año, -Pais, -Codigo_pais, -Continente)
View(Faltantes)

Faltantes_grafico <- gg_miss_var(Faltantes) +
  geom_text(aes(y = n_miss,label = n_miss), vjust = -0.8, color = "#4c4c7b", size = 10)  +
  scale_x_discrete(labels = c(Total_empleadores = "Total de empleadores",
                              Empleo_industria = "Empleo en la industria",
                              GDP_por_persona_empleada = "PIB por persona empleada",
                              Empleo_vulnerable = "Empleo vulnerable",
                              Mujeres_alta_direccion = "Mujeres empleadas en puestos\nde media y alta dirección",
                              Radio_empleo = "Tasa de empleo respecto a\nla población (15+)")) +

  labs(title = "¿Dónde faltan datos?",
       subtitle = "<span style='font-family:segoe_b;'>Disponibilidad desigual</span> de la información entre las variables de análisis",
    x = NULL, y = "Número de valores faltantes") +
  theme_minimal(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b", hjust = 0),
        plot.title.position = "plot",
        plot.subtitle = element_markdown(size = 28, color = "gray40", hjust = 0, 
                                         margin = margin(b = 15)),
        plot.subtitle.position = "plot",
        axis.title.x = element_text(size = 22, color = "gray35", margin = margin(t = 10)),
        axis.text.x = element_text(size = 25, color = "gray21"),
        axis.text.y = element_text(size = 25, color = "gray21", lineheight = 0.45),
        panel.grid.major.x = element_line(linewidth = .2, linetype = "dashed"),
        panel.grid.major.y = element_blank(),
        panel.grid.minor = element_blank(),
        plot.background = element_rect(fill = "white", color = NA),
        plot.margin = margin(15, 100, 10, 10))
Faltantes_grafico

En total, se identificaron 158 valores faltantes, lo que representa alrededor de un 26% respecto al total de observaciones en la base de datos.

Pese a que la mayoría de variables (4 de 6) presenta homogeneidad en el número de observaciones faltantes, también salta a la vista la notable disparidad con las variables restantes. Por un lado, el PIB por persona empleada, pese a su rol como variable objeto de estudio, ocupa el segundo puesto de este ranking, mientras que el primero lo ocupa la variable Mujeres empleadas en puestos de media y alta dirección.

Este hecho no solo reduce el tamaño efectivo de la muestra (limitando la representatividad del modelo), sino que sugiere la idea de que hay aspectos del mercado laboral mucho más difíciles de medir.

Distrib_geo <- Base_de_datos_Taller1 %>%
  count(Continente) %>%
  mutate(prop = (n/sum(n)))
View(Distrib_geo)

Distrib_geo <- Distrib_geo %>%
  mutate(Continente = fct_reorder(Continente, prop)) %>%
  arrange(desc(prop)) %>%
  mutate(posicion_label = cumsum(prop) - 0.5*prop)

Distrib_geo[5, "posicion_label"] <- 0.01
Distrib_geo[2, "posicion_label"] <- 0.7
View(Distrib_geo)


Distrib_geo_grafico <- ggplot(Distrib_geo, aes(x= 2, y = prop, fill = Continente)) + 
  
  geom_col() +
  coord_polar(theta = "y", start = 0) +
  scale_fill_discrete_sequential(palette = "Teal") +
  
  labs(title = "Predominancia en la representatividad geográfica",
       subtitle = "Europa y Latinoamérica concentran la mayor proporción de paises incluidos en el análisis") +
  
  geom_text(aes(x = 2.85, y = posicion_label, 
                label = scales::percent(prop, accuracy = 0.1)),
           family = "segoe_b", size = 10, color = "gray21") +

  theme_void(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b", 
                                  hjust = 0,
                                  margin = margin(l = -50)),
       
        plot.subtitle = element_markdown(size = 28, color = "gray40", hjust = 0, 
                                         margin = margin(t = 5, l = -50)),
        
        legend.title = element_blank(),
        legend.position = "right",
        legend.text = element_text(size = 28, color = "gray21"),
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        panel.grid.major.y = element_blank(),
        panel.grid.minor.y = element_blank(),
        plot.margin = margin(15, 80, 10, 10)) +
  xlim(0.5, 2.9)

Distrib_geo_grafico

Con el objetivo de contextualizar la muestra, se analiza la distribución geográfica de los 103 países incluidos en el estudio.

La base de datos estudiada presenta una marcada concentración geográfica: el 89% de los países pertenecen a las regiones de Europa y Latinoamérica y el Caribe. Por el contrario, regiones como Norteamérica y Asia Central tienen una representación minoritaria, lo que significa que las tendencias observadas reflejan principalmente el contraste entre el modelo de bienestar europeo y las economías emergentes americanas.

3.2 Análisis estadístico general

Contextualizada la muestra y revisada la calidad de los datos, se muestra a continuación, las estadísticas descriptivas de las variables.

Tabla_resumen <- Base_de_datos_Taller1 %>%
  select(-Año, -Pais, -Codigo_pais, -Continente) %>%

  get_summary_stats() %>%
  select(variable, n, min, max, median, mean, sd) %>%
  mutate(variable = dplyr::recode(variable,
                           GDP_por_persona_empleada = "PIB por persona empleada",
                           Total_empleadores = "Total de empleadores",
                           Empleo_industria = "Empleo en industria",
                           Empleo_vulnerable = "Empleo vulnerable",
                           Mujeres_alta_direccion = "Mujeres en media y alta dirección",
                           Radio_empleo = "Tasa de empleo (15+)")) %>%
  arrange(desc(n)) %>%
  gt() %>% 
  tab_header(title = md("Resumen descriptivo de las variables de análisis"),
             subtitle = md("Disponibilidad, magnitudes y dispersión de los datos")) %>% 
  cols_label(variable = "Variable", n = "N", min = md("Min"), max = md("Max"), 
             median = md("Mediana"), mean = md("Promedio"), sd = md("Desviación")) %>%  
  opt_align_table_header(align = "left") %>%
  cols_align(align = "left", columns = variable) %>%
  cols_align(align = "center", columns = c(-variable)) %>%
  fmt_number(columns = n,
             decimals = 0) %>%
  fmt_number(columns = c(min, max, median, mean, sd),
             decimals = 2) %>%
  fmt_number(columns = c(min, max, median, mean, sd), 
             rows = variable == "PIB por persona empleada",
             decimals = 0) %>%
  
  opt_table_font(font = "Segoe UI") %>%
  opt_table_lines("none") %>% 
  
  tab_style(style = cell_text(size = "small"),
            locations = list(cells_body(),
                             cells_column_labels())) %>%
  tab_style(style = cell_text(weight = "bold"),
             locations = cells_body(rows = variable == "PIB por persona empleada")) %>%
  tab_style(style = cell_text("#295675"),
            locations = cells_body()) %>%
  tab_style(style = cell_text(font = "Segoe UI", weight = "bold", color = "gray21"),
            locations = cells_title(groups = "title")) %>%
  tab_style(style = cell_text(font = "Segoe UI", color = "gray40"),
            locations = cells_title(groups = "subtitle")) %>%
  tab_style(style = cell_fill("white"),
            locations = cells_column_labels()) %>%
  
  
  tab_style(style = cell_fill(color = "#EFF2F6"),
                              locations = cells_body(columns = everything())) %>% 
  tab_style(style = cell_text(color = "#3C4967"),
            locations = list(cells_column_labels())) %>%
  
  tab_options(heading.padding = 0,
              heading.title.font.size = 19,
              heading.subtitle.font.size = 15) %>%
  
  tab_options(table_body.hlines.style = "solid", 
              table_body.hlines.width = 4, 
              table_body.hlines.color = "white",
              table_body.vlines.style = "solid", 
              table_body.vlines.width = 4, 
              table_body.vlines.color = "white") %>%
  
  tab_options(table_body.border.bottom.style = "solid",
              table_body.border.bottom.color = "white",
              table_body.border.bottom.width = 12) %>%
  
  tab_options(heading.border.bottom.style = "solid", 
              heading.border.bottom.width = 16, 
              heading.border.bottom.color = "white") %>%
  tab_options(table.align = "left")
Tabla_resumen

Variable	N	Min	Max	Mediana	Promedio	Desviación
Resumen descriptivo de las variables de análisis
Disponibilidad, magnitudes y dispersión de los datos
Total de empleadores	82	0.01	13.14	3.98	3.92	2.14
Empleo en industria	82	6.93	38.20	20.41	21.87	5.95
Empleo vulnerable	82	3.06	73.06	18.62	22.27	15.56
Tasa de empleo (15+)	82	32.11	75.43	56.22	54.88	7.70
PIB por persona empleada	78	8,317	251,479	52,071	61,348	40,848
Mujeres en media y alta dirección	54	14.00	52.30	33.05	32.96	8.21

Variables como el Empleo en industria y Empleo vulnerable muestran rangos amplios y cuentan con promedios superiores a las medianas. Por otro lado, variables como Mujeres empleadas en puestos de media y alta dirección y Tasa de empleo, aunque muestran rangos amplios, cuentan con promedios inferiores a las medianas: hay lugares donde la poca participación femenina y el desempleo es crítico.

Finalmente, está la variable Total de empleadores: rango reducido y promedio inferior a la media; ser empleador es una condición limitada.

Adicionalmente, esta tabla revela el alto nivel de variabilidad del PIB por persona empleada, reflejada en sus valores mínimos, máximos y de dispersión. Esto indica la existencia de brechas muy significativas en los niveles de productividad a nivel mundial.

3.3 Productividad laboral global

Distrib_GDP <- ggplot(Base_de_datos_Taller1, aes(x = Continente,
                                                 y = GDP_por_persona_empleada)) +
  geom_boxplot(notch = FALSE, color = "#3C4967") +
  stat_summary(fun = mean, geom = "point",
               shape = 8, size = 2.5, color = "#6384CA")  +
  labs(title = "PIB por persona empleada: ¿Una cuestión geográfica?",
       subtitle = "Diferencias regionales en los niveles del PIB y la dispersión de los valores") +
  
  scale_y_continuous(labels = dollar_format(prefix = "$ ")) +
  scale_x_discrete(limits = c("Asia Central", "Asia Occidental", "Latinoamérica y el Caribe", "Europa", "Norteamérica")) +
  
  theme_minimal(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b", 
                                  hjust = 0),
        plot.title.position = "plot",
        plot.subtitle = element_markdown(size = 28, color = "gray40", hjust = 0, 
                                         margin = margin(t = 2, b = 15)),
        plot.subtitle.position = "plot",
        axis.title.x = element_blank(),
        axis.title.y = element_blank(),
        axis.text.x = element_text(size = 24, color = "gray21"),
        axis.text.y = element_text(size = 25, color = "gray21"),
        plot.caption = element_markdown(size = 8, color = "gray50", hjust = 0),
        panel.grid.major.x = element_blank(),
        panel.grid.major.y = element_line(linewidth = .2, linetype = "dashed"),
        panel.grid.minor = element_blank(),
        plot.background = element_rect(fill = "white", color = NA),
        plot.margin = margin(15, 100, 10, 10))
Distrib_GDP

Nota: El asterisco representa la media.

En general, casi todos los continentes (a excepción de Norteamérica) muestran una distribución sesgada positivamente, implicando la existencia de países con altos niveles de PIB por persona empleada en todas las regiones.

Las disparidades regionales son claras. Norteamérica (representada principalmente por EE. UU.) mantiene una alta productividad. Europa presenta altos niveles de PIB, así como una mayor dispersión en comparación con otros continentes: es la región más productiva pero también la más desigual, mientras la mayoría de los países se agrupan en niveles de productividad medios, existe un país que duplica el rendimiento de sus vecinos.

En cambio, regiones como Asia Occidental y Latinoamérica, ubicadas en la parte baja de la escala, muestran niveles más bajos de dispersión, aunque cuentan con la presencia de valores atípicos, lo que sugiere la posibilidad de que el PIB no esta totalmente sujeto a la ubicación geográfica, pero evidencia dificultades generalizadas que impiden que se alcancen niveles europeos o norteamericanos.

Mejor <- Base_de_datos_Taller1 %>%
  select(Pais, Continente, GDP_por_persona_empleada) %>%
  slice_max(GDP_por_persona_empleada, n = 5) %>%
  arrange(desc(GDP_por_persona_empleada)) 

Peor <- Base_de_datos_Taller1 %>%
  select(Pais, Continente, GDP_por_persona_empleada) %>%
  slice_min(GDP_por_persona_empleada, n = 5) %>%
  arrange(desc(GDP_por_persona_empleada)) 

GPD_mejor_peor <- bind_rows(Mejor, Peor) %>%
  arrange(desc(GDP_por_persona_empleada))

GPD_mejor_peor <- GPD_mejor_peor %>%
  mutate(GDP_por_persona_empleada = round(GDP_por_persona_empleada, 0))

color <- c(rep("#2c6772", 5), rep("gray85", 5))

GPD_mejor_peor_grafico <- ggplot(GPD_mejor_peor, 
                                 aes(y = reorder(Pais, GDP_por_persona_empleada, 
                                                 .desc = TRUE),
                                     x = GDP_por_persona_empleada)) +
  
  geom_col(fill = color, width = 0.75) +
  
  geom_richtext(aes(label = scales::dollar(GDP_por_persona_empleada)), 
                color = color, fill = NA, label.color = NA, 
                hjust = 0, size = 8, show.legend = FALSE, alpha = 1,
                family = "segoe_b") +
  
  scale_x_continuous(expand = c(.01, .09), limits = c(0, 300000)) +
  
  labs(title = "Extremos del PIB por persona empleada",
       subtitle = "2 caras de la misma moneda: <span style='font-family:segoe_b;'>Luxemburgo y Haití</span>",
       x = NULL,
       y = NULL,
       caption = "") +
  
  theme_void(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b", 
                                  hjust = 0),
        plot.title.position = "plot",
        plot.subtitle = element_markdown(size = 28, color = "gray40", hjust = 0, 
                                         margin = margin(t = 5, b = 15)),
        plot.subtitle.position = "plot",
        
        axis.text.y = element_markdown(size = 25, color = "gray21", hjust = 1),
        axis.text.x = element_blank(),
        legend.text = element_blank(),
        legend.title = element_blank(),
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        panel.grid.major.y = element_blank(),
        panel.grid.minor.y = element_blank(),
        plot.margin = margin(15, 100, 10, 10))

GPD_mejor_peor_grafico

Este gráfico revela una brecha estructural profunda entre las naciones. Entre Luxemburgo y Haití se evidencia una brecha de más de 30 veces.

Los países europeos se posicionan como los lideres globales. En la cúspide de la productividad se encuentran Luxemburgo e Irlanda, cuyas cifras superan drásticamente el promedio global. El ranking sigue con países que poseen niveles similares del PIB: Noruega, Estados Unidos y Suiza, caracterizados por poseer mercados laborales especializados en industria avanzada y altos niveles de formalidad.

En contraste, están los países con los niveles más bajos de PIB por persona empleada. Por un lado, se encuentran los países pertenecientes a Latinoamérica: Honduras, Haití y el Salvador, caracterizados por poseer mercados laborales predominados por el subempleo y focalizados en el sector agrícola. Por otro lado, se encuentran los países pertenecientes a Asia Central: República de Kirguistán y Tayikistán, caracterizados por mercados focalizados en el sector agrícola y minero.

3.4 Relaciones entre variables

Extraccion_de_datos <- Base_de_datos_Taller1 %>%
  select(-Año, -Pais, -Codigo_pais, -Continente)
View(Extraccion_de_datos)

Correlacion <- cor(Extraccion_de_datos, use = "pairwise.complete.obs")
Correlacion_grafico <- ggcorrplot(Correlacion,
                                  hc.order = TRUE,
                                  type = "upper",
                                  lab = TRUE,
                                  lab_size = 6.5, 
                                  lab_col = "gray21",
                                  outline.color = NA, 
                                  colors = c("#3F7994", "#F7F7F7", "#3F7994")) +
  
  labs(title = "Dinámicas en el mercado laboral",
       subtitle = "Algunas correlaciones señalan que variables tienen potencial explicativo",
       x = NULL, y = NULL) +
  scale_y_discrete(expand = c(0,0),
                   labels = c(Total_empleadores = "Total empleadores",
                              Empleo_industria = "Empleo en industria",
                              GDP_por_persona_empleada = "PIB por persona\nempleada",
                              Empleo_vulnerable = "Empleo vulnerable",
                              Mujeres_alta_direccion = "Mujeres en media y\nalta dirección",
                              Radio_empleo = "Tasa de empleo (15+)")) +
  scale_x_discrete(expand = c(0,0), 
                   labels = c(Total_empleadores = "Total empleadores",
                              Empleo_industria = "Empleo en\nindustria",
                              GDP_por_persona_empleada = "PIB por persona\nempleada",
                              Empleo_vulnerable = "Empleo vulnerable",
                              Mujeres_alta_direccion = "Mujeres en\nmedia y\nalta dirección",
                              Radio_empleo = "Tasa de empleo\n(15+)")) +
  theme_minimal(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b", 
                                  hjust = 0, 
                                  margin = margin(l = -35)),
        plot.title.position = "plot",
        plot.subtitle = element_markdown(size = 28, color = "gray40", hjust = 0, 
                                         margin = margin(t = 5, b = 22, l = -35)),
        plot.subtitle.position = "plot",
        axis.text.x = element_text(size = 15, color = "gray21", lineheight = 0.5),
        axis.text.y = element_text(size = 15, color = "gray21", lineheight = 0.5),
        panel.grid.major.x = element_blank(),
        panel.grid.major.y = element_blank(),
        panel.grid.minor = element_blank(),
        legend.position = "right",
        legend.title = element_blank(),
        legend.text = element_text(size = 20, color = "gray21"),
        legend.key.height = unit(2, "cm"),
        legend.key.width = unit(0.5, "cm"),
        plot.background = element_rect(fill = "white", color = NA),
        plot.margin = margin(15, 260, 0, 20)) 
Correlacion_grafico

Uno de los principales hallazgos es la correlación negativa de -0.65 entre el PIB y el empleo vulnerable. Los datos confirman que el crecimiento económico es el motor más eficaz para la formalización laboral: En economías de baja productividad como Haití, el empleo vulnerable alcanza un alarmante 73%. En economías de alta productividad como Noruega o Estados Unidos, este indicador cae por debajo del 6%.

Asimismo, la estructura del empleo varía según la región. Mientras que países como Chequia o Eslovaquia mantienen una base industrial fuerte (superando el 36% del empleo total), las economías de mayor PIB tienden a estar volcadas casi exclusivamente a los sectores tecnológicos, de servicios y de industria avanzada.

Todo esto sugiere, que se debe considerar la calidad del empleo por encima de la cantidad.

GPD_mujeres <- Base_de_datos_Taller1 %>%
  mutate(Continente = fct_reorder(Continente, GDP_por_persona_empleada))

GPD_vs_Mujeres <- ggplot(GPD_mujeres, aes(x = GDP_por_persona_empleada, 
                                           y = Mujeres_alta_direccion, 
                                           color = Continente)) +
  
  geom_point(alpha = 0.8, size = 4) +
  
  scale_x_log10(limits = c(8000, 260000),
                breaks = c(8000, 20000, 50000, 100000, 200000),
                labels = dollar_format(prefix = "$")) +
  scale_y_continuous(limits = c(0, 60), 
                     breaks = seq(0, 60, by = 10), 
                     labels = function(x) paste0(x, "%")) +
  
  scale_color_manual(values = c("#D7E9F2", "#80B3BA", "#2B7483", "#2A5674", "#1A2F40")) +
  labs(title = "Liderazgo femenino vs PIB",
       subtitle = "Mayor inclusión no siempre se traduce en un aumento de la productividad",
       x = "PIB por persona empleada",
       y = "Mujeres en media y alta dirección",
       caption = "") +
  theme_ipsum(base_family = "segoe") +
  theme(plot.title = element_text(size = 35, color = "gray21", family = "segoe_b",
                                  margin = margin(b = 4)),
        plot.title.position = "plot",
        plot.subtitle = element_markdown(size = 28, color = "gray40", 
                                         margin = margin(b = 17)),
        plot.subtitle.position = "plot",
        axis.title.x = element_text(size = 22, color = "gray40"),
        axis.title.y = element_text(size = 22, color = "gray40"),
        axis.text.x = element_text(size = 25, color = "gray21", hjust = 0.),
        axis.text.y = element_text(size = 25, color = "gray21", hjust = 0,
                                   margin = margin(t = 5, r = 5)), 
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        panel.grid.major.y = element_line(color = "gray90", linetype = "dashed"),
        panel.grid.minor.y = element_blank(),
        legend.title = element_blank(),
        legend.text = element_text(size = 25, color = "gray21"),
        legend.background = element_blank(),
        plot.margin = margin(0, 30, 10, 10))
  GPD_vs_Mujeres

El análisis de las métricas de género ofrece una perspectiva contraintuitiva frente al desarrollo económico. A pesar de tener un PIB menor, la región de Latinoamérica y el Caribe lidera en equidad en puestos de mando:

Barbados (52.3%) y Santa Lucía (44.1%) presentan mayores porcentajes de mujeres en alta dirección que potencias como Alemania (28.1%) o Luxemburgo (14.9%). Esta realidad explica la correlación negativa de -0.42 entre el PIB y el liderazgo femenino encontrada en los mapas de calor: la riqueza nacional no garantiza automáticamente el ascenso de la mujer a la cúpula directiva.

Sin embargo, existe una correlación positiva (0.41) entre la tasa de empleo general y la dirección femenina, sugiriendo que la dinamización del mercado laboral sí favorece la inclusión.

4 Resultados del modelo

4.1 Resultados del Modelo de regresión

coeficientes <- summary(modelo2)$coefficients
coeficientes[ , "Estimate"] <- round(coeficientes[ , "Estimate"], 1)
coeficientes[ , "Std. Error"] <- round(coeficientes[ , "Std. Error"], 1)
coeficientes[ , "t value"] <- round(coeficientes[ , "t value"], 2)
coeficientes[ , 'Pr(>|t|)'] <- round(coeficientes[ , 'Pr(>|t|)'], 5)

rownames(coeficientes) <- c("Intercepto", "Mujeres en media y alta dirección", "Total de empleadores", "Tasa de empleo, 15+", "Empleo vulnerable", "Empleo en la industria", "Europa", "Norteamérica", "Asia Occidental")

colnames(coeficientes) <- c("Estimación", "Error estándar", "Valor t", "Pr(>|t|)")


kable(coeficientes, 
      digits = 5, 
      caption = "",
      align = c('l','c', 'c', 'c', 'c'),
      format = "html") %>%
  
  kable_paper(full_width = FALSE, html_font = "Segoe UI", position = "left") %>%
  row_spec(0, color = "#3C4967", bold = TRUE) %>%
  row_spec(1:9, color = "#295675") %>%
  
  column_spec(1, width = "18em") %>%
  column_spec(2:4, width = "7em")


	Estimación	Error estándar	Valor t	Pr(>\|t\|)
Intercepto	219086.9	50808.2	4.31	0.00009
Mujeres en media y alta dirección	-2431.7	562.9	-4.32	0.00009
Total de empleadores	-952.0	2173.5	-0.44	0.66352
Tasa de empleo, 15+	1015.9	578.9	1.75	0.08625
Empleo vulnerable	-1661.0	353.2	-4.70	0.00003
Empleo en la industria	-2509.7	669.0	-3.75	0.00051
Europa	-27881.3	33370.5	-0.84	0.40795
Norteamérica	-25677.2	26423.4	-0.97	0.33648
Asia Occidental	-43770.1	28725.8	-1.52	0.13473

r2 <- summary(modelo2)$r.squared
r2_adj <- summary(modelo2)$adj.r.squared
fstat <- summary(modelo2)$fstatistic

A partir de los resultados obtenidos, la ecuación estimada del modelo de regresión es la siguiente:

\[ \begin{aligned} &\text{PBI por persona empleada}_i = 219086.9 - 2431.7(\text{Mujeres en media y alta dirección}) - 952.0(\text{Total de empleadores})\\ & + 1015.9(\text{Tasa de empleo}) - 1661(\text{Empleo vulnerable}) - 2509.7(\text{Empleo en la industria})\\ & - 27881.3(\text{Europa}) - 25677.2(\text{Norteamérica}) - 43770.1(\text{Asia Occidental}) + \epsilon_i \end{aligned} \]

Algunos coeficientes generales del modelo son:

R² = 0.703
R² Ajustado = 0.649
Estadístico F = 13.03
Valor p = 2.1 $\times$ $10^{-9}$
Número de observaciones = 53 de 103

El modelo presenta significancia estadística global (F = 13.03, p < 0.001), lo que indica que, de manera conjunta las variables independientes tienen capacidad explicativa sobre el PIB por persona empleada.

De la misma manera, los resultados señalan que el modelo empleado explica el 70.3% de la variabilidad del PIB. Pese a ello, al considerar el ajuste por número de variables incluidas, la capacidad explicativa se reduce a un 64.9%: esto sugiere la idea de que existen variables que no aportan valor significativo al modelo.

4.2 Interpretación de los coeficientes

Al analizar los coeficientes estimados, se observa que ciertas variables presentan resultados totalmente contrarios a lo esperado.

En particular, variables como Mujeres empleadas en puestos de media y alta dirección y Empleo en la industria muestran efectos negativos y estadísticamente significativos. Estos resultados no implican causalidad directa, sino asociaciones influenciadas por variables no observadas. Por ejemplo, el coeficiente de Empleo en la industria sugiere la posibilidad del desplazamiento del trabajo hacia otros sectores.

Por otro lado, el Empleo vulnerable influye negativamente en la productividad laboral. A mayor precariedad e informalidad, menor productividad.

En constraste a ello, están variables como el Total de empleadores y la Tasa de empleo. La primera presenta evidencia no significativa, mientras que la segunda muestra efectos débiles, por lo que los efectos de estas variables deben de interpretarse con cautela. Este hecho refuerza la idea de que, más allá de la cantidad de empleo, lo que impulsa la productividad es su calidad.

Finalmente, los resultados de los continentes pese a presentar valores de PIB menores que el continente base (Latinoamérica y el Caribe), no son estadísticamente significativos, posiblemente porque los efectos ya están siendo capturados por las otras variables. Adicionalmente, aunque el intercepto es significativo, este representa un escenario económicamente imposible, por tanto se toma como un valor de ajuste.

4.3 Evaluación de supuestos

4.3.1 Multicolinealidad

Vif <- vif(modelo2)

Vif[ , "GVIF"] <- round(Vif[ , "GVIF"], 3)
Vif[ , "GVIF^(1/(2*Df))"] <- round(Vif[ , "GVIF^(1/(2*Df))"], 3)

colnames(Vif) <- c("GVIF", "Df", "GVIF corregido")
rownames(Vif) <- c("Mujeres en media y alta dirección", "Total de empleadores", "Tasa de empleo, 15+", "Empleo vulnerable", "Empleo en la industria", "Continente")

kable(Vif,
      caption = "Resultados del Factor de inflación de la varianza (VIF)",
      align = c('l','c', 'c', 'c'),
      format = "html") %>%
  
  kable_paper(full_width = FALSE, html_font = "Segoe UI", position = "left") %>%
  row_spec(0, color = "#3C4967", bold = TRUE) %>%
  row_spec(1:6, color = "#295675") %>%
  
  column_spec(1, width = "18em") %>%
  column_spec(2:4, width = "4em")

Resultados del Factor de inflación de la varianza (VIF)
	GVIF	Df	GVIF corregido
Mujeres en media y alta dirección	1.573	1	1.254
Total de empleadores	1.278	1	1.130
Tasa de empleo, 15+	1.467	1	1.211
Empleo vulnerable	2.166	1	1.472
Empleo en la industria	1.249	1	1.118
Continente	2.984	3	1.200

Para evaluar la posible multicolinealidad entre las variables explicativas se calcularon los factores de inflación de la varianza (VIF). Los resultados muestran que todos los valores de VIF corregido son inferiores a 5, un criterio que suele utilizarse para identificar problemas graves de colinealidad.

Por tanto, se deduce que las variables independientes no presentan niveles de multicolinealidad preocupantes, lo que permite interpretar los coeficientes estimados con mayor confiabilidad.

4.3.2 Normalidad de los Residuos

Shapiro <- shapiro.test(residuals(modelo2))
Shapiro_estadistico <- Shapiro$statistic
Shapiro_valor_p <- Shapiro$p.value

Con el fin de comprobar la normalidad de los residuos del modelo empleado, se hizó uso de la prueba de Shapiro-Wilk. Dicha prueba arrojó los siguientes resultados:

Valor del estadístico W = 0.933
Valor p = 0.0054

Al ser el valor p menor que 0.05, se invalida la hipótesis nula de normalidad, esto indica que los residuos del modelo no siguen completamente una distribución normal, sin embargo, teniendo en cuenta el tamaño de la muestra y el carácter exploratorio del análisis, el modelo mantiene su utilidad descriptiva e interpretativa.

Además, el gráfico Q-Q permite observar desviaciones moderadas respecto a la recta teórica, especialmente en los extremos de la distribución, esto refuerza la evidencia de una ligera falta de normalidad en los residuos.

4.3.3 Homocedasticidad

Bptest <- bptest(modelo2)
Bptest_estadistico <- Bptest$statistic
Bptest_df <- Bptest$parameter
Bptest_valor_p <- Bptest$p.value

Con el fin de comprobar la constancia de la varianza de los errores, se hizó uso del test de Breusch-Pagan. el resultado fue el siguiente:

Valor del estadístico BP = 15.5773 con 8 grados de libertad
Valor p = 0.0488

El valor p es ligeramente menor a 0.05, por lo tanto, estadísticamente hay evidencia de heterocedasticidad, esto indica que la variabilidad de los residuos no es totalmente constante a lo largo de los valores ajustados por el modelo, sin embargo, como la evidencia es marginal, la heterocedasticidad observada parece moderada y no invalida totalmente el modelo, aún así, este resultado sugiere que las estimaciones podrían mejorar con el uso de errores estándar robustos en análisis futuros para obtener inferencias más precisas.

4.3.4 Diagnóstico gráfico

par(mfrow = c(2, 2))
plot(modelo2)

Los gráficos de diagnóstico pueden servir para complementar la evaluación estadística de los supuestos del modelo, en el gráfico de residuos frente a valores ajustados se aprecia una dispersión relativamente al azar, pero con ligeros signos de variación no constante a ciertos niveles del ajuste.

Por otro lado, el gráfico Q-Q muestra desviaciones respecto a la normalidad en las colas de la distribución, consistente con los resultados obtenidos en la prueba de Shapiro-Wilk. De igual forma, el gráfico de leverage no muestra observaciones extremadamente influyentes, aunque se puede apreciar que algunos países ejercen una influencia moderada sobre el ajuste del modelo.

5 Conclusiones y recomendaciones

El análisis de los determinantes del PIB por persona empleada permitió identificar que el modelo de regresión lineal presenta una capacidad explicativa sólida y estadísticamente significativa, logrando explicar el 70.3% de la variabilidad observada en la productividad laboral. Los resultados evidencian que variables relacionadas con la calidad del empleo y la estructura del mercado laboral ejercen una influencia importante sobre los niveles de productividad entre los países analizados.

Desde la perspectiva del diagnóstico estadístico, no se encontraron problemas graves de multicolinealidad entre las variables explicativas, dado que todos los valores del Factor de Inflación de la Varianza (VIF) corregido fueron inferiores a 5. Esto garantiza estabilidad en las estimaciones y permite interpretar los coeficientes con mayor confiabilidad y precisión.

En cuanto a la evaluación de supuestos, la prueba de Shapiro-Wilk evidenció ligeras desviaciones respecto a la normalidad de los residuos (W = 0.933; p = 0.0054), mientras que la prueba de Breusch-Pagan mostró evidencia marginal de heterocedasticidad (BP = 15.5773; p = 0.0488). No obstante, debido al carácter exploratorio del estudio y al tamaño de la muestra, estas desviaciones no invalidan el modelo, sino que sugieren oportunidades de mejora metodológica en futuras investigaciones.

Asimismo, los gráficos de diagnóstico mostraron una dispersión relativamente aleatoria de los residuos y la ausencia de observaciones extremadamente influyentes, aunque algunos países presentan influencia moderada sobre el ajuste del modelo.

Los resultados obtenidos permiten concluir que variables asociadas con la precariedad laboral, como el empleo vulnerable, presentan una relación negativa con el PIB por persona empleada, lo que confirma que economías con mayores niveles de informalidad y menor protección social tienden a registrar menores niveles de productividad laboral. De igual forma, el empleo en la industria mostró un efecto negativo significativo, sugiriendo posibles procesos de transición económica hacia sectores de servicios avanzados y actividades tecnológicas en economías de mayor productividad.

Por otro lado, variables como la tasa de empleo respecto a la población mostraron efectos positivos pero moderados, mientras que el total de empleadores presentó baja significancia estadística. Esto refuerza la idea de que la productividad laboral no depende únicamente de la cantidad de empleo generado, sino principalmente de la calidad del empleo, del capital humano y de las condiciones estructurales del mercado laboral.

Adicionalmente, las diferencias regionales evidenciaron importantes disparidades entre continentes. Regiones con economías más desarrolladas y orientadas hacia sectores tecnológicos y de servicios especializados registraron niveles superiores de productividad laboral, mientras que países con alta dependencia de empleo vulnerable mostraron desempeños considerablemente más bajos.

Con base en los resultados obtenidos, se recomienda fortalecer políticas orientadas a la formalización laboral, la reducción del empleo vulnerable y el mejoramiento de las condiciones de trabajo, dado que estos factores presentan una relación directa con mayores niveles de productividad. Asimismo, resulta fundamental impulsar estrategias de formación técnica y profesional que permitan incrementar el aprovechamiento del capital humano y mejorar la participación laboral en sectores de mayor valor agregado.

De igual manera, se recomienda continuar fortaleciendo la participación de las mujeres en cargos de media y alta dirección mediante políticas de inclusión y equidad laboral, considerando que este indicador refleja aspectos estructurales relacionados con el aprovechamiento del talento humano y la modernización organizacional.

Para futuras investigaciones, se sugiere implementar errores estándar robustos y explorar transformaciones logarítmicas o modelos alternativos que permitan corregir parcialmente la heterocedasticidad y mejorar el cumplimiento del supuesto de normalidad. También sería conveniente ampliar el tamaño de la muestra y reducir la presencia de valores faltantes, especialmente en variables relacionadas con liderazgo femenino y productividad, con el fin de aumentar la precisión y representatividad de las estimaciones obtenidas.

6 Bibliografía

Banco Mundial. (Versión del 16 de septiembre de 2022). Indicadores de Desarrollo Mundial. [Base de datos]. Obtenido del Banco Mundial

DANE. (s.f.). Productividad laboral por persona empleada. Obtenido de DANE: https://conceptos.dane.gov.co/conceptos/conceptos/6808/ficha/

Horizonte Laboral. (s.f.). Productividad Laboral. Obtenido de Horizonte Laboral: https://www.h-laboral.org/como_lo_haremos/productividad-laboral/

Isham, A., Mair, S., & Jackson, T. J. (24 de Febrero de 2021). Bienestar y productividad de los trabajadores en las economías avanzadas: una nueva revisión del vínculo. Obtenido de ScienceDirect: https://www.sciencedirect.com/science/article/pii/S0921800921000471

Oficina Internacional del Trabajo. (2017). Informe Mundial sobre Salarios 2016/2017. Obtenido de Organización Internacional del Trabajo: https://www.ilo.org/sites/default/files/wcmsp5/groups/public/%40dgreports/%40dcomm/%40publ/documents/publication/wcms_541632.pdf

¿Qué impulsa la productividad laboral?
Análisis estadístico del PIB por persona empleada y sus factores explicativos

Anderson Mezu Gomez, Marianne Rojas, Valerie Caicedo, Joseph Jamauca

2026-05-10

1 Introducción

2 Metodología

2.1 Descripción de variables utilizadas

2.2 Modelo de regresión lineal

3 Resultados descriptivos

3.1 Calidad de los datos y representación geográfica

3.2 Análisis estadístico general

3.3 Productividad laboral global

3.4 Relaciones entre variables

4 Resultados del modelo

4.1 Resultados del Modelo de regresión

4.2 Interpretación de los coeficientes

4.3 Evaluación de supuestos

4.3.1 Multicolinealidad

4.3.2 Normalidad de los Residuos

4.3.3 Homocedasticidad

4.3.4 Diagnóstico gráfico

5 Conclusiones y recomendaciones

6 Bibliografía

¿Qué impulsa la productividad laboral?Análisis estadístico del PIB por persona empleada y sus factores explicativos

Anderson Mezu Gomez, Marianne Rojas, Valerie Caicedo, Joseph Jamauca

2026-05-10

1 Introducción

2 Metodología

2.1 Descripción de variables utilizadas

2.2 Modelo de regresión lineal

3 Resultados descriptivos

3.1 Calidad de los datos y representación geográfica

3.2 Análisis estadístico general

3.3 Productividad laboral global

3.4 Relaciones entre variables

4 Resultados del modelo

4.1 Resultados del Modelo de regresión

4.2 Interpretación de los coeficientes

4.3 Evaluación de supuestos

4.3.1 Multicolinealidad

4.3.2 Normalidad de los Residuos

4.3.3 Homocedasticidad

4.3.4 Diagnóstico gráfico

5 Conclusiones y recomendaciones

6 Bibliografía

¿Qué impulsa la productividad laboral?
Análisis estadístico del PIB por persona empleada y sus factores explicativos