1) Introducción

El PIB (GDP en inglés) es una de las mejores formas de medir la productividad de un país en cuanto a lo económico respecta, así mismo, siendo un buen indicador de la calidad de vida y el nivel de desarrollo en cada nación. En este proyecto, se tiene como caso de estudio medir el GDP per person employed, el cual hace referencia al PIB por cada persona empleada que hay en el país por año, o viéndose de forma distinta, es lo que produce cada trabajador en un año. La relevancia de esta métrica es fundamental, ya que, como afirma Krugman (1990), la capacidad de una nación para mejorar su nivel de vida depende casi por completo de su capacidad para aumentar su producción por trabajador.

Como bien es sabido, este indicador varía mucho entre las distintas regiones del mundo, a veces incluso entre países vecinos, por lo que al tener datos de diversos estados de diferentes regiones del mundo, se buscarán los factores que influyen en este índice.

El objetivo principal es comprender el comportamiento del indicador mediante un modelo de regresión múltiple, el cual usará distintas variables que sean útiles para explicar este indicador.

2) Metodología

library(readxl)
library(tidyverse)
library(ggcorrplot)
library(patchwork)
library(scales)
library(knitr)
library(kableExtra)
library(rnaturalearth)
library(rnaturalearthdata)
library(sf)
library(dplyr)
library(ggplot2)
library(plotly)
library(scales)
library(broom)

datos_2014 <- read_excel("BaseTaller1.xlsx")

latinoamerica_caribe <- c(
  "Antigua and Barbuda","Argentina","Aruba","Bahamas, The","Barbados",
  "Belize","Bermuda","Bolivia","Brazil","British Virgin Islands",
  "Cayman Islands","Chile","Colombia","Costa Rica","Cuba","Curacao",
  "Dominica","Dominican Republic","Ecuador","El Salvador","Grenada",
  "Guatemala","Guyana","Haiti","Honduras","Jamaica","Mexico",
  "Nicaragua","Panama","Paraguay","Peru","Puerto Rico",
  "Sint Maarten (Dutch part)","St. Kitts and Nevis","St. Lucia",
  "St. Martin (French part)","St. Vincent and the Grenadines","Suriname",
  "Trinidad and Tobago","Turks and Caicos Islands","Uruguay",
  "Venezuela, RB","Virgin Islands (U.S.)"
)

europa <- c(
  "Albania","Andorra","Armenia","Austria","Azerbaijan","Belarus",
  "Belgium","Bosnia and Herzegovina","Bulgaria","Channel Islands",
  "Croatia","Cyprus","Czechia","Denmark","Estonia","Faroe Islands",
  "Finland","France","Georgia","Germany","Gibraltar","Greece",
  "Greenland","Hungary","Iceland","Ireland","Isle of Man","Italy",
  "Kosovo","Latvia","Liechtenstein","Lithuania","Luxembourg","Moldova",
  "Monaco","Montenegro","Netherlands","North Macedonia","Norway","Poland",
  "Portugal","Romania","Russian Federation","San Marino","Serbia",
  "Slovak Republic","Slovenia","Spain","Sweden","Switzerland",
  "Turkiye","Ukraine","United Kingdom"
)

asia_central <- c("Kazakhstan","Kyrgyz Republic","Tajikistan","Turkmenistan","Uzbekistan")
paises_estudio <- c(latinoamerica_caribe, europa, asia_central)

datos_2014_r <- datos_2014 %>%
  mutate(Region = case_when(
    `Country Code` %in% c(
      "ABW","ATG","ARG","BHS","BRB","BLZ","BOL","BRA","BMU","VGB","CYM",
      "CHL","COL","CRI","CUB","CUW","DMA","DOM","ECU","SLV","GRD","GTM",
      "GUY","HTI","HND","JAM","MEX","NIC","PAN","PRY","PER","PRI","KNA",
      "LCA","MAF","VCT","SUR","SXM","TTO","TCA","URY","VEN","VIR"
    ) ~ "Latinoamerica y el Caribe",
    `Country Code` %in% c("KAZ","KGZ","TJK","TKM","UZB") ~ "Asia Central",
    `Country Code` %in% c(
      "ALB","AND","ARM","AUT","AZE","BLR","BEL","BIH","BGR","HRV","CYP",
      "CHI","CZE","DNK","EST","FRO","FIN","FRA","GEO","DEU","GIB","GRC",
      "HUN","ISL","IRL","IMN","ITA","XKX","LVA","LIE","LTU","LUX","MDA",
      "MCO","MNE","NLD","MKD","NOR","POL","PRT","ROU","RUS","SMR","SRB",
      "SVK","SVN","ESP","SWE","CHE","TUR","UKR","GBR","GRL"
    ) ~ "Europa"
  ))

datos_generales <- datos_2014_r %>%
  filter(Time == "2014", `Country Name` %in% paises_estudio)

datos_finales <- datos_generales %>%
  select(
    country = `Country Name`, Time,
    `Employment in industry (% of total employment) (modeled ILO estimate) [SL.IND.EMPL.ZS]`,
    `Wage and salaried workers, total (% of total employment) (modeled ILO estimate) [SL.EMP.WORK.ZS]`,
    `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`,
    `Employers, total (% of total employment) (modeled ILO estimate) [SL.EMP.MPYR.ZS]`,
    `Part time employment, total (% of total employment) [SL.TLF.PART.ZS]`,
    `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
    Region
  )

Para este trabajo se usaron los datos del World Development Indicators del Banco Mundial correspondientes al año 2014. Se realizó un análisis de corte transversal, el cual, de acuerdo con Wooldridge (2015) , en donde se comparan distintos países en un mismo punto en el tiempo.

La variable que se busca explicar es el PIB por persona empleada (en dólares constantes de 2017, ajustados por PPP), que se usó como proxy de la productividad laboral de cada país, una práctica estándar en la literatura macroeconómica (OCDE, 2001)

Para explicarla, se eligieron cinco variables del mercado laboral que, según la teoría de la economía laboral (Borjas, 2014), podrían tener algún efecto sobre qué tan productiva es una economía:

Employment in industry (% of total employment): Qué tanto del empleo está en el sector industrial.
Wage and salaried workers (% of total employment): Cuanta gente tiene un contrato de trabajo formal.
Female share of employment in senior and middle management (%): Qué tan representadas están las mujeres en puestos de liderazgo.
Employers (% of total employment): Cuántos de los ocupados son dueños de negocio o empleadores.
Part-time employment (% of total employment): Qué porcentaje trabaja menos de la jornada completa.

Estas variables fueron escogidas teniendo en cuenta su fuerte respaldo en la literatura y porque después de evaluarlas se consideró que pueden influir ampliamente en la productividad.
También se clasificaron los países en tres regiones —Latinoamérica y el Caribe, Europa y Asia Central—, las cuales serán las consideradas para el estudio, además esta división es útil para comprobar si hay diferencias importantes entre las distintas zonas geográficas del mundo.
El modelo que se utilizó es una regresión lineal múltiple, que permite ver el efecto de cada variable independiente sobre el PIB por empleado, controlando las demás.

La ecuación del modelo de regresión múltiple es:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \beta_4 X_4 + \beta_5 X_5 + \varepsilon \]

Donde:

\(Y\) corresponde al PIB por persona empleada.
\(X_1, X_2, X_3, X_4, X_5\) representan las variables explicativas del modelo.
\(\beta_0\) es el intercepto.
\(\beta_i\) (para \(i = 1, \dots, 5\)) son los coeficientes asociados a cada variable.
\(\varepsilon\) es el término de error aleatorio.

3) Resultados Descriptivos

tema_pro <- theme_minimal(base_family = "sans") +
  theme(
    plot.title       = element_text(size = 13, face = "bold",  color = "#1a1a2e", margin = margin(b = 4)),
    plot.subtitle    = element_text(size = 10,                 color = "#555577", margin = margin(b = 12)),
    plot.caption     = element_text(size = 8,  hjust = 0,      color = "#999999", margin = margin(t = 10)),
    plot.background  = element_rect(fill = "#fafafa", color = NA),
    panel.background = element_rect(fill = "#fafafa", color = NA),
    panel.grid.major = element_line(color = "#e8e8f0", linewidth = 0.4),
    panel.grid.minor = element_blank(),
    axis.title       = element_text(size = 9,  color = "#444466"),
    axis.text        = element_text(size = 8,  color = "#666688"),
    axis.ticks       = element_blank(),
    strip.text       = element_text(size = 9,  face = "bold", color = "#1a1a2e"),
    strip.background = element_rect(fill = "#eeeef8", color = NA),
    legend.title     = element_text(size = 9,  face = "bold", color = "#1a1a2e"),
    legend.text      = element_text(size = 8,  color = "#444466"),
    legend.background= element_rect(fill = "#fafafa", color = NA),
    plot.margin      = margin(16, 16, 12, 16)
  )

colores_region <- c(
  "Europa"                    = "#4361EE",
  "Latinoamerica y el Caribe" = "#F72585",
  "Asia Central"              = "#7209B7"
)

etiquetas_vars <- c(
  PIB      = "PIB por persona empleada (USD PPP 2017)",
  Ind      = "Empleo en industria (% total)",
  Wag      = "Trabajadores asalariados (% total)",
  Fem      = "Mujeres en dirección (%)",
  Emp      = "Empleadores (% total)",
  PartTime = "Empleo a tiempo parcial (% total)"
)

datos_modelo <- datos_finales %>%
  mutate(across(2:8, as.numeric)) %>%
  rename(Ind = 3, Wag = 4, Fem = 5, Emp = 6, PartTime = 7, PIB = 8)

datos_limpios <- na.omit(datos_modelo)

En esta sección se presenta un análisis descriptivo de las variables utilizadas en el modelo, tanto de la variable dependiente como de las cinco variables explicativas seleccionadas. El objetivo es caracterizar la muestra, identificar patrones de distribución y explorar posibles diferencias entre las regiones estudiadas antes de proceder con la estimación del modelo de regresión.

La muestra final, luego de eliminar observaciones con valores faltantes, quedó conformada por 47 países distribuidos entre las tres regiones de análisis: Latinoamérica y el Caribe, Europa y Asia Central.

3.1) Estadísticas descriptivas generales

3.1.1) Panorama global

mundo_sf <- ne_countries(scale = "medium", returnclass = "sf")

mapa_sf <- mundo_sf %>%
  left_join(
    datos_limpios %>%
      select(country, PIB, Region) %>%
      mutate(country = case_when(
        country == "Czechia"            ~ "Czech Republic",
        country == "Russian Federation" ~ "Russia",
        country == "Venezuela, RB"      ~ "Venezuela",
        country == "Turkiye"            ~ "Turkey",
        country == "Slovak Republic"    ~ "Slovakia",
        country == "Kyrgyz Republic"    ~ "Kyrgyzstan",
        TRUE ~ country
      )),
    by = c("name_long" = "country")
  )

p <- ggplot(mapa_sf) +
  geom_sf(
    aes(
      fill = PIB,
      text = paste0(
        "<b>", name_long, "</b><br>",
        "Región: ", Region, "<br>",
        "PIB por empleado: $", comma(PIB)
      )
    ),
    color = "white",
    size = 0.2
  ) +
  scale_fill_distiller(
    palette   = "YlGnBu",
    direction = 1,
    na.value  = "grey85",
    labels    = dollar_format()
  ) +
  labs(
    fill  = "PIB por empleado\n(USD PPP 2017)",
    title = "Mapa Mundial de Productividad Laboral (PIB por Empleado)"
  ) +
  theme_void()

mapa <- ggplotly(p, tooltip = "text")

htmltools::div(
  style = "width: 100%; max-width: 860px; margin: 0 auto; border: 1px solid #e0e0e0; border-radius: 6px; overflow: hidden;",
  mapa
)

3.1.2) Tabla de Resultados

Las estadísticas descriptivas de un conjunto de datos son fundamentales para conocer y comprender la forma en la que se distribuyen los datos, así como señala Hernández Sampieri (2014), estas herramientas permiten describir y visualizar las puntuaciones obtenidas para cada variable. Por esta misma razón en la siguiente tabla se encuentra la información estadística más importante sobre las variables estudiadas en este trabajo.

desc_tabla <- datos_limpios %>%
  select(PIB, Ind, Wag, Fem, Emp, PartTime) %>%
  pivot_longer(everything(), names_to = "Variable", values_to = "Valor") %>%
  group_by(Variable) %>%
  summarise(
    N       = n(),
    Media   = mean(Valor, na.rm = TRUE),
    Mediana = median(Valor, na.rm = TRUE),
    `D.E.`  = sd(Valor, na.rm = TRUE),
    Mín.    = min(Valor, na.rm = TRUE),
    Máx.    = max(Valor, na.rm = TRUE),
    .groups = "drop"
  ) %>%
  mutate(Variable = recode(Variable,
    PIB      = "PIB por persona empleada (USD PPP 2017)",
    Ind      = "Empleo en industria (% total)",
    Wag      = "Trabajadores asalariados (% total)",
    Fem      = "Mujeres en dirección (%)",
    Emp      = "Empleadores (% total)",
    PartTime = "Empleo a tiempo parcial (% total)"
  )) %>%
  mutate(across(where(is.numeric), ~ round(.x, 2)))

kable(desc_tabla,
      caption = "Tabla 1. Estadísticas descriptivas de las variables del modelo",
      align   = c("l", rep("c", 6))) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width        = TRUE,
    font_size         = 14
  ) %>%
  row_spec(0, bold = TRUE, color = "#eef1f8", background = "#223e75") %>%
  footnote(general = "Fuente: World Development Indicators, Banco Mundial (2014).",
           general_title = "")

Tabla 1. Estadísticas descriptivas de las variables del modelo
Variable	N	Media	Mediana	D.E.	Mín.	Máx.
Empleadores (% total)	47	4.11	3.96	1.71	1.15	11.45
Mujeres en dirección (%)	47	31.31	31.50	6.96	15.60	46.70
Empleo en industria (% total)	47	23.38	22.02	5.66	10.98	38.04
PIB por persona empleada (USD PPP 2017)	47	73229.39	64034.72	39675.60	13255.77	240304.11
Empleo a tiempo parcial (% total)	47	29.46	27.10	11.09	8.41	55.88
Trabajadores asalariados (% total)	47	77.50	82.11	12.97	42.07	92.82
Fuente: World Development Indicators, Banco Mundial (2014).

Según lo observado en la tabla, la variable dependiente, el PIB por persona empleada presenta una media de 73,229 dólares y una mediana de 64,035 dólares, con lo que se puede concluir que la mayoria de países en el estudio se mantienen en niveles de productividad relativamente bajos, y unos pocos países tienen niveles elevados. La desviación estándar de 39,676 dólares revela lo mucho que cambia el PIB por empleado entre los países.

Entre las variables explicativas, los Trabajadores asalariados (Wag) presentan la mayor variabilidad relativa, con valores que oscilan entre 42.1% y 92.8%, lo que refleja diferencias estructurales importantes en la formalización del empleo entre las distintas economías, pero ademas expone que, su valor minimo esta por encima del 40%, en gran parte de los de estados estos constituyen la mayoría de los trabajadores. Por otra parte, la variable Empleadores (Emp) es la que menor dispersión poseé y tiene valores más bajos en promedio, siendo consistente con la literatura que identifica a este segmento como una fracción pequeña pero relevante del mercado laboral.

3.2) Distribución de las variables

En la Figura 2 se observan los histogramas correspondientes a cada variable en el estudio, en donde el eje vertical (y) es la densidad (Probabilidad de encontrar un dato en cada intervalo) y el eje horizontal (x) es el valor de la variable que se mide. Este gráfico es bastante útil para visualmente saber en dónde se agrupan los datos y facilita la visualización de datos atípicos, ya que, como afirma Tukey (1977), el mayor valor de estas representaciones gráficas es que nos obligan a notar lo inesperado, permitiendo ‘identificar rápidamente agrupaciones y valores atípicos’.

datos_long <- datos_limpios %>%
  select(PIB, Ind, Wag, Fem, Emp, PartTime, Region) %>%
  pivot_longer(-Region, names_to = "variable", values_to = "valor") %>%
  mutate(variable = factor(variable,
                           levels = names(etiquetas_vars),
                           labels = etiquetas_vars))

ggplot(datos_long, aes(x = valor)) +
  geom_histogram(aes(y = after_stat(density)),
                 bins = 15, fill = "#4361EE", alpha = 0.25,
                 color = "#4361EE", linewidth = 0.2) +
  geom_density(color = "#1a1a2e", linewidth = 0.8, adjust = 1.2) +
  facet_wrap(~ variable, scales = "free", ncol = 3) +
  labs(x = NULL, y = "Densidad",
       caption = "Fuente: World Development Indicators, Banco Mundial (2014)") +
  tema_pro +
  theme(axis.text.x = element_text(size = 7))

Figura 2. Distribución de las variables del modelo: PIB, Empleo, Trabajadores, Mujeres en dirección, Empleadores y Empleo parcial. Histogramas con curva de densidad estimada

Los histogramas confirman que el PIB por persona empleada no sigue una distribución simétrica, ya presenta una cola derecha pronunciada, lo que indica que la mayor parte de los países registra niveles de productividad relativamente bajos y unos pocos concentran valores muy altos, confirmando lo evidenciado con las medidas de mediana y desviación estándar de la Tabla 1. La variable empleadores presenta un comportamiento muy específico, ya que posee un pico bastante amplio cercano a la parte izquierda, caso similar a la variable asalariados, el cual tiene una concentración mayor de datos a la derecha con un pico más bajo. Las variables empleo a tiempo parcial, empleo en industria y participación femenina en cargos directivos son las que mantiene una mayor simetría, y por esto siguen una distribución más similar a la distribución normal.

3.3) Comparación regional

El mundo, como bien se sabe, está separado por contienentes y regiones, y por naturaleza estas difieren mucho entre sí. Entre tantas diferencias que existen, el factor económico es uno de los más importantes, y el más relevante para este estudio. Al separar por regiones a los países de este estudio (En este caso Latinoamérica y el Caribe y Europa) se facilita la obtención y comparación de distintos datos y gráficos. En la Figura 3 se observa como cambiia el PIB por cada empleado.

ggplot(datos_limpios, aes(x = Region, y = PIB, fill = Region)) +
  geom_boxplot(alpha = 0.85, width = 0.5, outlier.shape = 21,
               outlier.fill = "white", outlier.color = "#333355",
               outlier.size = 2, linewidth = 0.4) +
  geom_jitter(aes(color = Region), width = 0.12, size = 1.4, alpha = 0.6) +
  scale_fill_manual(values  = colores_region, guide = "none") +
  scale_color_manual(values = colores_region, guide = "none") +
  scale_y_continuous(labels = label_dollar(scale = 1/1000, suffix = "K"),
                     breaks = seq(0, 150000, 25000)) +
  scale_x_discrete(labels = c(
    "Europa"                    = "Europa",
    "Latinoamerica y el Caribe" = "LAC"
  )) +
  labs(x = NULL,
       y = "PIB por persona empleada (miles USD PPP 2017)",
       caption = "Fuente: World Development Indicators, Banco Mundial (2014)") +
  tema_pro

Figura 3. Distribución del PIB por persona empleada según región. Cada punto representa un país; las cajas muestran Q1, mediana y Q3. Fuente: WDI, Banco Mundial (2014).

La Figura 3 evidencia diferencias sustanciales en los niveles de productividad laboral entre regiones. Los países europeos concentran los valores más altos con una media aproximada de USD 65.800, mientras que Latinoamérica y el Caribe (LAC) cuenta con una media cercana a USD 31.300. Esto muestra la diferencia abismal que hay entre estas dos regiones, puesto que el país de LAC que mayor PIB por empleado posee está por debajo del 50% de los países de Europa. Por otra parte, el continente europeo presenta una gran variación, con datos atípicos altos de economías bastante desarrolladas y estables, lo que también demuestra la gran desigualdad entre estados de Europa Occidental y Oriental, mientras que, LAC mantiene una dispersión notablemente baja, pero con valores bastante más bajos.

En la Figura 4 se pueden observar gráficos de cajas que evidencian las diferencias entre cada región en cada variable.

datos_long_expl <- datos_limpios %>%
  select(Ind, Wag, Fem, Emp, PartTime, Region) %>%
  pivot_longer(-Region, names_to = "variable", values_to = "valor") %>%
  mutate(variable = factor(variable,
                           levels = c("Ind","Wag","Fem","Emp","PartTime"),
                           labels = c("Empleo en\nindustria (%)",
                                      "Trabajadores\nasalariados (%)",
                                      "Mujeres en\ndirección (%)",
                                      "Empleadores\n(%)",
                                      "Empleo a tiempo\nparcial (%)")))

ggplot(datos_long_expl, aes(x = Region, y = valor, fill = Region)) +
  geom_boxplot(alpha = 0.8, width = 0.55, outlier.shape = 21,
               outlier.fill = "white", outlier.color = "#333355",
               outlier.size = 1.5, linewidth = 0.35) +
  scale_fill_manual(values = colores_region,
                    labels = c("Europa", "LAC", "Asia Central"),
                    name   = "Región") +
  scale_x_discrete(labels = c(
    "Europa"                    = "EUR",
    "Latinoamerica y el Caribe" = "LAC",
    "Asia Central"              = "ASI"
  )) +
  facet_wrap(~ variable, scales = "free_y", ncol = 5) +
  labs(x = NULL, y = "Valor (%)",
       caption = "Fuente: World Development Indicators, Banco Mundial (2014)") +
  tema_pro +
  theme(legend.position = "bottom",
        axis.text.x = element_text(size = 7))

Figura 4. Distribución de las variables explicativas por región.

Con base a los gráficos de la Figura 4 se pueden concluir cosas bastantes concretas. En la gráfica de la variable Empleo en Industria se observa claramente cómo Europa está mucho más industrializado que LAC, notándose principalmente en el que la parte mal alta de la caja de LAC (Tercer cuartil, 75% de los datos) está por debajo de la mediana europea. En Trabajadores Asalariados es en donde la brecha se hace más grande, puesto que se aprecia como el 100% de los datos de LAC están muy por debajo de la mediana de Europa, lo cual expone claramente la diferencia en cuanto a formalización de empleo respecta. Mujeres en dirección es bastante interesante, ya que como se evidencia en la gráfica, LAC tiene una mayor cantidad de mujeres en estos puestos, esto a diferencia de Europa, que tiene el 75% de los datos por debajo de la mediana de LAC. En cuanto a Empleadores respecta, los resultados son bastante similares, puesto que sus cajas son muy similares, aunque Europa posee algunos datos atípicos tanto bajos como altos. Por último, se expone una diferencia bastante amplia entre el empleo de medio tiempo, puesto que, en Europa hay un amplio porcentaje de trabajadores en esta modalidad con una gran dispersión, mientras que en LAC no es tan alto con una baja dispersión.

3.4) Relaciones bivariadas con el PIB por persona empleada

Para complementar el análisis descriptivo, se presenta en la Figura 5 la relación entre el PIB por persona empleada y cada una de las variables explicativas diferenciandas por región. Como señalan Gujarati y Porter (2010), el uso de diagramas de dispersión es un primer paso indispensable en la investigación empírica, ya que permite descubrir visualmente la naturaleza de la relación entre las variables. Además, esto sirve para anticipar algunos resultados del modelo de regresión lineal y conocer visualmente algunas agrupaciones y tendencias que tienen los datos.

vars_x    <- c("Ind", "Wag", "Fem", "Emp", "PartTime")
titulos_x <- c(
  Ind      = "Empleo en industria (% del total)",
  Wag      = "Trabajadores asalariados (% del total)",
  Fem      = "Mujeres en dirección (%)",
  Emp      = "Empleadores (% del total)",
  PartTime = "Empleo a tiempo parcial (% del total)"
)

plots_scatter <- map(vars_x, function(var) {
  ggplot(datos_limpios, aes(x = .data[[var]], y = PIB, color = Region)) +
    geom_point(size = 2.2, alpha = 0.8) +
    geom_smooth(method = "lm", se = TRUE, linewidth = 0.7,
                color = "#1a1a2e", fill = "#ccccdd", alpha = 0.25) +
    scale_color_manual(values = colores_region,
                       labels = c("Europa", "LAC", "Asia Central"),
                       name   = "Región") +
    scale_y_continuous(labels = label_dollar(scale = 1/1000, suffix = "K")) +
    labs(x = titulos_x[var], y = "PIB por persona empleada (miles USD)") +
    tema_pro +
    theme(legend.position = "none", plot.margin = margin(8, 10, 8, 10))
})

wrap_plots(plots_scatter, ncol = 3) +
  plot_layout(guides = "collect") &
  theme(legend.position = "bottom")

Figura 5. PIB por persona empleada versus variables explicativas. Línea de tendencia con intervalo de confianza al 95%.

Con base en los anteriores gráficos, se puede evidenciar una relación negativa entre Empleo en la Industria y el PIB, ya que este va disminuyendo mientras más empleo en la industria haya. Por otra parte, la relación con el PIB se vuelve positiva con los Trabajadores Asalariados, puesto que a mayores asalariados, mayor productividad. El caso de Mujeres en dirección es bastante particular, puesto que esté expresa que mientras más mujeres haya en puestos directivos menor será la productividad, pero esto puede ser debido a un sesgo visto anteriormente, en el que las mujeres tenían mayor protagonismo en la zona de LAC, la cual es naturalmente menos productiva que Europa por factores históricos. Los Empleadores poseen una línea con una pendiente bastante baja, por lo que, no explican en gran medida el PIB. Por último, Empleo a tiempo parcial expresa una relación positiva, con la particularidad de que los puntos que representan a Europa están bastantes cercanos a la línea, en cambio, los de la región de LAC están más alejados, lo cual expresa que los datos de estados europeos son más fiables para explicar el PIB que su contraparte.

3.5) Matriz de correlaciones

La Figura 6 presenta la matriz de correlaciones de Pearson entre todas las variables del modelo. Este análisis previo permite identificar la fuerza y dirección de las relaciones lineales entre variables, y anticipar posibles problemas de multicolinealidad antes de estimar el modelo (Gujarati & Porter, 2010).

datos_correlacion <- datos_limpios %>%
  select(PIB, Ind, Wag, Fem, PartTime, Emp) %>%
  mutate(across(everything(), as.numeric))

matriz_cor <- cor(datos_correlacion, use = "complete.obs")

colnames(matriz_cor) <- rownames(matriz_cor) <- c(
  "PIB", "Industria", "Asalariados", "Mujeres\nDirección", "Empleadores", "Tiempo\nParcial"
)

ggcorrplot(
  matriz_cor,
  method        = "square",
  type          = "lower",
  lab           = TRUE,
  lab_size      = 3.2,
  digits        = 2,
  colors        = c("#F72585", "#fafafa", "#4361EE"),
  outline.color = "#fafafa",
  tl.cex        = 9,
  tl.col        = "#1a1a2e",
  ggtheme       = tema_pro
) +
  labs(caption = "Fuente: World Development Indicators, Banco Mundial (2014)") +
  scale_fill_gradient2(
    low = "#F72585", mid = "#fafafa", high = "#4361EE",
    midpoint = 0, limits = c(-1, 1), name = "Correlación"
  )

Figura 6. Matriz de correlaciones de Pearson entre las variables del modelo.

La matriz revela que la variable con mayor correlación con el PIB por empleado es Trabajadores asalariados (r = 0.61), seguida por Empleo a tiempo parcial (r = -0.11). Estas correlaciones positivas expresan una mayor formalización laboral, ademas de mostrar que las estructuras de empleo más flexibles tienden a asociarse con economías más productivas. Por su parte, Empleadores presenta la correlación más baja con el PIB, lo que anticipa un coeficiente poco significativo en el modelo.

4) Resultados del modelo

En esta sección se presentan los resultados de la estimación del modelo de regresión lineal múltiple, junto con la evaluación de sus supuestos. El análisis busca identificar qué variables del mercado laboral tienen un efecto estadísticamente significativo sobre el PIB por persona empleada y en qué dirección.

4.1) Estimación del modelo

modelo_laboral <- lm(PIB ~ Ind + Wag + Fem + PartTime + Emp, data = datos_limpios)

coefs <- coef(modelo_laboral)

tidy(modelo_laboral) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercepto",
      "Ind"         = "Empleo en industria (%)",
      "Wag"         = "Trabajadores asalariados (%)",
      "Fem"         = "Mujeres en dirección (%)",
      "PartTime"    = "Empleo a tiempo parcial (%)",
      "Emp"         = "Empleadores (%)"
    ),
    Significancia = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ ".",
      TRUE            ~ ""
    )
  ) %>%
  mutate(across(where(is.numeric), ~ round(.x, 3))) %>%
  kable(
    col.names = c("Variable", "Coeficiente", "Error estándar", "Estadístico t", "p-valor", "Sig."),
    caption   = "Tabla 2. Resultados de la estimación del modelo de regresión lineal múltiple",
    align = c("l", "c", "c", "c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = TRUE, font_size = 14
  ) %>%
  row_spec(0, bold = TRUE, color = "#eef1f8", background = "#223e75") %>%
  footnote(
    general = " Niveles de significancia: *** = p<0.001, ** = p<0.01, * = p<0.05, • = p<0.1",
    general_title = ""
  )

Tabla 2. Resultados de la estimación del modelo de regresión lineal múltiple
Variable	Coeficiente	Error estándar	Estadístico t	p-valor	Sig.
Intercepto	11776.618	33754.590	0.349	0.729
Empleo en industria (%)	-2016.788	710.120	-2.840	0.007	**
Trabajadores asalariados (%)	1706.823	295.375	5.778	0.000	***
Mujeres en dirección (%)	-1553.232	500.611	-3.103	0.003	**
Empleo a tiempo parcial (%)	995.081	369.908	2.690	0.010
Empleadores (%)	-1062.571	2062.186	-0.515	0.609
Niveles de significancia: * = p<0.001, = p<0.01, * = p<0.05, • = p<0.1

El modelo ajustado queda expresado por la siguiente ecuación:

\[ \hat{Y} = 1.17766\times 10^{4} + -2016.8 X_1 + 1706.8 X_2 + -1553.2 X_3 + 995.1 X_4 + -1062.6 X_5 \]

Donde \(X_1\) es Empleo en industria, \(X_2\) Trabajadores asalariados, \(X_3\) Mujeres en dirección, \(X_4\) Empleo a tiempo parcial y \(X_5\) Empleadores.

La interpretación de los coeficientes es la siguiente, manteniendo constantes las demás variables:

Empleo en industria: Si el porcentaje de trabajadores en el sector industrial aumenta un punto porcentual, el PIB por trabajador disminuirá -2016.8 dólares.
Trabajadores asalariados: Es la variable con mayor efecto en el estudio. Con una subida de asalariados equivalente a un punto porcentual se asociará con un cambio de 1706.8 dólares en el PIB por empleado, lo que demuestra el papel de la formalización laboral como motor de productividad.
Mujeres en dirección: Un punto porcentual más de participación femenina en cargos directivos se asocia con un cambio de -1553.2 dólares en el PIB. El signo de este coeficiente debe interpretarse con cautela, ya que, como se observó anteriormente, existe un sesgo regional, el cuál fue identificado en el análisis descriptivo.
Empleo a tiempo parcial: Por cada punto porcentual adicional, el PIB por empleado varía 995.1 dólares, efecto que puede estar capturando las características de las economías europeas más que una causalidad directa.
Empleadores: El coeficiente de -1062.6 dólares expresa que, por cada punto porcentual, el PIB disminuira en dicha cantidad.

De estos coeficientes se pueden concluir varias cosas, empezando por resaltar que mientras más personas estén trabajando en industrias (Que es directamente proporcional a la cantidad de industrias), menor productividad general va a haber, caso similar a los empleadores, puesto que, mientras que estos aumenten la productividad disminuye, aunque hay que tener en cuenta que subir o bajar un punto porcentual la cantidad de empleadores no es tan probable dado la naturaleza escasa de esta figura respecto a la mayoría de trabajadores. Por otro lado, está el índice no tan convincente de las mujeres en puestos de dirección, esto debido al sesgo regional entre Europa y LAC, puesto que, estas tienen una mayor participación en la segunda, cuya economía está menos desarrollada. Por otra parte, se tiene a los trabajadores asalariados, el pilar de cualquier economía moderna, puesto que, como se observó en su indicador, si su cantidad aumenta, el PIB por empleado aumenta también. Por último, el caso más particular es el de los empleados a tiempo parcial, puesto que, como se observó anteriormente estos no cuentan con una amplia presencia en LAC, mientras que en los países europeos es uno de sus motores económicos, y por lo mismo, no siendo muy concluyente.

4.3) Bondad de ajuste

Como explica Wooldridge (2015), el \(R^2\) representa la proporción de la variación total en la variable dependiente que se logra explicar mediante el modelo de regresión múltiple; en otras palabras, mide qué fracción de la varianza de \(Y\) es explicada en conjunto por las variables independientes \(X\).

resumen <- glance(modelo_laboral)

data.frame(
  Métrica     = c("R²", "R² ajustado", "Estadístico F", "p-valor del modelo", "Obs."),
  Valor       = c(
    round(resumen$r.squared, 4),
    round(resumen$adj.r.squared, 4),
    round(resumen$statistic, 3),
    format(resumen$p.value, scientific = TRUE, digits = 3),
    nrow(datos_limpios)
  )
) %>%
  kable(caption = "Tabla 3. Métricas de bondad de ajuste del modelo") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = FALSE, font_size = 14
  ) %>%
  row_spec(0, bold = TRUE, color = "#eef1f8", background = "#223e75")

Tabla 3. Métricas de bondad de ajuste del modelo
Métrica	Valor
R²	0.6904
R² ajustado	0.6526
Estadístico F	18.286
p-valor del modelo	1.64e-09
Obs.	47

El R² del modelo es de 0.6904, lo cual en principio es un buen indicio, ya que esto indica que las cinco variables explicativas seleccionadas explican el 69% de la variabilidad del PIB por persona empleada entre los países de la muestra. El R² ajustado de 0.6526 tiene en cuenta el número de variables incluidas y confirma que el ajuste es robusto, puesto que la diferencia de solo 0,4% demuestra que las variables son significantes y no están agregadas sin sentido. El estadístico F de 18.29 con un p-valor prácticamente nulo indica que el modelo en su conjunto es estadísticamente significativo, es decir, al menos una de las variables explicativas tiene un efecto real sobre la variable dependiente.

4.4) Verificación de supuestos

Para verificar la validez del modelo de regresión lineal se deben evaluar los supuestos postulados, los cuales son en este caso la normalidad de los residuos, homocedasticidad y la ausencia de multicolinealidad.

4.4.1) Normalidad de los residuos

residuos_df <- data.frame(
  res      = residuals(modelo_laboral),
  ajustado = fitted(modelo_laboral)
)

p_hist <- ggplot(residuos_df, aes(x = res)) +
  geom_histogram(aes(y = after_stat(density)),
                 bins = 15, fill = "#4361EE", alpha = 0.3, color = "#4361EE") +
  geom_density(color = "#1a1a2e", linewidth = 0.9) +
  labs(x = "Residuos", y = "Densidad") +
  tema_pro

p_qq <- ggplot(residuos_df, aes(sample = res)) +
  stat_qq(color = "#4361EE", alpha = 0.7, size = 2) +
  stat_qq_line(color = "#F72585", linewidth = 0.9) +
  labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
  tema_pro

p_hist + p_qq

Figura 7. Izquierda: histograma de residuos con curva de densidad. Derecha: gráfico QQ de los residuos del modelo.

sw <- shapiro.test(residuals(modelo_laboral))

La prueba de Shapiro-Wilk arroja un estadístico W = 0.8743 con un p-valor de 10^{-4}. Con base en este resultado, se rechaza la hipótesis nula de normalidad (p < 0.05). Sin embargo, dado el tamaño muestral moderado, el Teorema Central del Límite respalda la validez asintótica de las inferencias (Wooldridge, 2015). El gráfico QQ complementa este resultado visualmente.

4.4.2) Homocedasticidad

La prueba de Breusch-Pagan studentizada (Koenker, 1981) contrasta formalmente si la varianza de los residuos es constante. Las hipótesis son:

\[H_0: \text{La varianza de los residuos es constante (homocedasticidad)}\] \[H_1: \text{La varianza de los residuos no es constante (heterocedasticidad)}\]

library(lmtest)
bp <- bptest(modelo_laboral, studentize = TRUE)
data.frame(
  BP     = round(bp$statistic, 3),
  pvalor = round(bp$p.value, 4)
) %>%
  kable(caption = "Tabla 4. Resultados de la prueba de Breusch-Pagan studentizada",
        col.names = c("Estadístico BP", "p-valor")) %>%
  kable_styling(bootstrap_options = c("striped", "hover"),
                full_width = FALSE, font_size = 14) %>%
  row_spec(0, bold = TRUE, color = "#eef1f8", background = "#223e75")

Tabla 4. Resultados de la prueba de Breusch-Pagan studentizada
	Estadístico BP	p-valor
BP	20.439	0.001

Con un estadístico BP de 20.439 y un p-valor de 0.001, inferior al umbral de 0.05, se rechaza \(H_0\). Esto confirma la presencia de heterocedasticidad, resultado esperable dado que la muestra combina economías tan dispares como Haití y Luxemburgo en el mismo modelo.

Lo anterior se puede corroborar visualmente en la Figura 7, donde la línea de tendencia describe una forma de U en lugar de mantenerse plana sobre el cero — la varianza de los errores se dispara en los extremos del rango de predicción, precisamente donde se ubican los países con niveles de productividad más bajos y más altos de la muestra.

ggplot(residuos_df, aes(x = ajustado, y = res)) +
  geom_point(color = "#4361EE", alpha = 0.7, size = 2) +
  geom_hline(yintercept = 0, color = "#F72585", linewidth = 0.8, linetype = "dashed") +
  geom_smooth(se = FALSE, color = "#7209B7", linewidth = 0.6, method = "loess") +
  labs(x = "Valores ajustados", y = "Residuos") +
  tema_pro

Figura 8. Residuos versus valores ajustados. La línea morada representa la tendencia local (LOESS); una línea plana sobre el cero indicaría homocedasticidad.

4.4.3) Multicolinealidad

library(car)

vif_vals <- vif(modelo_laboral)

data.frame(
  Variable  = c("Empleo en industria", "Trabajadores asalariados",
                "Mujeres en dirección", "Empleo a tiempo parcial", "Empleadores"),
  VIF       = round(vif_vals, 3),
  Evaluación = case_when(
    vif_vals < 5  ~ "✓ Sin problema",
    vif_vals < 10 ~ "⚠ Moderado",
    TRUE          ~ "✗ Problema grave"
  )
) %>%
  kable(caption = "Tabla 5. Factor de Inflación de la Varianza (VIF)") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover"),
    full_width = FALSE, font_size = 14
  ) %>%
  row_spec(0, bold = TRUE, color = "#eef1f8", background = "#223e75")

Tabla 5. Factor de Inflación de la Varianza (VIF)
	Variable	VIF	Evaluación
Ind	Empleo en industria	1.358	✓ Sin problema
Wag	Trabajadores asalariados	1.235	✓ Sin problema
Fem	Mujeres en dirección	1.021	✓ Sin problema
PartTime	Empleo a tiempo parcial	1.417	✓ Sin problema
Emp	Empleadores	1.042	✓ Sin problema

Como regla general, valores de VIF superiores a 10 indican un problema grave de multicolinealidad, mientras que valores entre 5 y 10 sugieren un problema moderado que merece atención (Gujarati & Porter, 2010). Los resultados de la Tabla 5 muestran que todas las variables presentan VIF por debajo de 5, lo que indica ausencia de multicolinealidad problemática en el modelo. Este resultado es consistente con la matriz de correlaciones, donde no se observaron correlaciones extremadamente altas entre las variables predictoras.

5) Conclusiones

En este proyecto se buscó hallar 5 variables que explicaran el comportamiento y variabilidad del’ GDP per person employed’. Después de su respectiva selección y depuración, además de sus estadísticas descriptivas, se halló que la variable más relevante es la de Trabajadores asalariados con su signo positivo e importante significancia. Por otra parte, se observó el efecto negativo de Empleo en industria, que se puede considerar incluso contraintuitivo. Mujeres en dirección posee un sesgo regional, por lo que no llega a ser realmente muy concluyente, y por último Empleadores y Empleo a tiempo parcial provocan efectos, pero por sus naturalezas no tienen un gran impacto en la variable de respuesta.

El modelo responde de manera parcial al objetivo, puesto que, con el coeficiente R² de 0.69 (Las variables explica casi en un 70% el comportamiento del PIB por empleado), explica gran parte del comportamiento de la variable dependiente con una gran significancia, más sin embargo, este mismo modelo contó con una heterocedasticidad confirmada, por lo que los residuos mantienen una dispersión bastante alta, esto dado principalmente por la mezcla de economías sin tener en cuenta factores extra como el nivel de desarrollo de cada estado, su región geográfica etc.

6) Bibliografía

Toma de Decisiones Basadas en Datos. (s/f). Joaquibarandica.com. Recuperado el 04 de abril de 2026, de https://www.joaquibarandica.com/courses/tdbd/

El paquete ggplot2. (1d. C., enero 1). R CHARTS | Una colección de gráficos hechos con el lenguaje de programación R; R CODER. https://r-charts.com/es/ggplot2/

Plotly. (s/f). Plotly.com. Recuperado el 04 de abril de 2026, de https://plotly.com/r/

R para ciencia de datos. (2023, junio 6). Hadley.Nz. https://es.r4ds.hadley.nz

Krugman, P. (1990). The Age of Diminished Expectations. MIT Press.

Wooldridge, J. M. (2015). Introducción a la econometría: Un enfoque moderno (5ta ed.). Cengage Learning.

OCDE. (2001). Measuring Productivity - OECD Manual: Measurement of Aggregate and Industry-level Productivity Growth. Organización para la Cooperación y el Desarrollo Económicos.

Borjas, G. J. (2014). Labor economics (7ma ed.). McGraw-Hill.

Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014). Metodología de la investigación. McGraw-Hill.

Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.

Gujarati, D. N., & Porter, D. C. (2010). Econometría (5ta ed.). McGraw-Hill.

Análisis de Regresión Lineal Múltiple para el GDP per person employed en el año 2014

Joan Manuel Carrasco - 2538654

Catalina Muñoz García - 2440044

Oscar Andres Ramirez Diaz - 2418704

Samuel David Vasquez Gutierrez - 2439103

2026-04-03