1.Introducción

Uno de los indicadores más importantes para comprender el desarrollo económico de un país es la productividad laboral medida a través del Producto Interno Bruto (PIB) por persona empleada. Este busca calcular cuánto produce en promedio cada trabajador de un país y permite comparar la eficiencia laboral entre países. Así mismo, este indicador tiene una relación importante con las mujeres, ya que este refleja el nivel de participación femenina dentro de la productividad de un país.

De acuerdo con el artículo de “Mujeres en el mercado de trabajo: una deuda y una oportunidad”, las desigualdades de género en el mundo laboral limitan el crecimiento económico de un país y ponen en riesgo las condiciones básicas para emprender un camino de desarrollo económico inclusivo (CIPPEC, 2019a). A pesar de los avances registrados, el porcentaje de la tasa de participación de las mujeres en un rango de 15 a 64 años que participan en la fuerza laboral, según el Banco Mundial, ha ido disminuyendo o estancándose desde 1990, alcanzando su punto más bajo en 2020 con tan solo un 52%.

En 2013, año de referencia de este estudio, la tasa de participación fue de 54%; esto se debe a que las mujeres enfrentan más obstáculos que los hombres para entrar al mundo laboral. Estos obstáculos se ven cuando son madres, tienen niveles educativos bajos y son jóvenes. A esto se suma que las mujeres dedican más tiempo que los hombres a trabajos no remunerados y al cuidado de otras personas en el hogar. Estos trabajos no remunerados son esenciales para la economía, pero no se contabilizan ni reconocen en el indicador de PIB por persona empleada ni en ningún indicador tradicional (CIPPEC, 2019a).

Según el CIPPEC en su artículo “Razones económicas para reducir las brechas de género en el mercado laboral”, la brecha de género tiene grandes afectaciones en la economía de un país, ya que, además de injusta, es ineficiente. El artículo sostiene que la brecha de género que existe en la educación, tanto como en el mercado laboral, reduce la reserva real y potencial de capital humano, además de también reducir la velocidad de la innovación e integración de tecnología en la economía y, en consecuencia, también disminuye la productividad agregada y el PIB per cápita (CIPPEC, 2019b).

Este informe tiene como objetivo modelar el PIB por persona empleada a partir de cinco variables de participación femenina en el mercado laboral, utilizando datos del Banco Mundial para el año 2013, clasificando los países en tres regiones geográficas: Latinoamérica, incluido el Caribe, Europa y Asia Central. Se emplea un modelo de regresión lineal múltiple para identificar cuáles dimensiones del empleo femenino se asocian significativamente con la productividad económica de los países.

2.Metodología

2.1 Fuente de datos

Los datos utilizados en este estudio provienen de la base de datos World Development Indicators (WDI) del Banco Mundial. Se trabajó con la información correspondiente al año 2013. Además, los países fueron filtrados en 3 regiones con 44 países en Latinoamérica y Caribe, 51 países en Europa y 8 países en Asia Central.

#Cargar librerias
library (readxl)
library (tidyverse)
library(knitr)
library(ggplot2)
library(dplyr)
library(corrr)
library(ggcorrplot)
library(broom)
library (lmtest)
library (car)
library(dplyr)
library(ggplot2)
library(plotly)
library(ggcorrplot)
library(kableExtra)

Data<- read_excel("Taller1.xlsx",na="..")
Data

2.2 Descripción de las Variables del Modelo

Variable dependiente: PIB por persona empleada expresado en dólares constantes 2017 ajustado por paridad de poder adquisitivo. Este indicador mide la productividad laboral de un país, es decir, cuánto valor económico genera en promedio cada trabajador.

Variables independientes: Se eligieron 5 variables independientes que tengan un efecto en el PIB.

Empleadoras (Empleadoras): Mide el porcentaje de mujeres que son dueñas o que generan empleo. Se incluye porque el emprendimiento femenino ayuda a dinamizar la economía, fomentar empleos y aumentar la actividad productiva. Se espera que tenga una relación positiva con el PIB, ya que el espíritu empresarial es un motor de innovación y dinamismo económico.
Empleo femenino en la industria (Ind_fem): Mide el porcentaje de mujeres empleadas en la industria. Esta variable nos permite ver qué tanta participación tienen las mujeres en los sectores industriales; aunque la industria siempre está asociada a procesos productivos que son muy específicos, en una economía en desarrollo se puede encontrar una industria enfocada en actividades de un bajo valor agregado, con lo cual podemos justificar por qué la vamos a evaluar en un impacto real en productividad.
Participación femenina en gerencia (Gerencia_fem): Mide el porcentaje de cargos de gerencia media y alta ocupados por mujeres. Se incluye bajo la hipótesis de que una mayor representación femenina en posiciones directivas refleja un mejor aprovechamiento del capital humano disponible en la economía, lo que debería traducirse en mayor productividad. Sin embargo, esta variable puede tener una relación negativa o no significativa, si las mujeres se concentran en servicios de bajo valor agregado o sectores públicos.
Asalariadas formales (Salario_fem): Mide el porcentaje de mujeres en empleo asalariado formal dentro del total del empleo femenino. La formalización del trabajo está directamente relacionada con mayor productividad laboral, ya que este tipo de empleos tiene mejores condiciones, capacitaciones y mayor estabilidad para las trabajadoras, lo que permite aprovechar mejor ese capital humano femenino.
Tasa de empleo femenino joven (TEMJ): Mide la proporción de mujeres entre 15 y 24 años que están empleadas respecto a la población femenina de ese grupo de edad. Se incluye como un indicador, ya que se espera que una mayor incorporación de mujeres jóvenes al mercado laboral amplía la productividad laboral; por lo tanto, el PIB aumentaría. Sin embargo, esto se ve limitado, ya que si las mujeres en este rango de edad tienen empleos informales o de baja calificación, su contribución marginal a la productividad será limitada, lo que podría explicar un coeficiente pequeño o no significativo.
Región: Es una variable categórica que clasifica cada país en una de tres regiones geográficas: Asia Central, Europa y Latinoamérica y el Caribe. Se incluye en el modelo de regresión lineal múltiple como una variable dummy, tomando Europa como categoría de referencia. Su inclusión nos permite controlar las diferencias estructurales entre regiones que podrían influir en la productividad laboral más allá de los indicadores del mercado laboral femenino.

data.frame(
  Variable = c("PIB", "Empleadoras", "Ind_fem", "TEMJ", "Gerencia_fem", "Salario_fem", "Region"),
  Tipo     = c("Cuantitativa", "Cuantitativa", "Cuantitativa", "Cuantitativa", "Cuantitativa", "Cuantitativa","Categorica")
) %>% 
  kable()

Variable	Tipo
PIB	Cuantitativa
Empleadoras	Cuantitativa
Ind_fem	Cuantitativa
TEMJ	Cuantitativa
Gerencia_fem	Cuantitativa
Salario_fem	Cuantitativa
Region	Categorica

2.3 Descripción del Modelo utilizado

Para cumplir con el objetivo del estudio, se planteó un modelo de regresión lineal múltiple y se utilizó para evaluar cada una de las 3 regiones geográficas. La ecuación general del modelo es:

\[ PIB_i = \beta_0 + \beta_1(Empleadoras_i) + \beta_2(Ind\_fem_i) + \beta_3(Gerencia\_fem_i) + \beta_4(Salario\_fem_i) + \beta_5(TEMJ_i) + Region+ \varepsilon_i \] Donde $i$ representa cada país en la muestra, $\beta_0$ es el intercepto, $\beta_i$ son los coeficientes del modelo, y $\varepsilon_i$ es el término de error.

3.Resultados Descriptivos

3.1 Creación y Filtración de la base de datos

latam<-c("Antigua and Barbuda", "Argentina", "Aruba", "Bahamas, The", "Barbados",
         "Belize", "Bolivia", "Brazil", "British Virgin Islands", "United States", "Canada","Cayman Islands",
         "Chile", "Colombia", "Costa Rica", "Cuba", "Curacao", "Dominica",
         "Dominican Republic", "Ecuador", "El Salvador", "Grenada", "Guatemala",
         "Guyana", "Haiti", "Honduras", "Jamaica", "Mexico", "Nicaragua", "Panama",
         "Paraguay", "Peru", "Puerto Rico", "Sint Maarten (Dutch part)", "Suriname",
         "St. Kitts and Nevis", "St. Lucia", "St. Martin (French part)",
         "St. Vincent and the Grenadines", "Trinidad and Tobago",
         "Turks and Caicos Islands", "Uruguay", "Venezuela, RB",
         "Virgin Islands (U.S.)")
europe<-c("Albania", "Andorra", "Austria", "Belarus", "Belgium", "Bermuda",
          "Bosnia and Herzegovina", "Bulgaria", "Channel Islands", "Croatia",
          "Cyprus", "Czechia", "Denmark", "Estonia", "Faroe Islands", "Finland",
          "France", "Germany", "Gibraltar", "Greece", "Greenland", "Hungary",
          "Iceland", "Ireland", "Isle of Man", "Italy", "Kosovo", "Latvia",
          "Liechtenstein", "Lithuania", "Luxembourg", "Moldova", "Monaco",
          "Montenegro", "Netherlands", "North Macedonia", "Norway", "Poland",
          "Portugal", "Romania", "Russian Federation", "San Marino", "Serbia",
          "Slovak Republic", "Slovenia", "Spain", "Sweden", "Switzerland",
          "Turkiye", "Ukraine", "United Kingdom")

asia<-c("Armenia", "Azerbaijan", "Georgia", "Kazakhstan", "Kyrgyz Republic",
        "Tajikistan", "Turkmenistan", "Uzbekistan")

#Base de dato con Europa
dataE<- Data %>% filter(Time==2013,`Country Name`%in%europe)
view (dataE)

#Base de dato con Latam
dataL<-Data%>%filter(Time==2013,`Country Name`%in%latam)
view(dataL)

#Base de datos con Asia
dataA<-Data%>%filter(Time==2013,`Country Name`%in%asia)
view(dataA)

#Base conjunta donde se junte todas
dataE$Region<-"Europa"
dataL$Region<-"Latinoamerica"
dataA$Region<-"Asia"

base_total <- bind_rows(dataL, dataE, dataA)

#Convertir región  y limpiar en factor
base_total$Region <- as.factor(base_total$Region)
base_total$Region <- relevel(base_total$Region, ref = "Europa")
view(base_total)

base_limpia <- base_total %>%
  select(`Country Name`,Region, PIB, `Empleadoras(%)`, `Ind_fem(%)`, 
         `Gerencia_fem(%)`, `Salario_fem(%)`, `TEMJ(%)`) %>%
  na.omit()
view (base_limpia)

Para construir la base de datos del estudio, se partió de la base World Development Indicators (WDI) del Banco Mundial, filtrando únicamente las observaciones correspondientes al año 2013. Los países fueron clasificados en tres regiones geográficas: Latinoamérica y el Caribe (44 países), Europa (51 países) y Asia Central (8 países). A cada subconjunto se le asignó una etiqueta de región y posteriormente se unificaron en una única base de datos. Finalmente, la variable Región fue convertida a factor para su uso como variable dummy en el modelo de regresión.

Tras realizar una limpieza de los datos N/A, los países se redujeron a 53 países a analizar, distribuidos de la siguiente forma:

base_limpia %>%
  select(Region, PIB, `Empleadoras(%)`, `Ind_fem(%)`, 
         `Gerencia_fem(%)`, `Salario_fem(%)`, `TEMJ(%)`) %>%
  na.omit() %>%
  group_by(Region) %>%
  summarise(n = n()) %>%
  kable(caption = "Tabla. Países con datos completos por región (2013)",
        col.names = c("Región", "N° de países")) %>%
  kable_styling(bootstrap_options = c("striped", "bordered"), 
                full_width = FALSE)

Tabla. Países con datos completos por región (2013)
Región	N° de países
Europa	37
Asia	1
Latinoamerica	15

Se evidencia que tras la limpieza de valores faltantes (N/A), Asia Central presenta solamente un país con todas las variables dependientes a utilizar (Uzbekistán. Esto representa una limitación en la disponibilidad de los datos. Por lo tanto, al momento de noo se podria analizar a la región como un conjunts, sino como un único país.

3.2 Analisís del PIB por Región

base_limpia%>%
  group_by(Region)%>%
  summarise(    Media   = round(mean(PIB, na.rm = TRUE), 2),
                Mediana = round(median(PIB, na.rm = TRUE), 2),
                D.Estandar      = round(sd(PIB, na.rm = TRUE), 2),
                Min     = round(min(PIB, na.rm = TRUE), 2),
                Max     = round(max(PIB, na.rm = TRUE), 2)
  ) %>% kable()

Region	Media	Mediana	D.Estandar	Min	Max
Europa	83158.34	71538.76	37635.89	32144.65	243293.42
Asia	26605.72	26605.72	NA	26605.72	26605.72
Latinoamerica	40485.42	35379.49	27146.40	13363.19	121671.31

p1 <- ggplot(base_limpia, aes(x = Region, y = PIB, fill = Region)) +
  geom_boxplot() +
  labs(title = "PIB por persona empleada según región",
       x = "Región", y = "PIB") +
  theme_minimal() +
  theme(legend.position = "none")

ggplotly(p1)

El gráfico de cajas permite comparar la distribución del PIB por persona empleada entre las tres regiones analizadas. Europa presenta la mediana más alta, ubicada alrededor de los $70.000, con una caja amplia que refleja alta dispersión entre sus países y un valor atípico que supera los $200.000, correspondiente a una economía de muy alto ingreso. Latinoamérica muestra una mediana cercana a los $35.000 con una dispersión moderada y un valor atípico cercano a los $120.000, lo que indica la presencia de algún país con productividad notablemente superior al resto de la región.Asia Central muestra un único valor de aproximadamente $26.605 que corresponde al país de Uzbekistán. Como solamente, se cuenta con una sola observación para la región, no se puede calcular medidas de dispersión ni generalizar el resultado sobre la región.

3.3 Comparación por Región

tabla_comparativa <- base_limpia %>%
  group_by(Region) %>%
  summarise(
    PIB_media          = round(mean(PIB,              na.rm = TRUE), 2),
    Empleadoras_media  = round(mean(`Empleadoras(%)`, na.rm = TRUE), 2),
    Ind_fem_media      = round(mean(`Ind_fem(%)`,     na.rm = TRUE), 2),
    TEMJ_media         = round(mean(`TEMJ(%)`,        na.rm = TRUE), 2),
    Gerencia_media     = round(mean(`Gerencia_fem(%)`,na.rm = TRUE), 2),
    Salario_media      = round(mean(`Salario_fem(%)`, na.rm = TRUE), 2)
  ) %>%
  arrange(desc(PIB_media))

tabla_comparativa %>% kable()

Region	PIB_media	Empleadoras_media	Ind_fem_media	TEMJ_media	Gerencia_media	Salario_media
Europa	83158.34	2.33	13.17	28.42	29.27	84.83
Latinoamerica	40485.42	2.63	11.95	29.59	38.61	63.12
Asia	26605.72	0.55	4.76	16.14	32.80	42.84

tabla_comparativa %>%
  pivot_longer(cols = -Region, names_to = "Indicador", values_to = "Promedio") %>%
  ggplot(aes(x = Region, y = Promedio, fill = Region)) +
  geom_col() +
  facet_wrap(~Indicador, scales = "free_y") +
  theme_minimal() +
  labs(title = "Promedio de indicadores laborales femeninos por region (2013)",
       x = "Region", y = "Promedio") +
  theme(legend.position = "none",
        axis.text.x = element_text(angle = 45, hjust = 1))

La comparación de promedios por región revela diferencias importantes entre los indicadores laborales femeninos. Europa lidera en PIB con un promedio de alrededor de $80000, seguida de Latinoamérica con alrededor de $45000, mientras que el único país registrado de Asia alcanza los $26.605,72. En cuanto a participación femenina en gerencia, la región de Latinoamérica destaca con un promedio del 38% frente al 29% de Europa; por su parte, el único dato de Asia se sitúa en 32,80%.

El porcentaje de mujeres asalariadas formales es notablemente más alto en Europa, con un promedio de 84%, superando a Latinoamérica ( y al único registro de Asia (42,84%) En empleo femenino joven, Latinoamérica de 29,59% y Europa de 28,42% muestran promedios similares, mientras que la observación de Asia es significativamente menor, con un 16,14%. Estos resultados sugieren que, si bien Europa tiene mayor formalización laboral femenina y PIB, Latinoamérica muestra una mayor tendencia hacia la representación femenina en cargos directivos, mientras que el promedio mostrado en la tabla sobre Asia central corresponde a un solo país, por lo cual se debe interpretar con cautela.

3.4 Variable categorica: Región

Desde el punto de vista estadístico, cada variable dummy toma el valor de 1 cuando el país pertenece a esa región y 0 en caso contrario. La media de cada dummy equivale directamente a la proporción de países en esa categoría, por lo que dummy_Europe tiene una media de 0.359, lo que indica que el 36% de los países son europeos; dummy_Americas (Latinoamérica) tiene una media de 0.145, indicando que el 14.5% de los países son latinoamericanos; y dummy_Asia tiene una media de 0.018, reflejando que solo el 1.8% de los países pertenecen a esta región.

# TABLA DE FRECUENCIAS PARA REGION (DUMMIES)
base_limpia %>%
  count(Region) %>%
  mutate(
    Porcentaje = round((n / sum(n)) * 100, 2)
  ) %>%
  kable(
    caption = "Análisis Descriptivo de las Variables Dummy por Región",
    col.names = c("Región (Variable Dummy)", "Frecuencia (n)", "Participación (%)")
  )

Análisis Descriptivo de las Variables Dummy por Región
Región (Variable Dummy)	Frecuencia (n)	Participación (%)
Europa	37	69.81
Asia	1	1.89
Latinoamerica	15	28.30

La tabla de frecuencias muestra la distribución de los 53 países de la muestra según su región geográfica. Europa es la categoría con mayor representación, con 37 países, lo que equivale al 69.81% del total. Esto significa que la muestra tiene un fuerte sesgo hacia economías europeas. Latinoamérica ocupa el segundo lugar con 15 países, representando el 28.30% de la muestra. Por último, Asia es la categoría menos representada, con únicamente 1 país (1.89% del total).

Esta distribución explica por qué se utiliza a Europa como variable de referencia en el modelo de regresión, ya que, al ser el grupo más numeroso y estable, proporciona una base comparativa sólida. Por el contrario, la presencia de una sola observación para Asia confirma la limitación estructural del modelo para dicha región, ya que no existen observaciones suficientes para realizar inferencias estadísticas confiables sobre ese continente.

# Gráfico de barras para la distribución de regiones
ggplot(base_limpia, aes(x = Region, fill = Region)) +
  geom_bar() +
  geom_text(stat='count', aes(label=..count..), vjust=-0.5) +
  theme_minimal() +
  labs(
    title = "Distribución de países por Región (Dummies)",
    x = "Región",
    y = "Cantidad de Países"
  ) +
  theme(legend.position = "none")

El gráfico de barras refuerza visualmente lo descrito en la tabla. La barra de Europa es la más alta con 37 países, seguida muy de cerca por Latinoamérica con 15, mientras que Asia presenta una barra notablemente más pequeña con 1 país. La proximidad entre Europa y Latinoamérica sugiere que el análisis comparativo entre estas dos regiones es más robusto y equilibrado que cualquier comparación que involucre a Asia.

3.5 Relación entre PIB y las variables independientes

PIB VS Empleadoras

p3 <- ggplot(base_limpia, aes(x = PIB, y = `Empleadoras(%)`, 
                              color = Region, label = `Country Name`)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = TRUE, color = "gray40") +
  labs(title = "PIB vs Empleadoras (2013)",
       x = "PIB por persona empleada", y = "Empleadoras (%)") +
  theme_minimal()

ggplotly(p3)

El diagrama de dispersión entre el PIB por persona empleada y el porcentaje de mujeres empleadoras presenta una línea de tendencia con pendiente negativa, con un intervalo de confianza amplio que se expande a medida que aumenta el PIB, lo que indica una relación débil o inexistente. La mayoría de los países, independientemente de la región, concentran sus valores de empleadoras entre el 0,5% y el 4%, con algunos casos atípicos en Europa y Latinoamérica que presentan porcentajes superiores al 5,2% con PIB relativamente bajos. Esto es consistente con los resultados del modelo de regresión, donde esta variable no resultó estadísticamente significativa.

PIB VS Ind_fem(%)

p4 <- ggplot(base_limpia, aes(x = PIB, y = `Ind_fem(%)`,
                              color = Region, label = `Country Name`)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = TRUE, color = "gray40") +
  labs(title = "PIB vs Mujeres en industria (2013)",
       x = "PIB por persona empleada", y = "Ind_fem (%)") +
  theme_minimal()

ggplotly(p4)

La relación entre el PIB por persona empleada y el porcentaje de mujeres empleadas en la industria revela una tendencia negativa moderada. A medida que el PIB aumenta, el porcentaje de mujeres en la industria tiende a disminuir, pasando de valores cercanos al 15%-25% en países con bajo PIB a valores por debajo del 10% en países con PIB superior a $150.000. Europa concentra la mayor dispersión en esta variable, con países que van desde menos del 5% hasta más del 25% de empleo femenino industrial, mientras Latinoamérica muestra una concentración en niveles de PIB inferiores a los $125.000, con una participación industrial femenina entre el 6% y el 19%. Por otro lado, la única observación de Asia, con valores bajos en ambos ejes, situándose cerca del 5% en la industria y alrededor de los $26.000 de PIB. Esta relación inversa refuerza lo encontrado en el modelo de regresión, donde un mayor empleo femenino en industria se asocia con menores niveles de PIB.

PIB VS Gerencia

p5 <- ggplot(base_limpia, aes(x = PIB, y = `Gerencia_fem(%)`,
                              color = Region, label = `Country Name`)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = TRUE, color = "gray40") +
  labs(title = "PIB vs Participación femenina en gerencia (2013)",
       x = "PIB por persona empleada", y = "Cargos de gerencia (%)") +
  theme_minimal()

ggplotly(p5)

El gráfico de PIB vs participación femenina en gerencia muestra una tendencia negativa, donde los países con mayor PIB tienden a tener menor representación de mujeres en cargos directivos. Europa presenta porcentajes de gerencia femenina que se sitúan mayoritariamente entre el 15% y el 42% con bajos PIB, descendiendo a su valor más bajo (cercano al 15%) en el país con mayor nivel de ingresos de alrededor de $24000. Adicionalmente, en Latinoamérica evidencia una mayor representación en cargos directivos en países con PIB bajos y medios, resaltando un valor atípico extremo que supera el 60%. Finalmente, la única observación de Asia se ubica aproximadamente en un 33% de participación gerencial y cerca de los $26000 de PIB. PIB VS Salario_fem(%)

p6 <- ggplot(base_limpia, aes(x = PIB, y = `Salario_fem(%)`,
                              color = Region, label = `Country Name`)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = TRUE, color = "gray40") +
  labs(title = "PIB vs Mujeres asalariadas formales (2013)",
       x = "PIB por persona empleada", y = "Salario_fem (%)") +
  theme_minimal()

ggplotly(p6)

En contraste con el gráfico anterior, el gráfico de PIB vs mujeres asalariadas formales muestra la relación positiva más clara de todas las variables analizadas. La línea de tendencia es ascendente y el intervalo de confianza es relativamente estrecho, confirmando que a mayor PIB, mayor proporción de mujeres trabajan en empleos formales asalariados, con Europa concentrando los países de mayor PIB y mayor formalización de hasta 90%. Por otro lado, en Latinoamérica se va partiendo desde valores cercanos al 35% en países con menor PIB hasta alcanzar el 90% conforme aumenta el PIB. Mientras que Asia registra una única observación en el extremo inferior izquierdo, con un nivel de formalización cercano al 43% y un PIB de aproximadamente $26.000.

PIB VS TEMJ(%)

p7 <- ggplot(base_limpia, aes(x = PIB, y = `TEMJ(%)`,
                              color = Region, label = `Country Name`)) +
  geom_point(size = 3, alpha = 0.7) +
  geom_smooth(method = "lm", se = TRUE, color = "gray40") +
  labs(title = "PIB vs Mujeres (15-24) empleadas (2013)",
       x = "PIB por persona empleada", y = "TEMJ (%)") +
  theme_minimal()

ggplotly(p7)

La relación entre el PIB por persona empleada y la tasa de empleo femenino joven (mujeres de 15 a 24 años empleadas) muestra una tendencia positiva leve, pero con alta dispersión. Europa presenta la mayor variabilidad, con países que oscilan entre el 10% y el 75% de empleo joven. Mientras que Latinoamérica muestra una concentración más compacta, con la mayoría de sus observaciones situándose entre el 15% y el 40% de TEMJ en rangos de PIB bajos. Por su parte, Asia registra una única observación con valores bajos en ambos ejes, ubicándose aproximadamente en un 16.1% de empleo joven y un PIB cercano a los $26.000. El amplio intervalo de confianza de la línea de tendencia indica que esta relación no es muy precisa, lo que es consistente con los resultados del modelo donde esta variable no resultó estadísticamente significativa para explicar el PIB per cápita.

3.5 Matriz de Correlaciones

# Matriz de correlaciones con cor() base de R
matriz_cor <- base_limpia %>%
  select(PIB, `Empleadoras(%)`, `Ind_fem(%)`, `TEMJ(%)`,
         `Gerencia_fem(%)`, `Salario_fem(%)`) %>%
  cor(use = "complete.obs")
# Tabla de correlaciones 
tabla_correlaciones <- round(matriz_cor, 3)
tabla_correlaciones%>% kable()

	PIB	Empleadoras(%)	Ind_fem(%)	TEMJ(%)	Gerencia_fem(%)	Salario_fem(%)
PIB	1.000	-0.137	-0.386	0.315	-0.410	0.644
Empleadoras(%)	-0.137	1.000	0.087	-0.197	-0.071	-0.102
Ind_fem(%)	-0.386	0.087	1.000	-0.340	-0.026	-0.058
TEMJ(%)	0.315	-0.197	-0.340	1.000	0.026	0.260
Gerencia_fem(%)	-0.410	-0.071	-0.026	0.026	1.000	-0.106
Salario_fem(%)	0.644	-0.102	-0.058	0.260	-0.106	1.000

La matriz de correlaciones numéricas revela las relaciones lineales entre el PIB y los indicadores laborales femeninos. La correlación más fuerte y positiva se da entre el PIB y el salario femenino formal con un valor de 0.644, confirmando que la formalización laboral femenina es el indicador más estrechamente asociado al desarrollo económico. Por el contrario, las correlaciones más negativas con el PIB corresponden a gerencia femenina con -0.410 y empleo femenino en industria con -0.386, lo que reafirma la relación inversa observada en los gráficos de dispersión. El empleo femenino joven TEMJ presenta una correlación positiva moderada con el PIB de 0.315, mientras que las empleadoras muestran la correlación más débil con -0.137. Entre las variables independientes, la correlación más destacada es la negativa entre Ind_fem y TEMJ con -0.340, lo que sugiere que en países donde más mujeres trabajan en industria, menos mujeres jóvenes están empleadas en general.

p8 <- ggcorrplot(matriz_cor,
           type = "lower",
           lab = TRUE,
           lab_size = 3,
           colors = c("#d73027", "white", "#1a9850"),
           title = "Correlación entre indicadores laborales femeninos (2013)")

ggplotly(p8)

El mapa de calor confirma visualmente los patrones identificados en la tabla numérica. La celda más verde e intensa corresponde a la correlación entre PIB y Salario_fem con 0.64, destacándose como la relación positiva más fuerte del análisis. Las celdas en tonos rojos más intensos corresponden a las correlaciones negativas del PIB con Gerencia_fem (-0.41) e Ind_fem (-0.39), evidenciando que estas variables tienen una relación inversa con el nivel de productividad económica. Las correlaciones entre las variables independientes son en su mayoría débiles, con valores cercanos a cero, lo que es consistente con los bajos valores de VIF obtenidos en el modelo de regresión y confirma la ausencia de multicolinealidad entre los predictores. En general, el heatmap refuerza que Salario_fem es la variable con mayor poder explicativo sobre el PIB, mientras que las demás variables presentan asociaciones moderadas o débiles.

4. Resultados del Modelo

4.1 Evaluación del Modelo

El modelo busca explicar la productividad laboral de los países, medida como el PIB por persona empleada en dólares constantes de 2013 ajustados por paridad de poder adquisitivo, a partir de cinco indicadores del mercado laboral femenino y la región geográfica de cada país. La inclusión de la variable Región responde a la necesidad de controlar las diferencias estructurales entre Latinoamérica, Europa y Asia Central que podrían influir en la productividad más allá de los indicadores laborales.

modelo <- lm(`PIB` ~ `Empleadoras(%)`+`Ind_fem(%)` + `Gerencia_fem(%)` + `Salario_fem(%)` + `TEMJ(%)`+Region,data= base_limpia)

datasummary<- as.data.frame(summary(modelo)$coefficients) 
colnames(datasummary)<- c("Estimado", "Error estándar", "t valor", "p-valor")

datasummary %>%
  round(4) %>%
  kable(caption = "Tabla 1. Coeficientes del modelo")%>%
  kable_styling(bootstrap_options = c("striped", "bordered"), full_width = TRUE)

Tabla 1. Coeficientes del modelo
	Estimado	Error estándar	t valor	p-valor
(Intercept)	74246.7247	30598.1175	2.4265	0.0193
`Empleadoras(%)`	-3289.6863	3453.7653	-0.9525	0.3459
`Ind_fem(%)`	-2921.1713	753.4980	-3.8768	0.0003
`Gerencia_fem(%)`	-1678.4932	504.6785	-3.3259	0.0018
`Salario_fem(%)`	1194.9390	288.5550	4.1411	0.0001
`TEMJ(%)`	99.6007	265.1492	0.3756	0.7089
RegionAsia	-29671.2634	29875.8168	-0.9932	0.3259
RegionLatinoamerica	-3749.7938	11923.4541	-0.3145	0.7546

1. Intercepto (74246.7): Representa el PIB base del modelo cuando todas las variables independientes toman valor cero y la región de referencia es Europa. Su p-valor de 0.0193 indica que no es estadísticamente significativo, lo cual es habitual en modelos donde el valor cero de todas las variables simultáneamente no tiene un significado práctico real.

2. Empleadoras (%) - (Estimado: -3,289.7 | P-valor: 0.346): El signo negativo indica que a mayor porcentaje de mujeres empleadoras, menor PIB por trabajador. Sin embargo, con un p-valor de 0.346, muy por encima del umbral de 0.05, este efecto no es estadísticamente significativo. No existe evidencia suficiente en los datos para afirmar que esta variable influye en la productividad laboral dentro de este modelo.

3. Ind_fem(%) — (Estimado: -2,921.2 | P-valor: 0.0003): Por cada punto porcentual adicional de mujeres empleadas en la industria, el PIB por trabajador disminuye en promedio 2,921 dólares, manteniendo las demás variables constantes. El signo negativo refleja que en los países de la muestra, el empleo industrial femenino está concentrado mayormente en sectores manufactureros de bajo valor agregado. Con tres asteriscos de significancia, esta es una de las variables con mayor solidez estadística del modelo.

4. Gerencia_fem (%) — (Estimado: -1,678.5 | P-valor: 0.0018): Por cada punto porcentual adicional de mujeres en cargos de gerencia media y alta, el PIB por trabajador disminuye en promedio 1,678 dólares. Aunque el signo negativo resulta contraintuitivo, puede explicarse en el contexto de economías en desarrollo donde una mayor participación femenina en gerencia no se traduce todavía en mejoras sistémicas de productividad, dado que coexiste con estructuras económicas de bajo valor agregado. La variable es estadísticamente significativa con dos asteriscos.

5. Salario_fem (%) — (Estimado: 1,194.9 | P-valor: 0.00015): Por cada punto porcentual adicional de mujeres en empleo asalariado formal, el PIB por trabajador aumenta en promedio 1,194 dólares. El signo positivo es consistente con la teoría económica: la formalización laboral femenina está asociada a sectores más productivos, mayor acceso a capacitación y mejor aprovechamiento del capital humano. Es la variable con mayor solidez estadística del modelo, con tres asteriscos de significancia.

6. TEMJ (%) — (Estimado: 99.6 | P-valor: 0.709): El efecto estimado es prácticamente nulo y su p-valor de 0.709 es el más alto del modelo, lo que indica que la tasa de empleo femenino joven no aporta información estadísticamente relevante para explicar la productividad laboral en esta muestra.

7. Región Asia Central — (Estimado: -29671.3 | P-valor: 0.326) y Región Latinoamérica — (Estimado: -3749.8 | P-valor: 0.755): Estas dos variables categóricas representan el efecto de pertenecer a Asia Central o Latinoamérica respecto a la categoría de referencia que es Europa. Los signos negativos indican que ambas regiones tienen en promedio un PIB por trabajador menor que Europa. En el caso de Asia Central, al tener solo una observación, el estimado representa la diferencial de este país con respecto a Europa. Esta falta de información por parte de Asia Central se refleja en el elevado error estandar (29.875,8). Sin embargo, ninguna de las dos regiones son estadísticamente significativas, lo que sugiere que, una vez controlados los indicadores laborales femeninos, las diferencias regionales no aportan explicación adicional al modelo.

8. Bondad de ajuste (R²) y estadístico F: La bondad de ajuste evalúa la capacidad del modelo para explicar la variación del Producto Interno Bruto (PIB) por persona empleada entre los países analizados. Y el estadístico F evalúa la significancia conjunta del modelo, es decir, si las variables explicativas, en conjunto, tienen capacidad para explicar el comportamiento del PIB.

Dicho esto, el modelo explica el 67.7% de la variación del PIB por persona empleada entre los países de la muestra, lo cual representa un ajuste aceptable considerando la diversidad económica de los países analizados. El R² ajustado de 0.626 refleja una caída de aproximadamente 0.5 puntos respecto al R² (0.6767), lo que indica que algunas de las siete variables incluidas, particularmente las no significativas como Empleadoras (%), TEMJ (%) y Región, no están aportando información adicional real al modelo y están inflando moderadamente el ajuste aparente. El estadístico F de 13.46 con un p-valor de 0.0000000032 confirma que el modelo en su conjunto es altamente significativo y que la relación entre los indicadores laborales femeninos y la productividad no es producto del azar. El 32.3% de variación no explicada por el modelo sugiere que existen otros factores determinantes de la productividad laboral que no fueron capturados, como el nivel de desarrollo tecnológico, la inversión en educación o la estructura sectorial de cada economía.

4.2 Normalidad de los residuos

La prueba Shapiro-Wilk evalúa si los errores que comete el modelo al predecir el PIB por persona empleada siguen una distribución normal. Este supuesto es fundamental porque sostiene la validez de las pruebas de significancia y los p-valores interpretados en los coeficientes. El estadístico W toma valores entre 0 y 1, donde valores cercanos a 1 indican que los residuos se aproximan a una distribución normal. Como referencia, valores por encima de 0.95 son aceptables, entre 0.90 y 0.95 son dudosos, y por debajo de 0.90 constituyen evidencia clara de no normalidad. El p-valor complementa esta lectura: un valor superior a 0.05 indica que no hay evidencia suficiente para rechazar la normalidad, mientras que un valor inferior a 0.05 señala una violación del supuesto.

sw <- shapiro.test(residuals(modelo))

datashapiro <- data.frame(
  `W`= round(sw$statistic, 4),
  `p-valor`   = format(sw$p.value, scientific = TRUE, digits = 4),
  check.names = FALSE
)

datashapiro%>%
  kable(caption = "Tabla 2. Resultados del test de Shapiro")%>%
  kable_styling(bootstrap_options = c("striped", "bordered"), full_width = TRUE)

Tabla 2. Resultados del test de Shapiro
	W	p-valor
W	0.8662	2.744e-05

El estadístico W de 0.866 se encuentra por debajo de 0.90, lo que constituye evidencia clara de que los residuos no siguen una distribución normal. El p-valor de 0.0000274, muy por debajo del umbral de 0.05, confirma este hallazgo con alto nivel de certeza. El supuesto de normalidad de los residuos no se cumple. Esta violación es atribuible a la heterogeneidad estructural de la muestra, que combina economías de tres regiones con niveles de desarrollo muy distintos, generando errores extremos en países con productividad atípicamente alta o baja que el modelo no logra capturar de forma uniforme. Esta limitación debe considerarse al momento de interpretar los resultados inferenciales del modelo.

plot (modelo,which=2)

Lo anteriormente dicho, también se respalda con lo que se observa en el gráfico Q-Qplot donde los puntos se van distanciados sistemáticamente de la diagonal en ambos extremos, lo que indica colas más pesadas o valores atipicos. Este comportamiento es prueba de la violación al supuesto de normalidad; esto puede deberse a que alcombinar economías de tres regiones con niveles de desarrollo muy distintos, el modelo genera errores de magnitud desproporcionada en los países con productividad atípicamente alta o baja.

4.3 Homocedasticidad

La prueba de Breusch-Pagan evalúa si la varianza de los errores del modelo es constante a lo largo de todos los valores predichos del PIB, condición conocida como homocedasticidad. Cuando esta condición no se cumple, se habla de heterocedasticidad, lo que implica que el modelo predice con distinta precisión según el nivel de productividad del país, afectando la confiabilidad de los coeficientes estimados. El estadístico BP no tiene un umbral fijo de interpretación y su lectura depende directamente del p-valor: un valor superior a 0.05 indica que la varianza es constante y el supuesto se cumple, mientras que un valor inferior a 0.05 señala la presencia de heterocedasticidad.

bptest(modelo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 20.874, df = 7, p-value = 0.003961

bp <- bptest(modelo)

databp <- data.frame(
  `Estadístico BP` = round(bp$statistic, 4),
  gl               = bp$parameter,
  `p-valor`        = 0.003961,
  check.names      = FALSE
)

databp %>%
 kable(caption = "Tabla 3.Prueba de homocedasticidad (Breusch-Pagan) ")%>%
  kable_styling(bootstrap_options = c("striped", "bordered"), full_width = TRUE)

Tabla 3.Prueba de homocedasticidad (Breusch-Pagan)
	Estadístico BP	gl	p-valor
BP	20.874	7	0.003961

El estadístico BP de 20.874 con 7 grados de libertad, correspondientes a las siete variables independientes del modelo, arroja un p-valor de 0.00396, por debajo del umbral de 0.05. El supuesto de homocedasticidad no se cumple. La varianza de los residuos no es constante a lo largo del rango de valores predichos, lo que significa que el modelo comete errores de magnitud distinta según el nivel de PIB del país que está prediciendo. Esta heterogeneidad en los errores es consecuencia directa de modelar simultáneamente economías con niveles de desarrollo muy dispares, donde los países de mayor productividad, como algunas economías europeas, generan residuos considerablemente más grandes que los países de productividad media o baja.

  plot (modelo, which=3)

El gráfico Scale-location muestra que la dispersión de los residuos no se mantiene completamente constante a lo largo de los valores ajustados del modelo. Adicionalmente, la línea presenta una ligera curvatura ascendente; esto indica que, a medida que aumentan los valores del PIB, también tiende a incrementarse la variabilidad de los errores. Esto sugiere la posible presencia de heterocedasticidad, es decir, que el supuesto de varianza constante (homocedasticidad) no se cumple.

4.4 Multicolinealidad

El Factor de Inflación de la Varianza (VIF) mide el grado en que cada variable independiente está correlacionada con las demás variables del modelo. Cuando dos o más variables miden fenómenos similares, el modelo no puede distinguir con claridad el efecto individual de cada una, lo que produce coeficientes inestables y poco confiables. Dado que el modelo incluye la variable categórica Región, R reporta el GVIF generalizado, que es una extensión del VIF diseñada para variables con más de una categoría.

vif_valores <- vif(modelo)

datavif <- data.frame(
  Variable        = rownames(vif_valores ),
  GVIF            = round(vif_valores [, 1], 4),
  Df              = vif_valores [, 2],
  `GVIF^(1/2Df)`  = round(vif_valores [, 3], 4),
  check.names     = FALSE,
  row.names       = NULL
)


datavif %>%
 kable(caption = "Tabla 3.Prueba de multicolineadlidad (VIF) ")%>%
  kable_styling(bootstrap_options = c("striped", "bordered"), full_width = TRUE)

Tabla 3.Prueba de multicolineadlidad (VIF)
Variable	GVIF	Df	GVIF^(1/2Df)
`Empleadoras(%)`	1.1808	1	1.0867
`Ind_fem(%)`	1.2768	1	1.1299
`Gerencia_fem(%)`	1.5349	1	1.2389
`Salario_fem(%)`	2.1437	1	1.4641
`TEMJ(%)`	1.3391	1	1.1572
Region	3.3346	2	1.3513

Todos los valores estandarizados se encuentran por debajo de 2.2, lo que indica que ninguna variable presenta problemas de colinealidad con las demás. El valor más elevado corresponde a Salario_fem(%) con 1.464, lo cual es completamente aceptable y no representa ninguna amenaza para la estabilidad de los coeficientes. La variable Region, a pesar de tener el GVIF bruto más alto del modelo debido a que agrupa dos categorías, también se mantiene dentro del rango aceptable una vez estandarizado. El supuesto de multicolinealidad se cumple satisfactoriamente, lo que confirma que cada variable independiente está aportando información distinta al modelo y que los coeficientes estimados son estables e interpretables de forma individual.

5. Conclusiones

El análisis del modelo permitió identificar que la productividad laboral de los países, medida como el PIB por persona empleada, está explicada de forma estadísticamente significativa por tres de los cinco indicadores del mercado laboral femenino incluidos. El porcentaje de mujeres en empleo asalariado formal resultó ser el factor de mayor influencia positiva sobre la productividad, lo cual es coherente con la teoría económica que asocia la formalización laboral con mayor acceso a capacitación, seguridad social y sectores de mayor valor agregado. Por su parte, el empleo femenino en la industria y la participación femenina en gerencia presentaron efectos negativos significativos, lo que refleja que en el contexto de los países analizados, estos indicadores están asociados predominantemente a estructuras productivas de bajo valor agregado donde una mayor participación femenina no se traduce aún en incrementos de productividad sistémica. Las variables correspondientes al porcentaje de mujeres empleadoras, la tasa de empleo femenino joven y la región geográfica no demostraron tener un efecto estadísticamente significativo sobre el PIB por trabajador una vez controlados los demás indicadores.

El modelo presentó un desempeño desigual frente a los supuestos estadísticos de la regresión lineal múltiple. La multicolinealidad se cumple satisfactoriamente, confirmando que cada variable aporta información independiente y que los coeficientes son estables. Sin embargo, tanto la normalidad de los residuos como la homocedasticidad no se cumplen, lo que indica que el modelo presenta limitaciones en su capacidad de generalización y que la confiabilidad de las pruebas de significancia debe interpretarse con cautela. Estos no cumplimientos son atribuibles principalmente a la heterogeneidad estructural de la muestra, que combina economías con niveles de desarrollo muy distintos dentro de una misma especificación del modelo.

Adicionalmente, la representación de Asia Central con una sola observación es una limitación que impide observar y realizar conclusiones regionales . Los resultados de Asia deben leerse como el comportamiento del único país, Uzbekistán, más no como una caracterización de todo Asia Central.

El modelo logró responder de forma parcial al objetivo de la investigación. Por un lado, identificó con solidez estadística que la formalización del empleo femenino es el factor más determinante de la productividad laboral entre los países analizados, y que el empleo industrial femenino y la participación femenina en gerencia tienen efectos negativos significativos en el contexto de las economías de la muestra. Estos hallazgos constituyen una respuesta concreta y fundamentada a la pregunta de investigación. Por otro lado, la violación de los supuestos de normalidad y homocedasticidad, la pérdida del 49% de las observaciones por datos faltantes, y la no significancia de la variable regional indican que el modelo no logra capturar de forma completa y confiable la relación entre los indicadores del mercado laboral femenino y la productividad económica a escala global. En consecuencia, los resultados deben interpretarse como hallazgos exploratorios con respaldo estadístico moderado, más que como conclusiones definitivas sobre la relación entre empleo femenino y productividad laboral.

5.1 Recomendaciones

A partir de los hallazgos del modelo, se derivan las siguientes recomendaciones de política pública y líneas de investigación futura. En primer lugar, los resultados sugieren que las políticas orientadas a incrementar la formalización del empleo femenino tienen el mayor potencial de impacto sobre la productividad laboral, por lo que deberían priorizarse estrategias que faciliten el acceso de las mujeres a empleos asalariados formales en sectores de mediano y alto valor agregado. En segundo lugar, el efecto negativo del empleo industrial femenino indica la necesidad de políticas de reconversión productiva que migren a las mujeres empleadas en manufactura de bajo valor agregado hacia sectores más productivos. Finalmente, desde el punto de vista metodológico, se recomienda para investigaciones futuras estratificar el análisis por nivel de desarrollo económico de los países, de manera que se reduzca la heterogeneidad de la muestra y se mejore el cumplimiento de los supuestos del modelo.

6. Bibliografias

CIPPEC. (2019b, diciembre 18). Mujeres en el mercado de trabajo: una deuda y una oportunidad - CIPPEC. https://www.cippec.org/proyecto/mujeres-en-el-mercado-de-trabajo/

CIPPEC. (2019a, julio 31). Razones económicas para reducir las brechas de género en el mercado laboral - CIPPEC. https://www.cippec.org/publicacion/razones-economicas-para-reducir-las-brechas-de-genero-en-el-mercado-laboral/

La participación femenina en el mercado laboral y su relación con el PIB por persona empleada en Asia Central, Europa y Latinoamerica y Caribe

Yuriana Villegas(2438082), Yoseth Marin(2420827), Santiago Adarve(2340868) y Santiago Dominguez(2416770)

26 de Marzo del 2026