Análisis de regresión lineal

Introducción

El producto interno bruto es el indicador insignia para caracterizar el estado de la economía en conjunto, representando como es la actividad productiva dentro de una nación. Según el banco de la república: “Esta medición es importante porque ofrece información sobre el tamaño de la economía y su desempeño, y sirve para hacer comparaciones frente a otros países.” El PIB es una magnitud macroeconómica que expresa el valor monetario de la producción de bienes y servicios, es una variable de flujo que contabiliza los bienes producidos o servicios prestados durante un periodo estudiado determinado.

Este calcúlo no se ve sometido unicamente por numeros, depende de diversos factores (cómo la distribución de la actividad ecónomica entre sectores y la estructura del empleo) En nuestro caso, para la economía Colombiana la agricultura juega un papel crucial gracias a nuestra pluriculturalidad y diversidad clímatica, lo que favorece distintas formas de pruducción en el campo, el desempeño económico no refleja unicamente una cantidad total producida, sino como se organiza y quienes participamos en el, de esta forma se crea un vínculo entre la macroeconomía y la realidad social en el país.

De esta manera, analizar el PIB requiere un proceso introspectivo ¿Quién produce, en que condiciones y bajo que clases sociales?, lo que nos lleva a considerar las siguientes variables:

Employment in agriculture (% of total employment)
Employment in services (% of total employment)
Vulnerable employment, total (% of total employment)
Female share of employment in senior and middle management (%)
Part time employment, female (% of total female employment)

Desde esta perspectiva, el presente estudio busca analizar e identificar estas relaciones a nivel regional, considerando Latinoamérica y el Caribe como un contexto compartido donde los patrones de empleo, agricultura, luchas sociales, liderazgo femenino y vulnerabilidad laboral influyen en el desempeño económico y a su vez analizar como se relaciona o difiere de las demás regiones.

Metodología

Para analizar la relación entre el PIB y las variables seleccionadas, se empleará un modelo de regresión lineal múltiple, que permite cuantificar el efecto de cada variable independiente sobre la variable dependiente aplicando la siguiente ecuación:

\[ \text{GDP per person employed}_i = \beta_0 + \beta_1 \cdot \text{Employment in agriculture}_i + \beta_2 \cdot \text{Employment in services}_i \\ + \beta_3 \cdot \text{Vulnerable employment}_i + \beta_4 \cdot \text{Female share in management}_i + \beta_5 \cdot \text{Part-time female}_i + \epsilon_i \] Se ralizarán dos modelos de regresión lineal múltiple. El primero se desarrollado sin considerar diferencias regionales, para permtitir identificar relaciones generales entre las variables laborales y el PIB. Posteriormente, se incorporará la región como una variable categórica, con el objetivo de capturar diferencias estructurales entre los países analizados.

datos <- read_excel("Taller_1_Data_Extract_From_World_Development_Indicators (2).xlsx")

datos_ordenados <- datos %>%
  mutate(across(
    -c(`Country Name`, `Country Code`, `Time Code`),
    ~as.numeric(na_if(as.character(.), ".."))
  )) %>%
  filter(`Time Code` == "YR2012")   

# Clasificación regiones
datos_ordenados$region <- "Otros"

datos_ordenados$region[datos_ordenados$`Country Name` %in% c(
  "Argentina","Bolivia","Brazil","Chile","Colombia","Costa Rica","Cuba",
  "Dominican Republic","Ecuador","El Salvador","Guatemala","Honduras",
  "Jamaica","Mexico","Nicaragua","Panama","Paraguay","Peru","Uruguay",
  "Venezuela, RB","Trinidad and Tobago","Guyana","Suriname","Belize","Haiti"
)] <- "Latinoamérica y Caribe"

datos_ordenados$region[datos_ordenados$`Country Name` %in% c(
  "Albania","Austria","Belgium","Bosnia and Herzegovina","Bulgaria","Croatia",
  "Czechia","Denmark","Estonia","Finland","France","Germany","Greece",
  "Hungary","Iceland","Ireland","Italy","Latvia","Lithuania","Luxembourg",
  "Netherlands","Norway","Poland","Portugal","Romania","Serbia","Slovak Republic",
  "Slovenia","Spain","Sweden","Switzerland","Ukraine","United Kingdom","Montenegro"
)] <- "Europa"

datos_ordenados$region[datos_ordenados$`Country Name` %in% c(
  "Kazakhstan","Uzbekistan","Turkmenistan",
  "Kyrgyz Republic","Tajikistan"
)] <- "Asia Central"

datos_modelo <- datos_ordenados %>%
  filter(region != "Otros")

Resultados descriptivos

Los datos fueron clasificados en tres regiones geográficas: Latinoamérica y el Caribe (En esta se incluyeron paises como guyana y surinam aunque estos no pertenezcan a latinoamerica explícitamente), Europa y Asia Central. Como resultado, se obtuvieron 250 observaciones para Latinoamérica y el Caribe, 340 para Europa y 50 para Asia Central.

# Histograma del PIB por persona empleada
hist(
  datos_modelo$`GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
  main = "Distribución del PIB",
  xlab = "PIB",
  breaks = 30,
  col = "lightblue",
  border = "white"
)

# Boxplot del PIB por región
grafico_box <- ggplot(datos_modelo, aes(
  x = region,
  y = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`
)) +
  geom_boxplot() +
  labs(
    title = "PIB por region",
    x = "Region",
    y = "PIB"
  )

ggplotly(grafico_box)

El histograma del producto interno bruto muestra una distribución asimétrica, con la mayoría de los países concentrados en niveles bajos y medios de productividad, y una cola hacia valores más altos, indicando que algunos países presentan niveles significativamente superiores. Esta distribución evidencia la existencia de desigualdades económicas entre las distintas regiones.

En el Boxplot obersevamos diferencias en las medianas y en la dispersión de los datos, lo que indica que la productividad laboral varía significativamente según la región geográfica. En particular, podemos apreciar como Europa presenta un PIB mayor, dejando a Latinoamerica y Asia central en un segundo y tercer puesto, respectivamente.

tabla <- datos_modelo %>%
  group_by(region) %>%
  summarise(
    PIB_promedio = mean(`GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`, na.rm = TRUE),
    Agricultura_promedio = mean(`Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`, na.rm = TRUE)
  )

kable(
  tabla,
  col.names = c("Región", "PIB promedio", "Desempeño agrícola promedio"),
  digits = 2
) %>%
  kable_styling(
    full_width = FALSE,
    position = "left"
  ) %>%
  row_spec(0, background = "lightblue", bold = TRUE)

Región	PIB promedio	Desempeño agrícola promedio
Asia Central	22447.94	32.14
Europa	84192.99	8.48
Latinoamérica y Caribe	32782.11	18.26

En la tabla anterior se realizó un calculo de los promedios del PIB y la agricultura por región con el fin de comparar el comportamiento de la variable en las distintas zonas geográficas y la influencia que tiene esta en su producto interno bruto. Los resultados nos muestran diferencias claras en la productividad de estas tres regiones, apreciando como las regiones con mayor participación agrícola presentan niveles de PIB menores. ¿Por qué ocurre esto? ¿Es nuestra geografía, nuestra tradición agrícola, o son las estructuras sociales y las limitaciones históricas las que condicionan nuestro desarrollo?

En regiones como asia y américa la agricultura se destina principalmente a la exportación que al fortalecimiento de un mercado interno, dejando los ingresos concentrados en determinados sectores, de esta forma un desarrollo económico no se determina por una mayor cantidad de materias primas o productividad agrícola, sino también por quien puede influir en la actividad económica, quien toma decisiones y quien se ve desplazado o limitado.

grafico_cargosfem <- ggplot(datos_modelo, aes(
  x = `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`,
  y = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
  text = paste(
    "País:", `Country Name`,
    "<br>Liderazgo femenino:", round(`Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`, 2),
    "<br>PIB:", round(`GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`, 2)
  )
)) +
  geom_point() +
  labs(
    title = "Liderazgo femenino y productividad",
    x = "Mujeres en cargos directivos",
    y = "PIB"
  )

ggplotly(grafico_cargosfem, tooltip = "text")

En los niveles intermedios podemos apreciar una concentración de los valores (enre 20% y 40%) acompañada de dispersiones en los valores del PIB, no obstante en el gráfico no se identifica alguna tendencia lineal, lo que nos sugiere que el liderazgo femenino, por si solo, no es un factor que determine la productividad.

grafico_trabajoparcial <- ggplot(datos_modelo, aes(
  x = `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`,
  y = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
  text = paste(
    "País:", `Country Name`,
    "<br>Trabajo parcial femenino:", round(`Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`, 2),
    "<br>PIB:", round(`GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`, 2)
  )
)) +
  geom_point(alpha = 0.7) +
  labs(
    title = "Trabajo parcial femenino y productividad",
    x = "Trabajo parcial femenino",
    y = "PIB"
  )

ggplotly(grafico_trabajoparcial, tooltip = "text")

A diferencia con el gráfico anterior, en este podemos notar una ligera tendencia positiva, lo que nos sugiere que a medida que aumenta el trabajo a tiempo parcial femenino lo podemos asociar con un aumento en el PIB, no obstante, sigue presente bastante dispersión en el gráfico, esto lo podemos relacionar con mercados mas flexibles presentes en las economías mas desarrolladas.

grafico_liderazgofemregion <- ggplot(datos_modelo, aes(
  x = `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`,
  y = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
  color = region,
  text = paste(
    "País:", `Country Name`,
    "<br>Región:", region,
    "<br>Liderazgo femenino:", round(`Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`, 2),
    "<br>PIB:", round(`GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`, 2)
  )
)) +
  geom_point(alpha = 0.7) +
  labs(
    title = "Liderazgo femenino y PIB por región",
    x = "Porcentaje de liderazgo femenino",
    y = "PIB"
  ) +
  theme_minimal()

ggplotly(grafico_liderazgofemregion, tooltip = "text")

vars <- datos_modelo %>%
  select(
    PIB = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]`,
    Agricultura = `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`,
    Servicios = `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`,
    Vulnerable = `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`,
    Liderazgo = `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`,
    PartTime = `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`
  )

# 2. Matriz de correlación
cor_matrix <- cor(vars, use = "complete.obs")

# 3. Convertir a formato largo
cor_df <- melt(cor_matrix)

# 4. Heatmap
ggplot(cor_df, aes(Var1, Var2, fill = value)) +
  geom_tile(color = "white") +
  scale_fill_gradient2(
    low = "blue",
    mid = "white",
    high = "red",
    midpoint = 0
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    text = element_text(size = 10)
  ) +
  labs(
    title = "Relación entre estructura del empleo y productividad",
    x = "",
    y = "",
    fill = "Correlación"
  )

El gráfico de dispersión entre el liderazgo femenino y el PIB nos muestra dispersión en los datos, no nos evidencia una relación lineal clara a simple vista. Además, se observan diferencias importantes entre regiones, siendo Europa la que presenta mayores niveles de PIB, seguida por Latinoamérica y Caribe, y finalmente Asia Central. Esto nos sugiere que el nivel de desarrollo económico se veinfluenciado por factores propios de cada región. En este contexto, la relación entre liderazgo femenino y PIB no es concluyente a nivel descriptivo, lo que nos impulsa a realizar un modelo de regresión para analizar esta relación de manera más precisa.

Los resultados empiezan a mostrar una verdad más significativa: la productividad de las economías no se basa solo en la cantidad de bienes producidos, sino en cómo se organiza el trabajo, en qué áreas se enfoca la actividad y quiénes tienen la capacidad de decidir

Resultados del modelo

modelo_multiple <- lm(
  `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]` ~
    `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` +
    `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` +
    `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` +
    `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` +
    `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`,
  data = datos_modelo
)
summary(modelo_multiple)

## 
## Call:
## lm(formula = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]` ~ 
##     `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` + 
##         `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` + 
##         `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` + 
##         `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` + 
##         `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`, 
##     data = datos_modelo)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -48016 -10543  -1843  10340  92083 
## 
## Coefficients:
##                                                                                                Estimate
## (Intercept)                                                                                    -38599.8
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`      1452.4
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`         2258.0
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`  -1273.9
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`            -1501.4
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                 530.3
##                                                                                                Std. Error
## (Intercept)                                                                                       49865.6
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`         992.9
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`            718.2
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`      527.5
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`                393.3
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                   264.1
##                                                                                                t value
## (Intercept)                                                                                     -0.774
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`      1.463
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`         3.144
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`  -2.415
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`            -3.818
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                2.008
##                                                                                                Pr(>|t|)
## (Intercept)                                                                                    0.443804
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`    0.151971
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`       0.003281
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` 0.020796
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`           0.000497
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`              0.052002
##                                                                                                   
## (Intercept)                                                                                       
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`       
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`       ** 
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` *  
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`           ***
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`              .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22370 on 37 degrees of freedom
##   (21 observations deleted due to missingness)
## Multiple R-squared:  0.749,  Adjusted R-squared:  0.7151 
## F-statistic: 22.09 on 5 and 37 DF,  p-value: 3.43e-10

Con el fin de analizar cómo distintos factores del mercado laboral se relacionan con la productividad entre países, se realizó un modelo de regresión lineal múltiple. Con el se obtienen los siguientes coeficientes:

tabla_modelo <- tidy(modelo_multiple) %>%
  mutate(
    Signo = ifelse(estimate > 0, "Positivo", "Negativo")
  )

kable(
  tabla_modelo,
  col.names = c(
    "Variable",
    "Magnitud",
    "Error estándar",
    "Valor t",
    "Valor p",
    "Signo"
  ),
  digits = 2
) %>%
  kable_styling(full_width = FALSE) %>%
  row_spec(0, background = "lightblue", bold = TRUE)

Variable	Magnitud	Error estándar	Valor t	Valor p	Signo
(Intercept)	-38599.76	49865.55	-0.77	0.44	Negativo
`Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`	1452.42	992.92	1.46	0.15	Positivo
`Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`	2257.99	718.24	3.14	0.00	Positivo
`Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`	-1273.92	527.52	-2.41	0.02	Negativo
`Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`	-1501.39	393.26	-3.82	0.00	Negativo
`Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`	530.25	264.09	2.01	0.05	Positivo

Los coeficientes del modelo muestran que Employment in agriculture (% of total employment) y Employment in services (% of total employment) presentan un efecto positivo sobre el PIB, siendo el sector servicios el de mayor magnitud. Por el contrario, Vulnerable employment, total (% of total employment) evidencia una relación negativa, lo que indica que condiciones laborales precarias reducen la productividad. Asimismo, Female share of employment in senior and middle management (%) presenta un coeficiente negativo, mientras que Part time employment, female (% of total female employment) muestra un efecto positivo. Por el lado de Emplyment in agricultura es interesante recalcar el hecho de que si bien en el análisis descriptivo veiamos como los paises con mayor agricultura tenían menor productividad en el modelo nos muestra una relación positiva, lo que evidencia que las relaciones observadas de forma descriptiva pueden ser engañosas si no se controlan otros factores, hecho que reslta la importancia en la implementación de modelos de regresión múltiple.

Para terminar, tenemos un Adjusted R-squared = 0.7151, esto quiere decir que el modelo logra explicar aproximadamente el 71% del PIB, el cual sostiene un valor muy cercano al coeficiente sin ajustar R-squared = 0.749 indicandonos que el modelo no está sobreajustado y que las variables incluidas son relevantes para el análisis.

Normalidad

residuos <- residuals(modelo_multiple)
shapiro.test(residuos)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.85977, p-value = 9.283e-05

residuos <- residuals(modelo_multiple)
qqnorm(residuos, main = "Nomrmal Q-Q plot")
qqline(residuos, col = "blue", lwd = 2)

El test shapiro tiende a arrojar no-normalidad ante muestras demasiado grandes, por eso se realizó un normal q-q plot para analizar el comportamiento de forma gráfica, en este se puede observar que los puntos se desvían en los extremos, por cual podemos asumir que sigue un tendencia casi normal.

Homocedasticidad

valores_ajustados <- fitted(modelo_multiple)
residuos <- residuals(modelo_multiple)
plot(valores_ajustados, residuos,
     main = "Homocedasticidad",
     xlab = "Valores",
     ylab = "Residuos",
     pch = 19)
abline(h = 0, col = "blue", lwd = 2)

bp_test <- bptest(modelo_multiple)

if (bp_test$p.value > 0.05) {
  cat("No se rechaza H0: hay homocedasticidad (varianza constante en los residuos)")
} else {
  cat("Se rechaza H0: hay heterocedasticidad (varianza no constante en los residuos)")
}

## Se rechaza H0: hay heterocedasticidad (varianza no constante en los residuos)

El test de Breusch-Pagan evidencia heterocedasticidad, lo que indica que la varianza de los errores no es constante. Esto sugiere que la precisión del modelo puede variar según los niveles de PIB, por lo que los resultados deben interpretarse con cautela.

Multicolinealidad

library(car)
vif(modelo_multiple)

##    `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` 
##                                                                                      10.164343 
##       `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` 
##                                                                                       5.740050 
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` 
##                                                                                       5.047756 
##           `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` 
##                                                                                       1.084863 
##              `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]` 
##                                                                                       1.491345

Los resultados del VIF muestran que algunas variables del modelo están relacionadas entre sí, especialmente las que describen la estructura del empleo. Por ejemplo, el empleo en agricultura presenta un valor alto, lo que indica que está muy ligado a otras variables del modelo, mientras que el empleo en servicios y el empleo vulnerable también muestran cierta relación, aunque en menor medida, por esta razón estas variables deben interpretarse cautela y no de forma aislada. En cambio, variables como el liderazgo femenino y el trabajo parcial femenino tienen valores bajos, lo que sugiere que aportan información más independiente.

Resultados del segundo modelo

datos_modelo$region <- as.factor(datos_modelo$region)
datos_modelo$region <- relevel(datos_modelo$region, ref = "Latinoamérica y Caribe")
modelo_multiple2 <- lm(
  `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]` ~
    `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` +
    `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` +
    `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` +
    `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` +
    `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]` +
    region,
  data = datos_modelo
)

summary(modelo_multiple2)

## 
## Call:
## lm(formula = `GDP per person employed (constant 2017 PPP $) [SL.GDP.PCAP.EM.KD]` ~ 
##     `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` + 
##         `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` + 
##         `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` + 
##         `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` + 
##         `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]` + 
##         region, data = datos_modelo)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -44987 -10669  -2765   8473  96608 
## 
## Coefficients:
##                                                                                                Estimate
## (Intercept)                                                                                    -81375.6
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`      1202.9
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`         2355.8
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`   -710.0
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`            -1117.6
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                 550.4
## regionEuropa                                                                                    19438.2
##                                                                                                Std. Error
## (Intercept)                                                                                       60071.6
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`        1005.1
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`            716.9
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`      689.7
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`                495.7
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                   262.5
## regionEuropa                                                                                      15478.4
##                                                                                                t value
## (Intercept)                                                                                     -1.355
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`      1.197
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`         3.286
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`  -1.029
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`            -2.255
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`                2.097
## regionEuropa                                                                                     1.256
##                                                                                                Pr(>|t|)
## (Intercept)                                                                                     0.18397
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`     0.23921
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`        0.00227
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`  0.31011
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`            0.03033
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`               0.04313
## regionEuropa                                                                                    0.21727
##                                                                                                  
## (Intercept)                                                                                      
## `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`      
## `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`       **
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`   
## `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`           * 
## `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`              * 
## regionEuropa                                                                                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22200 on 36 degrees of freedom
##   (21 observations deleted due to missingness)
## Multiple R-squared:  0.7596, Adjusted R-squared:  0.7195 
## F-statistic: 18.96 on 6 and 36 DF,  p-value: 8.167e-10

tabla_modelo2 <- tidy(modelo_multiple2) %>%
  mutate(
    Signo = ifelse(estimate > 0, "Positivo", "Negativo")
  )

kable(
  tabla_modelo2,
  col.names = c(
    "Variable",
    "Magnitud",
    "Error estándar",
    "Valor t",
    "Valor p",
    "Signo"
  ),
  digits = 2
) %>%
  kable_styling(full_width = FALSE) %>%
  row_spec(0, background = "lightblue", bold = TRUE)

Variable	Magnitud	Error estándar	Valor t	Valor p	Signo
(Intercept)	-81375.64	60071.60	-1.35	0.18	Negativo
`Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]`	1202.90	1005.10	1.20	0.24	Positivo
`Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]`	2355.76	716.94	3.29	0.00	Positivo
`Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]`	-710.00	689.66	-1.03	0.31	Negativo
`Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]`	-1117.60	495.66	-2.25	0.03	Negativo
`Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]`	550.43	262.54	2.10	0.04	Positivo
regionEuropa	19438.20	15478.39	1.26	0.22	Positivo

En este segundo modelo se incorporaron variables por región, tomando como refencia Latinoamérica y el Caribe, podemos apreciar diferencias estructurales entre regiones, presentando un coeficiente positivo y significativo por parte de europa,indicando que los paises de este continente presentan niveles mayores de productividad a comparación de la variable de referencia, por otro lado, Asia central presenta un coeficiente negativo. El resultado de este modelo lineal es una muestra de que el contexto geográfico influye en el desarrollo y desempeño económico.

Los resultados del modelo muestran que no todas las variables tienen la misma relevancia en la explicación del PIB. Las variables que muestran una relación más relevante son el empleo en servicios, el liderazgo femenino y el trabajo parcial femenino. En especial, el empleo en servicios presenta el efecto positivo más fuerte, indicando que países con mayor participación de trabajadores en este sector suelen tener mejores niveles de productividad económica. Por otro lado, el liderazgo femenino aparece con una relación negativa, esto no se debe interpretar diractamente como que la participación de mujeres en cargos directivos reduzca el crecimiento económico, puesto que otros factores sociales y económicos pueden influir en el resultado. El trabajo parcial femenino también presenta una relación positiva moderada.

El modelo presenta un R = 0.7596, lo que indica que aproximadamente el 76% de la variación del PIB por persona empleada es explicada por las variables incluidas. Esto sugiere un buen nivel de ajuste. Además, el R ajustado = 0.7195 se mantiene cercano, lo que indica que el modelo no está sobreajustado y que las variables aportan información relevante.

Normalidad

residuos <- residuals(modelo_multiple2)

shapiro.test(residuos)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.80509, p-value = 4.634e-06

qqnorm(residuos, main = "Q-Q Plot")
qqline(residuos, col = "blue", lwd = 2)

Homocedasticidad

valores_ajustados <- fitted(modelo_multiple2)
residuos <- residuals(modelo_multiple2)

plot(valores_ajustados, residuos,
     main = "Residuos vs Valores Ajustados",
     xlab = "Valores ajustados",
     ylab = "Residuos",
     pch = 19)

abline(h = 0, col = "blue", lwd = 2)

bp_test <- bptest(modelo_multiple2)

if (bp_test$p.value > 0.05) {
  cat("No se rechaza H0: hay homocedasticidad (varianza constante en los residuos)")
} else {
  cat("Se rechaza H0: hay heterocedasticidad (varianza no constante en los residuos)")
}

## Se rechaza H0: hay heterocedasticidad (varianza no constante en los residuos)

La inclusión de la variable categórica región no genera cambios sustanciales en los gráficos de los supuestos comparando con el primer modelo lineal realizado.

Multicolinealidad

library(car)
vif(modelo_multiple2)

##    `Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS]` 
##                                                                                      10.577699 
##       `Employment in services (% of total employment) (modeled ILO estimate) [SL.SRV.EMPL.ZS]` 
##                                                                                       5.808537 
## `Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS]` 
##                                                                                       8.762416 
##           `Female share of employment in senior and middle management (%) [SL.EMP.SMGT.FE.ZS]` 
##                                                                                       1.750240 
##              `Part time employment, female (% of total female employment) [SL.TLF.PART.FE.ZS]` 
##                                                                                       1.496950 
##                                                                                         region 
##                                                                                       3.730712

Existe un problema de multicolinealidad en el modelo, especialmente en variables como Employment in agriculture (10.58), Vulnerable employment (8.76) y Employment in services (5.81), las cuales presentan valores altos que indican una fuerte relación entre sí. Esto ocurre porque todas estas variables describen diferentes aspectos del mercado laboral, por lo que es natural que estén conectadas y se muevan de forma conjunta; por ejemplo, un aumento en el empleo en servicios suele implicar una disminución en otros sectores como la agricultura. Por otro lado, variables como Female share in management (1.75) y Part-time female employment (1.50) presentan valores bajos, lo que indica que aportan información más independiente dentro del modelo.

Conclusiones

El análisis realizado permite concluir que la productividad de los países no depende únicamente de la cantidad de trabajo disponible, sino de la forma en que se distribuye y de las condiciones en las que se desarrolla, observando factores como:

La estructura del empleo cumple un papel determinante en el PIB
Las condiciones laborales precarias afectan negativamente en el desarrollo de este

El análisis también permitió identificar que algunas relaciones observadas a nivel descriptivo pueden resultar engañosas cuando no se consideran múltiples factores simultáneamente, como se vío anteriormente con la agricultura en la que por medio de los análisis descriptivos se asumió que a mayor agricultura menor PIB, lo cual se pudo desmentir una vez aplicada la regresión lineal múltiple, evidenciando la importancia del uso de estas herramientas para el correcto análisis de las dinámicas en los datos.

El Análisis del coeficiente R-squared indicó que aproximadamente el 72% de la variación en el PIB es explicada por las variables incluidas, lo que sugiere un buen ajuste. Sin embargo, el análisis de supuestos evidenció limitaciones, particularmente en la normalidad de los residuos y la homocedasticidad, lo que indica que los resultados deben interpretarse con cuidado, este estudio permitío entender que el desarrollo económico no es un fenómeno ajeno, sino el resultado de múltiples factores estructurales, sociales e históricos que interactúan entre sí. El análisis de supuestos muestra la presencia de ciertas limitaciones típicas en datos de corte transversal a nivel internacional, como heterocedasticidad y multicolinealidad entre variables del empleo. Sin embargo, estas características no invalidan el modelo, sino que reflejan como dependen entre si las diversas estructuras laborales y productivas en las economías analizadas, por lo cual los resultados deben interpretarse en términos de asociación y no de causalidad.

Además, la comparación entre ambos modelos permitió observar cómo el contexto regional influye en la interpretación de las variables analizadas. La inclusión de la variable categórica región generó una ligera mejora en la capacidad explicativa del modelo, pasando de un R-squared ajustado de 0.7151 a 0.7195, por otro lado, los cambios más importantes se observaron en la significancia de algunas variables. Por ejemplo, el empleo vulnerable dejó de ser significativa al incorporar la región lo cual sugiere que parte de su efecto sobre el PIB puede estar relacionado con diferencias estructurales entre regiones y no únicamente con las condiciones laborales en sí.Del mismo modo, el coeficiente asociado al liderazgo femenino continuó siendo significativo, aunque con menor magnitud, mientras que el sector servicios se mantuvo como la variable con mayor relación positiva frente al PIB en ambos modelos.

A partir de los resultados obtenidos se proponen estrategias que mejoren las condiciones laborales y económicas, los servicios mostraron una relación importante con el PBI, por lo que fortalecer este campo, podría generar crecimiento económico. De igual forma, se pudo apreciar una relación negativa entre la productivad y el empleo vulnerable, reflejando como condiciones laborales precarias limitan el desarrollo de muchos paises.

Finalmente, consideramos que el modelo logró cumplir con el objetivo de la investigació, permitiendo analizar la relación entre las variables y el comportaminento del PIB, aunque se presentaron limitaciones por faltas de datos especialmente para realizar el segundo modelo provocando que se excluyera la región de Asia Central, los resultados obtenidos permitieron comprender como distintos factores tanto laborales como estructurales se ven relacionados dentro del desarrollo económico.

Análisis de regresión lineal

Samuel Ruiz Restrepo-2341122, David Elizalde-2438289, Lili Sofía Cruz García-2417663, Karen Daniela Mina Ante-2419836

2026-05-10

Introducción

Metodología

Resultados descriptivos

Resultados del modelo

Normalidad

Homocedasticidad

Multicolinealidad

Resultados del segundo modelo

Normalidad

Homocedasticidad

Multicolinealidad

Conclusiones

Bibliografía