Realizado por:
Diego Felipe Salcedo Granada - Analista de Datos
Con el propósito de verificar si existe relación matemática entre la variable de respuesta GDP per person employed (constant 2017 PPP $), la cual llamaremos de ahora en adelante “PIB por persona empleada”, y entre cinco variables predictoras escogidas estrategicamente, se procederá a realizar un análisis de regresión lineal con el objetivo de comprobar si este grupo de variables independientes explican (y en qué nivel) el comportamiento de la variable dependiente.
Cabe resaltar que el PIB por persona empleada es un indicador que busca reflejar la productividad económica de una nación en relación a su fuerza laboral, identificando cuánto valor económico se genera por cada trabajador en un país determinado. Por lo cual, esta medida refleja la eficiencia de la economía de un territorio, así como su capacidad para generar empleo y bienestar para sus ciudadanos. Dicho lo anterior, a continuación se presentarán las cinco variables escogidas que se cree que mejor se relacionan con este indicador y la forma en como serán llamadas a lo largo del documento:
Wage and salaried workers, total (% of total employment) (modeled ILO estimate) [SL.EMP.WORK.ZS] → % de trabajadores asalariados.
Self-employed, total (% of total employment) (modeled ILO estimate) [SL.EMP.SELF.ZS] → % de trabajadores por cuenta propia.
Employment in industry (% of total employment) (modeled ILO estimate) [SL.IND.EMPL.ZS] → % de empleo en la industria.
Vulnerable employment, total (% of total employment) (modeled ILO estimate) [SL.EMP.VULN.ZS] → % de empleo vulnerable.
Employment in agriculture (% of total employment) (modeled ILO estimate) [SL.AGR.EMPL.ZS] → % de empleo en agricultura.
A continuación se justificará el porqué se decidieron escoger las variables predictoras previamente mencionadas, así como la interpretación que se le dio a cada una con base en la información recopilada de la página web para el análisis de indicadores mundiales “indexmundi”:
Se escogió este indicador como variable predictora ya que normalmente se espera que una mayor proporción de trabajadores asalariados esté relacionada con un mayor PIB per cápita lo que se traduce en un mayor valor de producción por persona empleada. Lo anterior se explica debido a que una alta proporción de trabajadores asalariados en un país puede significar un desarrollo económico avanzado. Si la proporción de trabajadores por cuenta propia (trabajadores sin empleados contratados) es considerable, puede ser una indicación de un gran sector agrícola y un bajo crecimiento en la economía formal.
Lo anterior se puede evidenciar de manera más clara a través de la siguiente figura, en la cual se puede apreciar que la mayoría de territorios europeos y norteamericanos presentan una tonalidad más oscura lo que indica que tienen un % de trabajadores asalariados muy superior en comparación a regiones como el sur de América, África y la mayoría de Asia.
En general, se espera que un mayor porcentaje de trabajadores por cuenta propia esté asociado con un menor PIB per cápita debido a que, por lo general, estos tienen acceso a menos recursos y beneficios que los trabajadores asalariados. Además, un mercado laboral dominado por trabajadores por cuenta propia indica una falta de empleo formal y estabilidad laboral, lo que puede ser negativo para la economía en general. Este grupo de personas suelen ser los más vulnerables y, por lo tanto, los más propensos a caer en la pobreza, al mismo tiempo que son los menos propensos a tener acuerdos formales de trabajo, protección social y redes de seguridad para protegerse contra las crisis económicas.
La anterior información se evidencia en la siguiente ilustración, en la cual (al contrario de lo que ocurría en el caso de los trabajadores asalariados) se puede apreciar que en Suramerica, Centroamerica, áfrica y Asia se presenta una coloración mucho más oscura lo que denota que en estas regiones el % de trabajadores por cuenta propia es muy superior a los presentados en el resto del mundo.
Para este caso se esperaría en general que un alto porcentaje de empleo en la industria esté asociado con un mayor PIB per cápita, ya que este puede ser un importante motor de crecimiento económico. Además, también se resalta que el empleo en este sector presenta una mayor productividad y salarios más altos que en otros, lo que genera un impulso en el crecimiento económico y a su vez mejora la calidad de vida de los trabajadores, ya que en la industria a menudo se requieren habilidades especializadas y ciclos de capacitación, lo que puede aumentar el capital humano en la economía.
En esta caso el mapa muestra un panorama mucho más uniforme a comparación de los demás, se puede apreciar tonos similares entre norte, centro y sur Ámerica, igual que en europa y Asia, sin embargo en la mayoría de países africanos no se cumple esta condición (especialmente en el centro y sur del continente).
En este caso es importante destacar que el porcentaje de empleo vulnerable se refiere a la proporción de trabajadores que tienen empleos que no ofrecen suficiente seguridad laboral, como trabajos temporales, informales o sin protección social adecuada. Teniendo esto en cuenta sería lógico esperar que una mayor proporción de este indicador esté asociada con un menor PIB per cápita, ya que los trabajadores que están en empleos precarios presentan bajos ingresos y menor acceso a beneficios y protección social, afectando negativamente su capacidad para invertir en su propia educación y desarrollo humano. Estos factores a su vez se relacionan con una menor productividad y eficiencia, trayendo consigo consecuencias negativas en la competitividad de la economía, el consumo y el crecimiento económico.
Tal como se puede observar en la figura, los países suramericanos, centroamericanos, africanos y asiáticos son los que presentan una mayor proporción de empleos vulnerables, lo cual es lógico ya que en la mayoría de casos se está hablando de países subdesarrollados o en vía de desarrollo.
Según las diferentes fuentes de información relacionadas con los principales índices de desarrollo mundial, una mayor proporción de empleo en agricultura está asociada con un menor PIB per cápita, especialmente en economías más avanzadas. Esto se debe a que el sector agrícola a menudo tiene una productividad relativamente baja en comparación con otros sectores de la economía y es más susceptible a las fluctuaciones de los precios en los productos básicos y los fenómenos climáticos, lo que puede afectar negativamente el crecimiento económico. Además se resalta el hecho de que usualmente los países más avanzados no suelen tener un fuerte componente en agricultura debido a la gran cantidad de importaciones que realizan y a la automatización de procesos relacionados con esta área, lo cual a su vez reduce el número de personas empleadas en este sector.
Analizando el mapa de de densidad se evidencia como claramente los países ubicados al noroccidente de Suramérica, la gran mayoría de los países africanos y varios países asiáticos presentan un alto porcentaje de empleo en agricultura, lo cual se entiende debido a que un alto número de personas en estas regiones siguen viviendo en áreas rurales y trabajan en la agricultura para ganarse la vida.
En primer lugar es importante recalcar que el PIB por persona empleada es una medida de productividad laboral, la cual mide el valor de la producción económica de un país dividido por el número de personas empleadas en el mismo. Esta medida se utiliza comúnmente para evaluar la eficiencia de la economía de una nación y su capacidad para generar riqueza. Por lo que un alto PIB por persona empleada sugiere que el país está utilizando de manera efectiva sus recursos y que sus trabajadores son altamente productivos. Por lo tanto para dividir los países estudiados entre “Desarrollados” y “Emergentes” se opto por realizar un gráfico de barras donde aquellos paises que se encuentren por encima de la media del PIB promedio global ($73859.37) sean considerados “paises desarrollados”, mientras que aquellos por debajo seran catalogados como “paises emergentes”.
# creación de la variable "base" para lectura y visualización de los datos en excel.
base <- read_xlsx("Base_datos.xlsx", col_names = TRUE)
# Eliminación de las dos últimas columnas ya que no contienen información.
base <- base[ ,-c(46,47)]
# Eliminación de filas y espacios que tienen datos faltantes.
# Establecimiento del filtro para el año asignado.
base <- na.omit(base) %>%
filter(Time == 2013)
# Asignación de nuevos nombres para TODAS las variables desde x1 hasta x45
# con el próposito de facilitar la visualización de los datos iniciales.
nombres_nuevos <- paste0("x", 1:45)
# Asignación de los nuevos nombres a la base de datos.
colnames(base) <- nombres_nuevos
# Cálculo del promedio del "PIB por persona empleada" de todos los paises para
# dividir a los paises "Desarollados" de los "Emergentes".
promedio <- mean(base$x33)
# Creación de la categoría "Economia" en la base de datos para clasificar
# todos los paises entre "Dearrollados" y "Emergentes".
base$Economia <- ifelse(base$x33 > promedio, "Desarrollado", "Emergente")
# Conversión la columna "Economia" (varible categórica) en factor.
base$Economia <- as.factor(base$Economia)
# Establecimiento del nivel de referencia de la variable categórica.
base$Economia <- relevel(base$Economia, ref = "Desarrollado")
# Selección de las varibales de interes y asignación de nuevos nombres
# UNICAMENTE a la variable de respuesta y las cinco variables
# predictorias escogidas.
base <- base %>%
select("País" = x3,
"Año de estudio" = x1,
"PIB por persona empleada" = x33,
"% de empleo en agricultura" = x11,
"% de empleo en la industria" = x14,
"% de trabajadores por cuenta propia" = x39,
"% de empleo vulnerable" = x42,
"% de trabajadores asalariados" = x45, Economia)
# Cálculo del promedio del "PIB por persona empleada" de todos los paises para
# dividir a los paises "Desarollados" de los "Emergentes".
promedio <- mean(base$`PIB por persona empleada`)
# Gráfico de barras horizontal que ejemplifica la clasificación de los paises
# entre "Desarrollados" y "Emergentes".
clasificacion_paises <- ggplot(data = base, aes(x = reorder(`País`, -`PIB por persona empleada`), y = `PIB por persona empleada`, fill = Economia)) +
geom_bar(stat = "identity") + geom_hline(yintercept = promedio, color = "red", linetype = "dashed") +
labs(x = "Países", y = "PIB por persona empleada") +
theme_minimal() + theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1)) +
scale_fill_manual(values=c("#3EDF0F","#1C45FD"))
ggplotly(clasificacion_paises)
Dicho lo anterior la claisificación de los países dividos entre desarrollados y emergentes quedaría de la siguiente manera:
tabla <- base %>%
select(`País`, `PIB por persona empleada`, Economia)
tabla %>%
kable() %>%
kable_styling(full_width = F, bootstrap_options = "striped") %>%
row_spec(0, bold = T, color = "white", background = "darkblue") %>%
column_spec(1, bold = T, color = "white", background = "darkblue") %>%
column_spec(2, width = "20%", border_right = T) %>%
column_spec(3, width = "20%") %>%
row_spec(1:nrow(tabla), color = "white", background = ifelse(tabla$`PIB por persona empleada` > promedio, "#78C679", "#72A1F3")) %>%
scroll_box(width = "100%", height = "300px")
| País | PIB por persona empleada | Economia |
|---|---|---|
| Albania | 32144.65 | Emergente |
| Argentina | 58863.01 | Emergente |
| Austria | 107169.71 | Desarrollado |
| Belgium | 118352.39 | Desarrollado |
| Bosnia and Herzegovina | 44094.51 | Emergente |
| Brazil | 35546.26 | Emergente |
| Bulgaria | 46827.15 | Emergente |
| Chile | 54128.92 | Emergente |
| Colombia | 28647.78 | Emergente |
| Croatia | 67232.38 | Emergente |
| Cyprus | 57052.68 | Emergente |
| Czechia | 71538.76 | Emergente |
| Denmark | 109404.25 | Desarrollado |
| Dominican Republic | 35379.49 | Emergente |
| Ecuador | 27905.29 | Emergente |
| El Salvador | 19262.73 | Emergente |
| Estonia | 62507.86 | Emergente |
| Finland | 99911.19 | Desarrollado |
| France | 103292.33 | Desarrollado |
| Germany | 100776.18 | Desarrollado |
| Greece | 86515.87 | Desarrollado |
| Guatemala | 21179.52 | Emergente |
| Honduras | 13363.19 | Emergente |
| Hungary | 63263.49 | Emergente |
| Iceland | 88856.15 | Desarrollado |
| Ireland | 127393.46 | Desarrollado |
| Italy | 109167.82 | Desarrollado |
| Latvia | 55227.38 | Emergente |
| Lithuania | 65374.79 | Emergente |
| Luxembourg | 243293.42 | Desarrollado |
| Mexico | 45292.81 | Emergente |
| Montenegro | 53061.26 | Emergente |
| Netherlands | 103369.58 | Desarrollado |
| North Macedonia | 42926.49 | Emergente |
| Norway | 120627.74 | Desarrollado |
| Panama | 60127.25 | Emergente |
| Poland | 60337.78 | Emergente |
| Portugal | 70641.51 | Emergente |
| Romania | 51940.63 | Emergente |
| Serbia | 48919.93 | Emergente |
| Slovak Republic | 61722.00 | Emergente |
| Slovenia | 73184.73 | Emergente |
| Spain | 94781.75 | Desarrollado |
| Sweden | 99199.61 | Desarrollado |
| Switzerland | 122026.47 | Desarrollado |
| Turkiye | 71123.65 | Emergente |
| United Kingdom | 90622.63 | Desarrollado |
| United States | 121671.31 | Desarrollado |
Tal como se puede observar en las anteriores ilustraciones, también hay algunos países “Emergentes” que presentan un PIB por persona empleada bastante alto, lo que indica que están creciendo rápidamente y pueden llegar a ser paises “Desarrollados” en un futuro. Además, se puede observar que los países clasificados como “Desarrollados” se encuentran principalmente en Europa y Norteamérica, mientras que los países “Emergentes” se encuentran principalmente en Asia, América Latina y África. Finalmente, se resalta que hay una gran diferencia en el PIB por persona empleada entre los países “Desarrollados” y los “Emergentes”, lo que refleja las diferencias económicas y de desarrollo entre estas dos categorías de países.
La metodología empleada en este caso consiste en la aplicación de un análisis de regresión lineal múltiple con el propósito de examinar la relación entre una variable dependiente y cinco variables independientes. Con esto se espera lograr determinar la relación lineal entre las variables y crear un modelo que pueda ser utilizado para predecir el comportamiento de la variable de respuesta \((Y)\) a través del conocimiento previo del valor de las variables explicativas \((X_{i})\), teniendose en cuenta que el término \(e\) representa el error aleatorio o residual en el modelo de regresión, el cual captura la variabilidad no explicada por las variables explicativas incluidas en el modelo. Dicho lo anterior, el modelo en cuestión se representaría mediante una expresión lineal como la siguiente:
\[ Y\;=\;β_{0}\;+\;β_{1}*X_{1}\;+\;β_{2}*X_{2}\;+\;β_{3}*X_{3}\;+\;β_{4}*X_{4}\;+\;β_{5}*X_{5}\;+\;e \]
Donde:
Conocida ya la ecuación general para el modelo de regresión lineal múltiple que se planea implementar, es importante a su vez definir que tipo de datos van a representar las variables predictoras \(X_{i}\) y la variable de respuesta \(Y\). De tal manera se tiene entonces que:
Dicho lo anterior, se procede entonces a remplazar las variables de respuesta \(X_{i}\) y la variable predictoria \(Y\) por sus respectivos nombres en la ecuación planteada al inicio de este apartado, Obteniendose:
\[ \small \text{PIB por persona empleada}\;=\;β_{0}\;+\;β_{1}*\text{% de empleo en agricultura}\;+\;β_{2}*\text{% de empleo en la industria} \] \[ \small +\;β_{3}*\text{% de trabajadores por cuenta propia}\;+\;β_{4}*\text{% de empleo vulnerable}\;+\;β_{5}*\text{% de trabajadores asalariados}\;+\;e \]
Finalmente, se aclara que los betas \((β)\) son los coeficientes de regresión que se estiman a partir de los datos estudiados. En este caso, hay cinco variables explicativas (\(X_{1}\), \(X_{2}\), \(X_{3}\), \(X_{4}\), \(X_{5}\)) que se utilizan para predecir la variable de respuesta \(Y\), y cada variable explicativa tiene su propio coeficiente de regresión \(β_{i}\) (donde \(i\)= 1, 2, 3, 4, 5). El coeficiente de regresión \(β_{0}\) es el término de intersección, que indica el valor esperado de \(Y\) cuando todas las variables explicativas son iguales a cero. Los coeficientes de regresión \(β_{1}\) a \(β_{5}\) representan el cambio esperado en la variable de respuesta \(Y\) por unidad de cambio en las variables explicativas \(X_{1}\) a \(X_{5}\), respectivamente, manteniendo todas las demás variables explicativas constantes.
# Realización del modelo de regresión lineal.
modelo <- lm(`PIB por persona empleada` ~ `% de empleo en agricultura` + `% de empleo en la industria` + `% de trabajadores por cuenta propia` + `% de empleo vulnerable` + `% de trabajadores asalariados` + Economia, base)
# Obtención de la tabla de coeficientes.
coef_table <- round(coef(summary(modelo)), digits = 4)
pvalues <- coef_table[,4]
symbols <- ifelse(pvalues < 0.001, sprintf("*** (%.4f)", pvalues),
ifelse(pvalues < 0.01, sprintf("** (%.4f)", pvalues),
ifelse(pvalues < 0.05, sprintf("* (%.4f)", pvalues), sprintf(" (%.4f)", pvalues))))
coef_table[,4] <- symbols
# Mostrar la tabla de coeficientes.
kable(coef_table, format = "html", align = "c") %>%
add_header_above(c(" " = 1, " " = 4)) %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), font_size = 12) %>%
row_spec(0, background = "#FACD89") %>%
row_spec(which(coef_table[,4] == "***"), background = "#FFC0CB") %>%
row_spec(which(coef_table[,4] == "**"), background = "#F5DEB3") %>%
row_spec(which(coef_table[,4] == "*"), background = "#E0FFFF")
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 86261911.8605 | 142148322.2062 | 0.6068 | (0.5473) |
% de empleo en agricultura
|
-46.3644 | 696.5113 | -0.0666 | (0.9473) |
% de empleo en la industria
|
-956.6753 | 758.0176 | -1.2621 | (0.2141) |
% de trabajadores por cuenta propia
|
-864168.4042 | 1421631.8062 | -0.6079 | (0.5466) |
% de empleo vulnerable
|
2062.0757 | 1902.1367 | 1.0841 | (0.2847) |
% de trabajadores asalariados
|
-861038.8976 | 1421472.4762 | -0.6057 | (0.5480) |
| EconomiaEmergente | -44211.9376 | 9666.2981 | -4.5738 | *** (0.0000) |
# Extraer el valor del R-cuadrado ajustado y el valor p
r_ajustado <- round(summary(modelo)$adj.r.squared, 4)
p_valor <- summary(modelo)$coefficients[7, 4]
# Mostrar los valores del R-cuadrado ajustado y el valor p
cat("El R-cuadrado ajustado es:", r_ajustado, "\n")
## El R-cuadrado ajustado es: 0.6854
cat("El valor p es:", p_valor, "\n")
## El valor p es: 4.366054e-05
Para juzgar la bondad de un modelo de regresión lineal múltiple se deben realizar diferentes análisis:
En primer lugar, se tiene el análisis del coeficiente de determinación (R²) del modelo, el cual mide la proporción de la varianza total de la variable dependiente que es explicada por el modelo.
Otro análisis importante es el de los valores-p obtenidos para cada uno de los coeficientes de regresión. Los valores-p se utilizan para evaluar la significancia de los coeficientes de regresión obtenidos en un análisis y determinar si las variables independientes tienen algún efecto sobre la dependiente que se está evaluado.
Por último, se debe analizar cada uno de los coeficientes de regresión, interpretando su magnitud y signo, ya que al analizar los coeficientes de regresión, podemos determinar la dirección y la fuerza de la relación entre cada variable predictor y la variable de respuesta.
Dicho lo anterior, a continuación se realizarán los diferentes análisis mencionados previamente junto con su respectiva interpretación:
Tal como se puede observar en la tabla del modelo de regresión lineal múltiple presentada anteriormente, se tiene un valor del \((R^2)\) ajustado de:
# Extraer el valor del R-cuadrado ajustado y el valor p
r_ajustado <- summary(modelo)$adj.r.squared
# Mostrar los valores del R-cuadrado ajustado y el valor p
cat("El R-cuadrado ajustado es:", round(r_ajustado, 4), "\n")
## El R-cuadrado ajustado es: 0.6854
Por lo tanto, se interpreta que el modelo de regresión lineal múltiple que se ha ajustado explica el 68.54% de la variabilidad total en el PIB por persona empleada, utilizando las variables independientes: % de trabajadores asalariados, % de trabajadores por cuenta propia, % de empleo en la industria, % de empleo vulnerable y % de empleo en agricultura. En otras palabras, el modelo es capaz de explicar el 68.54% de las variaciones en el PIB por persona empleada, mientras que el 31.46% restante se debe a factores no incluidos en el modelo o a errores aleatorios.
En términos generales, un \((R^2)\) de 0.6854 sugiere que el modelo tiene un ajuste moderadamente bueno a los datos, pero podría mejorarse con la inclusión de otras variables o mejoras en el modelo.
% de empleo en agricultura: Para esta variable el coeficiente de regresión es de -46.3644, lo cual indica que, manteniendo constantes todas las otras variables predictorias, un aumento del 1% en el porcentaje de empleo en agricultura se asocia con una disminución de $46.3644 en el PIB por persona empleada. Sin embargo, como el valor p (0.9473) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto se puede interpretar que el porcentaje de empleo en agricultura no tiene una relación significativa con el PIB por persona empleada en este modelo.
\[0.9473\;>\;0.05\]
% de empleo en la industria: El coeficiente de regresión para esta variable es de -956.6753, con un valor p de 0.2141, lo que indica que esta variable no es estadísticamente significativa en el modelo a un nivel de significancia del 5%. La interpretación del coeficiente negativo es que, manteniendo constante el efecto de las demás variables independientes en el modelo, un aumento del 1% en el porcentaje de empleo en la industria se relaciona con una disminución de 956.6753 unidades monetarias en el valor del PIB por persona empleada. Sin embargo, como el valor p no es significativo, es muy probable que la relación observada entre esta variable y la variable dependiente sea simplemente un efecto aleatorio, es decir, que no haya una verdadera relación causal entre ellas.
\[0.2141\;>\;0.05\]
% de trabajadores por cuenta propia: El coeficiente de regresión estimado para esta variable es de -864168.4042, lo cual indica que, manteniendo todas las demás variables constantes, un aumento del 1% en el porcentaje de trabajadores por cuenta propia se asocia con una disminución de aproximadamente $864168 en el PIB por persona empleada. Sin embargo, es importante tener en cuenta que este coeficiente de regresión no es estadísticamente significativo (p-value de 0.5466). Por lo tanto, en este modelo, no se puede hacer una inferencia confiable sobre la relación entre el porcentaje de trabajadores por cuenta propia y el PIB por persona empleada.
\[0.5466\;>\;0.05\]
% de empleo vulnerable: En este caso el coeficiente de regresión estimado para % de empleo vulnerable es de 2062.0757, lo que sugiere que un aumento del 1% en la proporción de empleo vulnerable se asocia con un aumento de 2062.0757 unidades monetarias en el PIB por persona empleada, manteniendo constantes las demás variables del modelo. Sin embargo, el valor p para esta variable es de 0.2847, lo que indica que no es estadísticamente significativo a un nivel de significancia del 5%. Esto significa que no hay suficiente evidencia para rechazar la hipótesis nula de que el coeficiente de regresión para % de empleo vulnerable es igual a cero. En consecuencia, no podemos afirmar que % del empleo vulnerable tenga un efecto significativo sobre el PIB por persona empleada.
\[0.2847\;>\;0.05\]
% de trabajadores asalariados: En el modelo presentado, la variable % de trabajadores asalariados tiene un coeficiente de regresión estimado de -861038.8976 y un valor p de 0.5480. Esto indica que, en promedio, un aumento del 1% en la proporción de trabajadores asalariados se asocia con una disminución de aproximadamente $861039 en el valor del PIB por persona empleada, manteniendo todas las demás variables constantes. Sin embargo, dado que el valor-p es mayor que 0.05, no podemos rechazar la hipótesis nula de que el coeficiente de regresión sea igual a cero y, por lo tanto, no se puede concluir que esta variable tenga un efecto significativo en el PIB por persona empleada.
\[0.5480\;>\;0.05\]
Economia: El coeficiente de regresión para la variable “EconomiaEmergente” es de -44211.9376, lo que significa que, manteniendo todas las demás variables constantes, si una observación pertenece a una economía emergente, su PIB per cápita es aproximadamente $44212 menor en comparación con las observaciones que pertenecen a la categoría “Desarrollado”. Este coeficiente es estadísticamente significativo (p-valor = 4.37e-05), lo que indica que la variable es importante para predecir el PIB per cápita y agrega información valiosa al modelo.
\[4.37*e^{-05}\;<\;0.05\]
El análisis de supuestos en el contexto de modelos estadísticos, se refiere al proceso de evaluación y comprobación de las cuatro condiciones necesarias para que el modelo sea válido y confiable en la inferencia estadística que se desea aplicar sobre la población de interés. Por lo tanto, es necesario realizar ciertas verificaciones para comprobar que los datos muestrales cumplen con las condiciones necesarias para determinar, a partir de estos, propiedades generales de una población estadística.
Estas condiciones son los supuestos de: Linealidad de la relación entre las variables, normalidad de los residuos, homogeneidad de varianzas e independencia de los errores. Si alguno de estos supuestos no se cumplen, los resultados del modelo pueden ser incorrectos o engañosos, lo que puede llevar a decisiones equivocadas o inexactas. Por lo cual no se podría concluir acerca de las características de la población general pero sí sobre las características del grupo de estudio del cual se tomaron las muestras.
Este primer supuesto establece que la relación entre la variable dependiente y las variables independientes es lineal. Es decir, que se espera que el cambio en la variable dependiente sea proporcional a los cambios en las variables independientes, y que esta relación entre variables pueda ser descrita mediante una recta en un gráfico de residuos como el presentado.
A partir de este gráfico podemos observar que los residuos parecen estar distribuidos aleatoriamente alrededor de cero, lo cual podría sugerir que el modelo se ajusta bien a los datos dado que no se presentan formas no aleatorias en la distribución de los residuos, como una curva en forma de U o una línea diagonal. Sin embargo, para tener mayor certeza acerca de esta afirmación se procederá a realizar la prueba de ANOVA en la siguiente pestaña.
# Gráfico dinámico para el análisis de la linealidad.
grafico_linealidad <- ggplot(data = modelo, aes(x = modelo$fitted.values, y = modelo$residuals)) +
geom_point() +
geom_hline(yintercept = 0, linetype = "dashed", color = "Red") +
labs(x = "Valores ajustados", y = "Residuales") +
theme_bw()
# Convertir a gráfico dinámico con plotly.
ggplotly(grafico_linealidad)
Hipótesis a probar:
\[ H_{0}:β_{0}+β_{1}+β_{2}+..+β_{k}=0 \] \[ H_{1}:β_{j}≠0,\;\text{ Para al menos un j}\]
Se rechaza \(H_{0}\) si:
\[ Valor-p\;<\;Alpha\]
Siendo Alpha el nivel de significancia, cuyo valor es del 5% → (0.05). De tal modo tenemos entonces que:
# Extraer el valor p
p_valor <- summary(modelo)$coefficients[7, 4]
# Mostrar el valor p
cat("El valor p es:", format(p_valor, scientific = TRUE, digits = 4), "\n")
## El valor p es: 4.366e-05
Por lo tanto:
\[4.046*e^{-10}\;<\;0.05\]
De esta forma, se concluye entonces que se rechaza \(H_{0}\) y acetptamos \(H_{1}\), lo cual implica que existe al menos un \(β\) diferente de 0. Por lo tanto se cumple el supuesto de linealidad y nuestro análisis del gráfico de residuos fue correcto.
Este supuesto establece que los valores residuales, que son la diferencia entre los valores observados y los valores predichos por el modelo, deben seguir una distribución normal. Si los residuos no siguen una distribución normal, es posible que el modelo no sea apropiado y que las inferencias basadas en el modelo sean inexactas .
Dicho lo anterior, si los residuos siguen una distribución normal, el histograma debería tener una forma de campana simétrica, es decir, una forma de distribución Gaussiana. Por otro lado, si los residuos no siguen una distribución normal, el histograma puede tener diferentes formas. Como por ejemplo este caso, donde los residuos tienen una distribución sesgada a la derecha ya que el gráfico presenta una cola más larga de este lado. Por lo tanto se infiere que el modelo no se ajusta bien a los datos y que el supuesto de normalidad probablemente no se esté cumpliendo. A esto se le suma el hecho de que el gráfico Cuantil - Cuantil también presenta indicios de no normalidad dado que las colas se despegan de la línea en los extremos de la gráfica.
Sin embargo, para tener mayor certeza acerca de esta afirmación se procederá a realizar la prueba Shapiro - Wilk en la última pestaña.
Este supuesto establece que los valores residuales, que son la diferencia entre los valores observados y los valores predichos por el modelo, deben seguir una distribución normal. Si los residuos no siguen una distribución normal, es posible que el modelo no sea apropiado y que las inferencias basadas en el modelo sean inexactas .
Dicho lo anterior, si los residuos siguen una distribución normal, el histograma debería tener una forma de campana simétrica, es decir, una forma de distribución Gaussiana. Por otro lado, si los residuos no siguen una distribución normal, el histograma puede tener diferentes formas. Como por ejemplo este caso, donde los residuos tienen una distribución sesgada a la derecha ya que el gráfico presenta una cola más larga de este lado. Por lo tanto se infiere que el modelo no se ajusta bien a los datos y que el supuesto de normalidad probablemente no se esté cumpliendo. A esto se le suma el hecho de que el gráfico Cuantil - Cuantil también presenta indicios de no normalidad dado que las colas se despegan de la línea en los extremos de la gráfica.
Sin embargo, para tener mayor certeza acerca de esta afirmación se procederá a realizar la prueba Shapiro - Wilk en la última pestaña.
# Crear un data frame con los residuos del modelo
residuos_df <- data.frame(residuos = modelo$residuals)
# Crear el gráfico de densidad con ggplot2
densidad <- ggplot(residuos_df, aes(x = residuos)) +
geom_density(fill = "#69b3a2", alpha = 0.5, color = "#e9ecef") +
geom_vline(xintercept = 0, color = "red") +
labs(x = "Residuos", y = "Densidad") +
theme_bw()
# Convertir el gráfico a plotly
ggplotly(densidad)
Este supuesto establece que los valores residuales, que son la diferencia entre los valores observados y los valores predichos por el modelo, deben seguir una distribución normal. Si los residuos no siguen una distribución normal, es posible que el modelo no sea apropiado y que las inferencias basadas en el modelo sean inexactas .
Dicho lo anterior, si los residuos siguen una distribución normal, el histograma debería tener una forma de campana simétrica, es decir, una forma de distribución Gaussiana. Por otro lado, si los residuos no siguen una distribución normal, el histograma puede tener diferentes formas. Como por ejemplo este caso, donde los residuos tienen una distribución sesgada a la derecha ya que el gráfico presenta una cola más larga de este lado. Por lo tanto se infiere que el modelo no se ajusta bien a los datos y que el supuesto de normalidad probablemente no se esté cumpliendo. A esto se le suma el hecho de que el gráfico Cuantil - Cuantil también presenta indicios de no normalidad dado que las colas se despegan de la línea en los extremos de la gráfica.
Sin embargo, para tener mayor certeza acerca de esta afirmación se procederá a realizar la prueba Shapiro - Wilk en la última pestaña.
# Crear un data frame con los residuos del modelo
residuos_df <- data.frame(residuos = modelo$residuals)
# Crear el gráfico Q-Q con ggplot2
qq <- ggplot(residuos_df, aes(sample = residuos)) +
stat_qq(color = "blue") +
stat_qq_line(color = "red") +
labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
theme_bw()
# Convertir el gráfico a plotly
ggplotly(qq)
Hipótesis a probar:
\[ H_{0}:\text{ Hay normalidad.}\] \[ H_{1}:\text{No hay normalidad.}\]
Se rechaza \(H_{0}\) si:
\[ Valor-p\;<\;Alpha\]
Siendo Alpha el nivel de significancia, cuyo valor es del 5% → (0.05). De tal modo tenemos entonces que:
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.71908, p-value = 2.931e-08
Por lo tanto:
\[2.931*e^{-08}\;<\;0.05\]
De esta forma, se concluye entonces que se rechaza \(H_{0}\) y acetptamos \(H_{1}\), lo cual implica que no hay normalidad. Por lo tanto no se cumple el supuesto de normalidad y nuestro análisis de los gráficos de histograma, densidad y cuantil-cuantil fue correcto.
El supuesto de homocedasticidad se refiere a la igualdad de la varianza de los errores de predicción a través de los diferentes niveles de las variables independientes. En otras palabras, cuando los errores tienen una varianza constante a lo largo del rango de los valores de las variables independientes, se cumple el supuesto de homocedasticidad. Esto es importante porque si los errores tienen una varianza diferente para diferentes valores de las variables independientes, la precisión de las predicciones puede ser inconsistente y la estimación de los coeficientes de regresión pueden ser sesgados.
al como se puede observar en la gráfica de Residuales vs. Ajustados, no todos los puntos se encuentran orbitando homogéneamente alrededor de 0, debido a que hay valores que no están orbitando constantemente en torno a 0 y parece que tienden a abrirse. Sin embargo, para tener mayor certeza acerca de esta afirmación se procederá a realizar la prueba Breusch - Pagan en la siguiente pestaña.
# Gráfico dinámico para el análisis de la homocedasticidad.
grafico_linealidad <- ggplot(data = modelo, aes(x = modelo$fitted.values, y = modelo$residuals)) +
geom_point() +
geom_hline(yintercept = 0, linetype = "dashed", color = "Red") +
labs(x = "Valores ajustados", y = "Residuales") +
theme_bw()
# Convertir a gráfico dinámico con plotly.
ggplotly(grafico_linealidad)
Hipótesis a probar:
\[ H_{0}:\text{ Hay varianza constante.}\] \[ H_{1}:\text{ No hay varianza constante.}\]
Se rechaza \(H_{0}\) si:
\[ Valor-p\;<\;Alpha\]
Siendo Alpha el nivel de significancia, cuyo valor es del 5% → (0.05). De tal modo tenemos entonces que:
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 8.3251, df = 6, p-value = 0.2152
Por lo tanto:
\[0.2152\;>\;0.05\]
De esta forma, se concluye entonces que se acepta \(H_{0}\) y rechazamos \(H_{1}\), lo cual implica que hay varianza constante. Por lo tanto se cumple el supuesto de homocedasticidad y nuestro análisis del gráficos de Residuales vs. Ajustados fue incorrecto.
El supuesto de independencia en el análisis de regresión se refiere a la independencia de los errores de predicción, es decir, que los errores no están correlacionados entre sí. Este supuesto se cumple automáticamente en los modelos de regresión lineal simple o múltiple si los datos se han recopilado mediante un diseño de muestreo aleatorio y no hay factores que influyen en la correlación entre las observaciones.
En otras palabras, si los datos se han recopilado aleatoriamente y no hay factores que produzcan correlación entre las observaciones, entonces el supuesto de independencia se cumple automáticamente y no es necesario hacer ninguna otra comprobación o ajuste. Sin embargo, si existen factores que puedan influir en la correlación entre las observaciones, entonces se deben tomar medidas para ajustar por la correlación, por ejemplo, mediante la inclusión de variables de agrupación o mediante la aplicación de modelos de regresión con estructura de correlación.
Algunos de los principales factores que pueden influir en la correlación entre observaciones son:
Influencia de variables ocultas: la presencia de variables ocultas o no medidas podría influir en la correlación entre las observaciones.
Sesgos de medición: si las mediciones se realizan de manera incorrecta o inconsistente, esto podría afectar la correlación entre las observaciones.
Factores de selección de muestra: Si la muestra no se selecciona al azar, sino que se basa en ciertas características, como edad, género, nivel socioeconómico, etc., esto podría afectar la correlación entre observaciones.
Efectos de medición repetida: En estudios que miden la misma variable varias veces en un mismo sujeto, es posible que las observaciones estén correlacionadas debido a factores como la variación natural de la variable, el aprendizaje del sujeto o la fatiga.
Dependen de la estructura de los datos: la correlación entre observaciones puede depender de la estructura de los datos. Por ejemplo, si los datos son temporales, es probable que las observaciones estén correlacionadas entre sí a medida que se acercan en el tiempo.
En primer luagr, cabe mencionar que en una regresión lineal múltiple, la significancia de una variable predictora se puede ver afectada por la presencia de otras variables en el modelo. Por lo tanto, es posible que si se ajusta un modelo que incluya una combinación de variables diferentes, se pueda obtener una significancia distinta. De igual manera también se destaca que la significancia de las variables independientes en un modelo de regresión depende de muchos factores, como la calidad y la cantidad de los datos utilizados en el modelo, la selección de las variables y la naturaleza del fenómeno que se está investigando. Por lo tanto, es importante evaluar cuidadosamente los resultados del modelo y considerarlos en el contexto adecuado.
Dicho lo anterior y después de analizar los principales datos obtenidos, a partir del modelo de regresión lineal múltiple, tales como: Coeficientes de las variables predictoras, los valores-p obtenidos, el R2 ajustado del modelo, realizar el análisis de supuestos correspondiente e investigar acerca del porqué ninguna de las variables independientes resultó significante para la variable de respuesta estudiada, se pudo llegar a las siguientes conclusiones que explican el comportamiento evidenciado:
Como conclusión inicial se tiene que el “% de empleo en la industria” no es necesariamente un indicador directo de la contribución de la industria al PIB por persona empleada. Por un lado, se tiene que el PIB es una medida del valor de todos los bienes y servicios finales producidos en un país durante un período de tiempo determinado. Por lo tanto, el PIB per cápita (por persona) es una medida del valor promedio de los bienes y servicios producidos por cada persona en un país. Por su parte, el empleo en la industria se refiere al número de personas que trabajan en la producción de bienes y servicios en la industria manufacturera, la minería, la construcción, entre otros sectores relacionados. Dicho lo anterior, el porcentaje de empleo en la industria puede variar de un país a otro, dependiendo de factores como la estructura económica y el nivel de desarrollo. Destacando también que el valor que la industria agrega al PIB depende de varios factores, incluyendo la productividad y la eficiencia en la producción de bienes y servicios, la calidad de los productos y la capacidad de la industria para competir en el mercado global.
Por lo tanto, el hecho de que un país tenga un alto porcentaje de empleo en la industria no necesariamente significa que la industria esté contribuyendo significativamente al PIB per cápita. Además, otros sectores como los servicios también pueden tener un impacto significativo en el PIB, ya que estos incluyen una amplia gama de actividades, desde la educación y la salud hasta los servicios financieros y de tecnología de la información. Resaltando que en muchos países, el sector de servicios es el sector más grande en términos de contribución al PIB. Por lo tanto, aunque el porcentaje de empleo en la industria puede ser un indicador importante del empleo en un país, no es necesariamente un indicador directo de la contribución de la industria al PIB por persona empleada.
De la misma forma se concluye que la variable independiente “% de empleo vulnerable” no resulta significativa para explicar la diferencia en el PIB por persona empleada entre países desarrollados y emergentes. La razón es que en los países desarrollados, existe una gran cantidad de trabajadores provenientes de países emergentes que llegan de manera irregular y no se contabilizan en la tasa de empleo formal, lo que impacta negativamente en la variable de “% de empleo vulnerable”. Por lo tanto, en este contexto, esta variable puede ser menos confiable en países desarrollados y no ser significativa al comparar países desarrollados y emergentes.
A su vez, dados los resultados obtenidos una vez se ejecuta el modelo, se observa que el “% de trabajadores por cuenta propia” no es significativo para explicar el comportamiento del GDP por persona empleada. La razón de esto es que el GDP por persona empleada se basa precisamente en la población empleada y considera el valor total del PIB generado por dicha población. Por lo tanto, la población que trabaja por cuenta propia no tiene relevancia en el cálculo del PIB por persona empleada, independientemente del tamaño de esta población. Debido a esto, el porcentaje de trabajadores por cuenta propia no es una variable significativa para explicar el PIB por persona empleada.
Asimismo, también se puede destacar que aunque el “% de trabajadores asalariados” en un país puede ser un indicador importante de la estructura laboral y el tipo de empleo en un país, esto no necesariamente se traduce en una relación directa con la contribución de los trabajadores asalariados al PIB per cápita. El valor que un trabajador asalariado agrega al PIB depende de varios factores, incluyendo la productividad y la eficiencia en el trabajo, la calidad del trabajo realizado, la habilidad y el nivel de especialización del trabajador y el tipo de industria o sector en el que trabaja. Por lo tanto, no es el tipo de empleo, ya sea asalariado o no, lo que determina la contribución al PIB, sino el valor agregado que se produce a través del trabajo realizado.
Finalemente, se cree que la razón del porqué el “% de empleo en agricultura” no explica el PIB de trabajo es debido a que, aunque en algunos países el sector agrícola es un sector importante en términos de empleo, esto no necesariamente se traduce en una relación directa con la contribución al PIB por persona empleada, ya que el valor que el sector agrícola agrega al PIB depende de varios factores, incluyendo la tecnología utilizada en la producción, la inversión en infraestructura y la capacidad de los agricultores para adaptarse a las condiciones climáticas y de mercado. Además, aunque la agricultura puede ser un sector importante en algunos países, el PIB también puede depender significativamente de otros sectores, como la industria y los servicios. Por lo tanto, el hecho de que un país tenga un alto porcentaje de empleo en la agricultura no necesariamente significa que el sector agrícola esté contribuyendo significativamente al PIB por persona empleada.
Employment in agriculture (% of total employment) (modeled ILO estimate). (s/f). Indexmundi.com. Recuperado el 25 de abril de 2023, de https://www.indexmundi.com/facts/indicators/SL.AGR.EMPL.ZS
Employment in industry (% of total employment) (modeled ILO estimate). (s/f). Indexmundi.com. Recuperado el 27 de abril de 2023, de https://www.indexmundi.com/facts/indicators/SL.IND.EMPL.ZS
Self-employed, total (% of total employment) (modeled ILO estimate). (s/f). Indexmundi.com. Recuperado el 29 de abril de 2023, de https://www.indexmundi.com/facts/indicators/SL.EMP.SELF.ZS
Vulnerable employment, total (% of total employment) (modeled ILO estimate). (s/f). Indexmundi.com. Recuperado el 30 de abril de 2023, de https://www.indexmundi.com/facts/indicators/SL.EMP.VULN.ZS
Wage and salaried workers, total (% of total employment) (modeled ILO estimate). (s/f). Indexmundi.com. Recuperado el 3 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SL.EMP.WORK.ZS
Judd, C. M., McClelland, G. H., & Ryan, C. S. (2017). Data analysis: A model comparison approach to regression, ANOVA, and beyond (3rd Edition). Routledge.
Kutner, M. H., Nachtsheim, C. J., Neter, J., Li, W., & Mcgraw-Hili, W. (s/f). Applied linear statistical models fifth edition. Ufl.edu. Recuperado el 3 de mayo de 2023, de https://users.stat.ufl.edu/~winner/sta4211/ALSM_5Ed_Kutner.pdf