Introducción

La regresión lineal consiste en la determinación o estimación de β y β a partir de la información contenida en las observaciones que se disponen, en este caso, la base de datos de con 392 paises y se puede describir mediante la siguiente ecuación dada:

\[ Y = \beta_0 + \beta_1 X + \ldots + \beta_n X + e \]

Para el análisis de este caso, se depuró la base inicial, dejando así una base de datos de 48 países específicamente del año 2016, donde se tuvo en cuenta la clasificación de las variables dependientes e independientes, teniendo a empleo en agricultura mujeres, empleo en agricultura hombres, empleo en industria mujeres, empleo en industria hombres, empleos vulnerables mujeres, empleos vulnerables hombres como independientes o predictoras y GDP como variable dependiente o de respuesta. Dado esto, se pretende pronosticar cómo es la acción de relación del GDP respecto a las variables independientes.

Metodología

Con la base de datos ya depurada, se procede a separar lo países teniendo en cuenta su nivel económico en dos clases: Desarrollados o Emergentes

La cantidad de datos y particularidades en cada estado hace que sea complejo realizar una clasificación general que determine si un país es desarrollado o emergente. Por esta razón, se dio uso de ciertos criterios ya planteados que permitieron realizar dicha clasificación de la manera más imparcial posible.

Según Gómez López, A. “¿Cuáles son los países desarrollados?” en Contribuciones a la Economía, Nº 82, julio 2007. los criterios que ayudan a clasificar los países respecto a su desarrollo económico son los siguientes:

  • Producción generada por persona.
  • Capacidad adquisitiva del ingreso monetario en cada país.
  • Calidad de vida.

Dado esto entonces se podría entender por “países desarrollados” aquellos estados que alcanzan los más altos niveles de producción y poder adquisitivo por persona, así como la mejor calidad de vida.

Por ende, si alguno de los países incumple al menos uno de los criterios anteriormente descritos, no se considerará como desarrollado y se clasificará en una lista de países “Emergentes”. Con estos datos ya se puede emplear el modelo de regresión lineal, teniendo como población de referencia aquellos países clasificados como desarrollados.

Posteriormente se evalúan los supuestos de regresión, estos supuestos deben cumplirse para abonarle eficiencia a los procedimientos inferenciales realizados sobre el modelo.

Bases depuradas

Nombres

Estas dos tablas contienen los nombres de los paises que se depuraron de la base de datos original, separados por su nivel economico.

Developed
Austria
Belgium
Denmark
Finland
France
Germany
Iceland
Ireland
Italy
Luxembourg
Netherlands
Norway
Spain
Sweden
Switzerland
United Kingdom
United States
Emergent
Albania
Barbados
Belize
Bosnia and Herzegovina
Brazil
Bulgaria
Colombia
Croatia
Cyprus
Czechia
Dominican Republic
Ecuador
El Salvador
Estonia
Greece
Honduras
Hungary
Latvia
Lithuania
Mexico
Montenegro
North Macedonia
Poland
Portugal
Romania
Russian Federation
Serbia
Slovak Republic
Slovenia
Suriname
Turkiye

Paises Desarrollados

En esta tabla se muestran todos los datos de las variables en los paises desarrollados

Country Name GDP per person employed Employment in Agriculture Female Employment in Agriculture Male Employment in Industry Female Employment in Industry Male Vulnerable Employment Female Vulnerable Employment Male
Austria 108034.42 3.93 4.72 11.98 37.58 7.50 8.76
Belgium 122669.88 0.75 1.68 8.17 32.44 8.29 12.73
Denmark 112096.72 0.91 3.60 9.30 27.76 3.84 6.46
Finland 103343.10 2.09 5.52 8.81 34.56 7.37 12.42
France 106470.89 1.62 4.00 9.28 30.32 6.09 8.85
Germany 102312.48 0.89 1.67 13.80 39.21 5.22 6.66
Iceland 90750.42 2.18 5.42 6.94 26.81 5.84 10.46
Ireland 161841.47 1.54 8.47 8.96 26.68 6.07 16.31
Italy 108133.62 2.52 4.87 12.95 35.58 14.06 19.91
Luxembourg 251478.84 0.61 1.37 4.67 18.04 6.14 6.13
Netherlands 107154.09 1.38 3.01 6.18 25.20 10.97 14.32
Norway 124830.32 0.98 3.09 6.94 30.78 3.65 6.51
Spain 95981.84 2.14 5.95 8.44 28.87 9.33 14.19
Sweden 104274.82 1.00 2.69 6.96 28.52 4.43 8.11
Switzerland 123660.15 2.86 3.80 9.89 29.91 9.55 8.63
United Kingdom 92583.82 0.63 1.56 7.61 27.96 9.46 16.11
United States 123737.83 0.77 1.99 8.71 29.19 3.54 4.49

Paises Emergentes

En esta tabla se muestran todos los datos de las variables en los paises emergentes

Country Name GDP per person employed Employment in Agriculture Female Employment in Agriculture Male Employment in Industry Female Employment in Industry Male Vulnerable Employment Female Vulnerable Employment Male
Albania 31069.95 45.23 36.290001 14.84 22.66 55.46 56.22
Barbados 31976.46 1.83 3.850000 9.36 28.96 11.41 20.76
Belize 17430.78 4.61 26.780001 9.32 19.47 31.09 25.62
Bosnia and Herzegovina 48296.08 17.77 18.070000 17.88 39.04 20.38 18.32
Brazil 33786.93 4.73 14.050000 10.77 28.20 22.40 30.99
Bulgaria 49106.89 4.25 8.940000 22.37 36.27 6.81 9.37
Colombia 29631.90 7.25 22.360001 13.32 23.83 46.92 47.54
Croatia 67986.33 5.55 9.350000 14.55 37.53 7.18 10.02
Cyprus 59933.57 1.64 5.350000 6.41 26.11 9.63 14.89
Czechia 75848.18 1.72 3.830000 24.14 49.03 11.60 15.92
Dominican Republic 39066.85 1.14 13.720000 9.07 25.13 29.14 46.18
Ecuador 25098.75 23.82 29.059999 10.60 24.09 55.23 38.42
El Salvador 20491.37 4.07 29.450001 17.08 24.06 44.61 29.60
Estonia 65106.25 1.99 5.700000 17.25 41.59 4.59 6.74
Greece 82693.81 11.75 12.820000 8.14 20.30 24.49 28.26
Honduras 13635.87 7.87 38.279999 20.04 22.44 48.22 31.09
Hungary 62349.34 2.84 6.890000 19.16 39.92 5.04 6.44
Latvia 59438.42 5.06 10.410000 13.33 35.24 7.40 9.92
Lithuania 67284.65 5.54 10.530000 15.57 35.16 8.14 11.91
Mexico 46846.02 3.65 18.790001 17.20 30.89 30.31 25.40
Montenegro 51311.43 7.40 8.020001 7.80 25.32 9.74 15.21
North Macedonia 44636.08 15.76 17.190001 25.06 33.70 17.02 21.44
Poland 63800.59 9.39 11.550000 16.82 43.24 14.26 18.78
Portugal 71140.95 4.79 8.930000 15.15 33.39 10.34 15.52
Romania 58813.18 22.62 23.469999 21.02 36.65 24.35 26.51
Russian Federation 52830.08 5.02 8.320000 16.00 37.42 5.52 6.84
Serbia 42618.27 16.17 20.520000 16.30 30.76 24.51 30.72
Slovak Republic 63606.98 1.42 4.090000 21.16 48.94 8.69 15.12
Slovenia 78539.79 4.16 5.760000 19.14 45.19 8.71 12.09
Suriname 48657.59 4.74 10.210000 7.75 33.83 10.19 14.05
Turkiye 76253.38 28.59 15.370000 15.98 31.69 34.94 24.69

Variables

Selección de variables

De la depuración en la base de datos y la selección del año 2016, se tuvieron en cuenta las siguientes variables para el desarrollo de este análisis a profundidad, de las cuales se escogieron las siguientes:

  • Empleo en agricultura, mujeres (Employment in Agriculture Female)

  • Empleo en agricultura, hombres (Employment in Agriculture Male)

  • Empleo en industria, mujeres (Employment in Industry Female)

  • Empleo en industria, hombres (Employment in Industry Male)

  • Empleos vulnerables, mujeres (Vulnerable Employment Female)

  • Empleos vulnerables, hombres (Vulnerable Employment Male)

Resumen descriptivo

Los siguientes son unos graficos que nos ayudan a visualizar de una manera mas sencilla los datos en cada una de las variables dado un país

GDP por pais

Esta variable representa el GDP (Gross Domestic Product) o PIB (Producto Interno Bruto) por cada persona empleada en el país, es la primera y mas importante variable ya que es sobre la que vamos a realizar todo el modelo lineal

Hombres

Empleo en industria

Esta variable representa el porcentaje de empleados de este sexo en trabajos de industria.

Empleo en agricultura

Esta variable representa el porcentaje de empleados de este sexo en trabajos de agricultura, como vienen siendo los campesinos, pescadores, etc.

Empleos vulnerables

Esta variable representa el porcentaje de empleados de este sexo en trabajos de estado “vulnerabe” lo que significa que no son pagos como corresponde y tienen condiciones laborales deplorables.

Mujeres

Empleo en industria

Esta variable representa el porcentaje de empleados de este sexo en trabajos de industria.

Empleo en agricultura

Esta variable representa el porcentaje de empleados de este sexo en trabajos de agricultura, como vienen siendo los campesinos, pescadores, etc.

Empleos vulnerables

Esta variable representa el porcentaje de empleados de este sexo en trabajos de estado “vulnerabe” lo que significa que no son pagos como corresponde y tienen condiciones laborales deplorables.

Estadisticas descriptivas

A continuacion se presentaran en tablas las estadisticas descriptivas de cada una de las variables, separadas entre aquellas pertenecientes a los paises desarrollados y los emergentes.

Desarrollados

vars n mean sd min max range se
GDP per person employed 1 17 119962.04 37758.56 90750.42 251478.84 160728.43 9157.796
Employment in Agriculture Female 2 17 1.58 0.93 0.61 3.93 3.32 0.225
Employment in Agriculture Male 3 17 3.73 1.93 1.37 8.47 7.10 0.468
Employment in Industry Female 4 17 8.80 2.37 4.67 13.80 9.13 0.576
Employment in Industry Male 5 17 29.97 5.01 18.04 39.21 21.17 1.215
Vulnerable Employment Female 6 17 7.14 2.87 3.54 14.06 10.52 0.697
Vulnerable Employment Male 7 17 10.65 4.38 4.49 19.91 15.42 1.063

Emergentes

vars n mean sd min max range se
GDP per person employed 1 31 50944.73 18944.55 13635.87 82693.8 69057.9 3402.542
Employment in Agriculture Female 2 31 9.11 9.80 1.14 45.2 44.1 1.760
Employment in Agriculture Male 3 31 14.77 9.50 3.83 38.3 34.4 1.705
Employment in Industry Female 4 31 15.24 5.06 6.41 25.1 18.6 0.909
Employment in Industry Male 5 31 32.58 8.20 19.47 49.0 29.6 1.473
Vulnerable Employment Female 6 31 20.91 15.66 4.59 55.5 50.9 2.812
Vulnerable Employment Male 7 31 22.08 12.56 6.44 56.2 49.8 2.256

Reduccion de Variables

Se reducen las variables en el modelo para alcanzar un maximo de R2 acorde a las variables ecogidas en un inicio, eliminando aquellas con menos significancia.

## 
## Call:
## lm(formula = `GDP per person employed` ~ `Employment in Industry Male` + 
##     `Employment in Industry Female` + `Employment in Agriculture Male` + 
##     `Employment in Agriculture Female` + `Vulnerable Employment Female` + 
##     `Vulnerable Employment Male`, data = BF)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -63368 -15253  -1073  14275  99684 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                        208072.9    30286.1   6.870 2.51e-08 ***
## `Employment in Industry Male`       -2744.1     1212.9  -2.262  0.02903 *  
## `Employment in Industry Female`       690.1     1661.4   0.415  0.68002    
## `Employment in Agriculture Male`    -4320.3     1352.2  -3.195  0.00269 ** 
## `Employment in Agriculture Female`   1312.3      696.0   1.885  0.06648 .  
## `Vulnerable Employment Female`        955.4     1045.4   0.914  0.36613    
## `Vulnerable Employment Male`        -1752.7      850.4  -2.061  0.04568 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28940 on 41 degrees of freedom
## Multiple R-squared:  0.6001, Adjusted R-squared:  0.5415 
## F-statistic: 10.25 on 6 and 41 DF,  p-value: 6.425e-07
## 
## Call:
## lm(formula = `GDP per person employed` ~ `Employment in Industry Male` + 
##     `Employment in Agriculture Male` + `Employment in Agriculture Female` + 
##     `Vulnerable Employment Female` + `Vulnerable Employment Male`, 
##     data = BF)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -62676 -15403   -906  13700 102104 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                        201056.0    24888.8   8.078 4.35e-10 ***
## `Employment in Industry Male`       -2322.9      658.9  -3.526 0.001036 ** 
## `Employment in Agriculture Male`    -4021.1     1133.1  -3.549 0.000968 ***
## `Employment in Agriculture Female`   1294.9      687.9   1.882 0.066729 .  
## `Vulnerable Employment Female`        947.9     1034.9   0.916 0.364944    
## `Vulnerable Employment Male`        -1774.3      840.4  -2.111 0.040740 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28660 on 42 degrees of freedom
## Multiple R-squared:  0.5984, Adjusted R-squared:  0.5506 
## F-statistic: 12.51 on 5 and 42 DF,  p-value: 1.832e-07
## 
## Call:
## lm(formula = `GDP per person employed` ~ `Employment in Industry Male` + 
##     `Employment in Agriculture Male` + `Employment in Agriculture Female` + 
##     `Vulnerable Employment Male`, data = BF)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -63474 -13745  -1056  14066 104560 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                        202355.9    24801.7   8.159 2.83e-10 ***
## `Employment in Industry Male`       -2444.7      644.1  -3.796 0.000456 ***
## `Employment in Agriculture Male`    -3282.9      794.9  -4.130 0.000164 ***
## `Employment in Agriculture Female`   1332.5      685.4   1.944 0.058445 .  
## `Vulnerable Employment Male`        -1247.8      611.9  -2.039 0.047597 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28600 on 43 degrees of freedom
## Multiple R-squared:  0.5903, Adjusted R-squared:  0.5522 
## F-statistic: 15.49 on 4 and 43 DF,  p-value: 6.359e-08

Correlacion de las variables

Con la información anterior se seleccionan las variables del modelo3 y se realiza un análisis de enfoque gráfico para intentar determinar que tan relacionadas estan con el índice de GDP.

Con cada gráfico se realiza una prueba de correlación de Pearson, para lo cual se definen las siguientes hipótesis: \[H_0: \:No \:existe \:ninguna \:relación \:lineal \:entre \:el \:índice \:de \:GDP \:y \:la \:variable \:estudiada.\] \[H_1: \:Hay \:una \:relación \:lineal \:entre \:el \:índice \:de \:GDP \:y \:la \:variable \:estudiada.\]

GDP con respecto al empleo masculino en la industria

Se observa una correlación negativa moderada lo que indicaría que a mayor empleo masculino generado el GDP sería menor. sin embargo p > 0.05 por lo tanto se toma la hipótesis nula y no se puede afirmar que haya una relación lineal entre el índice de GDP y el empleo masculino en la industria.

## 
##  Pearson's product-moment correlation
## 
## data:  BF$`GDP per person employed` and BF$`Employment in Industry Male`
## t = -0.39984, df = 46, p-value = 0.6911
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3373443  0.2291154
## sample estimates:
##         cor 
## -0.05885047

GDP con respecto a empleo masculino en la agricultura

Coeficiente de Pearson: En este caso se observa una correlación negativa intensa dado que cor = -0.658. Adicionalmente p-value es significativamente menor al 5% y por tanto es posible rechazar la hipótesis nula. Esto quiere decir que se puede encontrar una relación lineal con una dirección negativa entre el índice del GDP y el empleo masculino en la agricultura.

## 
##  Pearson's product-moment correlation
## 
## data:  BF$`GDP per person employed` and BF$`Employment in Agriculture Male`
## t = -5.9372, df = 46, p-value = 3.596e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7941760 -0.4607724
## sample estimates:
##        cor 
## -0.6586727

GSP con respecto a empleo femenino en la agricultura

Coeficiente de Pearson: correlación negativa débil

## 
##  Pearson's product-moment correlation
## 
## data:  BF$`GDP per person employed` and BF$`Employment in Agriculture Female`
## t = -2.7669, df = 46, p-value = 0.008124
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5977159 -0.1048507
## sample estimates:
##        cor 
## -0.3777321

GDP con respecto a empleo vulnerable masculino

Coeficiente de Pearson: correlación negativa moderada

## 
##  Pearson's product-moment correlation
## 
## data:  BF$`GDP per person employed` and BF$`Vulnerable Employment Male`
## t = -4.6965, df = 46, p-value = 2.416e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7346005 -0.3401833
## sample estimates:
##        cor 
## -0.5692915

Modelo Lineal

A continuación se realizará el modelo de regresión lineal tal como se había planteado desde un inicio, tomando como variable de respuesta el GDP y como variables regresoras aquellas que quedaron después de la reducción.

El porcentaje de variacion del modelo es del 55,2% valor que nos da el R2 ajustado, lo cual nos dice que este puede explicar con una bondad de ajuste de mas del 50% la variable de respuesta frente a las variables regresoras.

A su vez como se puede apreciar en el modelo, las variables que son estadisticamente significativos respecto a la varianza del GDP son aquellas que posean un valor p menoro igual al nivel de significancia, siento este 0.05.

Aquellas variables que cumplen con esto serían:

  • Employment in Industry Male
  • Employment in Agriculture Male
  • Vulnerable Employment Male
  • El intercepto

La ultima variable “Employment in Agriculture Female” está un poco por encima del nivel de significancia por lo que no es tan significativa a la hora de explicar la variacion del GDP.

  GDP per person employed
Predictors Estimates CI p
(Intercept) 202355.90 152338.48 – 252373.32 <0.001
Employment in Industry
Male
-2444.75 -3743.67 – -1145.83 <0.001
Employment in Agriculture
Male
-3282.87 -4885.87 – -1679.87 <0.001
Employment in Agriculture
Female
1332.45 -49.76 – 2714.66 0.058
Vulnerable Employment
Male
-1247.81 -2481.80 – -13.83 0.048
Observations 48
R2 / R2 adjusted 0.590 / 0.552

Supuestos del modelo final

Linealidad

Lo que debemos esperar de este gráfico es que no aparezca un patrón lineal entre los residuales y los valores pronosticados de Y.

Efectivamente podemos ver como los valores tienen una dispersion no lineal y estan ubicados alrededor del 0.

Varianza constante

Segun la prueba Breusch-Pagan, dado nuestro valor de p- value 0.03573 menor que el valor de significancia 0.05 se rechaza el supuesto de homocedasticidad y se asume que los errores tienen una distribucion heterogenea, razon por la cual el modelo deja de ser tan fiable a la hora de representar los datos.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 10.296, df = 4, p-value = 0.03573

Independencia

Como se puede analizar en el grafico los residuales no presentan ninguna tendencia, por lo que estan distribuidos de una forma aleatoria alrededor del 0.

Esto nos confirma el supuesto de que los errores son aleatorios e independientes entre si.

Normalidad

Segun la prueba Breusch-Pagan, dado nuestro valor de p- value 0.0009062 menor que el valor de significancia 0.05 se rechaza el supuesto de distribución normal y se asume que los datos tienen una distribucion “no normal” razon por la cual nuestro modelo pierde aun mas fiabilidad.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo3$residuals
## W = 0.90487, p-value = 0.0009062

Conclusiones

Bondad del modelo ajustado

Entre más cercano a 1 sea el valor de R cuadrado ajustado mejor será el ajuste del modelo.

Al principio se tenía un modelo con variables que no eran lo suficientemente significativas. Por esta razón se redujeron la cantidad variables a la hora de analizar el modelo, escogiendo así las que más significancia tuvieran. Esto permitió optimizar el valor de R cuadrado ajustado pasando así de 0.5415 a 0.5522. Adicionalmente, la distancia entre el valor de “R cuadrado” y “R cuadrado ajustado” se logró disminuir de 0.0586 a 0.0519 aumentando la eficiencia del modelo lineal.

Por último, al tener una bondad de ajuste de 0.5522 se puede concluir que el modelo explica en un 55% la variabilidad de los parámetros.

Valores P obtenidos

El valor p es uno de los indicadores estadísticos más importantes que tiene una regresión y nos permite medir el nivel de significancia del modelo lineal.

De los resultados obtenidos se puede concluir que todas variables de trabajo tuvieron un nivel de significancia apropiado para rechazar la hipótesis nula a excepción de la variable Employment in agriculture women lo que significa que no hay certeza de la existencia de una relación entre el índice GDP y la variable anteriormente dicha.

Coeficientes de regresión

La mayoría de las variables de trabajo representadas en un gráfico con respecto al índice GDP mostraron un comportamiento lineal con dirección negativa. Dado esto, si aumenta el valor de cada una de esas variables, el GDP disminuirá.

Como ejemplo se tiene la tabla arrojada por la función summary(modelo3) donde por cada unidad porcentual de empleados masculinos en la industria se reduce 2444 el GDP en los países emergentes frente a los desarrollados. Así mismo se puede observar como por cada unidad porcentual de empleados masculinos en la agricultura se se reduce en 3282 el GDP en los países emergentes. Por último, se puede notar que por cada unidad de empleos vulnerables masculinos el GDP se ve reducido en una cantidad de 1247.

Cabe destacar que los primeros dos coeficientes tienen un alto índice de significancia a la hora de explicar el modelo, mientras que el último tiene un nivel más leve del mismo.

Para finalizar el informe debemos recalcar que el objeto de estudia era el analisis sobre qué tanta influencia de empleos masculinos vs. femeninos se tenía en la variación del GDP. Por otro lado, se puede establecer que a medida que los empleos en la industria y agricultura se reducen en un país el GDP de este tiende a aumentar dando como resultado que en los estados con un nivel económico superior se van a entrar menos porcentaje de personas con un empleo ordinario. Esto puede tener una razón particular y es que el desarrollo tecnológico y aumento de la productividad llevan a necesitar cada vez menos fuerza de trabajo humana.