Logo UV


REGRESIÓN LINEAL

Daniel Fernando Buitron - 1925967
Julian Bedoya Jaramillo - 1926444
Leony Ordoñez Martinez - 1925713

Introducción

El presente trabajo pretende mostrar el desarrollo de un modelo de regresión lineal que busca describir una variable dependiente conocida como Producto Interno Bruto Por Persona Empleada, a través de la relación de 7 variables que se consideran económicas en el periodo de tiempo del año 2013. Para llegar a esto, se presenta un análisis del contexto como justificación del modelo, una serie de análisis estadísticos y finalmente, una conlusión sobre los resultados obtenidos en el estudio. Todo esto se realizó usando el lenguaje de programación R, además de investigación en una serie de fuentes bibliográficas que se presentan al final del documento.

Contexto

El GDP (Gross domestic product), o PIB por sus siglas en español, es un indicador que es ampliamente utilizado para caracterizar el estado de la economía en su conjunto, este mide el valor de mercado de todos los bienes y servicios finales que son producidos dentro de las fronteras de un país en un período determinado. A partir de este indicador se presenta una visión del tamaño de la economía y su desempeño, permitiendo así hacer comparaciones entre países. La mayoría de los países se ciñe a normas internacionales establecidas; en el caso de la medición del PIB, se trata del Sistema de Cuentas Nacionales (2008), elaborado por el Fondo Monetario Internacional, el Banco Mundial, la Comisión Europea, la Organización para la Cooperación y el Desarrollo Económicos y las Naciones Unidas.

Con el cálculo del GDP derivan otras versiones del mismo; algunos de estos son el GDP per cápita, indicando la producción por persona al interior del país; el GDP real, que se calcula usando precios constantes; y el que nos atañe, el GDP per person employed, el cual tiene en cuenta la producción del país por persona empleada.

Una parte importante de la economía son sus sectores, que influyen en mayor o menor medida en el PIB, permitiendo caracterizar al país según la industria con mayores aportes. Los sectores pueden clasificarse en 5 según Rosenberg (2020), tomando a los primeros 3, para su análisis en este estudio; la agricultura, del sector primario; la Industria, del sector secundario y los servicios, sector terciario.

El gráfico 1 muestra cómo estaba distribuído el GDP.PPE en diferentes países en el año 2013.

Gráfico 1 - GDP Per Person Employed - 2013

Justificación de Variables

En 2019, la Organización Internacional del Trabajo (OIT) dijo que “un estudio sin precedentes revela que siete de cada diez trabajadores son independientes o se encuentran en pequeñas empresas” por lo que la participación de los trabajadores independientes en la economía global es innegable. Según el mismo estudio, alrededor del 70% de los empleos son generados por estos tipos de trabajadores, por lo que éstos se consagran como la mayor fuente generadora de empleos. Aún así, cerca del 62% de los empleos son informales, dando a entender que esto podría afectar negativamente a los indicadores económicos como el PIB, por la evasión de impuestos, además de: “falta de seguridad social, salarios más bajos, y deficiencias, tanto en materia de seguridad y salud en el trabajo, como de relaciones laborales”. La OIT también menciona la brecha existente entre los países de economías desarrolladas y los emergentes: “en los países de ingreso alto, el 58 por ciento del empleo total corresponde a las pequeñas unidades económicas, mientras que en los países de ingreso bajo y de ingreso mediano la proporción es considerablemente superior”. Por otra parte, también tenemos que “en la actualidad, alrededor del 68% de todos los trabajadores independientes en línea del mundo reside en países de ingreso bajo y mediano”, esto según Indermit Gill (2021).

Por parte del impacto de los empleadores en el PIB, se evidencia en países desarrollados que un incremento en la tasa de creación de empresas induce a un incremento en el crecimiento económico (Hartog,. et.al, 2010), este resultado también lo respalda Galindo y Méndez (2014) en su estudio con un modelo de panel de 13 países desarrollados, el cual encuentra una relación endógena y positiva entre el PIB y un índice de actividad empresarial. Otro estudio (Aparicio,. et.al, 2016), en un muestra de 43 países de diferentes regiones, encontraron que la tasa de emprendimiento afecta positivamente el PIB per cápita en los países latinoamericanos (países en desarrollo).

Según Indermit Gill, economista en jefe del Grupo Banco Mundial, el sector servicios representa una porción importante del PIB en todo el mundo. “En 2019, los servicios representaban el 55% del PIB y el 45% del empleo en las economías en desarrollo”, menciona en un blog del Banco Mundial; además, “en las economías desarrolladas, los servicios representan una proporción aún mayor del crecimiento económico: en promedio, el 75%”.

Asimismo, el sector de la agricultura, según el banco mundial, es esencial para el crecimiento económico: representa el 4% del producto interno bruto (PIB) y en algunos países menos desarrollados puede representar más del 25% del PIB, (Indicando una relación entre el nivel de desarrollo y la participación de este sector de la industria).

Igualmente, el sector industrial representa una parte importante del crecimiento económico en la actualidad (Yong, 2021). El antíguo Director General de la Organización de las Naciones Unidas para el Desarrollo Industrial (ONUDI) Li Young, muestra cómo el sector industrial debe ser un foco de atención para lograr mitigar los efectos de la pandemia por COVID-19 en la generación de valor a largo plazo en las economías. Además, menciona que “los datos internacionales confirman que la proporción de la industria manufacturera en la economía aumenta a medida que lo hace el producto interior bruto (PIB) en los países de renta baja y media”, y agrega que “esta correlación sólo se invierte cuando un país se convierte en una economía de renta alta, en la que los servicios empiezan a tener una proporción relativamente mayor que la industria”.

El gráfico 2 muestra el promedio de tasas de empleabilidad por sector en paises desarrollados y emergentes, en el año 2013.

Gráfico 2 - Mean Employability Rate by Economy - 2013

Para finalizar, a medida que aumenta la demanda de servicios de los sectores manufacturero, agrícola y otros, más trabajadores se benefician del crecimiento (Gill, 2021), es por ello que se decidió incluir las siguientes variables en el modelo de regresión lineal:

  • Self Employed: “SE.T”;
  • Employers Total: “Emp.T”;
  • Employment Agriculture: “E.Agr”;
  • Employment Industry: “E.Ind”;
  • Employment Service: “E.Ser”.

La tabla 1 muestra la base de datos resultante, con la cual se realizó el modelo de regresión lineal.

Tabla 1 - Base de Datos

## # A tibble: 48 × 8
##    Country                Economy   GDP.PPE  SE.T Emp.T  E.Agr E.Ind E.Ser
##    <chr>                  <chr>       <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl>
##  1 Albania                Emerging   32145.  59.5  1.74 44.2    16.9  38.9
##  2 Argentina              Emerging   58863.  23.5  3.86  0.620  24.0  75.4
##  3 Austria                Developed 107170.  13.2  4.49  4.58   25.9  69.5
##  4 Belgium                Developed 118352.  15.1  4.30  1.36   21.7  76.9
##  5 Bosnia and Herzegovina Emerging   44095.  25.1  4.79 18.9    29.8  51.3
##  6 Brazil                 Emerging   35546.  30.1  4.12 11.2    23.0  65.9
##  7 Bulgaria               Emerging   46827.  12.1  3.92  6.66   30.2  63.2
##  8 Chile                  Emerging   54129.  25.4  4.27  9.48   23.9  66.7
##  9 Colombia               Emerging   28648.  52.3  4.67 16.6    19.6  63.8
## 10 Croatia                Emerging   67232.  18.1  4.39 10.8    27.6  61.6
## # ℹ 38 more rows

Metodología

El desarrollo del trabajo consistió en la creación de un modelo de regresión lineal, que pretende explicar el Producto Interno Por Persona Empleadas (GDP.PPE por sus siglas en inglés) a través de la selección de siete variables, de las cuales cinco fueron las mencionadas en la sección anterior: “Self Employed”, “Employers Total”, “Employment Agriculture”, “Employment Industry” y “Employment Service”. Además, se debió incluir una variable que indica el nivel de desarrollo económico de cada país, siendo esta, según la clasificación de la Organización de las Naciones Unidas (ONU). Esta variable es “Economy” e indica si un país es “Developed” (Desarrollado) o “Emerging” (Emergente). Usando el lenguaje de programación R, se extrajo la información de la base de datos “BaseTaller1.xlsx” y ésta se filtró al año 2013. El gráfico 3 muestra los países clasificados según su economía y su nivel de GDP.PPE en el año 2013.

Gráfico 3 - GDP PPE by Country and Economy - 2013

Después, se hizo un análisis de la estadística descriptiva de cada variable seleccionada para el modelo, esto usando la función “describe” de la librería “psych”. Paso siguiente, se usó la función “lm” para crear el modelo de regresión lineal. Como aclaración, la variable “Economy” corresponde a una variable categórica, por lo que se toma como referencia aquellas economías que pertenecen a la categoría “Developed”.

Para finalizar, se usaron las funciones “summary”, “plot”, “bptest” y “shapiro.test” para realizar el respectivo análisis del modelo y determinar la calidad de la descriptividad del modelo creado. Para este modelo, se decidió establecer un α = 0.05, lo que deja un nivel de confianza del 95% para aceptar o rechazar las hipótesis; sabiendo que, si el valor P de la prueba es menor a α, entonces se rechaza H0.

Análisis Descriptivo

La tabla 2 muestra una serie de datos estadísticos sobre las variables cuantitativas a usar en el desarrollo del modelo de regresión lineal.

Tabla 2 - Estadística Descriptiva

##         vars  n     mean       sd   median  trimmed      mad      min       max
## GDP.PPE    1 48 73859.37 39728.04 64319.14 71228.86 37688.07 13363.19 243293.42
## SE.T       2 48    23.02    13.60    17.71    21.52    10.10     6.60     59.52
## Emp.T      3 48     4.24     1.83     4.12     4.04     0.81     1.27     12.78
## E.Agr      4 48    10.34    10.04     6.22     8.83     6.49     0.62     44.20
## E.Ind      5 48    23.20     5.52    22.32    22.94     5.39    12.04     37.51
## E.Ser      6 48    66.46    11.08    66.36    67.11    13.33    38.92     86.37
##             range  skew kurtosis      se
## GDP.PPE 229930.23  1.53     4.61 5734.25
## SE.T        52.92  0.99     0.01    1.96
## Emp.T       11.51  2.24     8.21    0.26
## E.Agr       43.58  1.40     1.46    1.45
## E.Ind       25.47  0.49    -0.36    0.80
## E.Ser       47.45 -0.51    -0.52    1.60

Como se oberva en la tabla 2, el análisis descrptivo nos arroja el valor promedio de las variables “GDP.PPE”, “Self Employed”, “Employers Total”, “Employment Agriculture”, “Employment Industry” y “Employment Service”, los cuales son:

  • 73,859.37,
  • 23.01,
  • 4.24,
  • 10.34,
  • 23.20,
  • 66.45…

… respectivamente. Además, se nos muestra que la desviación estándar de las mismas variables son:

  • 39728.03,
  • 13.59,
  • 1.82,
  • 10.04,
  • 5.51,
  • 11.08…

…respectivamente.

Justificación de la Bondad del Modelo Ajustado

Modelo

Un modelo de regresión lineal se compone de una variable dependiente Y, i variables independientes X que multiplican i pendientes B, un valor constante B0 y un valor de error e; por lo cual, un modelo de regresión lineal se observa de la siguiente forma:

Y = B0 + B1·X1 + B2·X2 + … + Bi·Xi + e

Ahora, el modelo propuesto es el siguiente:

GDP.PPE = B0 + B1·SE.T + B2·Emp.T + B3·E.Agr + B4·E.Ind + B5·E.Ser + B6·Economy

Donde:

  • Bo = 43’401,374.4
  • B1 = - 1,443.5 **
  • B2 = - 1,391.1
  • B3 = - 432,023.4
  • B4 = - 434,116.7
  • B5 = - 432,248.5
  • B6 = - 37,945.8 ***

Este úlimo, B6, es el valor de referencia para las economías “Emerging” frente a los países clasificados como “Developed”. Además, el análisis indica que las únicas variables representativas del modelo son “SE.T” y “Economy”, siendo ésta última la más descriptiva del modelo. Esto quiere decir que, tanto el aumento de la tasa de empleados independientes (SE.T) como el pertenecer a una economía emergente (Economy, Emerging) afectan significativamente y de forma negativa, al Producto Interno Bruto Por Persona Empleada (GDP.PPE). La tabla 3 muestra el “summary” obtenido para el modelo realizado.

Tabla 3 - Summary

## 
## Call:
## lm(formula = GDP.PPE ~ SE.T + Emp.T + E.Agr + E.Ind + E.Ser + 
##     as.factor(Economy), data = Base3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -26386 -12844  -1420   7879 105383 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                43401374.4 67401135.4   0.644  0.52321    
## SE.T                          -1443.5      528.1  -2.733  0.00921 ** 
## Emp.T                         -1391.1     1901.7  -0.732  0.46863    
## E.Agr                       -432023.4   673959.8  -0.641  0.52508    
## E.Ind                       -434116.7   674022.8  -0.644  0.52312    
## E.Ser                       -432248.5   673989.2  -0.641  0.52488    
## as.factor(Economy)Emerging   -37945.8     8464.9  -4.483 5.82e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22350 on 41 degrees of freedom
## Multiple R-squared:  0.724,  Adjusted R-squared:  0.6836 
## F-statistic: 17.92 on 6 and 41 DF,  p-value: 4.545e-10

R2

El valor de R2 obtenido fue de 0.724, mientras que el valor ajustado fue de 0.6836; esto significa que el modelo creado describe en un 68.36% el GDP.PPE. Otra forma de interpretar estos resultados es que, el conjunto de variables usadas para el modelo, influyen un 68.36% en el Producto Interno Bruto Por Persona Empleada en cada país.

Análisis de Supuestos

Linealidad

Para que se cumpla el supuesto de linealidad, se tiene el siguiente sistema de hipótesis:

Ho: B1 = B2 = … = Bi = 0 –> la linealidad no se cumple
H1: Bi != 0 –> la linealidad se cumple

Dado que el valor-P de los residuales es inferior al α (como se observa en la tabla 3), se puede rechazar la hipótesis H0, y por lo tanto, se acepta H1, indicando que el modelo cumple con el supuesto de linealidad.

Varianza Constante

Para que se cumpla el supuesto de varianza constante, se tiene el siguiente sistema de hipótesis:

Ho: varianza constante
H1: varianza no constante

Para resolver este sistema de hipótesis, se hizo uso de la prueba Breusch Pagan:

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 8.3362, df = 6, p-value = 0.2145

Dado que el valor-P = 0.2145 es mayor al valor del α, no se tiene suficiente evidencia para rechazar H0, por lo tanto, se cumple el supuesto de varianza constante, considerando un nivel de confianza del de 95%.

Normalidad

Para que se cumpla el supuesto de normalidad, se tiene el siguiente sistema de hipótesis:

Ho: hay normalidad
H1: no hay normalidad

Para resolver este sistema de hipótesis, se hizo uso de la prueba Shapiro Will:

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.77277, p-value = 3.318e-07

Dado que el valor-P = 3.318e-07 es inferior al valor del α, se tiene suficiente evidencia para rechazar H0, por lo tanto, se acepta H1, indicando que el modelo no cumple con el supuesto de normalidad.

Independencia

La independencia implica que los datos no están correlacionados entre sí y que provienen de muestras aleatorias. En este caso, se asume que la independencia se cumple por construcción, es decir, que los datos se han obtenido siguiendo un diseño experimental o un muestreo aleatorio que garantiza esta propiedad. Por otra parte, se asume que los datos económicos de cada país son independientes y no se ven afectados por los datos de los demás países.

Conclusiones

En el presente documento se mostró el desarrollo de un modelo de regresión lineal, en el cual se incluyeron las variables país, economía, empleados independientes, empleadores, empleados en agricultura, empleados en industria y empleados en servicios, con el fin de conocer su influencia en el Producto Interno Bruto Por Persona Empleada, esto a partir de la justificación mostrada en el contexto.

Una vez desarrollado el modelo y tras la realización del análisis de los resultados, se llegó a la conclusión de que, el modelo propuesto puede describir en un 68.36% los datos trabajados para la realización del mismo. Aún así, NO puede describir la realidad, dado que no se cumplen la totalidad de los supuestos (no se cumple con el supuesto de normalidad) con una confianza del 95%.