REGRESIÓN LINEAL
Daniel Fernando Buitron - 1925967
Julian Bedoya
Jaramillo - 1926444
Leony Ordoñez Martinez - 1925713
El presente trabajo pretende mostrar el desarrollo de un modelo de regresión lineal que busca describir una variable dependiente conocida como Producto Interno Bruto Por Persona Empleada, a través de la relación de 7 variables que se consideran económicas en el periodo de tiempo del año 2013. Para llegar a esto, se presenta un análisis del contexto como justificación del modelo, una serie de análisis estadísticos y finalmente, una conlusión sobre los resultados obtenidos en el estudio. Todo esto se realizó usando el lenguaje de programación R, además de investigación en una serie de fuentes bibliográficas que se presentan al final del documento.
El GDP (Gross domestic product), o PIB por sus siglas en español, es un indicador que es ampliamente utilizado para caracterizar el estado de la economía en su conjunto, este mide el valor de mercado de todos los bienes y servicios finales que son producidos dentro de las fronteras de un país en un período determinado. A partir de este indicador se presenta una visión del tamaño de la economía y su desempeño, permitiendo así hacer comparaciones entre países. La mayoría de los países se ciñe a normas internacionales establecidas; en el caso de la medición del PIB, se trata del Sistema de Cuentas Nacionales (2008), elaborado por el Fondo Monetario Internacional, el Banco Mundial, la Comisión Europea, la Organización para la Cooperación y el Desarrollo Económicos y las Naciones Unidas.
Con el cálculo del GDP derivan otras versiones del mismo; algunos de estos son el GDP per cápita, indicando la producción por persona al interior del país; el GDP real, que se calcula usando precios constantes; y el que nos atañe, el GDP per person employed, el cual tiene en cuenta la producción del país por persona empleada.
Una parte importante de la economía son sus sectores, que influyen en mayor o menor medida en el PIB, permitiendo caracterizar al país según la industria con mayores aportes. Los sectores pueden clasificarse en 5 según Rosenberg (2020), tomando a los primeros 3, para su análisis en este estudio; la agricultura, del sector primario; la Industria, del sector secundario y los servicios, sector terciario.
El gráfico 1 muestra cómo estaba distribuído el GDP.PPE en diferentes países en el año 2013.
Gráfico 1 - GDP Per Person Employed - 2013
En 2019, la Organización Internacional del Trabajo (OIT) dijo que “un estudio sin precedentes revela que siete de cada diez trabajadores son independientes o se encuentran en pequeñas empresas” por lo que la participación de los trabajadores independientes en la economía global es innegable. Según el mismo estudio, alrededor del 70% de los empleos son generados por estos tipos de trabajadores, por lo que éstos se consagran como la mayor fuente generadora de empleos. Aún así, cerca del 62% de los empleos son informales, dando a entender que esto podría afectar negativamente a los indicadores económicos como el PIB, por la evasión de impuestos, además de: “falta de seguridad social, salarios más bajos, y deficiencias, tanto en materia de seguridad y salud en el trabajo, como de relaciones laborales”. La OIT también menciona la brecha existente entre los países de economías desarrolladas y los emergentes: “en los países de ingreso alto, el 58 por ciento del empleo total corresponde a las pequeñas unidades económicas, mientras que en los países de ingreso bajo y de ingreso mediano la proporción es considerablemente superior”. Por otra parte, también tenemos que “en la actualidad, alrededor del 68% de todos los trabajadores independientes en línea del mundo reside en países de ingreso bajo y mediano”, esto según Indermit Gill (2021).
Por parte del impacto de los empleadores en el PIB, se evidencia en países desarrollados que un incremento en la tasa de creación de empresas induce a un incremento en el crecimiento económico (Hartog,. et.al, 2010), este resultado también lo respalda Galindo y Méndez (2014) en su estudio con un modelo de panel de 13 países desarrollados, el cual encuentra una relación endógena y positiva entre el PIB y un índice de actividad empresarial. Otro estudio (Aparicio,. et.al, 2016), en un muestra de 43 países de diferentes regiones, encontraron que la tasa de emprendimiento afecta positivamente el PIB per cápita en los países latinoamericanos (países en desarrollo).
Según Indermit Gill, economista en jefe del Grupo Banco Mundial, el sector servicios representa una porción importante del PIB en todo el mundo. “En 2019, los servicios representaban el 55% del PIB y el 45% del empleo en las economías en desarrollo”, menciona en un blog del Banco Mundial; además, “en las economías desarrolladas, los servicios representan una proporción aún mayor del crecimiento económico: en promedio, el 75%”.
Asimismo, el sector de la agricultura, según el banco mundial, es esencial para el crecimiento económico: representa el 4% del producto interno bruto (PIB) y en algunos países menos desarrollados puede representar más del 25% del PIB, (Indicando una relación entre el nivel de desarrollo y la participación de este sector de la industria).
Igualmente, el sector industrial representa una parte importante del crecimiento económico en la actualidad (Yong, 2021). El antíguo Director General de la Organización de las Naciones Unidas para el Desarrollo Industrial (ONUDI) Li Young, muestra cómo el sector industrial debe ser un foco de atención para lograr mitigar los efectos de la pandemia por COVID-19 en la generación de valor a largo plazo en las economías. Además, menciona que “los datos internacionales confirman que la proporción de la industria manufacturera en la economía aumenta a medida que lo hace el producto interior bruto (PIB) en los países de renta baja y media”, y agrega que “esta correlación sólo se invierte cuando un país se convierte en una economía de renta alta, en la que los servicios empiezan a tener una proporción relativamente mayor que la industria”.
El gráfico 2 muestra el promedio de tasas de empleabilidad por sector en paises desarrollados y emergentes, en el año 2013.
Gráfico 2 - Mean Employability Rate by Economy - 2013
Para finalizar, a medida que aumenta la demanda de servicios de los sectores manufacturero, agrícola y otros, más trabajadores se benefician del crecimiento (Gill, 2021), es por ello que se decidió incluir las siguientes variables en el modelo de regresión lineal:
La tabla 1 muestra la base de datos resultante, con la cual se realizó el modelo de regresión lineal.
Tabla 1 - Base de Datos
## # A tibble: 48 × 8
## Country Economy GDP.PPE SE.T Emp.T E.Agr E.Ind E.Ser
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Albania Emerging 32145. 59.5 1.74 44.2 16.9 38.9
## 2 Argentina Emerging 58863. 23.5 3.86 0.620 24.0 75.4
## 3 Austria Developed 107170. 13.2 4.49 4.58 25.9 69.5
## 4 Belgium Developed 118352. 15.1 4.30 1.36 21.7 76.9
## 5 Bosnia and Herzegovina Emerging 44095. 25.1 4.79 18.9 29.8 51.3
## 6 Brazil Emerging 35546. 30.1 4.12 11.2 23.0 65.9
## 7 Bulgaria Emerging 46827. 12.1 3.92 6.66 30.2 63.2
## 8 Chile Emerging 54129. 25.4 4.27 9.48 23.9 66.7
## 9 Colombia Emerging 28648. 52.3 4.67 16.6 19.6 63.8
## 10 Croatia Emerging 67232. 18.1 4.39 10.8 27.6 61.6
## # ℹ 38 more rows
El desarrollo del trabajo consistió en la creación de un modelo de regresión lineal, que pretende explicar el Producto Interno Por Persona Empleadas (GDP.PPE por sus siglas en inglés) a través de la selección de siete variables, de las cuales cinco fueron las mencionadas en la sección anterior: “Self Employed”, “Employers Total”, “Employment Agriculture”, “Employment Industry” y “Employment Service”. Además, se debió incluir una variable que indica el nivel de desarrollo económico de cada país, siendo esta, según la clasificación de la Organización de las Naciones Unidas (ONU). Esta variable es “Economy” e indica si un país es “Developed” (Desarrollado) o “Emerging” (Emergente). Usando el lenguaje de programación R, se extrajo la información de la base de datos “BaseTaller1.xlsx” y ésta se filtró al año 2013. El gráfico 3 muestra los países clasificados según su economía y su nivel de GDP.PPE en el año 2013.
Gráfico 3 - GDP PPE by Country and Economy - 2013
Después, se hizo un análisis de la estadística descriptiva de cada variable seleccionada para el modelo, esto usando la función “describe” de la librería “psych”. Paso siguiente, se usó la función “lm” para crear el modelo de regresión lineal. Como aclaración, la variable “Economy” corresponde a una variable categórica, por lo que se toma como referencia aquellas economías que pertenecen a la categoría “Developed”.
Para finalizar, se usaron las funciones “summary”, “plot”, “bptest” y “shapiro.test” para realizar el respectivo análisis del modelo y determinar la calidad de la descriptividad del modelo creado. Para este modelo, se decidió establecer un α = 0.05, lo que deja un nivel de confianza del 95% para aceptar o rechazar las hipótesis; sabiendo que, si el valor P de la prueba es menor a α, entonces se rechaza H0.
La tabla 2 muestra una serie de datos estadísticos sobre las variables cuantitativas a usar en el desarrollo del modelo de regresión lineal.
Tabla 2 - Estadística Descriptiva
## vars n mean sd median trimmed mad min max
## GDP.PPE 1 48 73859.37 39728.04 64319.14 71228.86 37688.07 13363.19 243293.42
## SE.T 2 48 23.02 13.60 17.71 21.52 10.10 6.60 59.52
## Emp.T 3 48 4.24 1.83 4.12 4.04 0.81 1.27 12.78
## E.Agr 4 48 10.34 10.04 6.22 8.83 6.49 0.62 44.20
## E.Ind 5 48 23.20 5.52 22.32 22.94 5.39 12.04 37.51
## E.Ser 6 48 66.46 11.08 66.36 67.11 13.33 38.92 86.37
## range skew kurtosis se
## GDP.PPE 229930.23 1.53 4.61 5734.25
## SE.T 52.92 0.99 0.01 1.96
## Emp.T 11.51 2.24 8.21 0.26
## E.Agr 43.58 1.40 1.46 1.45
## E.Ind 25.47 0.49 -0.36 0.80
## E.Ser 47.45 -0.51 -0.52 1.60
Como se oberva en la tabla 2, el análisis descrptivo nos arroja el valor promedio de las variables “GDP.PPE”, “Self Employed”, “Employers Total”, “Employment Agriculture”, “Employment Industry” y “Employment Service”, los cuales son:
… respectivamente. Además, se nos muestra que la desviación estándar de las mismas variables son:
…respectivamente.
Un modelo de regresión lineal se compone de una variable dependiente Y, i variables independientes X que multiplican i pendientes B, un valor constante B0 y un valor de error e; por lo cual, un modelo de regresión lineal se observa de la siguiente forma:
Y = B0 + B1·X1 + B2·X2 + … + Bi·Xi + e
Ahora, el modelo propuesto es el siguiente:
GDP.PPE = B0 + B1·SE.T + B2·Emp.T + B3·E.Agr + B4·E.Ind + B5·E.Ser + B6·Economy
Donde:
Este úlimo, B6, es el valor de referencia para las economías “Emerging” frente a los países clasificados como “Developed”. Además, el análisis indica que las únicas variables representativas del modelo son “SE.T” y “Economy”, siendo ésta última la más descriptiva del modelo. Esto quiere decir que, tanto el aumento de la tasa de empleados independientes (SE.T) como el pertenecer a una economía emergente (Economy, Emerging) afectan significativamente y de forma negativa, al Producto Interno Bruto Por Persona Empleada (GDP.PPE). La tabla 3 muestra el “summary” obtenido para el modelo realizado.
Tabla 3 - Summary
##
## Call:
## lm(formula = GDP.PPE ~ SE.T + Emp.T + E.Agr + E.Ind + E.Ser +
## as.factor(Economy), data = Base3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26386 -12844 -1420 7879 105383
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 43401374.4 67401135.4 0.644 0.52321
## SE.T -1443.5 528.1 -2.733 0.00921 **
## Emp.T -1391.1 1901.7 -0.732 0.46863
## E.Agr -432023.4 673959.8 -0.641 0.52508
## E.Ind -434116.7 674022.8 -0.644 0.52312
## E.Ser -432248.5 673989.2 -0.641 0.52488
## as.factor(Economy)Emerging -37945.8 8464.9 -4.483 5.82e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22350 on 41 degrees of freedom
## Multiple R-squared: 0.724, Adjusted R-squared: 0.6836
## F-statistic: 17.92 on 6 and 41 DF, p-value: 4.545e-10
El valor de R2 obtenido fue de 0.724, mientras que el valor ajustado fue de 0.6836; esto significa que el modelo creado describe en un 68.36% el GDP.PPE. Otra forma de interpretar estos resultados es que, el conjunto de variables usadas para el modelo, influyen un 68.36% en el Producto Interno Bruto Por Persona Empleada en cada país.
Para que se cumpla el supuesto de linealidad, se tiene el siguiente sistema de hipótesis:
Ho: B1 = B2 = … = Bi = 0
–> la linealidad no se cumple
H1: Bi != 0
–> la linealidad se cumple
Dado que el valor-P de los residuales es inferior al α (como se observa en la tabla 3), se puede rechazar la hipótesis H0, y por lo tanto, se acepta H1, indicando que el modelo cumple con el supuesto de linealidad.
Para que se cumpla el supuesto de varianza constante, se tiene el siguiente sistema de hipótesis:
Ho: varianza constante
H1: varianza no
constante
Para resolver este sistema de hipótesis, se hizo uso de la prueba Breusch Pagan:
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 8.3362, df = 6, p-value = 0.2145
Dado que el valor-P = 0.2145 es mayor al valor del α, no se tiene suficiente evidencia para rechazar H0, por lo tanto, se cumple el supuesto de varianza constante, considerando un nivel de confianza del de 95%.
Para que se cumpla el supuesto de normalidad, se tiene el siguiente sistema de hipótesis:
Ho: hay normalidad
H1: no hay
normalidad
Para resolver este sistema de hipótesis, se hizo uso de la prueba Shapiro Will:
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.77277, p-value = 3.318e-07
Dado que el valor-P = 3.318e-07 es inferior al valor del α, se tiene suficiente evidencia para rechazar H0, por lo tanto, se acepta H1, indicando que el modelo no cumple con el supuesto de normalidad.
La independencia implica que los datos no están correlacionados entre sí y que provienen de muestras aleatorias. En este caso, se asume que la independencia se cumple por construcción, es decir, que los datos se han obtenido siguiendo un diseño experimental o un muestreo aleatorio que garantiza esta propiedad. Por otra parte, se asume que los datos económicos de cada país son independientes y no se ven afectados por los datos de los demás países.
En el presente documento se mostró el desarrollo de un modelo de regresión lineal, en el cual se incluyeron las variables país, economía, empleados independientes, empleadores, empleados en agricultura, empleados en industria y empleados en servicios, con el fin de conocer su influencia en el Producto Interno Bruto Por Persona Empleada, esto a partir de la justificación mostrada en el contexto.
Una vez desarrollado el modelo y tras la realización del análisis de los resultados, se llegó a la conclusión de que, el modelo propuesto puede describir en un 68.36% los datos trabajados para la realización del mismo. Aún así, NO puede describir la realidad, dado que no se cumplen la totalidad de los supuestos (no se cumple con el supuesto de normalidad) con una confianza del 95%.