En el presente informe, se presenta el análisis de significancia realizado con el objetivo de generar un modelo de regresión lineal frente a la base de datos proporcionada para evaluar los supuestos de linealidad, homocedasticidad, normalidad e independencia. Es decir, se realizó un modelo lineal múltiple, para posteriormente evaluar qué tanto explica este la realidad. Se seguirá la siguiente fórmula:
\[y=β0+β1x1+...+βpxp+e\] Donde los \(β\) serán los parámetros del modelo por el aporte de cada variable, y \(e\) el error que tendrá.
En este caso, se comparará la economía de los países en el año 2016 teniendo como punto de comparación el Producto Interno Bruto por persona empleada para variables en términos porcentuales de la totalidad de las personas empleadas en sectores de agricultura, industria, empleados independientes, de medio tiempo y empleados mayores a 15 años.
De acuerdo con el Boletín de Estudios Económicos Vol. 65, el PIB como concepto estadístico trata de medir la cantidad de bienes y servicios finales (destinados al consumo final o a la acumulación) que son objeto de transacción en el mercado, en un período de tiempo determinado (mes, trimestre,año…).
A continuación se presenta el procedimiento realizado, desde la limpieza de datos, elección de variables y los resultados proporcionados por el modelo lineal.
Para iniciar, se cargó la base de datos de la cual se hará el análisis. Luego de ello, se quitaron de la base las dos últimas columnas dado que no son relevantes para este; se filtraron los datos del año 2016 y por último, se omitieron los datos faltantes. Con esta base, se empezó la manipulación de los datos y selección de variables.
Las variables seleccionadas fueron las siguientes:
Estas fueron elegidas dado a que son los valores correspondientes a los totales de las variables que se determinaron como más importantes, entre ellas encontramos los ponderados de empleados de agricultura, industria, mayores a 15 años, empleados de medio tiempo y trabajadores independientes; las cuales se pueden interpretar como factores relevantes frente a la economía de un país.
Posteriormente, se cambiaron los nombres de las variables para hacerlas mucho más manejables en el modelo. De la misma manera y consecuente con la tabla anterior, quedaron de esta manera:
De esta manera, la base quedó así:
Con la base mostrada anteriormente, se realizó un modelo lineal múltiple del cual se podrá analizar la significancia de cada una de las variables respecto al PIB por persona empleada.
##
## Call:
## lm(formula = GDP ~ EA + EI + EPR + PTE + SET + Clasificacion,
## data = Base5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -49410 -12795 -1946 8365 128930
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 185205.38 43572.68 4.250 0.00012 ***
## EA -10.22 1092.08 -0.009 0.99258
## EI -2032.25 836.46 -2.430 0.01958 *
## EPR -1071.46 574.38 -1.865 0.06929 .
## PTE 1197.09 506.10 2.365 0.02283 *
## SET -1485.48 680.17 -2.184 0.03474 *
## Clasificacion -17026.68 14409.45 -1.182 0.24416
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28640 on 41 degrees of freedom
## Multiple R-squared: 0.6084, Adjusted R-squared: 0.5511
## F-statistic: 10.62 on 6 and 41 DF, p-value: 4.282e-07
A partir de los resultados del modelo, podemos hacer las siguientes deducciones corriendo bajo el supuesto de que H₀, será la hipótesis nula de que Bₙ=0; y por otro lado, H₁ dirá que Bₙ≠0.
En caso de p>α, no se podrá rechazar H₀; en caso contrario sea p<α, se rechazará H₀. Ha de tenerse en cuenta que el valor de la significancia (α) es igual a 5%. Este α es la probabilidad de rechazar la hipótesis cuando esta es verdadera.
Intercepto: Para dar un significado al valor del intercepto B₀ se tomará el supuesto de que las demás variables equivalen a un aporte nulo, es decir, valen 0. Al asumir ello, puede evidenciarse que este B₀ es un valor de ajuste debido a que en caso de todas las X ser iguales a 0, este valor no tendría sentido por si solo. De esta manera, el hecho de no tener personas empleadas no debería generar un alto PIB por persona empleada.
Empleados en agricultura (EA), Empleados mayores de 15 años (EPR): Al ver estas variable en el modelo, se puede observar que no tienen significancia frente al intercepto, ya que su aporte es mínimo y según los supuestos pueden tomarse sus valores como 0.
Empleados en la industria (EI), Empleados de medio tiempo (PTE), Empleados independientes (SET): Teniendo en cuenta que el modelo se utilizó para verificar que tanto influían las variables esocogidas en la variable de respuesta, es decir, si son significativas; se puede observar en el modelo que las variables mencionadas en este enunciado se clasifican con cierta cantidad de astericos, entre más astericos tenga, mayor será la significancia de esta variable (veáse el código de significancia).
Clasificación: La clasificación por nivel economíco arrojó un p valor de significancia baja, esto quiere decir que se tomará la como el B=0.
R²adj: El valor obtenido de este índice 0.5511, es el porcentaje de presición del modelo realizado para explicar la realidad. Esto quiere decir, que el modelo explica la realidad a un 55,11% con base a los datos proporcionados.
p-value: Este valor de 4.282e-07, quiere decir que B₀ o el intercepto, será diferente de 0 y será determinante para poder explicar el modelo. Esto es debido a que este valor es menor a α.
El modelo quedaría de la siguiente manera:
\[PIB=185205.38-10.22EA-2032.25EI-1071.46EPR+1197.09PTE-1485.48SET-17026.68Clasificacion\]
Se realizó una gráfica que enfrentará al PIB con las estimaciones del modelo realizado.
Referente a lo que se puede observar en la gráfica, se deduce que existe cierta linealidad frente a los datos obtenidos por el modelo. Sin embargo, se puede evidenciar un dato atípico que es capaz de hacer variar por completo el modelo.
Para verificar este supuesto, se requiere ver y analizar que tan variables son los residuos del modelo. Esto puede ser visto en el gráfico de dispersión.
Analizando los datos en el gráfico puede observarse una poca variabilidad de estos, por lo que el modelo no cumple con una homocedasticidad, porque para cumplir el supuesto estos datos de residuos salientes del modelo deberían repartirse de forma aleatoria.
Gráficando los datos de los residuos(Error) del modelo se observa que siguen una relación, hasta el final de la cola derecha donde existen dos valores atípicos.
Dado lo anterior, se deduce que los datos no tienen independencia en general, se necesitaría de una prueba mucho más explícita que deje en evidencia la decisión y toma del supuesto.
Para poder definir si el modelo cumple con una distribución normal, se realizó una prueba de Shapiro, mostrada a continuación.
##
## Shapiro-Wilk normality test
##
## data: Modelo$residuals
## W = 0.8096, p-value = 2.158e-06
Esta prueba funciona bajo el criterio de decisión de que si el valor p arrojado llegase a ser menor a α, con valor de 5% como se mencionó anteriormente, concluirá de que el modelo no cumple esta distribución. Tal cual como sucede en este caso, el valor p es mucho menor con 2.158e-06.
Para reforzar este supuesto, debería poder vizualisarce que se cumple lo dicho por la prueba de Shapiro. Se utilizará un qqnorm y una de histograma:
Queda en evidencia que los errores del modelo no cumplen la distribución normal, la cola derecha del qqnorm se aleja de la línea cada vez más, al igual que en el histograma, una de las colas se encuentra más alejada de lo que debería para cumplir la normalidad.
Con base en la fórmula obtenida del modelo,
\[PIB=185205.38-10.22EA-2032.25EI-1071.46EPR+1197.09PTE-1485.48SET-17026.68Clasificacion\] Se puede analizar que cada una de estas variables con coeficiente negativo, restan valor al PIB por persona empleada, a excepción de PTE que tiene coeficiente positivo.
En el caso de los empleados en agricultura (EA), los empleados mayores de 15 años (EPR) y la Clasificación, al ser variables con poca significancia para explicar el modelo, se pueden descartar de un análisis al interpretarse como que sus coeficientes sean nulos.
Los empleados en la industria (EI) aportan negativamente al PIB ya que por cada persona que se contrate, tenderá a caer este índice. Esto puede ser explicado debido a que emplear a más personas en este gremio generará una disminución en la riqueza de cada una de ellas.
Los empleados de medio tiempo (PTE) y los empleados independientes (SET) tienen un efecto similar al de la industria, dado que al tener un mayor número de personas en estas modalidades generán una disminución en el PIB.
Teniendo en cuenta que ninguno de los supuestos analizados se cumple, dado a que las variables tomadas para el estudio del modelo no tienen la suficiente significancia para explicar el comportamiento del PIB por persona empleada, se concluye que el modelo realizado no es viable.
Vol. 77 Núm. 233 (2022): Haciendo realidad la revolución ASG | Boletín de Estudios Económicos. (2023, Marzo 20). Boletín de Estudios Económicos. Recuperado Mayo 5, 2023, from https://bee.revistas.deusto.es/issue/view/279