library(tidyverse)
library(readxl)
library(writexl)
library(lmtest)
base=read_xlsx("C:\\Users\\sarar\\OneDrive\\Escritorio\\Sara Universidad\\4to semestre industrial\\Gestion de datos\\Regresion_lineal\\base (2).xlsx")
View(base)
# Eliminar las dos últimas columnas ya que no tienen información
base <- base[ ,-c(46,47)]
# Omite (Elimina las filas que tienen datos faltantes)
base2 <- na.omit(base)
View(base2)
base3=filter(base2,Time=="2015")
View(base3)
base4=base3[,c(1,3,7,14,17,33,36,42)]
View(base4)
nombres=c("Año","Pais","Trabajadores familia","Empleo en industria", "Empleo en servicios","PIB por persona empleada","Empleo de medio tiempo","Empleos vulnerables")
colnames(base4) <- nombres
base4=data.frame(base4)
write_xlsx(base4,"mibasefinal.xlsx")
basefinal=read_xlsx("C:\\Users\\sarar\\OneDrive\\Escritorio\\Sara Universidad\\4to semestre industrial\\Gestion de datos\\Regresion_lineal\\mibasefinal.xlsx")
View(basefinal)
Este informe tiene como objetivo mostrar el análisis del ajuste de un modelo de regresión lineal múltiple, el cual busca explicar el Producto Interno Bruto (PIB) por persona empleada en función del empleo en distintos sectores de la economía, para una muestra de 49 países en el año 2015, dicha muestra se clasificó como países “Desarrollados” o “emergentes”, tomando como población de referencia a los países desarrollados.
Teniendo en cuenta esto, la variable de respuesta es GDP per person employed (constant 2017 PPP $), es decir, Producto Interno Bruto (PIB) por persona empleada, el cual es un indicador económico que mide la relación que existe entre el nivel de renta de un país y su población empleada, este es el PIB total dividido por el empleo total en la economía, y las variables predictoras que se usaron para explicar el modelo son:
Esta variable fue elegida debido a que este tipo de empleos propios, empresas o emprendimientos tienen un importante aporte en el PIB de los países, según el Banco Mundial, el 77% de los que salen de la pobreza lo consiguen gracias a la iniciativa individual. Seguir adelante con una situación social y económica muy vulnerable requiere, entre otras cosas, de acceso a financiación y capacitación para la gestión de los negocios. Las pequeñas y medianas empresas (PYMES) formales contribuyen hasta un 40% al Producto Interior Bruto (PIB) en economías emergentes y esta contribución es significativamente más elevada cuando se incluye a las pequeñas empresas que están en la informalidad.
Según la adaptación basada en ONUDI (Organización de las naciones unidas para el desarrollo industrial), la relación entre la industria y el crecimiento económico se mantiene en todos los países y niveles de renta, los datos nos permiten ver que la proporción de la industria en la economía aumenta a medida que lo hace el PIB, esto se debe a que el sector de la industria permite el avance continuo de la economía. Por otro lado, según el DANE en el año 2021 la industria manufacturera tuvo un crecimiento importante del 16,4%, estando impulsada por la fabricación de productos textiles, calzado y cueros, que creció un 40,5%. Teniendo en cuenta esta información, se llegó a la conclusión de que la variable del empleo en la industria juega un papel importante debido a que este es uno de los sectores que gracias a su crecimiento contribuye a que el PIB se mantenga en positivo y por tal motivo fue seleccionada.
El crecimiento del PIB es esencial para una economía, pues, con el aumento de este, hay un incremento de la actividad económica, aumentando además el empleo en los países, “El crecimiento económico es un requisito previo para aumentar el empleo productivo; es el resultado combinado de incrementos en el empleo e incrementos en la productividad laboral” y a su vez, el crecimiento de estas últimas variables, determinan el crecimiento del PIB.
Esta variable fue elegida porque el análisis de los empleos de servicios es interesante ya que se ha mostrado que muchas personas trabajan prestando sus servicios entonces pensamos que sería una cifra interesante de observar con respecto al PIB del país y cómo lo afecta.
Esta variable fue elegida porque, normalmente se considera que es bueno que el PIB crezca, de este modo, se incrementa la riqueza de las personas que viven en el país, pero aparte, el PIB está bastante relacionado con el empleo. Cuando se habla de la importancia de que crezca el Producto Interior Bruto no se hace sólo para que la gente tenga mayor poder adquisitivo, sino que es un medio para que aumente el número de personas empleadas. En principio para producir más necesitamos más personas que estén trabajando. Pero en este caso hablamos de trabajadores informales, los cuales viven del día a día, donde al tener condiciones de empleo desfavorables y poco poder adquisitivo, afecta negativamente al crecimiento del país por que significa que hay pocos empleos para la cantidad de población existente.
PIB por persona empleada = b0 + b1(Trabajadores familia) + b2(Empleo en industria) + b3(Empleo en servicios) + b4(Empleo medio tiempo) + b5(Empleos vulnerables) + b6(Países emergentes)
modelo1=lm(PIB.por.persona.empleada~Trabajadores.familia+
Empleo.en.industria+Empleo.en.servicios+
Empleo.de.medio.tiempo+Empleos.vulnerables+
as.factor(Tipo),basefinal)
summary(modelo1)
##
## Call:
## lm(formula = PIB.por.persona.empleada ~ Trabajadores.familia +
## Empleo.en.industria + Empleo.en.servicios + Empleo.de.medio.tiempo +
## Empleos.vulnerables + as.factor(Tipo), data = basefinal)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36681 -16425 -3899 8748 115523
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -118974.1 122749.8 -0.969 0.3380
## Trabajadores.familia 4255.3 1806.0 2.356 0.0232 *
## Empleo.en.industria 931.2 1477.4 0.630 0.5319
## Empleo.en.servicios 2450.0 1251.1 1.958 0.0569 .
## Empleo.de.medio.tiempo 842.2 449.1 1.875 0.0677 .
## Empleos.vulnerables -1369.5 669.6 -2.045 0.0471 *
## as.factor(Tipo)1 -14549.9 11929.5 -1.220 0.2294
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 26300 on 42 degrees of freedom
## Multiple R-squared: 0.6586, Adjusted R-squared: 0.6099
## F-statistic: 13.51 on 6 and 42 DF, p-value: 1.814e-08
PIB por persona empleada = -118974.1 + 4255.3 (Trabajadores familia) + 931.2 (Empleo en industria) +2450.0 (Empleo en servicios) + 842.2 (Empleo medio tiempo) - 1369.5 (Empleos vulnerables) - 14549.9 (Países emergentes)
b0= El valor promedio del PIB por persona empleada en los países desarrollados de la muestra, en el año 2015 es de -11897.1 dólares.
b1= Por cada aumento de un empleado en el sector de trabajadores familiares, el PIB por persona empleada aumenta 4255.3 dólares, respecto al valor del PIB por persona empleada en los países desarrollados.
b2= Por cada aumento de un empleado en el sector de la industria, el PIB por persona empleada aumenta 931.2 dólares, respecto al valor del PIB por persona empleada en los países desarrollados.
b3= Por cada aumento de un empleado en el sector de servicios, el PIB por persona empleada aumenta 2450.0 dólares, respecto al valor del PIB por persona empleada en los países desarrollados.
b4= Por cada aumento de un empleado en los empleos de medio tiempo, el PIB por persona empleada aumenta 842.2 dólares, respecto al valor del PIB por persona empleada en los países desarrollados.
b5= Por cada aumento de un empleado en los empleos vulnerables, el PIB por persona empleada disminuye 1369.5 dólares, respecto al valor del PIB por persona empleada en los países desarrollados.
b6= El PIB por persona empleada en los países emergentes de la muestra disminuye 14549.9 dólares respecto al valor del PIB por persona empleada en los países desarrollados, en el año 2015.
Teniendo en cuenta los valores p obtenidos por el modelo de regresión lineal, un valor de significancia del 5% y las hipótesis H0 y H1, las cuales nos indican:
H0:B0 = 0
H1: B0 =! 0
H0:Bi = 0 - la variable predictora no tiene influencia sobre la variable de respuesta.
H1: Bi =! 0 - la variable predictora si es significativa para explicar la variable respuesta.
Podemos concluir:
La variable de respuesta PIB por persona empleada tiene un valor p de 0.3380 y es mayor al valor de significancia del 5%, por lo tanto se acepta h0 y se rechaza H1.
El valor p de la variable trabajadores familiares es 0.0232 < 0.05, por lo tanto, se rechaza H0, lo que quiere decir que el sector de trabajadores familiares si es significativo para explicar el PIB por persona empleada a un valor de significancia del 5%.
El valor p de la variable empleo en industria es 0.5319>0.05, por lo tanto, se rechaza H1, lo que quiere decir que el sector de empleo en la industria no es significativo para explicar el PIB por persona empleada a un valor de significancia del 5%.
El valor p de la variable empleo en servicios es 0.0569>0.05, por lo tanto, el sector de empleo en servicios no es significativo a un valor de significancia del 5% pero si a un valor de significancia del 10%.
El valor p de la variable empleo de medio tiempo es 0.0677>0.05, por lo tanto, el sector de empleo de medio tiempo no es significativo a un valor de significancia del 5% pero si a un valor de significancia del 10%.
El valor p de la variable empleos vulnerables es 0.0471 < 0.05, por lo tanto, se rechaza H0, lo que quiere decir que el sector de empleos vulnerables si es significativo para explicar el PIB por persona empleada a un valor de significancia del 5%.
El valor p de la variable tipo (países emergentes) es 0.2294 > 0.05, por lo tanto, se rechaza H1, lo que quiere decir que los países emergentes no es significativo para explicar el PIB por persona empleada a un valor de significancia del 5%.
El R-Squared de nuestro modelo de regresión lineal es igual a 0.6099, lo que significa que el 60,99% de la variabilidad del PIB por persona empleada está siendo explicada por el modelo, mediante las variables predictoras.
plot(basefinal$Trabajadores.familia, basefinal$PIB.por.persona.empleada,
pch=19,
col="blue",
main="Trabajadores familia vs PIB por persona empleada")
abline(lm(basefinal$PIB.por.persona.empleada~ basefinal$Trabajadores.familia),
col="red", lwd =3)
cor(basefinal$PIB.por.persona.empleada, basefinal$Trabajadores.familia)
## [1] -0.4124569
Analizamos la correlación entre el “PIB por persona empleada” y “Trabajadores familia”, basándonos en el coeficiente de Pearson que en este caso es r= -0.4124569 y un gráfico de dispersión que nos deja analizar la relación entre las variables. El valor de r nos indica una correlación negativa débil, puesto que el valor se encuentra entre (0 , -0.5),pero tiene a estar más cerca de -0.5; el gráfico de dispersión muestra exactamente la relación inversa que tienen las variables por su pendiente negativa, generando la conclusión de que efectivamente tienen una correlación negativa.
plot(basefinal$Empleo.en.industria, basefinal$PIB.por.persona.empleada,
pch=19,
col="blue",
main="Empleo en industria vs PIB por persona empleada")
abline(lm(basefinal$PIB.por.persona.empleada ~ basefinal$Empleo.en.industria),
col="red", lwd =3)
cor(basefinal$PIB.por.persona.empleada, basefinal$Empleo.en.industria)
## [1] -0.2363253
Analizamos la correlación entre el “PIB por persona empleada” y “Empleo en la industria”, basándonos en el coeficiente de Pearson que en este caso es r= -0.2363253 y un gráfico de dispersión que nos deja analizar la relación entre las variables. El valor de r nos indica una correlación negativa muy débil, puesto que el valor se encuentra entre (0 , -0.5), pero tiende a estar más cerca del 0; el gráfico de dispersión muestra una la relación lineal inversa débil, ya que su pendiente es negativa, sin embargo, la línea de tendencia está casi paralela al eje de “empleo en la industria”y esto muestra una relación lineal débil, generando la conclusión de que estas variables tienen una correlación negativa débil y una relación lineal directa.
plot(basefinal$Empleo.en.servicios, basefinal$PIB.por.persona.empleada,
pch=19,
col="blue",
main="Empleo en servicios vs PIB por persona empleada")
abline(lm(basefinal$PIB.por.persona.empleada ~ basefinal$Empleo.en.servicios),
col="red", lwd =3)
cor(basefinal$PIB.por.persona.empleada, basefinal$Empleo.en.servicios)
## [1] 0.6555764
Analizamos la correlación entre el “PIB por persona empleada” y “Empleo en servicios”, basándonos en el coeficiente de Pearson que en este caso es r= 0.6555764, un gráfico de dispersión que nos deja analizar la relación entre las variables. El valor de r nos indica una correlación positiva intensa, puesto que el valor se encuentra entre (0.5 , 1); el gráfico de dispersión muestra una la relación lineal directa, ya que su pendiente es positiva, generando como conclusión que estas variables tienen una correlación positiva intensa y una relación lineal directa.
plot(basefinal$Empleo.de.medio.tiempo, basefinal$PIB.por.persona.empleada,
pch=19,
col="blue",
main="Empleo de medio tiempo vs PIB por persona empleada")
abline(lm(basefinal$PIB.por.persona.empleada ~ basefinal$Empleo.de.medio.tiempo),
col="red", lwd =3)
cor(basefinal$PIB.por.persona.empleada, basefinal$Empleo.de.medio.tiempo)
## [1] 0.561315
Analizamos la correlación entre el “PIB por persona empleada” y “Empleo de medio tiempo”, basándonos en el coeficiente de Pearson que en este caso es r= 0.561315, un gráfico de dispersión que nos deja analizar la relación entre las variables. El valor de r nos indica una correlación positiva intensa, puesto que el valor se encuentra entre (0.5 , 1); el gráfico de dispersión muestra una relación lineal directa, ya que su pendiente es positiva, dejando como conclusión que estas variables tienen una correlación positiva intensa y una relación lineal directa.
plot(basefinal$Empleos.vulnerables, basefinal$PIB.por.persona.empleada,
pch=19,
col="blue",
main="Empleos vulnerables vs PIB por persona empleada")
abline(lm(basefinal$PIB.por.persona.empleada ~ basefinal$Empleos.vulnerables),
col="red", lwd =3)
cor(basefinal$PIB.por.persona.empleada, basefinal$Empleos.vulnerables)
## [1] -0.6077895
Analizamos la correlación entre el “PIB por persona empleada” y “Empleos vulnerables”, basándonos en el coeficiente de Pearson que en este caso es r= -0.6077895 y un gráfico de dispersión que nos deja analizar la relación entre las variables. El valor de r nos indica una correlación negativa intensa, puesto que el valor se encuentra entre (-0.5 , -1); el gráfico de dispersión muestra exactamente la relación inversa que tienen las variables por su pendiente negativa, generando la conclusión de que efectivamente tienen una correlación negativa intensa y una relación lineal inversa.
plot(modelo1$fitted.values, modelo1$residuals)
A partir del anterior gráfico, se podría concluir que si se cumple el supuesto de linealidad, puesto que se presenta una relación significativa entre la variable de respuesta y las predictoras, pero esto se puede comprobar revisando el p-value del modelo, el cual es 1.814 e-8, lo que quiere decir que es menor a 0.05, de esta forma rechazamos H0, concluyendo que si hay linealidad.
qqnorm(modelo1$residuals)
qqline(modelo1$residuals)
shapiro.test(modelo1$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo1$residuals
## W = 0.80962, p-value = 1.782e-06
En la gráfica anterior se puede observar que en los extremos de la linea, los puntos se encuentran alejados considerablemente de la recta de referencia, lo que significa que este supuesto no se cumple, es decir, no existe normalidad. Esto también lo podemos comprobar a partir del test de Shapiro, el cual nos dice que el p-value es igual a 1.782 e-06, este valor p es menor a 0.05, por ende se rechaza h0, por lo tanto se concluye que los residuales no tienen distribución normal.
bptest(modelo1)
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 9.2936, df = 6, p-value = 0.1577
A partir de la prueba de Breusch - pagan se obtiene que el p- value es igual a 0.1577, lo que significa que el valor p es mayor a 0.05, por tal motivo se rechaza h0, esto quiere decir que los errores tienen varianza constante, por lo tanto se concluye que el supuesto de homocedasticidad se cumple.
Este supuesto se cumple por sí solo, es decir, los errores de cada variable son independientes.
Finalmente se concluye que como no se cumplen todos los supuestos, no se puede hacer inferencia sobre la población.
https://www.banrep.gov.co/es/glosario/producto-interno-bruto-pib
https://www.cetys.mx/noticias/crecimiento-del-pib-nacional-debe-ser-proporcional-al-alza-en-empleo-formal/#:~:text=%E2%80%9CEl%20crecimiento%20del%20PIB%20es,la%20renta%20per%20c%C3%A1pita%20aumenta%E2%80%9D.
https://www.ilo.org/global/topics/dw4sd/themes/employment-rich/lang--es/index.htm