Emerson Trujillo Sierra
12/agosto/2022
library(ggplot2)
año = 1999:2015
infl=c(9.23, 8.75, 7.65, 6.99, 6.49, 5.50, 4.85, 4.48, 5.69, 7.67, 2.00, 3.17,
3.73, 2.44, 1.94, 3.66, 6.77)
smlm=c(236460, 260100, 286000, 309000, 332000, 358000, 381500, 408000, 433700,
461500, 496900, 515000, 535600, 566700, 589500, 616027, 644350)
salario_inflacion = data.frame(año, infl, smlm)
attach(salario_inflacion)
head(salario_inflacion, n = 17)
## año infl smlm
## 1 1999 9.23 236460
## 2 2000 8.75 260100
## 3 2001 7.65 286000
## 4 2002 6.99 309000
## 5 2003 6.49 332000
## 6 2004 5.50 358000
## 7 2005 4.85 381500
## 8 2006 4.48 408000
## 9 2007 5.69 433700
## 10 2008 7.67 461500
## 11 2009 2.00 496900
## 12 2010 3.17 515000
## 13 2011 3.73 535600
## 14 2012 2.44 566700
## 15 2013 1.94 589500
## 16 2014 3.66 616027
## 17 2015 6.77 644350
La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:
a.Escriba la ecuación del modelo de regresión lineal simple
grafico=ggplot(salario_inflacion,aes(y=smlm,x=infl)) + geom_point(colour = "red", size = 2) + geom_smooth()
grafico
a. Escriba la ecuación del modelo de regresión lineal simple
modelo_simple_smlm=lm(smlm~infl, data = salario_inflacion)
summary(modelo_simple_smlm)
##
## Call:
## lm(formula = smlm ~ infl, data = salario_inflacion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75463 -63456 -42854 17623 263207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 648486 58947 11.00 1.4e-08 ***
## infl -39489 10151 -3.89 0.00145 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared: 0.5022, Adjusted R-squared: 0.469
## F-statistic: 15.13 on 1 and 15 DF, p-value: 0.00145
La ecuación de regresión corresponde a: **smlm = 648486-39489*(infl)**, de igual manera el valor de R2 ajustado corresponde a:0.469, es decir que el modelo explica el 46% la Predicción del SALARIO MINIMO LEGAL MENSUAL (SMLM) .
b. plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)
Hipótesis para ßo: H0:β0=0,Ha:βo≠0 p−value=1.4e-08*** Ya que p-value < 0.05, se rechaza Ho: ßo = 0
Hipótesis para ß1: H0:β1=0,Ha:β1≠0 p−value=0.00145** Ya que p-value < 0.05, se rechaza Ho: ß1 = 0
c. indique e interprete el coeficiente de correlación del modelo propuesto en a)
cor(salario_inflacion$infl, salario_inflacion$smlm)
## [1] -0.7086581
El coeficiente de correlación de Pearson = -0.7086581 indica que existe una relación negativa débil, lo que quiere decir, que a mayor inflación, disminuye el smlm.
d. Interprete cada uno de los coeficientes del modelo propuesto en a)
β0=648486,β1=−39489
Por cada incremeneto de una unidad en la inflación, se disminuye en 39482 COP el valor del smlm. Como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.
e. Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a)
par(mfrow = c(2, 2))
plot(modelo_simple_smlm)
Supuesto 1: El valor esperado de los errores es cero E[u]=0
summary(modelo_simple_smlm$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -75463 -63456 -42854 0 17623 263207
t.test(modelo_simple_smlm$residuals, mu=0)
##
## One Sample t-test
##
## data: modelo_simple_smlm$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -46862.45 46862.45
## sample estimates:
## mean of x
## -1.491304e-12
p-value = 1 > α = 0.05, se tiene evidencia suficiente para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.
Supuesto 2 : Los errores tienen varianza constante. V[ui]=σ2
library(lmtest)
lmtest::gqtest(modelo_simple_smlm) ##La prueba de Goldfeld-Quandt se utiliza para determinar si la heterocedasticidad está presente en un modelo de regresión.##
##
## Goldfeld-Quandt test
##
## data: modelo_simple_smlm
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2
como p-value = 3.171e-06 < α =0.05, se rechaza la hipotesis nula, quiere decir que, los errores no tienen varianza constante, el supuesto no se cumple.
Supuesto 3 : u es una variable con distribución normal. u∼ Normal
shapiro.test(modelo_simple_smlm$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo_simple_smlm$residuals
## W = 0.78826, p-value = 0.001407
Como p-value = 0.001407 < α = 0.05, se rechaza la hipótesis nula, quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.
Supuesto 4 : Los errores son independientes unos de otros E[ui,uj]
lmtest::dwtest(modelo_simple_smlm)
##
## Durbin-Watson test
##
## data: modelo_simple_smlm
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0
Como p-value = 0.0002714 < α = 0.05, se rechaza la hipótesis nula, quiere decir que, los errores no son indepentientes, el supuesto no se cumple.
f. Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia.
El modelo cumple con un solo supuesto, Ademas, el R2 del modelo = 0.47 indica que la variable indepentiente representa el 47 % del valor del salario minimo, el r2 se considera que tiene un ajuste deficiente en los datos. No se recomienda utilizar el modelo para predecir el smlm para colombia.