Emerson Trujillo Sierra

12/agosto/2022

Pregunta 2

  1. Los siguientes datos corresponden a la INFLACION y al SALARIO MINIMO LEGAL MENSUAL (SMLM) desde el año 1999 para Colombia.
library(ggplot2)
año = 1999:2015

infl=c(9.23, 8.75, 7.65, 6.99, 6.49, 5.50, 4.85, 4.48, 5.69, 7.67, 2.00, 3.17, 
3.73, 2.44,  1.94, 3.66, 6.77)  
  
smlm=c(236460, 260100, 286000, 309000, 332000, 358000, 381500, 408000, 433700, 
461500, 496900, 515000, 535600, 566700, 589500, 616027, 644350) 

salario_inflacion = data.frame(año, infl, smlm)
attach(salario_inflacion)
head(salario_inflacion, n = 17)
##     año infl   smlm
## 1  1999 9.23 236460
## 2  2000 8.75 260100
## 3  2001 7.65 286000
## 4  2002 6.99 309000
## 5  2003 6.49 332000
## 6  2004 5.50 358000
## 7  2005 4.85 381500
## 8  2006 4.48 408000
## 9  2007 5.69 433700
## 10 2008 7.67 461500
## 11 2009 2.00 496900
## 12 2010 3.17 515000
## 13 2011 3.73 535600
## 14 2012 2.44 566700
## 15 2013 1.94 589500
## 16 2014 3.66 616027
## 17 2015 6.77 644350

La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:

a.Escriba la ecuación del modelo de regresión lineal simple

grafico=ggplot(salario_inflacion,aes(y=smlm,x=infl)) + geom_point(colour = "red", size = 2) + geom_smooth()
grafico

a. Escriba la ecuación del modelo de regresión lineal simple

modelo_simple_smlm=lm(smlm~infl, data = salario_inflacion)
summary(modelo_simple_smlm)
## 
## Call:
## lm(formula = smlm ~ infl, data = salario_inflacion)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## infl          -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

La ecuación de regresión corresponde a: **smlm = 648486-39489*(infl)**, de igual manera el valor de R2 ajustado corresponde a:0.469, es decir que el modelo explica el 46% la Predicción del SALARIO MINIMO LEGAL MENSUAL (SMLM) .

b. plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)

Hipótesis para ßo: H0:β0=0,Ha:βo≠0 p−value=1.4e-08*** Ya que p-value < 0.05, se rechaza Ho: ßo = 0

Hipótesis para ß1: H0:β1=0,Ha:β1≠0 p−value=0.00145** Ya que p-value < 0.05, se rechaza Ho: ß1 = 0

c. indique e interprete el coeficiente de correlación del modelo propuesto en a)

cor(salario_inflacion$infl, salario_inflacion$smlm)
## [1] -0.7086581

El coeficiente de correlación de Pearson = -0.7086581 indica que existe una relación negativa débil, lo que quiere decir, que a mayor inflación, disminuye el smlm.

d. Interprete cada uno de los coeficientes del modelo propuesto en a)

β0=648486,β1=−39489

Por cada incremeneto de una unidad en la inflación, se disminuye en 39482 COP el valor del smlm. Como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.

e. Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a)

par(mfrow = c(2, 2))
plot(modelo_simple_smlm)

Supuesto 1: El valor esperado de los errores es cero E[u]=0

 summary(modelo_simple_smlm$residuals)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -75463  -63456  -42854       0   17623  263207
t.test(modelo_simple_smlm$residuals, mu=0)
## 
##  One Sample t-test
## 
## data:  modelo_simple_smlm$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -46862.45  46862.45
## sample estimates:
##     mean of x 
## -1.491304e-12

p-value = 1 > α = 0.05, se tiene evidencia suficiente para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.

Supuesto 2 : Los errores tienen varianza constante. V[ui]=σ2

library(lmtest)
lmtest::gqtest(modelo_simple_smlm) ##La prueba de Goldfeld-Quandt se utiliza para determinar si la heterocedasticidad está presente en un modelo de regresión.##
## 
##  Goldfeld-Quandt test
## 
## data:  modelo_simple_smlm
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2

como p-value = 3.171e-06 < α =0.05, se rechaza la hipotesis nula, quiere decir que, los errores no tienen varianza constante, el supuesto no se cumple.

Supuesto 3 : u es una variable con distribución normal. u∼ Normal

shapiro.test(modelo_simple_smlm$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_simple_smlm$residuals
## W = 0.78826, p-value = 0.001407

Como p-value = 0.001407 < α = 0.05, se rechaza la hipótesis nula, quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.

Supuesto 4 : Los errores son independientes unos de otros E[ui,uj]

lmtest::dwtest(modelo_simple_smlm)
## 
##  Durbin-Watson test
## 
## data:  modelo_simple_smlm
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0

Como p-value = 0.0002714 < α = 0.05, se rechaza la hipótesis nula, quiere decir que, los errores no son indepentientes, el supuesto no se cumple.

f. Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia.

El modelo cumple con un solo supuesto, Ademas, el R2 del modelo = 0.47 indica que la variable indepentiente representa el 47 % del valor del salario minimo, el r2 se considera que tiene un ajuste deficiente en los datos. No se recomienda utilizar el modelo para predecir el smlm para colombia.