library(readxl)
caso=read_excel("C:/Users/asus/Desktop/Maestria/metodos y simulacion estadistica/Semana 4/caso.xlsx",
col_types = c("numeric", "numeric", "numeric"))
caso
## # A tibble: 40 x 3
## mes desempleo homicidios
## <dbl> <dbl> <dbl>
## 1 1 10.1 52.4
## 2 2 10.3 52.8
## 3 3 10.3 51.6
## 4 4 10.7 66.6
## 5 5 10.9 69.4
## 6 6 10.9 72.7
## 7 7 10.9 74.4
## 8 8 10.9 71.7
## 9 9 11.0 70.7
## 10 10 11.1 81.2
## # ... with 30 more rows
attach(caso)
plot(desempleo,homicidios,pch=16)
Resultado: Hay una relación directa, no es tan lineal entre homicidios y desempleo
cor(desempleo,homicidios)
## [1] 0.9608183
Indica que hay asociación muy fuerte entre desempleo y homicidios (o,96).
mod=lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
#Si en la comunidad se incrementa en un 1% el desempleo el efecto que se tendría en la reducción de los homicidios sería de 63 casos por cada 100 mil habitantes
par(mfrow=c(2,2))
plot(mod)
predict(mod,newdata = list(desempleo=11))
## 1
## 72.32826
plot(mod)
#grafico residual=me muestra los residuales frente a los valores ajustados, muestra aleatoriedad y el comportamiento de los residuales. En este caso la aleatoriedad de los errores no se esta cumpliendo. #grafico de normalidad: se observa que que hay puntos que se salen de la línea de la distribución normal y no son cercanos a la misma, por tanto esto indica que la relación no es lineal. Por tanto se concluye que es necesario aplicar una transformación al modelo que logre mejorar la estimación. En este caso se aplica un logaritmo debido a que el modelo es exponencial según lo observado.
mod=lm(log(homicidios)~desempleo)
summary(mod)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(mod)
predict(mod,newdata = list(desempleo=11))
## 1
## 4.319804
plot(mod)
#con un ajuste al modelo mejora la aleatoriedad de los residuales e incluso la normalidad. Al volver a estimar el modelo se obtiene un valor de 0,486124 sobre la nueva escala logaritmica de la variable respuesta
exp(predict(mod, newdata = list(desempleo=11)))
## 1
## 75.17389
#Si el desempleo se logra disminuir en un 11%, se esperaría que los homicidios lograrán disminuir en 75 casos por cada 100.000 habitantes.