##Carga de datos
library(readxl)
caso <- read_excel("D:/Dropbox/Maestria Ciencias de Datos/1. Metodos de Simulacion Estadistica/Evaluacion/caso.xlsx")
caso
## # A tibble: 40 x 3
## mes desempleo homicidios
## <dbl> <dbl> <dbl>
## 1 1 10.1 52.4
## 2 2 10.3 52.8
## 3 3 10.3 51.6
## 4 4 10.7 66.6
## 5 5 10.9 69.4
## 6 6 10.9 72.7
## 7 7 10.9 74.4
## 8 8 10.9 71.7
## 9 9 11.0 70.7
## 10 10 11.1 81.2
## # ... with 30 more rows
attach(caso)
plot(desempleo, homicidios, pch=16, main = "Relación Homicidios-Desempleo")
cor(desempleo, homicidios)
## [1] 0.9608183
mod = lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
El \(\beta_0\) -628.936
El \(\beta_1\) = 63.751
\(R^2\) = 0.9232. Se explica el 92% de los resultados de Y.
par(mfrow=c(2,2))
plot(mod)
Se evidencia que los residuos no son lineales.
A su vez el gráfico Normal Q_Q evidencia que no tienen distribución normal
Por lo cual se procederá a ajustar el modelo con una transformación logaritmica.
plot(desempleo, log(homicidios), pch=16, main = "Relación LogaritmicaHomicidios-Desempleo")
mod_log = lm(log(homicidios)~desempleo)
abline(mod_log, col="red")
summary(mod_log)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(mod_log)
El modelo tiene un mejor ajuste
En el gráfico Normal Q_Q se evidencia que tienen distribución normal
Se evidencia que los residuos tienden a ser lineales.
prediccion_e = predict(mod_log, list(desempleo=11))
prediccion_e
## 1
## 4.319804
prediccion = exp(prediccion_e)
prediccion
## 1
## 75.17389
plot(desempleo, homicidios, pch=16, bg="blue", main="Predicción ajustada")
points(11, prediccion, pch=21, bg="red")