library(readxl)
caso=read_excel("C:/Users/asus/Desktop/Maestria/metodos y simulacion estadistica/Semana 4/caso.xlsx", 
    col_types = c("numeric", "numeric", "numeric"))
caso
## # A tibble: 40 x 3
##      mes desempleo homicidios
##    <dbl>     <dbl>      <dbl>
##  1     1      10.1       52.4
##  2     2      10.3       52.8
##  3     3      10.3       51.6
##  4     4      10.7       66.6
##  5     5      10.9       69.4
##  6     6      10.9       72.7
##  7     7      10.9       74.4
##  8     8      10.9       71.7
##  9     9      11.0       70.7
## 10    10      11.1       81.2
## # ... with 30 more rows

1.construir un diagrama de dispersion

attach(caso)
plot(desempleo,homicidios,pch=16)

Resultado: Hay una relación directa, no es tan lineal entre homicidios y desempleo

2. Halle el coeficiente de correlación

cor(desempleo,homicidios)
## [1] 0.9608183

Indica que hay asociación muy fuerte entre desempleo y homicidios (o,96).

3. Estime el correspondiente modelo lineal simple e interprete la pendiente del modelo

mod=lm(homicidios~desempleo)
summary(mod)
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

#Si en la comunidad se incrementa en un 1% el desempleo el efecto que se tendría en la reducción de los homicidios sería de 63 casos por cada 100 mil habitantes

4. valide los supuesto del modelo

par(mfrow=c(2,2))
plot(mod)
predict(mod,newdata = list(desempleo=11))
##        1 
## 72.32826
plot(mod)

#grafico residual=me muestra los residuales frente a los valores ajustados, muestra aleatoriedad y el comportamiento de los residuales. En este caso la aleatoriedad de los errores no se esta cumpliendo. #grafico de normalidad: se observa que que hay puntos que se salen de la línea de la distribución normal y no son cercanos a la misma, por tanto esto indica que la relación no es lineal. Por tanto se concluye que es necesario aplicar una transformación al modelo que logre mejorar la estimación. En este caso se aplica un logaritmo debido a que el modelo es exponencial según lo observado.

Con un ajuste en el modelo

mod=lm(log(homicidios)~desempleo)
summary(mod)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(mod)
predict(mod,newdata = list(desempleo=11))
##        1 
## 4.319804
plot(mod)

#con un ajuste al modelo mejora la aleatoriedad de los residuales e incluso la normalidad. Al volver a estimar el modelo se obtiene un valor de 0,486124 sobre la nueva escala logaritmica de la variable respuesta

5. estime la tasa de homicidios para la eventualidad en la que el gobierno logre disminutir el desempleo a un nivel de 11%

exp(predict(mod, newdata = list(desempleo=11)))
##        1 
## 75.17389

#Si el desempleo se logra disminuir en un 11%, se esperaría que los homicidios lograrán disminuir en 75 casos por cada 100.000 habitantes.