library(readxl)
caso <- read_excel("caso.xlsx")
View(caso)
Se espera que a mayor desempleo haya un mayor número de homicidios, es decir que esperamos una relación directa.
attach(caso)
plot(desempleo,homicidios,pch=20)
Con la ejecución de este primer gráfico podemos observar una relación directa pero no lineal entre la tasa de desempleos y el número de homicidios registrados por mes. ahora veamos que arroja el coeficiente de correlación.
cor(desempleo,homicidios)
## [1] 0.9608183
El coeficiente de correlación nos indica una correlación muy fuerte entre el desempleo y los homicidios registrados cada mes. Además planteamos nuestro modelo de la siguiente manera: \[Homicidios= b0 + b1Desempleo\] Ahora procederemos a estimar el modelo de regresión lineal:
mod=lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Analizando el coeficiente B1 podemos decir que por un incremento en un 1% en la tasa de desempleo, los homicidios aumentaran en aproximadamente 63.75 casos por cada cien mil habitantes. Además el p-valor nos muestra que ese coeficiente es significativo, por tanto el desempleo está asociado de manera significativa con los casos de homicidios reportados cada cien mil habitantes. Luego, vemos que el R-cuadrado nos muestra que el modelo logra explicar en un 92% la variable de respuesta por tanto, los homicidios reportados por cada cien mil habitantes se explican en un 92% con la tasa de desempleo de cada mes.
par(mfrow=c(2,2))
plot(mod)
El primer gráfico que muestra los residuales y los valores ajustados no nos indica que hay una completa aleatoridad, sino muestran un comportamiento, es decir que tienen un comportamiento sistemático y esa relación lineal que suponemos entre homicidios y desempleo no es lineal, posiblemente es una relación más creciente tipo exponencial. Con respecto a la normalidad podemos decir que este modelo no sigue una distribución normal.
Ahora procedemos a plantear un nuevo modelo que logre corregir las fallas anterior mente descritas.
\[ Ln(hoomicidios)= b0 + b1desempleo\]
mod2=lm(log(homicidios)~desempleo)
summary(mod2)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
Ahora vemos que por cada incremento en un uno porciento en la tasa de desempleo se incrementa en un 48 los casos de homicidios, esclareciendo que ese incremento se da dentro de la nueva escala que incluye la transformación logarítmica. ademas el R-cuadrado es mucho mejor puesto que es más próximo a 1; por tanto se intuye que aquí la tasa de desempleo explica un mayor porcentaje de los casos reportados de homicidios en un mes por cada cien mil habitantes.
par(mfrow=c(2,2))
plot(mod2)
Logramos observar que se mejora notoriamente la aleatoriedad al igual que la normalidad.
exp(predict(mod2, newdata=list(desempleo=11)))
## 1
## 75.17389
Sí el desempleo se lograra reducir en un once porciento, se espera que los homicidios sean de 75.17 por cada cien mil habitantes.