Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.
En este caso ha escogido un par de variables (porcentajes de desempleo y tasa de homicidios-numero de casos por cada 100.000 habitantes), las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación.
En el gráfico de dispersión se puede observar que no hay una relación lineal
cor(desempleo, homicidios)
## [1] 0.9608183
El coeficiente de correlación (0.96) nos indica que hay una asociación muy fuerte, el desempleo de esta comunidad está muy asociada con la tasa de homicidios.
Con un proyecto que disminuya los indices de desempleo de esta comunidad, se esperaría que los índices de homicidios también disminuyan.
mod <- lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Si en la comunidad se incrementa en 1% el desempleo, el efecto que se obtiene en la tasa de homicidio sería de 63 casos más por cada 100.000 habitantes.
par(mfrow=c(2,2))
plot(mod)
Aunque el modelo da un R-Squared de 0.92, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estod datos tienen un comportamiento. Mostrando una componente sistemática que se podría incorporar al modelo.
La gráfica de normalidad también evidencia la falta de linealidad del modelo.
realizando una transformación sobre la variable de respuesta utilizando un logaritmo.
mod <- lm(log(homicidios)~desempleo)
summary(mod)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
Con el siguiente gráfico se evidencia la mejora en el tema de aleatoriedad de los residuales y la normalidad. El nuevo R-Squared de 0.99 es mucho mejor que el R-Squared de 0.92.
par(mfrow=c(2,2))
plot(mod)
predict(mod, newdata = list(desempleo=11))
## 1
## 4.319804
El resultado de la función de 4.32 no se encuentran en las unidades originales de homicidio, en casos por cada 100.000 habotantes. Hay que destransformarlo con el exponencial inversa al logaritmo.
exp(predict(mod, newdata = list(desempleo=11)))
## 1
## 75.17389
Si el desempleo se logra disminuir un 11%, se esperaría que los homicidios se han de 75 casos por cada 100.000 habitantes