Probabilidad e Inferencia Estadística

Caso Regresión líneal

Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.

En este caso ha escogido un par de variables (porcentajes de desempleo y tasa de homicidios-numero de casos por cada 100.000 habitantes), las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación.

a. Construya el diagrama de dispersión. Comente este gráfico.

En el gráfico de dispersión se puede observar que no hay una relación lineal

b. Halle el coeficiente de correlación, interprete y determine si es significativo.

cor(desempleo, homicidios)
## [1] 0.9608183

El coeficiente de correlación (0.96) nos indica que hay una asociación muy fuerte, el desempleo de esta comunidad está muy asociada con la tasa de homicidios.

Con un proyecto que disminuya los indices de desempleo de esta comunidad, se esperaría que los índices de homicidios también disminuyan.

c. Estime el correspondiente modelo lineal e interprete la pendiente del modelo.

mod <- lm(homicidios~desempleo)

summary(mod)
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Si en la comunidad se incrementa en 1% el desempleo, el efecto que se obtiene en la tasa de homicidio sería de 63 casos más por cada 100.000 habitantes.

d. Valide los supuestos del modelo

par(mfrow=c(2,2))

plot(mod)

Aunque el modelo da un R-Squared de 0.92, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estod datos tienen un comportamiento. Mostrando una componente sistemática que se podría incorporar al modelo.

La gráfica de normalidad también evidencia la falta de linealidad del modelo.

realizando una transformación sobre la variable de respuesta utilizando un logaritmo.

mod <- lm(log(homicidios)~desempleo)

summary(mod)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16

Con el siguiente gráfico se evidencia la mejora en el tema de aleatoriedad de los residuales y la normalidad. El nuevo R-Squared de 0.99 es mucho mejor que el R-Squared de 0.92.

par(mfrow=c(2,2))

plot(mod)

e. Estime la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%.

predict(mod, newdata = list(desempleo=11))
##        1 
## 4.319804

El resultado de la función de 4.32 no se encuentran en las unidades originales de homicidio, en casos por cada 100.000 habotantes. Hay que destransformarlo con el exponencial inversa al logaritmo.

exp(predict(mod, newdata = list(desempleo=11)))
##        1 
## 75.17389

Si el desempleo se logra disminuir un 11%, se esperaría que los homicidios se han de 75 casos por cada 100.000 habitantes