Modelo de Regresión Lineal (Homicidios VS Desempleo)

Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida. En este caso se ha escogido un par de variables (porcentaje de desempleo y tasa de homicidios: casos por cada 100.000 habitantes), a las cuales ha realizado un seguimiento durante los últimos 40 meses.

Punto A. Construya el diagrama de dispersión. Comente este gráfico.

Primero se debe plantear la hipótesis nula. En este caso:

H0: A mayor desempleo se esperaria mayor violencia (mayor número de casos de homicidios)

Interpretación: En el gráfico A. de dispersión se observa que hay una relación no lineal entre desempleo y tasa de homicidios.

library(readxl)
caso <- read_excel("C:/Users/julie/OneDrive/Escritorio/caso.xlsx")
attach(caso)
plot(desempleo,homicidios,pch=16, main=" A. Gráfico de dispersión entre el desempleo y los homicidios",col="magenta")

Punto B. Halle el coeficiente de correlación. Interprete y determine si es significativo.

cor(desempleo,homicidios)
## [1] 0.9608183

Interpretación: El coeficiente de correlación entre el porcentaje de homicidios y la tasa de desempleo es de 0.96, es decir que existe una relación positiva fuerte entre ambas variables.

Punto C. Estime el correspondiente modelo lineal simple e interprete la pendiente del modelo.

mod=lm(homicidios~desempleo)
summary (mod)
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Interpretación La pendiente del modelo es 63.751, lo que quiere decir que si en la comunidad se incrementa en un 1% la tasa de desempleo el incremento que se esperaría en la tasa de homicidios es de aproximadamente 63 casos por cada 100.000 habitantes.

Se observa que hay un ajuste excelente de los datos analizados al obtener un r2 de 0.9232. Este indicador refleja que el modelo planteado lograr explicar en un 92,32% la variable respuesta, en este caso, la tasa de homicidios.

También se concluye que de acuerdo al valor P, el coeficiente β1 es estadisticamente significativo, es decir que cualquier variación en la tasa de desemple afecta de manera importante la tasa de homicidios.

Punto D. Valide los supuestos del modelo.

Interpretación: En los gráficos siguientes se observa que NO se cumplen con los supuestos del término de error. Se evidencia un aleatoriedad en los residuos, es decir, que estos residuos evidencian Un comportamiento en particular (EXPONENCIAL). También la normalidad se valida con el gráfico Q-Q, donde los puntos aunque estan muy cerca a la línea de normalidad no están del todo superpuestos.Por ello, es recomendable hacer una transformación al modelo.

par(mfrow=c(2,2))
plot(mod)

Teniendo en cuenta que el desempleo y la tasa de homicidio evidencian una relación no lineal, se estimará un modelo logarítmico para esta situación y de esta forma garantizar los supuestos sobre el término de error aleatorio.

mod2=lm(log(homicidios)~desempleo)
summary (mod2)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16
exp(0.486124)
## [1] 1.626002

Interpretación La pendiente del modelo es 0.486124, lo que quiere decir que si en la comunidad se incrementa en un 1% la tasa de desempleo el incremento que se esperaría en la tasa de homicidios es de 1,6 casos por cada 100.000 habitantes.

También se observa que hay un ajuste excelente de los datos analizados al obtener un r2 de 0.9937. Este indicador refleja que el modelo planteado lograr explicar en un 99,37% la variable respuesta, en este caso, la tasa de homicidios.

Al utilizar la transformación del modelo exponencial se logró incrementar el R2 de 92% a 99,37%.

Punto D. Valide los supuestos del modelo.

Interpretación: En los gráficos siguientes se observa que se cumplen con los supuestos del término de error. Se evidencia un aleatoriedad en los residuos, es decir, que estos residuos no evidencian ningún comportamiento en particular. También la normalidad se valida con el gráfico Q-Q, donde los puntos estan muy cerca a la línea de normalidad.

par(mfrow=c(2,2))
plot(mod2)

Punto E. Estime la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%

exp(predict(mod2,newdata = list(desempleo=11)))
##        1 
## 75.17389

Si el Gobierno logra disminuir a un 11% el desempleo se espera que la violencia sea de 75,17 casos por cada 100.000 habitantes.