##Casos de homicidios Vs. desempleo

Un investigador esta interesado en determinar la existecia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.

library(readxl)
Casos_DyV <- read_excel("C:/Users/beatriz/beatriz/bioestadistica/Casos_DyV.xlsx")
View(Casos_DyV)
head(Casos_DyV)

## # A tibble: 6 x 3
##     Mes Desempleo Homicidios
##   <dbl>     <dbl>      <dbl>
## 1     1      10.1       52.4
## 2     2      10.3       52.8
## 3     3      10.3       51.6
## 4     4      10.7       66.6
## 5     5      10.9       69.4
## 6     6      10.9       72.7

a.Gráfico

attach(Casos_DyV)
plot(Desempleo, Homicidios, pch=15)

El gráfico muestra una relación directa con crecimiento exponencial entre Desempleo y Homicidios.

b.Coeficiente de relación

cor(Desempleo, Homicidios)

## [1] 0.9608183

Este valor indica que la relación entre las variables es muy fuerte, es decir que, entre más Desempleo haya en la comunidad, este influirá negativamente en las condiciones de vida de las personas y por ende la tasa de homicidios aumentará.

c. Regresión lineal

modelo=lm(Homicidios~Desempleo)
summary(modelo)

## 
## Call:
## lm(formula = Homicidios ~ Desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## Desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Teniendo en cuenta el porcentaje de incremento del Desempleo, el estimado de los Homicidios tiene un aumento significativo; es decir que, si el Desempleo aumenta un 1%, la tasa de casos de homicidios sería de 63 de 100mil habitantes aproximadamente. El valor P indica que la la relación entre elDesempleo y los Homicidios si es significativa. El coeficiente R-cuadrado(Multiple R-squared) muestra la eficiencia del modelo para realizar la comparación.

d. Validación de supuestos

plot(modelo)

Se espera que los residuales no muestren ningún comportamiento y que la aleatoridad se cumpla. Sin embargo, este no es el caso ya el gráfico indica que no se presenta que la relación entre las variables sea lineal.

El gráfico de normalidad no presenta un comportamiento completamente lineal, debido a que hay datos que estan alejados de la línea de distribución.

Para mejorar la situación de los datos obtenidos, se debe realizar una transformación en el modelo.

Transformación

modelo1=lm(log(Homicidios)~Desempleo)
summary(modelo1)

## 
## Call:
## lm(formula = log(Homicidios) ~ Desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## Desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16

Para interpretar el valor estimado de la variable Desempleo se debe destransformar y utilizar una exponencial.

Se utiliza esta transformcaión principalmente para que mejoren los residuales. Si se observa el coeficiente R-cuadrado, este expone que la eficiencia de este modelo es mejor que el modelo anterior.

plot(modelo1)

La transformación mejoró la aleatoridad de los resuduales y la normalidad presenta un comportamiento lineal

e. Predicción

predict(modelo1, newdata = list(Desempleo=11))

##        1 
## 4.319804

Después de hallar el modelo más adecuado. El resultado que mostró la predicción no se puede interpretar ya que esta en logaritmo, se debe destransformar y usar la exponencial.

exp(predict(modelo1, newdata = list(Desempleo=11)))

##        1 
## 75.17389

Si se disminuye el Desempleo a un 11%, se espera que dentro de una comunidad, los casos de Homicidio por cada 100mil habitantes sean de 75.17 aproximadamente.

Actividad regresión lineal