##Casos de homicidios Vs. desempleo
Un investigador esta interesado en determinar la existecia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.
library(readxl)
Casos_DyV <- read_excel("C:/Users/beatriz/beatriz/bioestadistica/Casos_DyV.xlsx")
View(Casos_DyV)
head(Casos_DyV)
## # A tibble: 6 x 3
## Mes Desempleo Homicidios
## <dbl> <dbl> <dbl>
## 1 1 10.1 52.4
## 2 2 10.3 52.8
## 3 3 10.3 51.6
## 4 4 10.7 66.6
## 5 5 10.9 69.4
## 6 6 10.9 72.7
attach(Casos_DyV)
plot(Desempleo, Homicidios, pch=15)
El gráfico muestra una relación directa con crecimiento exponencial entre Desempleo y Homicidios.
cor(Desempleo, Homicidios)
## [1] 0.9608183
Este valor indica que la relación entre las variables es muy fuerte, es decir que, entre más Desempleo haya en la comunidad, este influirá negativamente en las condiciones de vida de las personas y por ende la tasa de homicidios aumentará.
modelo=lm(Homicidios~Desempleo)
summary(modelo)
##
## Call:
## lm(formula = Homicidios ~ Desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## Desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Teniendo en cuenta el porcentaje de incremento del Desempleo, el estimado de los Homicidios tiene un aumento significativo; es decir que, si el Desempleo aumenta un 1%, la tasa de casos de homicidios sería de 63 de 100mil habitantes aproximadamente. El valor P indica que la la relación entre elDesempleo y los Homicidios si es significativa. El coeficiente R-cuadrado(Multiple R-squared) muestra la eficiencia del modelo para realizar la comparación.
plot(modelo)
Se espera que los residuales no muestren ningún comportamiento y que la aleatoridad se cumpla. Sin embargo, este no es el caso ya el gráfico indica que no se presenta que la relación entre las variables sea lineal.
El gráfico de normalidad no presenta un comportamiento completamente lineal, debido a que hay datos que estan alejados de la línea de distribución.
Para mejorar la situación de los datos obtenidos, se debe realizar una transformación en el modelo.
modelo1=lm(log(Homicidios)~Desempleo)
summary(modelo1)
##
## Call:
## lm(formula = log(Homicidios) ~ Desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## Desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
Para interpretar el valor estimado de la variable Desempleo se debe destransformar y utilizar una exponencial.
Se utiliza esta transformcaión principalmente para que mejoren los residuales. Si se observa el coeficiente R-cuadrado, este expone que la eficiencia de este modelo es mejor que el modelo anterior.
plot(modelo1)
La transformación mejoró la aleatoridad de los resuduales y la normalidad presenta un comportamiento lineal
predict(modelo1, newdata = list(Desempleo=11))
## 1
## 4.319804
Después de hallar el modelo más adecuado. El resultado que mostró la predicción no se puede interpretar ya que esta en logaritmo, se debe destransformar y usar la exponencial.
exp(predict(modelo1, newdata = list(Desempleo=11)))
## 1
## 75.17389
Si se disminuye el Desempleo a un 11%, se espera que dentro de una comunidad, los casos de Homicidio por cada 100mil habitantes sean de 75.17 aproximadamente.