knitr::opts_chunk$set(warning = TRUE, message = TRUE)
library(readxl)
caso = read_excel("C:/Users/Julian/Downloads/caso.xlsx")
Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las caracterÃsticas que describe su nivel de pobreza y/o condiciones de vida.
En este caso ha escogido un par de variables (porcentajes de desempleo y tasa de homicidios-numero de casos por cada 100.000 habitantes), las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación.
a. Construya el diagrama de dispersión. Comente este gráfico.
Si bien se observa una relación positiva entre las dos variables, donde a mayor tasa de desempleo se observa una mayor tasa de homicidios, la forma de la gráfica parece indicar que esta relación no es lineal.
require(ggplot2)
## Loading required package: ggplot2
g1=ggplot(caso,aes(y=homicidios,x=desempleo))+geom_point()+geom_smooth()
g1
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
b. Halle el coeficiente de correlación, interprete y determine si es significativo.
El coeficiente nos indica una correlación positivay que esta sea alta de acuerdo al valor arrojado por el coeficiente de correlación de de 0,96 muy cercana a 1
cor(x=caso$desempleo,y=caso$homicidios)
## [1] 0.9608183
De acuerdo al modelo estimado por cada punto porcentual de cambio en el desempleo se espera un cambio de 63 casos por cada 100.000 habitantes, de acuerdo al sentido del cambio de la variable desempleo.
mod_hom=lm(homicidios~desempleo,data=caso)
mod_hom
##
## Call:
## lm(formula = homicidios ~ desempleo, data = caso)
##
## Coefficients:
## (Intercept) desempleo
## -628.94 63.75
Con los diferentes gráficos se observa una posible no normalidad de los residuos del modelo. En el histograma se observa como los datos se encuentran sesgados hacia la derecha, donde adicional se concentran hacia la cola izquierda, lo cual también nos habla de datos extremos que afectan la normalidad. En el grafico Q-Q se observan puntos que se alejan de la recta a lo largo de ella.
Finalmente al analizar los valores residuales frente a los valores ajustados, se observa que no existe una aleatoriedad, no existe una relación lineal, confirmando que posiblemente no exista una relación lineal entre las variables analizadas.
La transformación en logaritmo de la variable homicidios mejora el ajuste del modelo y el cumplimiento de los supuestos
hist(mod_hom$residuals)
qqnorm(mod_hom$residuals)
qqline(mod_hom$residuals,col="blue")
par(mfrow=c(2,2))
plot(mod_hom)
mod4=lm(log(homicidios)~desempleo,data=caso)
summary(mod4)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo, data = caso)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
plot(mod4)
e. Estime la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%.
exp(predict(mod4,newdata = list(desempleo=11)))
## 1
## 75.17389