Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.
En este caso ha escogido un par de variables (porcentajes de desempleo y tasa de homicidios-numero de casos por cada 100.000 habitantes), las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación.
library(readxl)
casovideo <- read_excel("C:/Users/TELEMATICA/Desktop/BASES PARA R/casovideo.xlsx")
attach(casovideo)
View(casovideo)
RESOLVER LAS SIGUIENTE PREGUNTAS: a. Construya el diagrama de dispersión. Comente este gráfico
library(plotly)
library(ggplot2)
graf <- ggplot(casovideo, aes(x=desempleo, y=homicidios)) +
geom_point(colour="red")+
xlab("Desempleo") +
ylab("Homidicios") +
ggtitle("Gráfica de Dispersión Desempleo vs Homicidios")
graf
En el anteriro gráfico de dispersión podemos evidenciar que no hay una relación lineal
cor(desempleo, homicidios)
## [1] 0.9608183
Con un coeficiente de correlación de 0.96 nos da a conoce que existe un relacion muy fuerte, y que el desempleo de esta comunidad está muy asociada con la tasa de homicidios. Por esta razono con un buen programa ayude a disminuir los indices de desempleo, se se podria evidenciar que los índices de homicidios también disminuyan.
mod <- lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Si para el caso se incrementa en 1% el desempleo, se evidenciaria un incremento en la tasa de homicidio de mas de 63 casos por cada 100.000 habitantes.
par(mfrow=c(2,2))
plot(mod)
En el modelo R-squared: 0.9232,el grafico de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estos datos tienen un comportamiento no lineal. Mostrando una componente sistemática que se podría incorporar al modelo.
Realizamos una transformación sobre la variable de respuesta utilizando un logaritmo.
mod <- lm(log(homicidios)~desempleo)
summary(mod)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(mod)
Con lo anterior se logra evidenciar un considerable mejora en la aleatoriedad de los residuales y la normalidad. El nuevo R-squared: 0.9937, es mucho mejor que el R-Squared de 0.92.
predict(mod, newdata = list(desempleo=11))
## 1
## 4.319804
Este resultado de la función de 4.32 no se encuentran en las unidades originales de homicidio, en casos por cada 100.000 habotantes. Hay que destransformarlo con el exponencial inversa al logaritmo
exp(predict(mod, newdata = list(desempleo=11)))
## 1
## 75.17389
Si se establece un mecanismo en donde el desempleo se logre disminuir en un 11%, lo que se esperaria del resultado es que los homicidios lleguen a 75 casos por cada 100.000 habitantes.