Módulo 1 - Métodos estadísticos para análisis de datos

Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las características que describe su nivel de pobreza y/o condiciones de vida.

En este caso ha escogido un par de variables (porcentajes de desempleo y tasa de homicidios-numero de casos por cada 100.000 habitantes), las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación.

library(readxl)
casovideo <- read_excel("C:/Users/TELEMATICA/Desktop/BASES PARA R/casovideo.xlsx")
attach(casovideo)
View(casovideo)

RESOLVER LAS SIGUIENTE PREGUNTAS: a. Construya el diagrama de dispersión. Comente este gráfico

library(plotly)
library(ggplot2)
graf <- ggplot(casovideo, aes(x=desempleo, y=homicidios)) +
  geom_point(colour="red")+
  xlab("Desempleo") + 
  ylab("Homidicios") + 
  ggtitle("Gráfica de Dispersión Desempleo vs Homicidios")

graf

En el anteriro gráfico de dispersión podemos evidenciar que no hay una relación lineal

Halle el coeficiente de correlación, interprete y determine si es significativo.

cor(desempleo, homicidios)

## [1] 0.9608183

Con un coeficiente de correlación de 0.96 nos da a conoce que existe un relacion muy fuerte, y que el desempleo de esta comunidad está muy asociada con la tasa de homicidios. Por esta razono con un buen programa ayude a disminuir los indices de desempleo, se se podria evidenciar que los índices de homicidios también disminuyan.

Estime el correspondiente modelo lineal e interprete la pendiente del modelo.

mod <- lm(homicidios~desempleo)

summary(mod)

## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Si para el caso se incrementa en 1% el desempleo, se evidenciaria un incremento en la tasa de homicidio de mas de 63 casos por cada 100.000 habitantes.

Valide los supuestos del modelo.

par(mfrow=c(2,2))

plot(mod)

En el modelo R-squared: 0.9232,el grafico de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estos datos tienen un comportamiento no lineal. Mostrando una componente sistemática que se podría incorporar al modelo.

Realizamos una transformación sobre la variable de respuesta utilizando un logaritmo.

mod <- lm(log(homicidios)~desempleo)
summary(mod)

## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16

par(mfrow=c(2,2))
plot(mod)

Con lo anterior se logra evidenciar un considerable mejora en la aleatoriedad de los residuales y la normalidad. El nuevo R-squared: 0.9937, es mucho mejor que el R-Squared de 0.92.

Estime la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%.

predict(mod, newdata = list(desempleo=11))

##        1 
## 4.319804

Este resultado de la función de 4.32 no se encuentran en las unidades originales de homicidio, en casos por cada 100.000 habotantes. Hay que destransformarlo con el exponencial inversa al logaritmo

exp(predict(mod, newdata = list(desempleo=11)))

##        1 
## 75.17389

Si se establece un mecanismo en donde el desempleo se logre disminuir en un 11%, lo que se esperaria del resultado es que los homicidios lleguen a 75 casos por cada 100.000 habitantes.

Módulo 1 - Métodos estadísticos para análisis de datos

HERMILSO CRUZ VALENCIA

2022-05-09