DESARROLLO DE CASO DESEMPLEO vs HOMICIDIOS

En el presente documento se replica el ejercicio sobre el caso de la relación entre el nivel de desempleo y la tasa de homicidios en una determinada comunidad.

1.- Exploración de los datos.

library(readxl)
library(psych)


dh <- read_excel("caso.xlsx")
summary(dh)
##       mes          desempleo       homicidios    
##  Min.   : 1.00   Min.   :10.06   Min.   : 51.61  
##  1st Qu.:10.75   1st Qu.:11.19   1st Qu.: 80.72  
##  Median :20.50   Median :11.99   Median :121.38  
##  Mean   :20.50   Mean   :11.98   Mean   :134.61  
##  3rd Qu.:30.25   3rd Qu.:12.65   3rd Qu.:176.94  
##  Max.   :40.00   Max.   :14.02   Max.   :327.05
describe(dh)
vars n mean sd median trimmed mad min max range skew kurtosis se
mes 1 40 20.5000 11.6904519 20.50 20.50000 14.82600 1.00 40.00 39.00 0.0000000 -1.2903018 1.8484228
desempleo 2 40 11.9770 0.9694598 11.99 11.97969 1.11195 10.06 14.02 3.96 -0.0367245 -0.8035984 0.1532851
homicidios 3 40 134.6132 64.3246441 121.38 127.69500 67.35452 51.61 327.05 275.44 0.9173151 0.4521702 10.1706193

2.- Construcción de Gráfico de Dispersión

En el gráfico se observa una relación a priori directa entre el nivel de desempleo y la tasa de homicidios. Lo cual constituye la hipótesis del caso.

attach(dh)
plot(desempleo, homicidios)

3.- Coeficiente de Correlación R

El Coeficiente de Correlacion entre las variable es igual a 0.96; Lo cual indica que las variables estan fuertemente relacionadas.

cor(desempleo, homicidios)
## [1] 0.9608183

4.- Modelo Lineal Simple

Se aplica un Modelo Lineal al caso. Se obtiene un coeficiente Beta1 = 63.751 lo que indica que por cada unidad porcentual que aumenta el desempleo, se incrementa en 63.71 homicidios por cada 100mil habitantes en la comunidad bajo estudio. Se obtiene un P-valor que indica que el coeficiente Beta1 obtenido en el modelo es estadisticamente significativo. POr otro lado se obteine un Coefeciciente de Determinación R²=0.9232 bastante alto, lo que indica que el modelo logra explicar el 92% de la variailidad de la variable Y dependiente.

modelodh=lm(homicidios~desempleo, data=dh)
summary(modelodh)
## 
## Call:
## lm(formula = homicidios ~ desempleo, data = dh)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

5.- Validación de los supuestos del modelo

Se observa que el gráfico de valores residuales versus valores ajustados, no presenta una distribución aleatoria sino que muestra una linea de tendencia. Esto indica que los residuos presentan una compnente sistemática que el modelo debe ajustar. Posiblemente el comportamiento del caso estudiado tenga un comportamiento exponencial. En el gráfico Q-Q de normalidad también se observa que los datos no se ajustan a la normal.
En este caso se utliza una transformacion logaritmica sobre la variable Y del modelo. Este ajuste mejora sustancialmente los supuestos del modelo (Aleatoriedad y normalidad de los residuos) asi como también el parametro R².

par(mfrow=c(2,2))
plot(modelodh)

#Ajuste sobre el modelo plantenando una transformacion logaritmica.

modelodh_log = lm(log(homicidios)~desempleo, data=dh)
summary(modelodh_log)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo, data = dh)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(modelodh_log)

6.- Estimación de tasa de homicidios para nivel de desempleo del 11%

Sobre el modelo ajustado se procede a realizar una estimación de la tasa de homicidios para un nivel de desempleo del 11%. En la escala logaritmica de la variable y se obtiene un tasa de homicidios de 4.31. Se procede a emplear la función exponencial para obtener en la escala original de los datos el valor de la tasa de homicidios = 75.17 por cada 100mil habitantes.

predict(modelodh_log, list(desempleo=11))
##        1 
## 4.319804
exp(predict(modelodh_log, list(desempleo=11)))
##        1 
## 75.17389