En el presente documento se replica el ejercicio sobre el caso de la relación entre el nivel de desempleo y la tasa de homicidios en una determinada comunidad.
library(readxl)
library(psych)
dh <- read_excel("caso.xlsx")
summary(dh)
## mes desempleo homicidios
## Min. : 1.00 Min. :10.06 Min. : 51.61
## 1st Qu.:10.75 1st Qu.:11.19 1st Qu.: 80.72
## Median :20.50 Median :11.99 Median :121.38
## Mean :20.50 Mean :11.98 Mean :134.61
## 3rd Qu.:30.25 3rd Qu.:12.65 3rd Qu.:176.94
## Max. :40.00 Max. :14.02 Max. :327.05
describe(dh)
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| mes | 1 | 40 | 20.5000 | 11.6904519 | 20.50 | 20.50000 | 14.82600 | 1.00 | 40.00 | 39.00 | 0.0000000 | -1.2903018 | 1.8484228 |
| desempleo | 2 | 40 | 11.9770 | 0.9694598 | 11.99 | 11.97969 | 1.11195 | 10.06 | 14.02 | 3.96 | -0.0367245 | -0.8035984 | 0.1532851 |
| homicidios | 3 | 40 | 134.6132 | 64.3246441 | 121.38 | 127.69500 | 67.35452 | 51.61 | 327.05 | 275.44 | 0.9173151 | 0.4521702 | 10.1706193 |
En el gráfico se observa una relación a priori directa entre el nivel de desempleo y la tasa de homicidios. Lo cual constituye la hipótesis del caso.
attach(dh)
plot(desempleo, homicidios)
El Coeficiente de Correlacion entre las variable es igual a 0.96; Lo cual indica que las variables estan fuertemente relacionadas.
cor(desempleo, homicidios)
## [1] 0.9608183
Se aplica un Modelo Lineal al caso. Se obtiene un coeficiente Beta1 = 63.751 lo que indica que por cada unidad porcentual que aumenta el desempleo, se incrementa en 63.71 homicidios por cada 100mil habitantes en la comunidad bajo estudio. Se obtiene un P-valor que indica que el coeficiente Beta1 obtenido en el modelo es estadisticamente significativo. POr otro lado se obteine un Coefeciciente de Determinación R²=0.9232 bastante alto, lo que indica que el modelo logra explicar el 92% de la variailidad de la variable Y dependiente.
modelodh=lm(homicidios~desempleo, data=dh)
summary(modelodh)
##
## Call:
## lm(formula = homicidios ~ desempleo, data = dh)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Se observa que el gráfico de valores residuales versus valores ajustados, no presenta una distribución aleatoria sino que muestra una linea de tendencia. Esto indica que los residuos presentan una compnente sistemática que el modelo debe ajustar. Posiblemente el comportamiento del caso estudiado tenga un comportamiento exponencial. En el gráfico Q-Q de normalidad también se observa que los datos no se ajustan a la normal.
En este caso se utliza una transformacion logaritmica sobre la variable Y del modelo. Este ajuste mejora sustancialmente los supuestos del modelo (Aleatoriedad y normalidad de los residuos) asi como también el parametro R².
par(mfrow=c(2,2))
plot(modelodh)
#Ajuste sobre el modelo plantenando una transformacion logaritmica.
modelodh_log = lm(log(homicidios)~desempleo, data=dh)
summary(modelodh_log)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo, data = dh)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(modelodh_log)
Sobre el modelo ajustado se procede a realizar una estimación de la tasa de homicidios para un nivel de desempleo del 11%. En la escala logaritmica de la variable y se obtiene un tasa de homicidios de 4.31. Se procede a emplear la función exponencial para obtener en la escala original de los datos el valor de la tasa de homicidios = 75.17 por cada 100mil habitantes.
predict(modelodh_log, list(desempleo=11))
## 1
## 4.319804
exp(predict(modelodh_log, list(desempleo=11)))
## 1
## 75.17389