library(readxl)
caso <- read_excel("C:/Users/Aleja/Downloads/caso.xlsx")
Ejemplo: Caso de Homicidios vs. Desempleo
Un investigador se encuentra interesado en determinar la existencia de algún tipo de relación entre los niveles de violencia de una comunidad y alguna de las caracteristicas que describe su nivel de pobreza y/o condiciones de vida.
En este caso ha escogido un par de variables (porcentaje de desempleo y tasa de homicidios-número de casoso por cada 100.000 habitantes), a las cuales les ha realizado un seguimiento durante los últimos 40 meses. Los registros se presentan a continuación:
head("C:/Users/Aleja/Downloads/caso.xlsx")
## [1] "C:/Users/Aleja/Downloads/caso.xlsx"
caso
## # A tibble: 40 x 3
## mes desempleo homicidios
## <dbl> <dbl> <dbl>
## 1 1 10.1 52.4
## 2 2 10.3 52.8
## 3 3 10.3 51.6
## 4 4 10.7 66.6
## 5 5 10.9 69.4
## 6 6 10.9 72.7
## 7 7 10.9 74.4
## 8 8 10.9 71.7
## 9 9 11.0 70.7
## 10 10 11.1 81.2
## # ... with 30 more rows
La base de datos cuenta con 2 variables: Tasa de desempleo (%) y Homicidios (número de casoso por cada 100.000 habitantes).
Diagrama de dispersión
attach(caso)
plot(desempleo,homicidios, pch=18, main= "Homicidios vs. Tasa de Desempleo (%)", ylab= "Homicidios", xlab="Tasa de Desempleo (%)")
Las variables presentes en el diagrama de dispersión (Tasa de desempleo (%) y Homicidios (número de casos por cada 100.000 habitantes)) parecen tener una distribución exponencial con una relación directa.
Coeficiente de Correlación de Pearson
cor(desempleo,homicidios)
## [1] 0.9608183
El coeficiente de correlación de Pearson tiene un rango entre [-1,1] y se interpreta de la siguiente manera: - Entre más cercano a -1 y 1 se encuentre el valor del coeficiente de correlación significa que hay mayor relación entre las variables. - Entre más cercano a 0 se encuentre el valor del coeficiente de correlación significa que hay menor relación entre las variables.
En este caso el coeficiente de correlación es 0.96, por lo que, este valor se acerca más a 1. Esto quiere decir es que hay mayor relación entre las variables (tasa de desempleo (%) y homicidios).
Regresión Lineal
mod1=lm(homicidios~desempleo)
summary(mod1)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Recordemos que el modelo de Regresión Líneal tiene esta forma:
*Y= B0+ B1X + E*
Y= Variable dependiente X= Variable independiente B0=Intercepto de línea con el eje “y” B1= Pendiente de Regresión Lineal E= Error Aleatorio
Una vez se tenga claro los conceptos, se puede identificar cual es la función de regresión lineal del ejercicio. Según el Modelo 1, la función sería así:
Y= -628.936 + 63.751X
Por cada 1% que aumente el desempleo se verá afectado aproximadamente 64 personas por cada 100.000 de habitantes.
Con el p-value se podría plantear como hipótesis: Ho: A mayor desempleo se espera que haya mayor violencia (relación directa o positiva) H1: A mayor desempleo se espera que haya menor violencia.
Como en este caso alfa es menor al p-value, se acepta la hipótesis nula (Ho). Entonce según el nivel de significancia (***) se afirma que a mayor desempleo se espera que haya mayor violencia.
Según el coeficiente de determinación r^2 se logra determinar que este modelo se ajusta a la función con un 92.32%.
Validación de Supuestos
par(mfrow=c(2,2))
plot(mod1)
Con la validación de supuestos es posible determinar que el primer diagrama de dispersión (Homicidios vs. Tasa de Desempleo (%)) indica lo contrario a la dispersión de los residuos y la distribución normal.Esto hace pensar que se está incluyendo otros factores dentro del error aleatorio que altera los valores de la función “Y”. Por lo tanto, es necesario corregir este error para el modelo de regresión (Modelo 1).
Errores identificados: - Los residuos no están dispersos de forma aleatoria sino que tienen una forma parabólica.
Para corregir estos errores es necesario hacer una tranformación (log) en la función “Y” (Modelo 2).
-Regresión Lineal con transformación (log)
mod2=lm(log(homicidios)~desempleo)
summary(mod2)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
El Modelo 2 presenta un coeficiente de determinación r^2 del 99.37% que es mejor comparado con el Modelo 1 que era 92.32%. La tranformación ayudó a mejorar el porcentaje que explica cúal es el modelo es más adecuado para este ejercicio.
Una vez aplicada la tranformación (log) al Modelo 2, la función de regresión lineal del ejercicio debería así:
Y= -1.027556 + 0.486124X
Sin embargo, tocaría destransformar la función para que fuese correcta:
exp(predict(mod2, newdata=list(desempleo=1)))
## 1
## 0.5819144
exp(-1.027556)
## [1] 0.3578806
Respuesta//
LA FUNCIÓN DEL MODELO LINEAL SIMPLE CORRESPONDE A: Y= 0.3578806 + 0.5819144X
Observar de nuevo los gráficos de los residuales y Normal Q-Q.
-Validación de Supuestos con transformación (log)
par(mfrow=c(2,2))
plot(mod2)
Con la transformación (log) del Modelo 2 se identifican 2 correciones:
-La gráfica de los residuales presentan puntos de forma aleatoria. - Los datos de Normal Q-Q se encuentran más cercanos a la pendiente.
Predicción
Recordar de destransformar la variable de homicidios para que dé en la escala real.
exp(predict(mod2, newdata=list(desempleo=11)))
## 1
## 75.17389
Si se logra disminuir el desempleo en un 11% se espera que la violencia de la ciudad sean aproximadamente 75.2 casos por cada 100.000 habitantes.
En conclusión, el diagrama de dispersión inicial no siempre muestra la relación directa que hay entre las variables, por consiguiente, es importante mirar que los datos cumplan con los supuestos. En este caso hubo que mirar la dispersión de los residuales, la distribución normal y el el coeficiente de determinación r^2. Finalmentle el Modelo 2 logra explicar la función del modelo de regresión lineal: Y= 0.3578806 + 0.5819144X.