##Ejemplo de regresión.
#Datos que usaremos
library(readxl)
caso <- read_excel("caso.xlsx")
View(caso)
##Anexamos las librerias
if(!require(ggplot2)) install.packages("ggplot2")
if(!require(plotly)) install.packages("plotly")
if(!require(forecast)) install.packages("forecast")
if(!require(tseries)) install.packages("tseries")
if(!require(fGarch)) install.packages("fGarch")
if(!require(GGally)) install.packages("GGally")
if(!require(fBasics)) install.packages("fBasics")
if(!require(timeDate)) install.packages("timeDate")
if(!require(corrplot)) install.packages("corrplot")
Guía metodología:
1.Planteamiento del problema desde la economía y 2. Especificaciones del modelo matemático
Se pretende estudiar, a partir de un modelo de regresión, la dependencia de la una variable dependiente respecto a una o mas variables independientes o regresoras con el fin de estimar la media o el valor promedio poblacional de la primera en términos de valores fijos de las segundas.
En cuyo caso, se pretende establecer si existe una dependencia entre los niveles de violencia de una comunidad y alguna de las características que describen su nivel de pobreza.
Utilizaremos un modelo de regresión simple para encontrar si existe dependencia o no entre las variables a analizar. dos variables: porcentaje de desempleados y la tasa de homicidios (número de casos por cada 100.000 habitantes)
Los datos se obtienen a partir de una muestra de cuarenta observaciones realizadas durante los últimos cuatro 40 meses.
Hipótesis de trabajo: A mayor desempleo se espera que la violencia sea más alta: relación directa o positiva
Posteriormente, calcularemos el coeficiente de correlación de Person, que mide relaciones lineales.
Luego de lo anteriores, realizaremos la estimación del modelo de regresión lineal e interpretación de coeficientes
Inferencia En esta ocasión, no contemplaremos la prueba de hipótesis o intervalos de confianza para realizar la validación de los supuestos del modelo. En cuyo caso, realizaremos otros métodos para observar si se cumplen o no los supuesto del MRLS.
Predicción
Este punto se coliga con la interpretación de los estimadores en relación a los datos obtenidos a partir de la regresión.
En esta ocasión estableceremos si el modelo es significativamente útil para establecer la relación de la variable dependiente respecto a la variable independiente.
##Anexamos una nueva hipótesis. Se estimará la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%
##Desarrollo
#1. Realizaremos el gráfico
attach(caso) ##comando para llamar directamete la variable que necesito
plot(caso)
plot(desempleo,homicidios, pch=16) ##comando pch me permite cambiar la forma de los puntos.
En este caso, presentamos una relación directa entre el número de homicidios y el desempleo. Aunque, como se ve en la figura, no es una relación lineal.
#2). Calcualaremos el coeficneite de correlaicón.
cor(desempleo,homicidios)
## [1] 0.9608183
##nota: de aparecer una observación cualitativa o de no contemplarse en las observaciones, podemos usar el siguiente comando para obligar a R a tomar solo los valores conpletos.
cor(desempleo, homicidios,use = "complete.obs")
## [1] 0.9608183
Como sabes el máximo valor que puede tomar el coeficiente es 1. Pues se trata de un porcentaje. Así, a mayor acercamiento al 1, contemplamos una relación alta. En este caso, el .96 refleja una asociación muy fuerte entre el número de desempleados y el número de homicidios. En cuyo caso, si realizamos una política de choque contra el desempleo se esperaría, dado la asociación que contemplan, una disminución en la tasa de homicidios
##3) y 5). Realizamos el modelo de regresíon simple.
#En este caso, tomamos la varible regresada como el número de homicidios y la varibles regresora como el númeor de desemplados.
#Modelo de Regresión Linea Simple
mod=lm(homicidios~desempleo)
summary(mod)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Interpretación
Respecto a los residuales, contemplamos lo siguiente: se presenta una disparidad respecto al máximo y el mínimo, pues se presenta una asimetría en los datos. En este caso, presentamos mayor número de datos en el lado derecho. Asimismo, la media y la medida(cuartil dos, que divide en 50% los datos) es diferente, por lo que presentamos inconsistencias en la normalidad que se espera tengan los datos: media y mediana iguales, con varianza constante.
Respecto al p-valor, que en este caso es el mínimo valor de probabilidad para cometer errores, es menor al nivel de significancia o nivel de error que, en este caso, se toma como ,05. Por tal motivo, se rechaza la hipótesis nula, que establece que el modelo no es significativo. En consecuencia, el modelo si es significativo.
Por otro lado, tanto el R-squared Múltiple como el R-squared ajustado muestra que la variable es significativa a la hora de explicar la variable dependiente. Así, se presenta que el modelo explica de manera educada como el desempleo influye en la variación de la tasa de homicidios: explica cerca del 92.12%.
Ahora bien, como el modelo es lineal-lineal, los cambios son unitarios en cada una de las variables, tanto explicativas como explicadas. En este caso, contemplando en la interpretación el porcentaje en que se encuentra la variable desempleo (que se tiene en tasa) y el homicidios (por 100.000 habitantes)
Respecto al intercepto, podemos decir que es el valor que toma la variable dependiente, en este caso, la variable de homicidios cuando no depende de ninguna variable; es decir, se contempla un modelo matemático determinista, pues presentamos de variables con valores fijos que determinen la variable regresada.
Respecto al coeficiente, podemos contemplar las siguientes interpretaciones; a saber:
Nota: al no contemplar más variables explicativas o exógenas, no es necesario estipular el supuesto de ceteris paribus.
Un cambio unitario en la tasa de desempleo repercute en 63.751 en relación al número de homicidios presentados por cada 100.000 habitantes, con un nivel de significancia de casi el 100%.
ó
Un cambio en el número de 63.751 homicidios por cada 100.000 habitantes es explicado por un cambio unitario en la tasa de desempleo, con un nivel de significancia de casi el 100%.
En este caso, ambas interpretaciones son válidas. Así, presentamos una alta tasa de significancia respecto a la asociación de estas variables, a la vez que el desempleo explica, de manera significativa, las variaciones unitarias en la tasa de homicidios.
Contemplamos, asimismo, 38 grados de libertad, en cuyo caso, contemplamos más observaciones que variables explicativas.
.
#6). Validación de supuestos del MRLS
#Gráfica que muestra la disperción de los residuales
par(mfrow=c(2,2)) ##función par, en conjunto con la función plot me ayuda a compaginar los gráficos que tengo.
plot(mod)
Interpretación
Continuación de supuestos.
A grandes rasgos, la primera gráfica nos muestra que los residuales presentan un comportamiento aleatorio. En consecuencia, los residuales contemplan un comportamiento sistemático que, eventualmente, se pueden incluir en el modelo. En ese caso, se puede decir que la asociación lineal que estábamos suponiendo en los homicidios no es tan lineal como habíamos pensado. En consecuencia, se espera reformular la forma funcional del modelo en aras de encontrar una mejor reformulación en la interpretación. El segundo gráfico, por otro lado, nos muestra la distribución de los errores; en cuyo caso, se presenta cierta correlación lineal. Sin embargo, presentamos datos atípicos, es decir, datos por fuera de la línea de regresión.
#linealidad: Dado los datos obtenidos, se puede decir que es lineal. Además, el modelo de regresión lineal trazado contempla las variables con coeficiente uno.
#Supuesto de Exogeneidad Estricta ##La Correlación entre error y variables expl. debe ser mínima Como presentamos una sola variable explicativa, no se presentan correlaciones entre la variable explicativa y el error.
##supuestos de grados de libertad Secumple, se presentan mayor número de obervaciones que varibles explicativas
#supuesto de no multicolinealidad las variables explicativas son linealmente independientes, en este caso, solo contemplamos una variable.
Nos centramos, dado que es un modelo con una sola variable explicativa, en el supuesto de perturbaciones específicas, que se centra en los errores.
Como se vio a partir del gráfico, no se cumple que los errores tengan homocedasticidad y no autocorrelación de manera completa. Por lo que se hace necesario cambiar la reformulación del modelo. En este caso, anexamos una transformación logarítmica en la variable dependiente o endógena.
De manera que tenemos lo siguiente:
##Perturbaciones Esfericas
#Homocedasticidad : igual dispersión entre los errores
#no autocorrelación entre errores
mod=lm(log(homicidios)~desempleo)
summary(mod)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
Cómo observamos, el cambio de escala en la variable regresada ha cambiado significativamente la distribución de los errores. Algo que corroboramos en las siguientes gráficas. Donde podemos observar menos datos atípicos. Sin embargo, debemos percatarnos que a la hora de realizar la interpretación, debemos de transformar la variable dependiente. Además de ello, contemplamos un r-ajustado mucho más significativo, presentando un modelo que explica, a partir de la variable del desempleo, 99% de los cambios dados en los homicidios.
##Gráficas en la nueva escala del modelo de RLS
par(mfrow=c(2,2))
plot(mod)
##Realizamos la re-tranformación de la varible dependendiente en aras de que no afecte la iterpretación. Para tal ejemplo, tomamos la hipótesis anterior:
Se estimará la tasa de homicidios para la eventualidad en la que el gobierno logre disminuir el desempleo a un nivel de 11%
exp(predict(mod, newdata= list(desempleo=11)))
## 1
## 75.17389
Así, tenemos que si el desempleo se reduce un 11% a partir de una política de choque del gobierno se espera tener un 75.17 mil en relación a la violencia por cada 100.000 habitantes.