A la hora de analizar datos, uno de los objetivos de estudio es determinar el grado de dependencia o asociación entre variables. Para ello, los estadísticos denominados coeficientes de correlación indican si existe o no esta asociación y permiten también saber el sentido en que se da esa asociación o correlación entre variables (positiva o negativa).
Para el propósito del presente informe, se trabajará con dos series de datos obtenidas del Banco de la República de Colombia. Una corresponde a la Tasa de Intervención de Política Monetaria, la cual es la tasa de interés mínima que cobra el Banco de la Republica a las entidades financieras por la liquidez que le suministra, regulando así la cantidad de dinero que circula en la economía; y la otra, es la Tasa de Inflación histórica del país, que tiene incidencia en el índice de precios al consumidor.
Lo que se busca, partiendo de estos datos, es establecer qué tipo de correlación existe entre la tasa de inflación y la tasa de intervención (o interés) de la política monetaria.
Para empezar el análisis, se carga el set de datos a R:
library(readxl)
Data_tallerRL <- read_excel("C:/Users/RICARDO NARVAEZ/OneDrive/Desktop/Data_tallerRL.xlsx")
Tasa_Inflacion <- Data_tallerRL$Inflacion
Tasa_Interes <- Data_tallerRL$`Tasa de intervención de política monetaria (%)`
dataf <- data.frame(Tasa_Inflacion,Tasa_Interes)
head(dataf)
## Tasa_Inflacion Tasa_Interes
## 1 7.36 12.65323
## 2 7.74 12.75000
## 3 8.35 13.00000
## 4 9.28 13.15323
## 5 10.15 13.25000
## 6 10.48 13.25000
Se realiza el gráfico de dispersión para visualizar el comportamiento de los datos:
Al observar el gráfico de dispersión, se puede inferir por el comportamiento de los puntos, que existe cierto nivel de correlación entre la tasa de inflación y la tasa de intervención, y que esta es positiva.
Para determinar qué coeficiente de correlación utilizar, es decir, si el Coeficiente de Pearson o el coeficiente de Spearman, es necesario realizar una prueba de normalidad a los datos. Realizando la gráfica Q-Q Plot se obtiene:
Al observar las representaciones gráficas obtenidas, los puntos no se ajustan a la línea diagonal trazada, lo que sugiere que los datos no se distribuyen normalmente. Para contrastar esta inferencia, se realiza la prueba de Shapiro-Wilk, obteniendo:
shapiro.test(Tasa_Interes)
##
## Shapiro-Wilk normality test
##
## data: Tasa_Interes
## W = 0.87442, p-value = 4.991e-15
shapiro.test(Tasa_Inflacion)
##
## Shapiro-Wilk normality test
##
## data: Tasa_Inflacion
## W = 0.93284, p-value = 1.808e-10
Para interpretar el resultado de la prueba de Shapiro-Wilk, se parte de que si el valor p es mayor que el nivel de significancia (se va a tomar por defecto un valor de 0.05), los datos presentan una distribución normal. Para el caso de los datos de tasa de interés e inflación, se observa que el valor p obtenido es significativamente inferior al nivel de significancia de 0.05, por lo que se rechaza la normalidad y se concluye que los datos no se distribuyen normalmente, tal como se había visualizado previamente con el grafico Q-Q Plot.
Descartado el supuesto de normalidad, no se puede aplicar la prueba de correlación de Pearson, por lo que se decide aplicar la Prueba de correlación de Spearman, la cual evalúa la relación monotónica entre dos variables, especialmente cuando las relaciones no son lineales.
El coeficiente de correlación de Spearman es un método no paramétrico, para el cual no es necesario hacer ninguna hipótesis acerca de la distribución que siguen los datos. El rango de valores que toma va desde -1 a 1, presentando un grado más fuerte de asociación entre más cerca se esté de los extremos y el signo indica si la relación funcional entre ambas variables es creciente o decreciente. Al aplicar la prueba se obtiene:
resultado_correlacion <- cor.test(Tasa_Inflacion, Tasa_Interes, method = "spearman")
## Warning in cor.test.default(Tasa_Inflacion, Tasa_Interes, method = "spearman"):
## Cannot compute exact p-value with ties
print(resultado_correlacion)
##
## Spearman's rank correlation rho
##
## data: Tasa_Inflacion and Tasa_Interes
## S = 625568, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8650719
El coeficiente Rho obtenido es de 0.8650719, el cual es un valor alto con signo positivo. Esto permite ver que existe una relación significativa entre la tasa de inflación y la tasa de intervención del banco de la república, con signo positivo, es decir, que conforme una variable crece, es probable que la otra variable también crezca y viceversa.
regresion <- lm(Tasa_Interes ~ Tasa_Inflacion, data = dataf)
summary(regresion)
##
## Call:
## lm(formula = Tasa_Interes ~ Tasa_Inflacion, data = dataf)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1673 -0.6124 0.1312 0.8700 7.3554
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.4874 0.2565 1.90 0.0583 .
## Tasa_Inflacion 1.1348 0.0408 27.81 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.051 on 301 degrees of freedom
## Multiple R-squared: 0.7199, Adjusted R-squared: 0.7189
## F-statistic: 773.5 on 1 and 301 DF, p-value: < 2.2e-16
De acuerdo con los coeficientes encontrados, si los datos quisieran modelarse siguiendo un modelo lineal, el modelo sería el siguiente: 1.1348X+0.4874+-2.051. Sin embargo, a pesar de que se obtuvo un coeficiente de correlación fuerte y un error residual bajo, se debe verificar la bondad de ajuste del modelo.
Como primer paso de verificación se estimará el % de desviación del Error Standard del residuo:
% Desviación: 2.051/Promedio de la variable dependiente % Desviación: 2.051/6.8=0.30056= 30%
Ese porcentaje de desviación sugiere que el modelo podría tener un ajuste aceptable.
El estadístico t es una medida utilizada en estadística inferencial para evaluar la significancia estadística de un coeficiente en un modelo de regresión. En el contexto de una regresión lineal, el estadístico t se calcula dividiendo el coeficiente estimado por su error estándar. F
El estadístico t sigue una distribución t de Student bajo la hipótesis nula de que el coeficiente estimado es igual a cero (es decir, no hay relación entre la variable independiente y la variable dependiente).
Si el valor absoluto del estadístico t es grande, indica que el coeficiente estimado es significativamente diferente de cero y, por lo tanto, sugiere que hay una relación significativa entre la variable independiente y la variable dependiente.
El valor p asociado al estadístico t indica la probabilidad de obtener un valor de estadístico t al menos tan extremo como el observado, si la verdadera relación entre las variables es nula. Por lo tanto, un valor p pequeño (por ejemplo, típicamente menor que 0.05) sugiere que el coeficiente es significativamente diferente de cero y que la relación entre las variables es estadísticamente significativa.
El estadístico t (t Stat) compara el tamaño del coeficiente estimado con su error estándar. Un valor absoluto grande de t indica que el coeficiente es significativamente diferente de cero. En nuestro caso, el valor absoluto de t para la pendiente es 27.811, lo que sugiere que la variable tiene un efecto significativo en la variable dependiente.
El signo del coeficiente indica la dirección del efecto de la variable independiente sobre la variable dependiente (positivo o negativo). En este caso, el coeficiente para la pendiente es 1.1348, lo que sugiere que un incremento de una unidad en la variable independiente se asocia con un incremento de 1.1348 unidades en la variable dependiente.
El valor p asociado al estadístico t indica la probabilidad de obtener un valor de t al menos tan extremo como el observado, si la verdadera relación entre las variables es nula (es decir, si el coeficiente es cero). Un valor p pequeño (generalmente menos de 0.05) sugiere que el coeficiente es significativamente diferente de cero y que la relación entre las variables es estadísticamente significativa. En nuestro ejemplo, el valor p es 2e-16, que es extremadamente pequeño y sugiere una significancia estadística muy alta para el coeficiente de la pendiente
En resumen, el análisis del estadístico t permite determinar si los coeficientes estimados son significativamente diferentes de cero y, por lo tanto, si las variables independientes tienen un efecto significativo en la variable dependiente. En este caso pareciera que la pendiente tiene un efecto altamente significativo en la variable dependiente, sin embargo el intercepto calculado no es el optimo en el modelo planteado.
anova(regresion)
## Analysis of Variance Table
##
## Response: Tasa_Interes
## Df Sum Sq Mean Sq F value Pr(>F)
## Tasa_Inflacion 1 3252.3 3252.3 773.47 < 2.2e-16 ***
## Residuals 301 1265.7 4.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El segundo bloque de información se titula ANOVA, que significa Análisis de la Varianza (Analysis Of Variance). Nuestro interés en esta sección es la columna marcada como F. Se trata de los valores del estadístico F calculados para la hipótesis nula de que todos los coeficientes son iguales a cero frente a la alternativa de que al menos uno de los coeficientes no es igual a cero.
En la columna “Significance F” (Significación F) se encuentra el valor p de esta prueba. En este caso, el valor de Significancia F es 2.2e-16, lo que significa que es muy cercano a cero y sugiere una significancia estadística muy alta.
Dado que el valor de significancia F es muy pequeño, podemos concluir que el modelo de regresión es significativo en general y que al menos una de las variables independientes tiene un efecto significativo en la variable dependiente. Esto es bueno: significa que al menos uno de los coeficientes es significativamente diferente de cero, por lo que tiene un efecto sobre el valor de Y.
par(mfrow = c(2, 2))
plot(regresion)
library(visreg)
## Warning: package 'visreg' was built under R version 4.3.3
par(mfrow = c(1, 1))
visreg(regresion, "Tasa_Inflacion", partial = F)
library(ggplot2)#ggplot2 es una extension poderosa para graficar
ggplot(regresion, aes(x=Tasa_Inflacion, y=Tasa_Interes)) +
geom_point(shape=1) + # genera circulos en el grafico
geom_smooth(method=lm) # adjunta la linea de regresion por defecto es al 95% de confianza
## `geom_smooth()` using formula = 'y ~ x'
Si bien los ejercicios anteriores sugieren que las variables tienen una buena correlación, que el modelo tiene una desviación baja, al graficar los datos reales junto con la ecuación del modelo y La “franja de homocedasticidad” nos damos cuenta de que nuestros datos están por fuera de la región de homocedasticidad y que no serviría para hacer una predicción real. Es franja es la región donde se espera que la varianza de los residuos del modelo de regresión sea constante. En otras palabras, la homocedasticidad significa que la dispersión de los residuos alrededor de la línea de regresión es constante en toda la gama de valores de la variable independiente.
shapiro.test(resid(regresion))
##
## Shapiro-Wilk normality test
##
## data: resid(regresion)
## W = 0.927, p-value = 5.055e-11
library(car)
## Loading required package: carData
ncvTest(regresion)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 186.2239, Df = 1, p = < 2.22e-16
Tasa de intervención de politica monentaria: https://www.banrep.gov.co/es/estadisticas/tasas-interes-politica-monetaria
Tasa de inflación: https://www.banrep.gov.co/es/estadisticas/inflacion-total-y-meta
Correlación y regresión lineal: https://rpubs.com/osoramirez/316691
Prueba de hipótesis: https://rpubs.com/KarolZ/1119798