Descargue los cinco archivos de datos desde la carpeta Tarea 2:
Cada conjunto de datos tiene dos variables de series de tiempo: \(y_t\) y \(x_t\). Para cada conjunto de datos, hay cinco posibilidades de relación entre las variables \(y\) y \(x\):
Use el método Engle-Granger para determinar cual es la relación entre \(y\) y \(x\) en cada conjunto de datos.
Escriba un informe en Word explicando su método realizado, sus resultados y conclusiones. El informe debe ser conciso, sin verbosidad, y debe dar argumentos econométricos rigurosos para clasificar cada conjunto de datos en las cinco posibilidades de relación.
El informe debe tener la siguiente estructura:
Escriba un solo informe. En el método, explique lo que hizo para cada uno de los cinco conjuntos de datos, y asimismo en los resultados y conclusiones.
¡Importante! Procure hacer, para cada conjunto de datos, un gráfico de serie de tiempo y un gráfico de dispersión, para tener un conocimiento intuitivo de los datos y entender lo que está pasando.
Al final, suba su informe y su script R usado para realizar las pruebas Engle-Granger a la carpeta Entregar Tarea 2.
El análisis de cada conjunto de datos tiene el mismo puntaje: 20 puntos. Los criterios de evaluación para cada parte son:
Total: 100 puntos
Fórmula de conversión a la escala de notas 1-7:
\[Nota = \frac{6p}{100} + 1\] donde p es el puntaje de 0 a 100.
Para calcular las primeras y segundas diferencias, usen las siguientes fórmulas:
\[\Delta y_t = y_t - y_{t-1}\] \[\Delta^2 y_t = \Delta y_t - \Delta y_{t-1}\]
¡Suerte!
En este trabajo se usa el método Engle-Granger para determinar la relación entre dos variables \(y\) y \(x\) de cinco conjuntos de datos, clasificando la relación en uno de los siguientes tipos:
Los conjuntos de datos están en cinco archivos de formato csv, con los siguientes nombres:
Para cada conjunto de datos, se aplicó el método Engle-Granger, el cual consiste en los siguientes pasos:
Se presenta el código R y los resultados para cada conjunto de datos por separado.
df = read.table("Tarea 2 - Datos 1.csv", header = T, sep = "|")
# Time series plot
ggplot(data = df, mapping = aes(x=t)) +
geom_line(mapping = aes(y=x), color="red") +
geom_line(mapping = aes(y=y), color="blue")
# Scatterplot
ggplot(data = df, mapping = aes(x=x, y=y)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
# Engle-Granger method
# 1. Test each variable for stationarity
adf.test(df$x)
##
## Augmented Dickey-Fuller Test
##
## data: df$x
## Dickey-Fuller = -3.9226, Lag order = 4, p-value = 0.01577
## alternative hypothesis: stationary
adf.test(df$y)
##
## Augmented Dickey-Fuller Test
##
## data: df$y
## Dickey-Fuller = -3.876, Lag order = 4, p-value = 0.01802
## alternative hypothesis: stationary
summary(lm(data = df, formula = y ~ x))
##
## Call:
## lm(formula = y ~ x, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2404 -1.0668 0.0520 0.8913 3.8337
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.01691 0.14576 0.116 0.908
## x 0.02442 0.09960 0.245 0.807
##
## Residual standard error: 1.453 on 98 degrees of freedom
## Multiple R-squared: 0.000613, Adjusted R-squared: -0.009585
## F-statistic: 0.06012 on 1 and 98 DF, p-value: 0.8068
# Both stationary and no relation
Los valores p de la prueba Dickey-Fuller para estacionariedad son menores que 0.05 para cada variable. Por ende se puede rechazar la hipótesis nula de no estacionariedad a la significancia del 5%, concluyendo que las variables son estacionarias. Por consiguiente, las variables están cointegradas por definición.
Por otro lado, los valores p de los coeficientes de la regresión de \(y\) sobre \(x\) son grandes, incluso más que 0.1, lo cual significa que no son significativos. Por ende, el conjunto de datos 1 se clasifica como estacionarias sin relación.
df = read.table("Tarea 2 - Datos 2.csv", header = T, sep = "|")
# Time series plot
ggplot(data = df, mapping = aes(x=t)) +
geom_line(mapping = aes(y=x), color="red") +
geom_line(mapping = aes(y=y), color="blue")
# Scatterplot
ggplot(data = df, mapping = aes(x=x, y=y)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
# Engle-Granger method
# 1. Test each variable for stationarity
adf.test(df$x)
## Warning in adf.test(df$x): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$x
## Dickey-Fuller = -4.2908, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
adf.test(df$y)
##
## Augmented Dickey-Fuller Test
##
## data: df$y
## Dickey-Fuller = -4.0386, Lag order = 4, p-value = 0.01017
## alternative hypothesis: stationary
# Regression
summary(lm(data = df, formula = y ~ x))
##
## Call:
## lm(formula = y ~ x, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.46150 -0.57358 0.03409 0.68074 1.78320
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.06295 0.08499 24.27 <2e-16 ***
## x 1.03892 0.05485 18.94 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8359 on 98 degrees of freedom
## Multiple R-squared: 0.7855, Adjusted R-squared: 0.7833
## F-statistic: 358.8 on 1 and 98 DF, p-value: < 2.2e-16
Similar al conjunto 1, los valores p de la prueba Dickey-Fuller para estacionariedad son menores que 0.05 para cada variable. Por ende se puede rechazar la hipótesis nula de no estacionariedad a la significancia del 5%, concluyendo que las variables son estacionarias. Por consiguiente, las variables están cointegradas por definición.
En cambio, para este conjunto de datos, los valores p de los coeficientes de la regresión de \(y\) sobre \(x\) son muy pequeños, \(< 2 \times 10^{-16}\), lo cual significa que son significativos. Por ende, el conjunto de datos 1 se clasifica como estacionarias con relación.
df = read.table("Tarea 2 - Datos 3.csv", header = T, sep = "|")
# Time series plot
ggplot(data = df, mapping = aes(x=t)) +
geom_line(mapping = aes(y=x), color="red") +
geom_line(mapping = aes(y=y), color="blue")
# Scatterplot
ggplot(data = df, mapping = aes(x=x, y=y)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
# Engle-Granger method
# 1.1 Test each variable for stationarity
adf.test(df$x)
##
## Augmented Dickey-Fuller Test
##
## data: df$x
## Dickey-Fuller = -3.2949, Lag order = 4, p-value = 0.07597
## alternative hypothesis: stationary
adf.test(df$y)
##
## Augmented Dickey-Fuller Test
##
## data: df$y
## Dickey-Fuller = -2.299, Lag order = 4, p-value = 0.4528
## alternative hypothesis: stationary
# 1.2 Orders of integration
df$x_1[2:TT] = df$x[1:(TT-1)]
df$y_1[2:TT] = df$y[1:(TT-1)]
df$Dx = df$x - df$x_1
df$Dy = df$y - df$y_1
adf.test(df$Dx[2:TT])
## Warning in adf.test(df$Dx[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dx[2:TT]
## Dickey-Fuller = -5.6361, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
adf.test(df$Dy[2:TT])
##
## Augmented Dickey-Fuller Test
##
## data: df$Dy[2:TT]
## Dickey-Fuller = -1.6853, Lag order = 4, p-value = 0.7069
## alternative hypothesis: stationary
df$y_2[3:TT] = df$y[1:(TT-2)]
df$Dy_1[2:TT] = df$Dy[1:(TT-1)]
df$D2y = df$Dy - df$Dy_1
adf.test(df$Dx[2:TT])
## Warning in adf.test(df$Dx[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dx[2:TT]
## Dickey-Fuller = -5.6361, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
adf.test(df$D2y[3:TT])
## Warning in adf.test(df$D2y[3:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$D2y[3:TT]
## Dickey-Fuller = -5.2216, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
Los valores p de la prueba Dickey-Fuller para estacionariedad son mayores que 0.05 para cada variable. Por ende no se puede rechazar la hipótesis nula de no estacionariedad, concluyendo que las variables son NO estacionarias.
Además, las variables son de distinto orden de integración. \(x\) es de orden de integración 1 mientras que \(y\) es de orden de integración 2. Por consiguiente, es imposible que estén cointegradas, y concluimos que la clasificación de la relación es No estacionarias, de distinto orden de integración.
df = read.table("Tarea 2 - Datos 4.csv", header = T, sep = "|")
# Time series plot
ggplot(data = df, mapping = aes(x=t)) +
geom_line(mapping = aes(y=x), color="red") +
geom_line(mapping = aes(y=y), color="blue")
# Scatterplot
ggplot(data = df, mapping = aes(x=x, y=y)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
# Engle-Granger method
# 1.1 Test each variable for stationarity
adf.test(df$x)
##
## Augmented Dickey-Fuller Test
##
## data: df$x
## Dickey-Fuller = -2.2825, Lag order = 4, p-value = 0.4596
## alternative hypothesis: stationary
adf.test(df$y)
##
## Augmented Dickey-Fuller Test
##
## data: df$y
## Dickey-Fuller = -2.4685, Lag order = 4, p-value = 0.3826
## alternative hypothesis: stationary
# 1.2 Orders of integration
df$x_1[2:TT] = df$x[1:(TT-1)]
df$y_1[2:TT] = df$y[1:(TT-1)]
df$Dx = df$x - df$x_1
df$Dy = df$y - df$y_1
adf.test(df$Dx[2:TT])
## Warning in adf.test(df$Dx[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dx[2:TT]
## Dickey-Fuller = -5.1442, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
adf.test(df$Dy[2:TT])
## Warning in adf.test(df$Dy[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dy[2:TT]
## Dickey-Fuller = -5.2606, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
# Equal orders of integration = 1
# 2. Regression
mod = lm(data = df, y ~ x)
summary(mod)
##
## Call:
## lm(formula = y ~ x, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.091 -4.569 -1.167 5.943 12.044
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -12.0437 0.6698 -17.981 < 2e-16 ***
## x 1.4002 0.2306 6.073 2.39e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.046 on 98 degrees of freedom
## Multiple R-squared: 0.2734, Adjusted R-squared: 0.266
## F-statistic: 36.88 on 1 and 98 DF, p-value: 2.394e-08
dwtest(mod)
##
## Durbin-Watson test
##
## data: mod
## DW = 0.061543, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
Los valores p de la prueba Dickey-Fuller para estacionariedad son mayores que 0.05 para cada variable. Por ende no se puede rechazar la hipótesis nula de no estacionariedad, concluyendo que las variables son NO estacionarias.
Las variables tienen el mismo orden de integración: orden 1.
En la regresión de \(y\) sobre \(x\), el coeficiente de \(x\) es altamente significativo. Sin embargo, la estadística Durbin-Watson es cercano a cero (\(DW ~ 0.06\)), por lo cual se concluye que \(y\) y \(x\) no están cointegradas. Por consiguiente, se clasifica a la relación como No estacionarias, igual orden de integración, sin relación, y por ende la aparente relación entre las variables es espuria.
df = read.table("Tarea 2 - Datos 5.csv", header = T, sep = "|")
# Time series plot
ggplot(data = df, mapping = aes(x=t)) +
geom_line(mapping = aes(y=x), color="red") +
geom_line(mapping = aes(y=y), color="blue")
# Scatterplot
ggplot(data = df, mapping = aes(x=x, y=y)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
# Engle-Granger method
# 1.1 Test each variable for stationarity
adf.test(df$x)
##
## Augmented Dickey-Fuller Test
##
## data: df$x
## Dickey-Fuller = -0.68029, Lag order = 4, p-value = 0.9695
## alternative hypothesis: stationary
adf.test(df$y)
##
## Augmented Dickey-Fuller Test
##
## data: df$y
## Dickey-Fuller = -0.9857, Lag order = 4, p-value = 0.9365
## alternative hypothesis: stationary
# 1.2 Orders of integration
df$x_1[2:TT] = df$x[1:(TT-1)]
df$y_1[2:TT] = df$y[1:(TT-1)]
df$Dx = df$x - df$x_1
df$Dy = df$y - df$y_1
adf.test(df$Dx[2:TT])
## Warning in adf.test(df$Dx[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dx[2:TT]
## Dickey-Fuller = -5.5965, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
adf.test(df$Dy[2:TT])
## Warning in adf.test(df$Dy[2:TT]): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: df$Dy[2:TT]
## Dickey-Fuller = -5.9713, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
# Equal orders of integration = 1
# 2. Regression
mod = lm(data = df, y ~ x)
summary(mod)
##
## Call:
## lm(formula = y ~ x, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9397 -0.6233 0.0048 0.5988 3.2272
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.97022 0.09991 19.72 <2e-16 ***
## x 1.03176 0.02755 37.45 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9511 on 98 degrees of freedom
## Multiple R-squared: 0.9347, Adjusted R-squared: 0.934
## F-statistic: 1403 on 1 and 98 DF, p-value: < 2.2e-16
dwtest(mod)
##
## Durbin-Watson test
##
## data: mod
## DW = 2.3631, p-value = 0.9587
## alternative hypothesis: true autocorrelation is greater than 0
Los valores p de la prueba Dickey-Fuller para estacionariedad son mayores que 0.05 para cada variable. Por ende no se puede rechazar la hipótesis nula de no estacionariedad, concluyendo que las variables son NO estacionarias.
Las variables tienen el mismo orden de integración: orden 1.
En la regresión de \(y\) sobre \(x\), el coeficiente de \(x\) es altamente significativo. Además, la estadística Durbin-Watson es mayor que 2 (\(DW ~ 2.4\)), por lo cual se concluye que \(y\) y \(x\) están cointegradas. Por consiguiente, se clasifica a la relación como No estacionarias, igual orden de integración, con relación, y por ende la relación entre las variables es real y no espuria.
La tabla a continuación muestra la clasificación de los conjuntos de datos en sus respectivos tipos de relación entre las variables.
| Conjunto de Datos | Clasificación |
|---|---|
| 1 | Estacionarias sin relación |
| 2 | Estacionarias con relación |
| 3 | No estacionarias, de distinto orden de integración |
| 4 | No estacionarias, igual orden de integración, sin relación |
| 5 | No estacionarias, igual orden de integración, con relación |
\[----------------------------------------------------------\]