Descargue el archivo de datos Datos Tarea 2.csv desde la carpeta Tarea 2.
El archivo contiene dos variables: \(y\) (PIB) y \(t\) (Tiempo). Son datos del PIB de un país ficticio durante 100 años.
El objetivo de esta tarea es encontrar el mejor modelo para el conjunto de datos, es decir, el mejor modelo para la variación del PIB con el tiempo. Pruebe tres modelos de los vistos en el curso:
Genere tres gráficos de dispersión:
# Paquetes
library(ggplot2)
# Cargar datos
df_datos = read.table("Datos Tarea 2.csv", header = T, sep = "|")
# Gráfico
ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point()
Se observa claramente que el PIB (y) va aumentando con el tiempo. Más aún, parece que el crecimiento no es lineal, sino de tipo exponencial o polinomial.
ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point() + geom_smooth()
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
El gráfico con la curva ajustada parece confirmar la sospecha de un crecimiento exponencial o polinomial.
ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point() + geom_smooth(method = lm)
## `geom_smooth()` using formula = 'y ~ x'
En cambio, una recta no parece ajustarse tan bien a los puntos de datos.
Encuentre el mejor modelo para los datos (15 puntos):
El mejor modelo se define como el que tiene mayores valores de las estadísticas \(R^2\) y \(F\).
Argumente su decisión, mostrando los resultados de sus regresiones (15 puntos).
Las especificaciones de cada uno de los modelos son las siguientes:
\[y = \beta_0 + \beta_1 t + u\]
\[log\ y = \beta_0 + \beta_1 log\ t + u\]
\[log\ y = \beta_0 + \beta_1 t + u\]
Se realiza una regresión para cada uno de los modelos:
summary(lm(data = df_datos, formula = y ~ t))
##
## Call:
## lm(formula = y ~ t, data = df_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.9654 -1.4506 0.0177 1.4412 6.9715
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.167656 0.486527 0.345 0.731
## t 0.129792 0.008364 15.518 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.414 on 98 degrees of freedom
## Multiple R-squared: 0.7107, Adjusted R-squared: 0.7078
## F-statistic: 240.8 on 1 and 98 DF, p-value: < 2.2e-16
El coeficiente de t es altamente significativo, y las estadísticas \(R^2\) y \(F\) son altos. Por lo tanto, el modelo lineal es un buen modelo.
summary(lm(data = df_datos, formula = log(y) ~ log(t)))
##
## Call:
## lm(formula = log(y) ~ log(t), data = df_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.04022 -0.26274 -0.06278 0.36786 1.07416
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.31070 0.16530 -1.88 0.0631 .
## log(t) 0.55187 0.04405 12.53 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4067 on 98 degrees of freedom
## Multiple R-squared: 0.6157, Adjusted R-squared: 0.6117
## F-statistic: 157 on 1 and 98 DF, p-value: < 2.2e-16
El coeficiente de t es altamente significativo, pero las estadísticas \(R^2\) y \(F\) son menores que en el modelo lineal. Por lo tanto, el modelo lineal es mejor, y se descarta el modelo logarítmico.
summary(lm(data = df_datos, formula = log(y) ~ t))
##
## Call:
## lm(formula = log(y) ~ t, data = df_datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.89750 -0.17118 0.03513 0.20919 0.65144
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.683059 0.059734 11.44 <2e-16 ***
## t 0.020072 0.001027 19.55 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2964 on 98 degrees of freedom
## Multiple R-squared: 0.7958, Adjusted R-squared: 0.7938
## F-statistic: 382 on 1 and 98 DF, p-value: < 2.2e-16
El coeficiente de t es altamente significativo, y además las estadísticas \(R^2\) y \(F\) son las más altas de los tres modelos. Por lo tanto, el modelo semilogarítmico es el mejor de los tres, y se elige este.
A partir de su mejor modelo, escriba la ecuación del modelo con \(y\) como función explícita de \(t\), de acuerdo a los apuntes de clases (8 puntos):
\[y = f(t)\] Explique una interpretación económica de \(y\) en función de \(t\) (7 puntos).
El modelo semilogarítmico es:
\[log\ y = \beta_0 + \beta_1 t + u\] Al realizar la regresión de \(log\ y\) sobre \(t\), obtenemos las estimaciones de \(\beta_0\) y \(\beta_1\):
\[\hat\beta_0 = 0.6831\] \[\hat\beta_1 = 0.0201\] Entonces el modelo ajustado es:
\[log\ \hat y = \hat\beta_0 + \hat\beta_1 t\] Exponenciar cada lado para despejar \(\hat y\) en función de \(t\):
\[\hat y = e^{\hat\beta_0 + \hat\beta_1 t}\] \[\therefore \hat y = e^{\hat\beta_0} e^{\hat\beta_1 t}\] Sustituir los valores:
\[\hat y = e^{0.6831} e^{0.0201 t}\] \[\therefore \hat y = 1.98 e^{0.0201 t}\] Esta es la ecuación del modelo con \(\hat y\) como función explícita de \(t\).
Como vimos en los apuntes de clases, este modelo corresponde a un crecimiento exponencial, donde \(\beta_1\) está asociado a la tasa de crecimiento constante (g):
\[\beta_1 = ln(1+g)\] De esta ecuación podemos estimar la tasa de crecimiento \(\hat g\) a partir de \(\hat\beta_1\): \[\hat g = e^{\hat\beta_1} - 1\] \[\therefore \hat g = e^{0.0201} - 1\] \[\therefore \hat g = 0.0203 = 2,03 \%\] Por lo tanto, el PIB del país ficticio de los datos crece a una tasa constante de aproximadamente 2,03%.
Los criterios de evaluación son:
Total: 60 puntos
Fórmula de conversión a la escala de notas 1-7:
\[Nota = \frac{p}{10} + 1\] donde p es el puntaje de 0 a 60.
\[----------------------------------------------------------\]