Fecha de entrega: Jueves 06/11/2025 23:59

Instrucciones

  1. Informe Word
  2. Script R usado para las pruebas econométricas

Descargue el archivo de datos Datos Tarea 2.csv desde la carpeta Tarea 2.

El archivo contiene dos variables: \(y\) (PIB) y \(t\) (Tiempo). Son datos del PIB de un país ficticio durante 100 años.

El objetivo de esta tarea es encontrar el mejor modelo para el conjunto de datos, es decir, el mejor modelo para la variación del PIB con el tiempo. Pruebe tres modelos de los vistos en el curso:

  1. Modelo lineal
  2. Modelo logarítmico
  3. Modelo semilogarítmico

Pregunta 1 (15 puntos)

Genere tres gráficos de dispersión:

  1. Sin geom_smooth()
  2. geom_smooth() sin método lineal
  3. geom_smooth() con método lineal

Respuesta

i. Sin geom_smooth()

# Paquetes
library(ggplot2)

# Cargar datos
df_datos = read.table("Datos Tarea 2.csv", header = T, sep = "|")

# Gráfico
ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point()

Se observa claramente que el PIB (y) va aumentando con el tiempo. Más aún, parece que el crecimiento no es lineal, sino de tipo exponencial o polinomial.

ii. geom_smooth() sin método lineal

ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point() + geom_smooth()
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

El gráfico con la curva ajustada parece confirmar la sospecha de un crecimiento exponencial o polinomial.

iii. geom_smooth() con método lineal

ggplot(data = df_datos, mapping = aes(y=y, x=t)) + geom_point() + geom_smooth(method = lm)
## `geom_smooth()` using formula = 'y ~ x'

En cambio, una recta no parece ajustarse tan bien a los puntos de datos.

Pregunta 2 (30 puntos)

Encuentre el mejor modelo para los datos (15 puntos):

  1. Modelo lineal
  2. Modelo logarítmico
  3. Modelo semilogarítmico

El mejor modelo se define como el que tiene mayores valores de las estadísticas \(R^2\) y \(F\).

Argumente su decisión, mostrando los resultados de sus regresiones (15 puntos).

Respuesta

Las especificaciones de cada uno de los modelos son las siguientes:

  1. Modelo lineal:

\[y = \beta_0 + \beta_1 t + u\]

  1. Modelo logarítmico:

\[log\ y = \beta_0 + \beta_1 log\ t + u\]

  1. Modelo semilogarítmico:

\[log\ y = \beta_0 + \beta_1 t + u\]

Se realiza una regresión para cada uno de los modelos:

  1. Modelo lineal
summary(lm(data = df_datos, formula = y ~ t))
## 
## Call:
## lm(formula = y ~ t, data = df_datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.9654 -1.4506  0.0177  1.4412  6.9715 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.167656   0.486527   0.345    0.731    
## t           0.129792   0.008364  15.518   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.414 on 98 degrees of freedom
## Multiple R-squared:  0.7107, Adjusted R-squared:  0.7078 
## F-statistic: 240.8 on 1 and 98 DF,  p-value: < 2.2e-16

El coeficiente de t es altamente significativo, y las estadísticas \(R^2\) y \(F\) son altos. Por lo tanto, el modelo lineal es un buen modelo.

  1. Modelo logarítmico
summary(lm(data = df_datos, formula = log(y) ~ log(t)))
## 
## Call:
## lm(formula = log(y) ~ log(t), data = df_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.04022 -0.26274 -0.06278  0.36786  1.07416 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.31070    0.16530   -1.88   0.0631 .  
## log(t)       0.55187    0.04405   12.53   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4067 on 98 degrees of freedom
## Multiple R-squared:  0.6157, Adjusted R-squared:  0.6117 
## F-statistic:   157 on 1 and 98 DF,  p-value: < 2.2e-16

El coeficiente de t es altamente significativo, pero las estadísticas \(R^2\) y \(F\) son menores que en el modelo lineal. Por lo tanto, el modelo lineal es mejor, y se descarta el modelo logarítmico.

  1. Modelo semilogarítmico
summary(lm(data = df_datos, formula = log(y) ~ t))
## 
## Call:
## lm(formula = log(y) ~ t, data = df_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.89750 -0.17118  0.03513  0.20919  0.65144 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.683059   0.059734   11.44   <2e-16 ***
## t           0.020072   0.001027   19.55   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2964 on 98 degrees of freedom
## Multiple R-squared:  0.7958, Adjusted R-squared:  0.7938 
## F-statistic:   382 on 1 and 98 DF,  p-value: < 2.2e-16

El coeficiente de t es altamente significativo, y además las estadísticas \(R^2\) y \(F\) son las más altas de los tres modelos. Por lo tanto, el modelo semilogarítmico es el mejor de los tres, y se elige este.

Pregunta 3 (15 puntos)

A partir de su mejor modelo, escriba la ecuación del modelo con \(y\) como función explícita de \(t\), de acuerdo a los apuntes de clases (8 puntos):

\[y = f(t)\] Explique una interpretación económica de \(y\) en función de \(t\) (7 puntos).

Respuesta

El modelo semilogarítmico es:

\[log\ y = \beta_0 + \beta_1 t + u\] Al realizar la regresión de \(log\ y\) sobre \(t\), obtenemos las estimaciones de \(\beta_0\) y \(\beta_1\):

\[\hat\beta_0 = 0.6831\] \[\hat\beta_1 = 0.0201\] Entonces el modelo ajustado es:

\[log\ \hat y = \hat\beta_0 + \hat\beta_1 t\] Exponenciar cada lado para despejar \(\hat y\) en función de \(t\):

\[\hat y = e^{\hat\beta_0 + \hat\beta_1 t}\] \[\therefore \hat y = e^{\hat\beta_0} e^{\hat\beta_1 t}\] Sustituir los valores:

\[\hat y = e^{0.6831} e^{0.0201 t}\] \[\therefore \hat y = 1.98 e^{0.0201 t}\] Esta es la ecuación del modelo con \(\hat y\) como función explícita de \(t\).

Como vimos en los apuntes de clases, este modelo corresponde a un crecimiento exponencial, donde \(\beta_1\) está asociado a la tasa de crecimiento constante (g):

\[\beta_1 = ln(1+g)\] De esta ecuación podemos estimar la tasa de crecimiento \(\hat g\) a partir de \(\hat\beta_1\): \[\hat g = e^{\hat\beta_1} - 1\] \[\therefore \hat g = e^{0.0201} - 1\] \[\therefore \hat g = 0.0203 = 2,03 \%\] Por lo tanto, el PIB del país ficticio de los datos crece a una tasa constante de aproximadamente 2,03%.

Rúbrica de Evaluación

Los criterios de evaluación son:

Clasificación:
  • Clasificación correcta: 100%
  • Clasificación incorrecta: 0%
Argumentos y/o ecuaciones:
  • Argumento y/o ecuación correcta: 100%
  • Argumento y/o ecuación parcialmente correcta: 50%
  • Argumento y/o ecuación incorrecta: 0%

Total: 60 puntos

Fórmula de conversión a la escala de notas 1-7:

\[Nota = \frac{p}{10} + 1\] donde p es el puntaje de 0 a 60.

\[----------------------------------------------------------\]