Notas para el curso de Econometría

Presentación

En este curso se tiene como objetivo estudiar los fundamentos de la econometría, que es la rama de la economía que utiliza las técnicas estadísticas del análisis de regresión para analizar los fenómenos económicos.

Durante el curso será necesario el uso del software estadístico R. Para más información sobre el software visita la página oficial de R y la página de RStudio.

El álgebra matricial es una herramienta utilizada ampliamente en el análisis de regresión, por lo que se requiere un conocimiento básico de esta área de las matemáticas. Como referencia se puede consultar el documento The Matrix Cookbook, de Kaare Brandt Petersen y Michael Syskind Pedersen.

Esta aplicación web servirá como acompañamiento durante el curso; se actualizará semanalmente incluyendo material (tanto teórico como práctico) visto en clase. El material incluye resultados generados con R, como tablas, gráficas, modelos, etc. No se profundizará en el detalle del código; sin embargo, es posible desplegar u ocultar los chunks de código que generan cada serie de salidas de R. Un ejemplo:

a <- 1
b <- 2
a + b
## [1] 3

Temario

  • Introducción
  • Regresión lineal simple
    • Modelo téorico
    • Supuestos
    • Estimación de parámetros
    • Propiedades
    • Validación de supuestos
    • Transformaciones
  • Regresión lineal múltiple
    • Modelo téorico
    • Supuestos
    • Estimación de parámetros
    • Propiedades
    • Validación de supuestos
    • Transformaciones
  • Predicciones

Evaluación

La calificación final estará conformada por las notas de dos exámenes parciales, un examen final departamental, y varias tareas que podrán ser tanto teóricas como prácticas. Los porcentajes asignados serán:

  • 35% examen final departamental
  • 30% parcial más alto
  • 20% parcial más bajo
  • 15% tareas
  • 0% varias listas de ejercicios para prepararse para cada uno de los exámenes

1 Introducción

La econometría es una disciplina que busca hacer uso de métodos estadísticos para aplicarlos a datos económicos con el fin de analizar proposiciones de la teoría económica de manera empírica.

¿Qué implicaciones tiene esto?

En primer lugar, la econometría combina:

  • Teoría económica
  • Estadística matemática
  • Estadística descriptiva
  • Estadística inferencial

Además, como se trata una disciplina que depende en gran medida de la estadística, se puede clasificar en:

  • Econometría teórica
  • Econometría aplicada

Y, en función del enfoque de probabilidad que se emplee, se puede habar de

  • Econometría frecuentista
  • Econometría bayesiana

Asimismo, recordemos que los supuestos distribucionales en la estadística nos llevan a dos posibles tipos de inferencia:

  • Paramétrica
  • No paramétrica

Por lo tanto, podemos observar que la econometría, al final del día, es una aplicación particular de la estadística.

La herramienta clave en el estudio y aplicación de la econometría de la econometría es el análisis de regresión lineal, que forma parte del conjunto que llamamos modelos lineales generalizados.

El análisis de regresión

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre distintas variables. Cuenta con numerosas aplicaciones en diversos campos y es posiblemente la técnica estadística más ampliamente empleada.

En este curso analizaremos aplicaciones en las ciencias económicas, donde se plantearan modelos teóricos y se buscará validar los mismos a partir de información recolectada.

Además, no solamente aprenderemos a validar las relaciones entre variables, sino que también tendremos la posibilidad de cuantificarlas. Las relaciones planteadas a nivel teórico se denominan deterministas y las relaciones cuantificadas se denominan relaciones estadísticas.

Para llevar a cabo adecuadamente un análisis de regresión se deben tomar en consideración los siguientes aspectos:

El flujo de trabajo en econometría

library("DiagrammeR")

DiagrammeR::grViz("digraph {
  graph [layout = dot, rankdir = TB]
  
  node [shape = rectangle]        
  rec1 [label = 'Observación']
  rec2 [label = 'Formulación de hipótesis ']
  rec3 [label = 'Especificación del modelo matemático']
  rec4 [label = 'Especificación del modelo econométrico']
  rec5 [label = 'Recopilación de información']
  rec6 [label = 'Ajuste del modelo']
  rec7 [label = 'Validación de supuestos']
  rec8 [label = 'Uso del modelo']
  
  # Edge definitions with the node IDs
  rec1 -> rec2 -> rec3 -> rec4 -> rec5 -> rec6 -> rec7 -> rec8;
  rec7 -> rec3
  }", 
  height = 500)

Un ejemplo

Consideremos la siguiente información sobre PIB y gasto en los hogares para México obtenida de la página de World Development Indicators del Banco Mundial:

# Data souce: World Development Indicators
# Last updated: 28/05/20
# Searched: 2020-06-04

library(tidyverse)
library(knitr)
library(kableExtra)
library(formattable)

pib <- read_csv(file = "data/pib/API_NY.GDP.MKTP.CD_DS2_en_csv_v2_1120928.csv") %>% 
  filter(`Country Name` == "Mexico") %>% 
  gather(Año, PIB, -c(`Country Name`:`Indicator Code`)) %>% 
  drop_na() %>% 
  select(Año, PIB)

gasto <- read_csv(file = "data/gasto/API_NE.CON.TOTL.CD_DS2_en_csv_v2_1123253.csv") %>% 
  filter(`Country Name` == "Mexico") %>% 
  gather(Año, Gasto, -c(`Country Name`:`Indicator Code`)) %>% 
  drop_na() %>% 
  select(Año, Gasto)

base <- pib %>% 
  left_join(gasto) %>% 
  mutate(Año = factor(Año)) %>% 
  mutate_if(is.numeric, .funs = function(x){x/1000000000})

t1 <- base[1:20,]
t2 <- base[21:40,]
t3 <- base[41:59,]

kables(list(
  kable(t1, row.names = F) %>% kableExtra::kable_styling(),
  kable(t2, row.names = F) %>% kableExtra::kable_styling(),
  kable(t3, row.names = F) %>% kableExtra::kable_styling()))  %>%
  kableExtra::kable_styling(full_width = F) %>% 
  footnote(general = "Información obtenida de World Development Indicators. \n Valores en billones de dólares de mayo 2020.",
           fixed_small_size = T)
Año PIB Gasto
1960 13.04000 10.80519
1961 14.16000 11.69474
1962 15.20000 12.68013
1963 16.96000 13.77496
1964 20.08000 16.29423
1965 21.84000 17.34570
1966 24.32000 19.38934
1967 26.56000 21.20222
1968 29.36000 23.76526
1969 32.48000 25.93858
1970 35.52000 28.14120
1971 39.20000 31.68903
1972 45.20000 36.34446
1973 55.28000 44.03326
1974 72.00000 56.84898
1975 88.00000 69.55333
1976 89.02597 70.40756
1977 81.81416 63.05548
1978 102.50000 78.90484
1979 134.56100 101.32400
Año PIB Gasto
1980 205.139 145.978
1981 263.959 187.945
1982 184.609 125.212
1983 156.159 103.709
1984 184.261 127.006
1985 195.220 136.041
1986 134.550 100.388
1987 147.541 104.675
1988 181.612 139.280
1989 221.401 171.964
1990 261.254 204.816
1991 313.143 250.239
1992 363.158 297.222
1993 500.736 393.081
1994 527.813 412.220
1995 360.074 269.253
1996 410.976 308.200
1997 500.413 375.092
1998 526.502 396.005
1999 600.233 458.909
Año PIB Gasto
2000 707.907 548.298
2001 756.706 596.142
2002 772.106 617.992
2003 729.336 592.665
2004 782.241 616.481
2005 877.476 694.520
2006 975.387 756.978
2007 1052.700 816.586
2008 1109.990 862.041
2009 900.045 699.745
2010 1057.800 815.784
2011 1180.490 904.064
2012 1201.090 920.891
2013 1274.440 1002.480
2014 1314.560 1026.280
2015 1170.560 911.797
2016 1077.900 836.164
2017 1157.740 890.246
2018 1220.700 933.041
Note:
Información obtenida de World Development Indicators.
Valores en billones de dólares de mayo 2020.

Observemos en la siguiente gráfica que existe una clara relación lineal entre ambas variables. De hecho, es posible trazar una línea recta que describa el comportamiento general de estas dos variables (relación funcional empírica).

base %>% 
  ggplot(aes(x = PIB, y = Gasto)) +
  geom_point(color = "black") +
  geom_smooth(method = "lm", color = "royal blue", size = 0.5) +
  coord_equal() +
  labs(x = "PIB (Millones USD)", y = "Gasto (Millones USD)") +
  theme_light() +
  theme(panel.border = element_blank(), 
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(), 
        axis.line = element_line(colour ="black"))

De hecho, se tiene que la línea recta que describe este comportamiento está dada por

\[ y = -2.4167 + 0.7786x, \] donde

  • \(y\) es el gasto en los hogares
  • \(x\) representa al PIB.

Algunos comentarios

En el análisis de regresión es de suma importancia siempre tener presente el tipo de información con la que contamos, ya que los datos pueden ser

  • cualitativos
  • discretos
  • continuos

y, dependiendo de cada caso, se deberá dar un tratamiento distinto al modelo.

Es importante mencionar desde ahora que el modelo de regresión lineal simple está descrito por la ecuación \[y = \beta_0 + \beta_1x,\] donde \(y\) representa a la variable dependiente (también llamada variable explicada, predicha, regresada, respuesta) y \(x\) a la variable independiente (o variable explicativa, predictora, regresora, estímulo).

Regresión vs. correlación

Comúnmente es posible confundir estos dos conceptos que son completamente diferentes:

El coeficiente de correlación es un métrica útil para cuantificar el grado de asociación lineal entre dos variables. Es simétrico e invariante ante transformaciones lineales.

Por otro lado, el análisis de regresión lineal estima el valor promedio de una variable con base en los valores fijos de otras. Este proceso genera una ecuación funcional donde existe una variable dependiente y un conjunto de variables independientes.

Regresión y correlación no implican causalidad

Según la Real Academia de la lengua Española (RAE), la causalidad es una «Ley en virtud de la cual se producen efectos», de manera que se entiende por causalidad a todos aquellos eventos que integran una relación de causa y efecto.

Es cierto que la humanidad siempre se ha interesado en el entendimiento de este tipo de eventos o relaciones y, más recientemente, en su cuantificación. Esto para garantizar un entendimiento profundo y completo de la dinámica que siguen los fenómenos o procesos de interés.

Sin embargo, determinar las relaciones de causa-efecto es, de hecho, toda una discusión que va más allá de la especificación de un modelo estadístico.

El viejo pero muy cierto aforismo que se escucha en cualquier primer curso de estadística:

Correlación no implica causalidad

se olvida con frecuencia. Y es que, en la actualidad, con la «necesidad» de establecer relaciones de causalidad y la aparación de software que permite hacer los cálculos de manera relativamente sencilla, se pierde de vista (convenientemente) la interpretación real y correcta del proceso de inferencia que se está haciendo.

¿Qué se requiere para hablar de causalidad?

De acuerdo a Herbert Asher, se deben cumplir tres condiciones para hablar de inferencia causal entre dos variables \(X\) y \(Y\):

  1. Debe existir una relación de asoción lineal entre las variables, es decir, \(Cov(X, Y)\ne0\)

  2. Debe existir una relación temporal asimétrica o de orden entre las dos variables

  3. No deben exister otros factores causales que interfieran en la relación que se observa entre \(X\) y \(Y\). Eso es, \(Cov(X^´,Y^´)=0\), donde \(X^´\) y \(Y^´\) son las variables \(X\) y \(Y\) después de quitarles el efecto de causalidad existe entre ellas.