1. Analisis de datos

ECONOMETRIA I. GRADO EN ECONOMIA.

Jose Antonio Ortega
Universidad de Salamanca

Recomendaciones de Hal Varian, Economista jefe de Google

El curso de Econometria I

OBJETIVOS:

  • Que comprendáis y sepáis llevar a cabo los análisis empíricos más comunes en economía (Modelos lineales)
  • Que comprendáis, hayáis realizado y sepáis realizar todas las fases asociadas al análisis empírico en economía: ¿Qué queréis saber?, ¿Qué datos utilizar?, Manipulación de datos para poder ser explotados, Estimación de modelos, Validación y mejora de modelos.
  • Que conozcáis las limitaciones de vuestros modelos y sepáis cómo poder afrontarlas.

MEDIOS:

  • Desarrollaremos análisis empíricos no triviales desde el primer día en las hojas de problemas y las sesiones de prácticas.
  • Utilizaremos los mismos métodos y las mismas herramientas que emplean los profesionales: el lenguaje R.
  • En grupos de 2, tendréis que hacer un trabajo de curso sobre una cuestión que os interese con vuestros propios datos.

¿Es complicada la econometría? SI y NO

  • SI:

    • Porque parte de las ideas básicas de todas las asignaturas más cuantitativas del grado: matemáticas (algebra y análisis), estadística, y teoría económica.
    • Porque requiere un buen manejo de informática.
  • NO:

    • Porque el análisis empírico se basa sobre todo en el sentido común.
    • Porque si se entienden unos pocos principios básicos, "siempre es lo mismo".
    • Porque lo importante no es saber deducir una fórmula que no se comprende, sino comprender un concepto y saber aplicarlo, y si es posible, además deducir la fórmula.
    • Porque ahora existen muchas formas para poder comprender los CONCEPTOS que es lo más importante. En particular, las técnicas de simulación.

Una discusión parecida aquí

¿Por qué usar R?

  • Es el estándar para el análisis estadístico y el análisis de datos a nivel académico y empresarial.

    • Desde 2015 Microsoft lo ha adoptado a través del Microsoft R Server
    • El conocimiento de R es muy valorado en las empresas que hacen análisis de datos.
  • Es gratuito y open-source.

    • Siempre tenemos la última versión.
  • Evoluciona gracias a las aportaciones de miles de usuarios que desarrollan sus propios paquetes.

    • Paquetes como dplyr o tidyr que utilizaremos, creados en 2014, han cambiado la forma de hacer análisis en R, haciéndola más sencilla e intuitiva.
  • Gracias a RStudio, permite crear documentos de forma integrada con el análisis: la mayor parte de los documentos de este curso, incluidos doc, pdf, html y presentaciones en html5 han sido desarrollados en R.

¿Qué problemas presenta R y cómo atacarlos?

  • Es un lenguaje estadístico que funciona con comandos (funciones)

    • Pero existen herramientas que permiten operar por menús para aprender R y hacer análisis básicos: Ej: R Commander Rcmdr
    • Existen multiples herramientas para aprender R. Ejemplo: swirl.
  • Para hacer la misma tarea existen multiples maneras de hacerlo

    • Indica una virtud, la flexibilidad
    • Si sabemos hacer algo de una manera que nos funciona, debemos seguir.
  • Consecuencia: Intentemos aprender a hacer las cosas eficientemente desde el principio.

Más sobre ventajas e inconvenientes de R aquí.

ESQUEMA DEL CURSO

Bastante distinto del año anterior. La idea es replicar el proceso del análisis empírico.

  1. ¿Qué queremos decir cuando hablamos de relación entre variables? (4 semanas)

    • Introducción al análisis de datos (+ Manipulación de datos). Introducción a los conceptos de causalidad.
  2. Estudio del modelo lineal con datos no correlados (5 semanas)

    • ¿Por qué es una buena idea estudiar en detalle el modelo lineal? Conceptos básicos: Especificación del modelo, estimación de parámetros, eficiencia de los estimadores.
  3. Validación y mejora del modelo lineal. (4 semanas)

    • Cómo comprobar que nuestro modelo es adecuado (dentro de la muestra, y fuera de la muestra). Cómo conseguir un modelo mejor
  4. ¿Podemos comprender otros métodos empíricos? (1-2 semanas)

    • Ejemplos de análisis empíricos en economía.¿Qué no sabemos? ¿Qué estudiaremos en Econometría II?

Bibliografía

No utilizaremos un único texto. En la medida de lo posible utilizaremos referencias disponibles en internet.

Sobre modelos lineales, la parte más práctica la desarrollaremos con

Pero no cubre las partes de causalidad, inferencia y validación del modelo [Y cubre temas que no tratamos, como clasificación o aprendizaje automático]

plot of chunk unnamed-chunk-1

¿Qué estudiamos en Econometría?

Relaciones entre variables

  • En la imagen vemos la relación entre las ventas de un producto y el gasto en publicidad en TV, Radio y periódicos.

  • Vosotros ya sabéis como superponer una recta de regresión lineal.

  • Pero: ¿Podemos definir una función que nos permita predecir las ventas a partir de los gastos en los tres conceptos?

¿Qué tipo de función?

Sales = f(TV, Radio, Newspaper)

plot of chunk unnamed-chunk-3

Notación

  • La variable explicada o variable de respuesta o variable Y son las ventas
  • Las variables explicativas o X o input son: TV, Radio y Newspaper.

  • Agrupamos los valores de las variables explicativas en un vector X

\[ X=\begin{bmatrix} X_1 & X_2 & X_3 \end{bmatrix} \]

Y nuestro modelo general sería:

\[ Y = f(X) + \varepsilon \]

Donde \(f\) es una función desconocida, y \(\varepsilon\) es el término de error o perturbación o componente no observado. Podemos entender que capta todo lo demás que influye sobre las ventas aparte de los gastos en publicidad.

¿Para qué nos serviría conocer \(f\)?

  • Si conociéramos \(f\) podríamos utilizarla para predecir que efecto tendrían unos valores dados de publicidad \(X=x\) sobre las ventas. (PREDICCIÓN)

  • Podríamos decir que componentes de \(X\) son importantes para explicar \(Y\) y cuáles son irrelavantes (ANÁLISIS CAUSAL)

  • Podríamos estudiar cómo interactuan entre sí las distintas variables explicativas: ¿Es mejor concentrar todos los recursos en un medio o hacer publicidad en todos? ... (FORMA FUNCIONAL)

  • El problema es que en general esta función será desconocida.

  • Antes debemos preguntarnos: ¿Qué representa esta función \(f\) idealmente?

La \(f\) ideal

Dado un valor de \(X=x\), ¿qué debe representar la \(f(X)\)?

  • Lo más sensato es que represente el valor esperado de la \(Y\) para X=x, por ejemplo:

\[ f(2)=E(Y/X=2) \]

  • \(f(2)\) representaría la esperanza condicionada de \(Y\) dada la \(X\).

  • A \(f\) se la llama función de regresión:

\[ f(x)=E(Y/X=x) \]

COROLARIO:

\[ E(\varepsilon/X=x)=0 \]

{ \(x,y\) } observados, y \(f(x)\)

plot of chunk unnamed-chunk-4

\(\Leftarrow\) Esperanza condicionada nula del término de error.

La función de regresión \(f(x)\)

  • Tiene un equivalente directo cuando \(X\) es un vector \[ f(x)=f(x_1,x_2,x_3)=E(Y/X_1=x_1,X_2=x_2,X_3=x_3)\]

  • \(f(x)=E(Y/X=x)\) proporciona la predicción óptima de \(Y\) en el sentido de que, de todas las posibles funciones \(g(X)\) y para todos los valores de \(x\), minimiza el error cuadrático medio de predicción dado por: \[ E\left \{ (Y-g(X))^2 / X=x \right \} \]

  • Por eso denominamos a \(\varepsilon=Y-f(X)\) el término de error: Representa el error irreducible que seguiríamos cometiendo al predecir \(y\) dado que, para cada posible valor de \(X=x\) existe una distribución de posibles valores de \(Y\).

  • El problema es que la función \(f\) es desconocida. Lo más que podemos aspirar es a estimarla a partir de unos datos consiguiendo aproximarla por la estimación de la función de regresión \(\hat{f}\), que nos proporciona \(\hat{Y}=\hat{f}(X)\)

Error de estimación y error cuadrático medio

Hemos dicho antes que el mejor predictor sería \(f(x)\), la esperanza condicionada pues sabemos que la esperanza minimiza el ECM.

Si, en vez, de utilizar \(f(X)\) utilizamos la estimación \(\hat{Y}=\hat{f}(X)\), y nos centramos ahora en una \(\hat{f}\) conocida y un \(X\) fija:

\[ \begin{align*} E\left \{ (Y-\hat{Y})^2 / X=x \right \} &=E \left \{ (f(X)+\varepsilon -\hat{f}(X))^2 / X=x \right \} \\ &= (f(X)-\hat{f}(X))^2 + \text{Var}(\varepsilon/X=x) \end{align*} \]

Que, en cada punto \(X=x\), nos descompone el Error cuadrático medio esperado en 2 componentes:

  • \((f(X)-\hat{f}(X))^2\): El error reducible, dado por lo bien (o mal) que aproximamos \(f\). \(\text(SESGO)^2\)
  • \(\text{Var}(\varepsilon/X=x)\): Dado el modelo, error irreducible asociado a la VARIANZA del error.

OBJETIVO: Reducir al mínimo el error reducible

Métodos de estimación

Sesgo: $ B(\hat{f})=E(\hat{f}-f) $

\[ \text{ECM = Sesgo}^2+ \text{Varianza} \]

Para conseguir que el ECM sea mínimo debemos conseguir reducir al mínimo el sesgo, el error reducible

Para ello, a partir de una muestra, debemos utilizar el estimador adecuado.

  • Estimadores paramétricos: \(f\) pertenece a una familia de funciones

  • Estimadores no paramétricos: \(f\) puede ser cualquier función

Un primer estimador no paramétrico: Vecinos más cercanos

Podemos proponer muchos estimadores "sencillos"

k nearest neighbors: Para cada \(x\) calculamos \(f\) promediando las \(y\) de las observaciones más cercanas a \(X=x\)

LOS ESTIMADORES SON REGLAS: Instrucciones de, dados unos datos, cómo calcular el estimador.

LOS ESTIMADORES SON VARIABLES ALEATORIAS: Dependen de la muestra

LOS ESTIMADORES TIENEN PROPIEDADES

  • knn3 y knn25 en el centro de la muestra
  • Y en los extremos

plot of chunk unnamed-chunk-5

Estimadores paramétricos: Regresión lineal y cuadrática

Podemos aproximar la función desconocida con funciones de un tipo dado:

  • Función lineal \(y=\beta_0+\beta_1X\)
  • Función cuadrática \(y=\beta_0+\beta_1x+\beta_2x^2\)

¿CÓMO ESTIMAMOS LOS PARÁMETROS?

  • Lo estudiaremos en el curso.
  • Los estimadores serán también reglas.
  • Cada estimador tendrá unas propiedades que dependen de la regla y de la muestra.
  • Si el proceso que genera los datos (PGD) es de ese tipo, funcionarán muy bien.
  • Si no lo es, funcionarán de manera aproximada.

plot of chunk unnamed-chunk-6

No paramétricos

plot of chunk unnamed-chunk-7

Paramétricos

plot of chunk unnamed-chunk-8

ECM en la muestra

Dada una muestra de tamaño \(n\)

\[ \{(x_1,y_1),(x_2,y_2), \cdots, (x_n,y_n)\} \]

definimos el ECM de un estimador \(\hat{f}\) como la media muestral de las diferencias al cuadrado entre cada \(y_i\) y cada \(\hat{f}(x_i)\)

\[ECM(\hat{f},\text{muestra})= \frac{1}{n} \sum_{i=1}^n [(y_i-\hat{f}(x_i)]^2 \]

Que a su vez, cuando conocemos \(f\), se puede descomponer en la suma del error reducible y el irreducible.

ecm reducible
knn3 364 91
knn25 456 178
loess 267 22
lineal 6039 5625
cuadratico 418 147

El mejor estimador en esta muestra es el no paramétrico loess, que ya estudiaremos, el segundo el sencillisimo knn3. Después el cuadrático.

En las aplicaciones prácticas ignoramos cuál es el ECM reducible puesto que no conocemos \(f\), ¿o no?

Validación de modelos

Sobre todo en aplicaciones predictivas, nuestro objetivo no es ajustar dentro de la muestra.

La función \(f\) la que pasa por todos los puntos, minimiza el ECM, sin embargo, no es extrapolable para predecir fuera de nuestra muestra. Puede funcionar mejor una función como la loess.

Una estrategia que se suele emplear es dividir la muestra en 2:

  • Muestra de trabajo: Las n observaciones donde ajustamos el modelo.
  • Muestra de test: El resto de observaciones, para comprobar si el modelo funciona fuera de la muestra.

plot of chunk unnamed-chunk-10

¿Qué es mejor, flexibilidad o parsimonia?

En estos gráficos aparece el ECM (MSE en inglés) en la muestra de trabajo (gris) y en la de test (rojo) para una variedad de modelos.

Ser muy flexible permite reducir el ECM en la muestra de trabajo, pero no fuera de ella

plot of chunk unnamed-chunk-12

plot of chunk unnamed-chunk-11

Conflicto sesgo-varianza en la elección de estimadores

Cuando predecimos fuera de la muestra, \((x_0,y_0)\) el ECM cometido se puede descomponer en

\[ E[(y_0-\hat{f}(x_0)]^2 = \] \[ Var(\hat{f}(x_0))+[\text(Sesgo)(\hat{f}(x_0))]^2 + Var(\varepsilon) \]

Varianza de \(f\) - Sesgo de \(f\) - Error

En general, cuanto más flexible es la función más varianza tiene. Nuestro modelo debe ser flexible pero no demasiado

plot of chunk unnamed-chunk-13 `Sesgo cuadrado (azul), varianza (naranja), ECM de test (rojo), y varianza del error(=1) para funciones \(f\) alternativas

La "maldición" de la dimensionalidad

Algunos de los modelos no paramétricos que hemos visto combinan flexibilidad con varianza reducida, ¿debemos utilizarlos siempre?

Nuestro objetivo no es estudiar relaciones entre una \(Y\) y una única \(X\).

Queremos trabajar con tantas \(X\) como sea necesario.

Esto es un problema para los métodos no paramétricos: No hay puntos cercanos.

plot of chunk unnamed-chunk-14

Referencias