Preludio

El presente texto es el primero de una serie que iré subiendo con el tiempo. La idea es aprovechar apuntes personales que tengo para sistematizar una serie de “tips” en R. El propósito principal es simplemente aportar a la comunidad de R algunas prácticas que suelo hacer y que pienso que podrían ser útiles. Pero se aceptan sugerencias, comentarios, críticas y correcciones, pues la mayoría de entradas son de carácter aficionado y no académico. Es solo con el fin de compartir para quien le sirva y aprender si hay errores.

Introducción: Regresiones con variables instrumentales y errores estándar robustos

En este texto, no se pretende profundizar en la rigurosidad teórica que se requiere para construir un modelo de regresión con variables instrumentales, pue antes bien trataremos cómo crear un estimador VI con un regresión único y un solo instrumento, y por qué hacerlo con tal o cual función de R si se quiere obtener estimaciones precisas con errores estándar robustos. En cualquier caso, para profundizar en esto se puede consultar cualquier manual de econometría (Gujatari y Porter, 2009, Wooldridge, 2010). Yo personalmente, haré esta entrada basandome en el capítulo 12 de “Introducción a la Econometría” (Stock y Watson, 2012). Aun así, haré algunas aproximaciones formales sobre los modelos de regresión con variables instrumentales

Regresiones con variables instrumentales

La regresión con variables instrumentales es un método econométrico ampliamente utilizado para la obtención de estimadores consistentes de coeficientes desconocidos de la función de regresión poblacional cuando la variable explicativa (o regresor), \(X\), está correlacionada con el término de error, \(u\). Esta correlación del regresor \(X\) con el término de error \(u\) puede ocurrirr por distintos problemas que afectan a los supuestos MCO. Las estimaciones mediante MCO tienen supuestos exigentes que no siempre se pueden cumplir –por variables omitidas, errores en las variables, causalidad simultánea, etc.–, lo que hace que sea un método susceptible a producir estimaciones sesgadas cuando sus supuestos no se cumplen.

En econometría, es común enfrentarse a la violación de los supuestos MCO por sesgo de variables omitidas o por causalidad simultánea. En primer lugar, una de las formas de tratar el sesgo de selección es agregar las variables omitidas a la regresión para mitigar el riesgo de estimaciones sesgadas del efecto causal de interés. Sin embargo, si los factores omitidos no pueden medirse o no están disponibles por otras razones, la regresión múltiple no puede resolver el problema. La misma situación surge si hay causalidad simultánea. Cuando la causalidad va de \(X\) a \(Y\) y viceversa, habrá un sesgo de estimación que no puede corregirse mediante regresión múltiple. Cuando no hay posibilidad de solución directa a estos problemas, entonces necesitaremos un nuevo procedimiento, y ese es la regresión con variables instrumentales.

Así, una técnica general para obtener un estimador consistente del coeficiente de interés es la regresión con variables instrumentales (IV). Para ello, nos enfocaremos en la herramienta de regresión IV denominada two-stage least squares (2SLS) o mínimos cuadrados en dos etapas (MC2E). Veremos un modelo simple con un solo regresor e instrumento, y se hará con un ejemplo aplicado a la estimación la elasticidad de la demanda de cigarrillos, un ejemplo clásico donde la regresión múltiple falla debido a la causalidad simultánea. Además, es el ejemplo que se utiliza en el manual en el que nos basamos (Stock y Watson, 2012). Para ello, además, utilizaremos el paquete “Applied Econometrics with R”, AER (Kleiber y Zeileis, 2008) que tiene la base de datos que usaremos y la función ivreg() que proporciona una implementación completa de la regresión por variables instrumentales utilizando la estimación por mínimos cuadrados en dos etapas (2SLS). También utilizaremos lmtest() para obtener los errores estándar robustos con coeftest()

pacman::p_load(AER, lmtest)

El estimador IV con un solo regresor y un solo instrumento

Consideremos un modelo de regresión poblacional que relaciona la variable dependiente \(Y_i\) y el regresor \(X_i\) tal que \[ Y_i = \beta_0 + \beta_1 X_i + u_i, \quad i=1, \ldots , n \tag{1} \] donde \(u_i\) es el término de error representa los factores omitidos que determinan \(Y_i\). En el caso de que \(X_i\) y \(u_i\) correlacionen, entonces MCO es inconsistente. Solucionar este problema tenemos que utilizar el método de regresiones con variables instrumentales (IV, desde ahora, por sus cifras en inglés Instrumental Variables). En este contexto, diremos que la variables correlacionadas con el término de error son endógenas y las que no como exógenas. Esto es parte de los supuestos y las condiciones para el uso de regresiones IV. Para más detalle, ver el apartado 12.1 del manual (Stock y Watson, 2012).

Entonces, en el caso más simple, lo qe hace la regresión IV es utilizar una única variable instrumental, \(Z\), para obtener una estimación consistente del parámetro de interés, de \(\beta_1\). Esto es lo que nos entregará una alternativa para la estimación de efectos causalens cuando MCO no funciona porque \(X_i\) correlaciona con \(u_i\). Para que \(Z\) sea un instrumento válido, se debe cumplir dos condiciones1:

  1. Condición de relevancia del instrumento:
    El regresor \(X\) y su instrumento \(Z\) deben estar correlacionados, tal que \(\rho_{Z_i,X_i}\neq 0\).

  2. Condición de exogeneidad del instrumento:
    El instrumento \(Z\) no debe estar correlacionado con el término de error \(u_i\): \(\rho_{Z_i,u_i}=0\).

Si se cumplen estas dos condiciones, entonces, realizaremos una regresión IV a través de lo que se denomina como MCO en 2 etapas.

Estimador MCO en dos etapas (MC2E)

Tal como indica su nombre, el MC2E (o 2SLS, Two-Stage Least Squares) realiza una estimación de regresiones con MCO en dos etapas. En la primera etapa, se “descompone \(X\) en dos componentes: una componente problemática que puede estar correlacionada con el error de la regresión y otra componente sin problemas que no está correlacionada con el error” (Stock y Watson, 2012, pp. 304-305). En la segunda se utiliza la componente sin problemas para estimar \(\beta_1\). En simple, en la primera etapa regresionamos nuestra variable \(X_i\), como si fuera nuestra variable dependiente, con el instrumento \(Z_i\). Y luego, en la segunda etapa, se toma la estimación y valores predichos via MCO de \(X_i\), i.e., \(\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1Z_i\), ignorando el término de error, para regresionar \(Y_i\) con \(\hat{X}_i\) vía MCO nuevamente. Por eso es MCO en dos etapas. Por lo tanto, diremos que la regresión de la primera etapa es El modelo de regresión de primera etapa es
\[ X_i = \pi_0 + \pi_1 Z_i + \nu_i \] donde \(\pi_0 + \pi_1 Z_i\) es el componente de \(X_i\) que está explicado por \(Z_i\), mientras que \(\nu_i\) es el componente que no puede explicarse por \(Z_i\) y está correlacionado con \(u_i\). Así, se usan las estimaciones de MCO \(\hat{\pi}_0\) y \(\hat\pi_1\) para obtener los valores predichos \(\hat X_i, \quad i = 1,\dots,n\). Así, si \(Z\) es un instrumento válido, los \(\hat{X}_i\) están libres de problemas en el sentido de que \(\hat X_i\) es exógeno en una regresión de \(Y\) sobre \(\hat X\), que se ejecuta en la segunda etapa. La segunda etapa produce \(\hat\beta_0^{MC2E}\) y \(\hat\beta_1^{MC2E}\), las estimaciones MC2E de \(\beta_0\) y \(\beta_1\).

En particular, para el caso de un solo instrumento, tal como se explica en el apéndice 12.2 del Stock y Watson (2012), se puede demostrar que el estimador MC2E de \(\beta_1\) es \[ \hat\beta_1^{MC2E} = \frac{s_{ZY}}{s_{ZX}} = \frac{\tfrac{1}{n-1}\sum_{i=1}^n (Y_i - \bar Y)\,(Z_i - \bar Z)} {\tfrac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)\,(Z_i - \bar Z)} \tag{2} \] lo cual no es más que la razón de la covarianza muestral de \(Z\) e \(Y\) y la covarianza muestral entre \(Z\) y \(X\). Además, dado que la ecuación (2) es estimador consistente de \(\beta_1\) en la ecuación (1) bajo la suposición de que \(Z\) es un instrumento válido; entonces al igual que con cualquier otro estimador de MCO, el Teorema del Límite Central implica que la distribución de \(\hat\beta_1^{MC2E}\) puede aproximarse por una distribución normal si el tamaño de la muestra es grande. Esto nos permitirá usar estadísticos \(t\) e intervalos de confianza que también se calculan con ciertas funciones de R. Dicho todo esto, veamos cómo hacer esto en R y porqué usar ciertas funciones y otras no, sobre todo en el contexto de obtener estimaciones precisas mediante errores estándar robustos.

Regresion IV aplicada a la demanda de cigarros

Tal como se hace en el manual, con la misma base de datos, haremos una regresión IV observando la relación entre el precio de los cigarros y la demanda de estos. Además, la relación entre la demanda y el precio de los productos básicos es un problema simple, pero generalizado en economía. Específicamente, en economía de la salud uno de las temáticas a estudiar más conocidas se relacionan en cómo el sistema sanitario y las políticas regulatorias influyen en el comportamiento de los individuos. Un ejemplo destacado es el debate sobre las políticas públicas en contra del tabaquismo que operan en función de subir el precio a los cigarros.

Podríamos investigar, pues, la plausibilidad de que el consumo de cigarros disminuya a través de impuestos a cigarros, i.e., subiendo el precio de los cigarros. Ahora bien, la pregunta es cuánto deben aumentarse los impuestos para alcanzar cierto grado deseado en el consumo de puchos. Los economistas utilizan elasticidades para responderse estas preguntas. Ahora bien, dado que se desconoce la elasticidad-precio de la demanda de cigarros, debe estimarse. No obstante, no se puede utilizar una regresión MCO de la cantidad logarítmica sobre el precio logarítmico para estimar el efecto de interés, ya que existe causalidad simultánea entre la demanda y la oferta. En su lugar, utilizamos puede utilizarse una regresión IV.

Para ello, utilizaremos el dataset CigarettesSW de paquete AER. Este es un conjunto de datos de panel que contine observaciones sobre el consumo de cigarros y diversos indicadores económicos para los 48 Estados federales continentales de EEUU, entre 1985 y 1995. Siguiendo a Stock y Watson (2012), utilizaremos únicamente los datos de la muestra representativa de estados de un año en específico. En el libro se usa 1995, aquí también para comparar resultados. Así, cargamos primero el paquete, los datos y los observamos:

library(AER)
data("CigarettesSW")
summary(CigarettesSW)
##      state      year         cpi          population           packs       
##  AL     : 2   1985:48   Min.   :1.076   Min.   :  478447   Min.   : 49.27  
##  AR     : 2   1995:48   1st Qu.:1.076   1st Qu.: 1622606   1st Qu.: 92.45  
##  AZ     : 2             Median :1.300   Median : 3697472   Median :110.16  
##  CA     : 2             Mean   :1.300   Mean   : 5168866   Mean   :109.18  
##  CO     : 2             3rd Qu.:1.524   3rd Qu.: 5901500   3rd Qu.:123.52  
##  CT     : 2             Max.   :1.524   Max.   :31493524   Max.   :197.99  
##  (Other):84                                                                
##      income               tax            price             taxs       
##  Min.   :  6887097   Min.   :18.00   Min.   : 84.97   Min.   : 21.27  
##  1st Qu.: 25520384   1st Qu.:31.00   1st Qu.:102.71   1st Qu.: 34.77  
##  Median : 61661644   Median :37.00   Median :137.72   Median : 41.05  
##  Mean   : 99878736   Mean   :42.68   Mean   :143.45   Mean   : 48.33  
##  3rd Qu.:127313964   3rd Qu.:50.88   3rd Qu.:176.15   3rd Qu.: 59.48  
##  Max.   :771470144   Max.   :99.00   Max.   :240.85   Max.   :112.63  
## 

Lo que nos interesa que nos interesa es estimar \(\beta_1\) en la siguiente ecuación
\[ \log\bigl(Q_i^{\text{cigarros}}\bigr) = \beta_0 + \beta_1 \log\bigl(P_i^{\text{cigarros}}\bigr) + u_i \tag{3} \] donde \(Q_i^{\text{cigarros}}\) es el número de paquetes de cigarrillos per cápita vendidos y \(P_i^{\text{cigarros}}\) es el precio real promedio después de impuestos por paquete de cigarrillos en el estado \(i\).

La variable instrumental que vamos a usar para instrumentar el regresor endógeno \(\log\bigl(P_i^{\text{cigarros}}\bigr)\) es \(\text{ImpuestoVentas}\), i.e., la porción de impuestos sobre cigarrillos que proviene del impuesto general a las ventas, el impuesto sobre la venta. \(\text{ImpuestoVentas}\) se mide en dólares por paquete de pucho. La idea es que \(\text{ImpuestoVentas}\) es un instrumento relevante, pues está incluido en el precio promedio después de impuestos por paquete. Además, es plausible que \(\text{ImpuestoVentas}\) sea exógeno, dado que el impuesto a las ventas no influye directamente en la cantidad vendida sino de manera indirecta a través del precio. Pero eso también tiene que validarse. Lo importante por ahora es ver si se cumplen las dos condiciones: la relevancia del instrumento \((\rho_{Z_i,X_i}\neq 0)\) y la exogeneidad del instrumento \((\rho_{Z_i,u_i}=0)\).

Así, en primer lugar, realizamos algunas transformaciones para obtener datos de corte transversal deflactados para el año 1995. Luego, calculamos la correlación muestral entre el impuesto a las ventas y el precio por paquete, pues además la correlación muestral es un estimador consistente de la correlación poblacional.

# calculamos los precios reales per cápita
CigarettesSW$rprice <- with(CigarettesSW, price / cpi)

# calculamos el impuesto sobre las ventas
CigarettesSW$salestax <- with(CigarettesSW, (taxs - tax) / cpi)

# obtenemos la correlación entre el impuesto sobre las ventas y el precio
cor(CigarettesSW$salestax, CigarettesSW$price)
## [1] 0.6141228
# generamos un subset para el año 1995
c1995 <- subset(CigarettesSW, year == "1995")

El estimador de aproximadamente \(0,614\) indica que \(\text{ImpuestoVentas}\) y \(P_i^{\text{cigarros}}\) exhiben una correlación positiva que coincide con nuestras expectativas: impuestos a las ventas más altos conducen a precios más altos. Por lo tanto, la regresión de primera etapa debería ser \[ \log\bigl(P_i^{\text{cigarros}}\bigr) = \pi_0 + \pi_1\,\text{ImpuestoVentas}_i + \nu_i. \] Primero, estimaremos este modelo en R usando lm() –que luego veremos por qué es mejor usar otras funciones–. En la segunda etapa ejecutamos una regresión de \(\log\bigl(Q_i^{\text{cigarros}}\bigr)\) sobre \(\log\bigl(\hat P_i^{\text{cigarros}}\bigr)\) para obtener \(\hat\beta_0^{MC2E}\) y \(\hat\beta_1^{MC2E}\). Lo imporatnte es que primero regresionamos \(\log\bigl(P_i^{\text{cigarros}}\bigr)\) –como nuestra variable dependiente– con nuestro instrumento \(\pi_1\,\text{ImpuestoVentas}_i\) –variable independiente– en nuestro regresión de primera etapa, y luego llegamos a nuestro modelo inicial que queriamos estimar, en el que buscabamos estimar \[\log\left(Q_i^{\text{cigarros}}\right) = \beta_0 + \beta_1 \log\left(P_i^{\text{cigarros}}\right)+ u_i.\] Básicamente, lo que hacemos es regresionar \(X_i\) con \(Z_i\), y luego, a partir de la estimación de dicha regresión, \(\hat{X}_i\), le regresionamos a \(Y_i\) nuestra \(\hat{X}_i\). En R, además, utilizaremos coeftest() para obtener inmediatamente la regresión con errores estándar robustos.

# realizar la regresión la primera etapa
reg_e1 <- lm(log(rprice) ~ salestax, data = c1995)

options(scipen = 999)
coeftest(reg_e1, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error  t value              Pr(>|t|)    
## (Intercept) 4.6165463  0.0289177 159.6444 < 0.00000000000000022 ***
## salestax    0.0307289  0.0048354   6.3549         0.00000008489 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De tal modo, como se ve, la regresión de la primera etapa es \[ \log\bigl(\widehat{P_i^{\text{cigarros}}}\bigr) = \underset{(0.03)}{4.62} + \underset{(0.005)}{0.031}\cdot \text{ImpuestoVentas}_i \] esto se coindice con la relación positiva entre el impeusto a las ventas y el precio de los cigarros. Ahora bien, ¿qué proporción de la variación observada en \(\log\bigl(P_i^{\text{cigarrros}}\bigr)\) es explicada por el instrumento \(\text{ImpuestoVentas}\)? Esto se puede responder mirando el \(R^2\) de la regresión, que indica que aproximadamente \(47{,}09\%\) de la variación en los precios después de impuestos es explicado por la variación del impuesto a las ventas entre estados, tal como vemos en el siguiente chunk

# revisamos el R^2 de la primera etapa de regresión
summary(reg_e1)$r.squared
## [1] 0.4709961

Siguiendo el procedimiento explicado anteriormente, el MC2E se construye con los valores predichos de \(X_i\). Así, almacenamos \(\log\bigl(\hat P_i^{\text{cigarettes}}\bigr)\), particularmente los valores ajustados obtenidos mediante la regresión de primera etapa reg_e1, en la variable x_hat_pred.

# almacenamos los valores predichos de la primera etapa
x_hat_pred <- reg_e1$fitted.values

Con ello, podemos pasar a la regresión en segunda etapa, lo cual nos dara las estimaciones de MC2E que buscamos. Esto lo haremos regresionando los valores predichos de \(\log\bigl(\widehat{ P_i^{\text{cigarros}}}\bigr)\) a \(\log\bigl(Q_i^{\text{cigarros}}\bigr)\). En R simplemente sería log(c1995$packs) ~ x_hat_pred. Veamos como:

# corremos la regresión de segunda etapa
reg_e2 <- lm(log(packs) ~ x_hat_pred, data = c1995)
coeftest(reg_e2, vcov = vcovHC)
## 
## t test of coefficients:
## 
##             Estimate Std. Error t value     Pr(>|t|)    
## (Intercept)  9.71988    1.70304  5.7074 0.0000007932 ***
## x_hat_pred  -1.08359    0.35563 -3.0469     0.003822 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De tal modo, la regresión obtenida en esta segunda etapa sería \[ \log\bigl(Q_i^{\text{cigarros}}\bigr) = \underset{(1.70)}{9.72} -\underset{(0.36)}{1.08}\,\log\bigl(P_i^{\text{cigarros}}\bigr) \tag{4} \] donde escribimos \(\log(P_i^{\text{cigarettes}})\) en lugar de \(\log(\widehat{P_i^{\text{cigarettes}}})\) por consistencia con el libro, en efecto es una estimación y, por tanto, podría llevar un gorrito arriba.

Con todo esto, tendríamos nuestro modelo de regresión IV con un solo instrumento. Ahora bien, como ya adelantamos, el MC2E tiene algunos problemas para obtener errores estándar robustos. En el apartado 12.2 del manual (Stock y Watson, 2012) se explica más detalladamente por qué, particularmente en el subapartado “Los supuestos de la regresión VI y la distribución muestral del estimador MC2E”. No obstante, y sin ahondar tanto, el cálculo de los errores estándar en MC2E tiene dos cuestiones relevantes a tener en cuenta:

  1. Errores estándar de la segunda etapa: los errores estándar obtenidos mediante la estimación MCO de la regresión de la segunda etapa son incorrectos “porque no se tiene en cuenta que es la segunda etapa de un proceso de dos etapas. En concreto, los errores estándar MCO de la segunda etapa no sirven para el ajuste de la regresión de la segunda etapa mediante los valores estimados de las variables endógenas incluidas” (Stock y Watson, 2012, p. 315). Así, los autores mencionan que generalmente “las fórmulas de los errores estándar que realizan los ajustes necesarios están incorporadas en (y se utilizan automáticamente por) los comandos de la regresión MC2E de los software econométricos” (Stock y Watson, 2012, p. 315). Por lo tanto, esta cuestión no deberia ser un problema en la práctica si se utiliza el comando particularizado para la regresión MC2E. En R, justamente, esto no se logra hacer con lm(), sino que se debe utilizar la función ivreg() u otras funciones que tengan esta cuestión en cuenta. De inmediato veremos eso.

  2. Heterocedasticidad: Como puede pasar en todos los modelos de regresión en general, el error \(u\) podría ser heterocedástico. Por ello, es “importante utilizar las versiones de los errores estándar heterocedástico-robustos exactamente por la misma razón que es importante la utilización de errores estándar heterocedástico-robustos para los estimadores MCO del modelo de regresión múltiple” (Stock y Watson, 2012, p. 315). Esto también podemos hacerlo con ivreg() y coeftest().

Regresión IV con ivreg()

La función ivreg() del paquete AER realiza el procedimiento MC2E automáticamente. Además, tiene una escritura similar a lm(). La diferencia es que con ivreg() los instrumentos se pueden agregar a la especificación habitual de la fórmula de regresión usando una barra vertical que separa la ecuación del modelo de los instrumentos. Así, para la regresión en cuestión la fórmula correcta es: log(packs) ~ log(rprice) | salestax

# realizamos MC2E usando 'ivreg()'
reg_iv <- ivreg(log(packs) ~ log(rprice) | salestax, data = c1995)

coeftest(reg_iv, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##             Estimate Std. Error t value      Pr(>|t|)    
## (Intercept)  9.71988    1.52832  6.3598 0.00000008346 ***
## log(rprice) -1.08359    0.31892 -3.3977      0.001411 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como vemos, las estimaciones con ivreg() nos da lo mismo que haciendo MC2E con lm() en, justamente, dos etapas distintas. Ahora bien, los errores estándar no son exactamente igual. Y esto es muy importante para mejorar la precisión de las estimaciones. Y lo es más usando coeftest() con vcovHC() para obtener errores estándar robustos2, pues se obtienen los valores de los errores estándar sin asumir que hay homoscedasticidad como se hace en las funciones de R por defecto. En el fondo, con coeftest(), el error \(u\) podría ser heterocedástico.

Resumen

Hemos visto que aunque ejecutar las regresiones individuales de cada etapa del MC2E con lm() produce los mismos coeficientes que ivreg(), los errores estándar de la segunda etapa (por ejemplo, al usar coeftest() o summary()) son inválidos, pues no consideran la incertidumbre introducida al emplear las predicciones de la primera etapa como regresores. Afortunadamente, ivreg() ajusta automáticamente estos errores estándar, lo cual constituye otra ventaja frente al procedimiento manual que utilizamos para ilustrar paso a paso la mecánica del método. Por tanto, es preferible emplear ivreg().

Por otro lado, aunque no profundizamos en esto, al igual que en la regresión múltiple, es importante calcular errores estándar robustos a heterocedasticidad, como hemos hecho arriba usando vcovHC(). Para ello, también hay otras funciones de R que permiten calcular errores estándar robustos, como lm_robust() del paquete estimatr. Pero no es el tema de esta entrada

Finalmente, y para conversar un poco sobre los resultados del modelo MC2E, la regresión obtenida sería \[ \log\bigl(Q_i^{\text{cigarros}}\bigr) = \underset{(1.53)}{9.72} - \underset{(0.32)}{1.08}\,\log\bigl(P_i^{\text{cigarros}}\bigr) \tag{5} \] Como se ve, el coeficiente de \(–1.08\) en (5) implica que un aumento del \(1\%\)3 en el precio de los cigarrillos reduce el consumo en aproximadamente un \(1,08\%\), lo que indica una demanda bastante elástica. Sin embargo, aun usando IV, podría subsistir sesgo por variables omitidas o instrumentos débiles. Por ello, sería conveniente extender el análisis a un modelo de regresión IV múltiple (con más instrumentos o variables endógenas) para garantizar la robustez de la estimación. Un modelo de regresión IV con un solo instrumento suele usarse poco en la práctica. Es más, al igual que ocurre en modelos simples de regresión vía MCO, una regresión IV de un solo instrumento es un caso especial de un modelo de regresión IV múltiple.


  1. No profundizaremos en cómo testear la fortaleza de los instrumentos (como el estadístico F, J, \(p-\)value). Nuevamente consultar el manual si se quiere profundizar en esto, particularmente en el apartado 12.3. Probablemente haré otra entrada sobre esto.↩︎

  2. Otras funciones de R cumplen la misma función que coeftest(). Por ejemplo la función lm_robust() del paquete estimatr permite modelar regresiones con errores estándar robustos. De igual modo, hay que tener en consideración la elección entre HCO, HC1, HC2 y HC3 en función del tamaño de la muestra y la presencia de observaciones con alto leverage. Esto, no obstante, excede el tema de esta entrada. Quizás después haga alguna entrada sobre esto con el uso de estimatr.↩︎

  3. Por cierto, la interpretación porcentual de un modelo de regresión está dada por la transformación logarítmica de la variable dependiente y la variable independiente. En este caso, como ambas variables están en logaritmo, la interpretación es porcentual. No tiene nada que ver en comienzo con las regresiones IV.↩︎