Se dice que existe un problema de simultaneidad en el modelo cuando la variable dependiente o variable endógena “Y” es afectada por una variable “X” y esta variable “X” a su vez es afectada por “Y”.

Supongamos que un boxeador “Y” se enfrentó a un boxeador “X” y únicamente podemos observar la cantidad de golpes que ha logrado conectar cada boxeador a su rival por round. Durante la pelea el boxeador “X” provocaba al boxeador “Y” y este a su vez al boxeador “X”, por tanto los resultados finales que cada boxeador están en función de los de su rival, de esta forma las variables se explican de forma simultánea. Definir si las variables en un modelo son endógenas o exógenas es equivalente a determinar si para “X” la variable “Y” es un boxeador o un costal de papas, es decir si respectivamente “X” es endógena o exógena.

La simultaneidad provoca que la covarianza entre la variable explicativa y error sea distinta de cero violando el segundo supuesto de Gauss-Márkov de esperanza condicional del error igual a cero, es decir independencia entre variables explicativas y el término de error. Considerando que ignorar un problema de simultaneidad deriva en una mala especificación del modelo y por tanto en el sesgo del estimador de MCO conviene reflexionar sobre el significado del siguiente párrafo:

“Corresponde al diseñador del modelo especificar cuáles variables son endógenas y cuáles son predeterminadas. Aunque las variables (no económicas), tales como la temperatura y la lluvia, son claramente exógenas o predeterminadas, el diseñador de modelos debe tener gran precaución al clasificar las variables económicas como endógenas o predeterminadas, debiendo defender la clasificación con argumentos teóricos a priori.”. Fuente: Econometría, Capítulo 19: “El problema de identificación”, sección 19.1 “Notación y definiciones”, pg. 690, Gujarati, D.N. Porter, D. C., Edicion: Quinta, 2010, Publicación: Mc Graw Hill.

La interpretación del párrafo anterior puede resultar evidente para los investigadores que cuentan con una buena base en econometría o estadística pero podría resultar insuficiente para aquellos que desconocen el problema de simultaneidad y sus consecuencias. En algunos casos encontramos trabajos de investigación donde los autores aún conociendo la posible existencia de simultaneidad, por medio de trabajos previos mismos que han incluido en su revisión bibliográfica, terminan definiendo una variable endógena como exógena sin fundamento alguno como por ejemplo:

“La endogeneidad proviene de considerar una doble relación causal. Por un lado, la presencia de hijos afecta la estabilidad marital. Por otro lado, la estabilidad potencial del casamiento puede afectar la fecundidad, ya que los hijos representan el más importante compromiso hacia el matrimonio; así las parejas con relativamente alta probabilidad de divorcio tienden a retrasar ese compromiso. Para considerar este problema, Vuri (2001) construye un modelo dinámico de dos periodos para status marital y las decisiones de fecundidad y encuentra que las parejas con hijos son menos propensas a divorciarse (efecto estabilizador de los hijos), al tiempo que las parejas con alta probabilidad a divorciarse son menos propensas a concebir hijos. En este trabajo, la fecundidad ha sido considerada como una variable exógena. Los resultados obtenidos sugieren que los hijos funcionan como estabilizador del matrimonio, efecto que se reafirma a medida que aumenta el número de hijos.”. Fuente: Bucheli y Bigna (2005), “Un estudio de los determinantes del divorcio en Uruguay”, Desarrollo y Sociedad.

El criterio de decisión no puede ser tan laxo como algunos interpretan ya que el costo de equivocarse en la definición de estas variables resulta en una mala especificación del modelo lo cual nos lleva a conclusiones equivocadas, es por eso que Gujarati agrega en otra sección de su texto de Econometría lo siguiente:

“Es responsabilidad del investigador especificar cuáles variables son endógenas y cuáles son exógenas. Esto depende del problema en cuestión y de la información a priori que se disponga.”. Fuente: Econometría, Capítulo 19: “El problema de identificación”, sección 19.5 “Pruebas de exogeneidad”, pg. 705, Gujarati, D.N. Porter, D. C., Edicion: Quinta, 2010, Publicación: Mc Graw Hill.”.

Es en el párrafo anterior donde se debe centrar la atención contemplando que la información sobre las variables bien podría provenir de un test o del conocimiento de la naturaleza o mecánica de las variables en cuestión dentro del modelo.

Por ejemplo, en general se espera que exista una relación negativa entre el precio y el consumo de un bien o servicio, para el caso de un modelo de demanda de electricidad de los hogares esta debería depender en parte del precio del kilowatt-hora (kwh) aunque bajo un esquema de tarifas por bloques de consumo como el que se tiene en México el precio a su vez está en función de la demanda de electricidad, en este caso la Comisión Federal de Electricidad (CFE) asigna, a los hogares de cada localidad, tarifas por bloques de consumo de electricidad los cuales se dividen en Básico, Intermedio y Excedente, de esta forma cuando un hogar sobrepasa los kwh del consumo básico continua consumiendo kwh del bloque Intermedio a su correspondiente tarifa la cual es más alta y podría seguir así hasta llegar al bloque de consumo Excedente donde el precio kwh es mayor. Entonces, el esquema de tarifa por bloque de consumo provoca que incrementos en el “consumo de kwh” deriven en incrementos en el “precio de kwh”.

Dado que esperamos que los niveles de precios de kwh tengan efectos en el consumo de electricidad y sabemos que bajo un esquema de tarifas por bloques de consumo el precio kwh está en función del nivel de “consumo de kwh”, podemos deducir que hay un efecto simultáneo entre el precio y consumo kwh sin realizar un test de endogeneidad ya que conocemos la mecánica de la variable precio kwh1.

Aún conociendo la naturaleza o mecánica de las variables no sería erróneo realizar una prueba de endogeneidad para corroborar lo que ya conocemos así como tampoco lo sería pasar directamente a realizar un tratamiento al problema de endogeneidad cuando estamos seguros de su presencia, pero ignorar un problema de endogeneidad sería un error terminante ya que nos llevaría a una mala especificación del modelo y por tanto a conclusiones equivocas. Por otro lado, utilizar algún método para corrección de simultaneidad a un regresor que no es endógeno en el modelo si bien no sesga el estimador de MCO este deja de ser eficiente.

Para fines prácticos, no podemos realizar pruebas de endogeneidad a todos los regresores ya que esta prueba parte de que el investigador tiene alguna razón para pensar que hay un efecto simultáneo entre su variable dependiente y uno o más regresores. Si quisiéramos aplicar la prueba de simultaneidad de forma indiscriminada se tendría que realizar una prueba para cada combinación posible, es decir una prueba para el caso en que se sospecha que el regresor “X1” es endógena, otra para “X2” y así hasta “Xk”, y lo mismo para todas las combinaciones posibles como podría ser considerar la posibilidad de que los regresores “X1” y “X2” sean endógenas, y lo mismo para “X1” y “X3” y así sucesivamente.

Antes de construir un modelo econométrico es necesario hacer una buena revisión de la literatura y un buen desarrollo del marco teórico, esto nos facilitará realizar una buena especificación del modelo y por tanto será menos probable que nos equivoquemos al definir una variable como endógena o exógena evitando caer en el problema de endogeneidad.

Dado lo anterior, se recomienda realizar pruebas de endogeneidad en los siguientes casos:

En caso de encontrar evidencia de problema de simultaneidad en el modelo no se puede estimar mediante MCO ya que el estimador tendría un sesgo por estar mal especificado y por tanto se debe recurrir a métodos que corrijan el efecto de la simultaneidad de variables como lo son la metodología de variables proxys y los métodos de ecuaciones simultáneas. En el caso de los métodos de ecuaciones simultáneas es necesario realizar una identificación2 del modelo ya que esto nos permite verificar si es posible estimarlo, cuando el modelo no está subidentificado, y de ser así podemos seleccionar entre métodos de información incompleta (MCI, MC2E, MV con información limitada) si es que el modelo está sobreidentificado o podemos optar entre métodos de información completa (MV y MC3E) cuando el modelo está exactamente identificado.

Ejemplo de estimación de demanda de electricidad residencial en México bajo el problema de simultaneidad.

Esta sección pretende ilustrar como un problema de simultaneidad sesga al estimador MCO y como un resultado carente de sentido nos puede alertar de una mala especificación del modelo la cual puede derivarse de la omisión de una variable relevante, de errores de medición de la variable, una mala especificación de la forma funcional o en este caso la presencia de un problema de simultaneidad.

Se estima por MCO un modelo de demanda de electricidad de los hogares ignorando un problema de simultaneidad. Los datos provienen de la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) 2014 y se han estimado las variable de “consumo de kwh” y “precio de kwh” mediante la información de las tarifas de CFE y el gasto en electricidad que reportan los hogares en la ENIGH. Para obtener el precio medio de kwh3 se ha identificado las tarifas que corresponden a cada localidad de forma que estas se pueden asociar a cada hogar mediante la variable “ubicación geográfica” de la vivienda ya que esta última cuenta con un código de localidad. Las variable de “consumo de kwh” así como las independientes de ingreso4, “precio de kwh” y “precio de gas LP” han sido expresadas como logaritmos con el fin de obtener las elasticidades ingreso de la demanda, precio de la demanda y precio cruzada de la demanda. El resto de las variables se expresan en niveles o son variables ficticias.

Nótese en el siguiente output de resultados que la elasticidad precio de la demanda es positiva (+ 1.37) lo cual no tiene sentido ya que esperamos una relación negativa entre el consumo y el precio de la electricidad. Esto es signo de una mala especificación del modelo que puede derivar ya sea de la omisión de alguna variable relevante que se correlaciona negativamente con el “precio de kwh” o por algún otro problema de especificación como lo puede ser un problema de simultaneidad entre el “precio de kwh” y el “consumo de kwh”5.

## 
## Call:
## lm(formula = log_Q_kwh ~ X)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -3.03594 -0.33095  0.02252  0.34437  2.58852 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -0.1904435  0.4417628  -0.431  0.66640    
## Xlog_Ingreso          0.1060564  0.0068754  15.426  < 2e-16 ***
## Xlog_Precio_elec      1.3752785  0.0278557  49.372  < 2e-16 ***
## Xlog_Precio_gaslp     1.0581567  0.1689113   6.265 3.83e-10 ***
## XIntegrantes          0.1037215  0.0072634  14.280  < 2e-16 ***
## XIntegrantes_Sq      -0.0061775  0.0007217  -8.560  < 2e-16 ***
## XDepartamento        -0.1572074  0.0252640  -6.223 5.01e-10 ***
## XVecindad            -0.2495260  0.0363176  -6.871 6.62e-12 ***
## XAire_acond           0.7950246  0.0131953  60.250  < 2e-16 ***
## XNo_gas              -0.2908336  0.0148123 -19.635  < 2e-16 ***
## XProp_foco_ahorrador  0.0747957  0.0113454   6.593 4.45e-11 ***
## Xtemperatura          0.0532216  0.0009474  56.177  < 2e-16 ***
## XEstrato_bajo_r      -0.1802028  0.0156354 -11.525  < 2e-16 ***
## XEstrato_medio_r     -0.0373062  0.0155909  -2.393  0.01673 *  
## XEstrato_bajo_u      -0.0767851  0.0239989  -3.200  0.00138 ** 
## XEstrato_medioalto_u  0.0753658  0.0121273   6.215 5.27e-10 ***
## XEstrato_alto_u       0.0809720  0.0178131   4.546 5.52e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.565 on 16560 degrees of freedom
## Multiple R-squared:  0.5674, Adjusted R-squared:  0.567 
## F-statistic:  1357 on 16 and 16560 DF,  p-value: < 2.2e-16

Por tanto se realiza prueba de endogeneidad de Haussman para verificar si existe problema de simultaneidad, y se rechaza hipótesis nula de no simultaneidad al 5 %. Es decir que se encuentra evidencia de problema de simultaneidad entre las variables “consumo de kwh” y “precio de kwh”.

## 
## Call:
## lm(formula = log_Q_kwh ~ log_Precio_elec + ec_precio$residuals)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1741 -0.4862 -0.0268  0.4251  2.7192 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          5.05398    0.01651 306.099  < 2e-16 ***
## log_Precio_elec      0.20782    0.07766   2.676  0.00746 ** 
## ec_precio$residuals  1.16746    0.08780  13.297  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8307 on 16574 degrees of freedom
## Multiple R-squared:  0.06409,    Adjusted R-squared:  0.06397 
## F-statistic: 567.4 on 2 and 16574 DF,  p-value: < 2.2e-16

Para corregir el problema de endogeneidad se utiliza el Método de Variables Instrumentales (IV). Este método consiste en realizar una estimación de la variable endógena en cuestión, en este caso “precio de kwh”, de forma que la estimación de esta variable no se correlacione con el término de perturbación de la ecuación de demanda de electricidad. Dicho de otra forma y recurriendo a la analogía de los boxeadores podríamos decir que se trata de entrenar al boxeador “X” para que vea al boxeador “Y” como un costal de papas.

La metodología de IV se realiza en dos etapas:

  1. Se estima la ecuación de “Precio de kwh” utilizando tods las variables exógenas del modelo como regresores y se agregan variables que ayuden a predecir el precio pero que no estén correlacionados con el término de perturbación de la ecuación de “consumo de kwh”, luego se obtienen los valores ajustados de la variable “precio de kwh”. Como instrumentos se utilizan variables ficticias del tipo de tarifa que corresponde al hogar interaccionada con una variable ficticia que toma valores de 1 cuando el consumo se realizó durante la temporada de verano6 y 0 cuando se realizó fuera de la temporada de verano.
  1. En la ecuación de Demanda de electricidad se sustituye la variable “precio de kwh” por los valores ajustados de precio obtenidos en el paso anterior y se estima el modelo. A continuación se muestra el output final de la demanda de electricidad y verificamos los resultados de las elasticidades.

Finalmente podemos apreciar que después de haber corregido mediante el método IV al menos la elasticidad precio de la demanda (- 2.31)7 tiene un signo negativo el cual tiene sentido económico, igualmente podemos notar que la elasticidad ingreso de la demanda (+ 0.31) y la elasticidad precio cruzada de la demanda que resultó en (- 0.31) y la cual corresponde a la variación de consumo en electricidad ante variaciones en el “precio del gas LP”, aunque el signo obtenido no corresponde con el esperado ya que se consideraba que existiía un grado de sustitución entre las diferentes fuentes de energía de forma que un incremento en el “precio del gas LP” más bien debería aumentar el consumo de electricidad pero esta variable ha resultado no significativa para una tolerancia de probabilidad de error del 5 %.

## 
## Call:
## lm(formula = log_Q_kwh ~ X_2st)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2987 -0.3438  0.0223  0.3813  2.4520 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               1.3714298  0.4512491   3.039  0.00238 ** 
## X_2stlog_Ingreso          0.3105201  0.0075158  41.315  < 2e-16 ***
## X_2stlog_Precio_elec_1st -2.3118329  0.0563158 -41.051  < 2e-16 ***
## X_2stlog_Precio_gaslp    -0.3180297  0.1733112  -1.835  0.06652 .  
## X_2stIntegrantes          0.1282777  0.0074187  17.291  < 2e-16 ***
## X_2stIntegrantes_Sq      -0.0057188  0.0007364  -7.766 8.60e-15 ***
## X_2stDepartamento        -0.2402170  0.0258028  -9.310  < 2e-16 ***
## X_2stVecindad            -0.3675009  0.0370914  -9.908  < 2e-16 ***
## X_2stAire_acond           0.7475829  0.0134792  55.462  < 2e-16 ***
## X_2stNo_gas              -0.3240032  0.0151210 -21.427  < 2e-16 ***
## X_2stProp_foco_ahorrador  0.1372508  0.0116062  11.826  < 2e-16 ***
## X_2sttemperatura          0.0182382  0.0010711  17.027  < 2e-16 ***
## X_2stEstrato_bajo_r      -0.2313678  0.0159687 -14.489  < 2e-16 ***
## X_2stEstrato_medio_r     -0.0113796  0.0159128  -0.715  0.47454    
## X_2stEstrato_bajo_u      -0.1865347  0.0245314  -7.604 3.03e-14 ***
## X_2stEstrato_medioalto_u  0.1552715  0.0124196  12.502  < 2e-16 ***
## X_2stEstrato_alto_u       0.2907804  0.0183860  15.815  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5765 on 16560 degrees of freedom
## Multiple R-squared:  0.5495, Adjusted R-squared:  0.5491 
## F-statistic:  1263 on 16 and 16560 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Q ~ Z)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3270 -0.4241 -0.0127  0.4180  3.0157 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           0.8157328  0.5297403   1.540    0.124    
## Zlog_Ingreso          0.2377742  0.0080367  29.586  < 2e-16 ***
## Zlog_Precio_gaslp     0.1716020  0.2022383   0.849    0.396    
## ZIntegrantes          0.1195409  0.0087102  13.724  < 2e-16 ***
## ZIntegrantes_Sq      -0.0058820  0.0008657  -6.795 1.12e-11 ***
## ZDepartamento        -0.2106831  0.0302968  -6.954 3.68e-12 ***
## ZVecindad            -0.3255268  0.0435527  -7.474 8.15e-14 ***
## ZAire_acond           0.7644621  0.0158230  48.313  < 2e-16 ***
## ZNo_gas              -0.3122018  0.0177660 -17.573  < 2e-16 ***
## ZProp_foco_ahorrador  0.1150300  0.0135979   8.459  < 2e-16 ***
## Ztemperatura          0.0306849  0.0010914  28.116  < 2e-16 ***
## ZEstrato_bajo_r      -0.2131638  0.0187501 -11.369  < 2e-16 ***
## ZEstrato_medio_r     -0.0206040  0.0187010  -1.102    0.271    
## ZEstrato_bajo_u      -0.1474870  0.0287714  -5.126 2.99e-07 ***
## ZEstrato_medioalto_u  0.1268420  0.0145297   8.730  < 2e-16 ***
## ZEstrato_alto_u       0.2161329  0.0212834  10.155  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6778 on 16561 degrees of freedom
## Multiple R-squared:  0.4536, Adjusted R-squared:  0.4532 
## F-statistic: 916.7 on 15 and 16561 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = log_Q_kwh ~ Z)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2045 -0.3711  0.0135  0.3968  2.4424 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           0.3921293  0.4729766   0.829  0.40708    
## Zlog_Ingreso          0.1823206  0.0071755  25.409  < 2e-16 ***
## Zlog_Precio_gaslp     0.5448444  0.1805677   3.017  0.00255 ** 
## ZIntegrantes          0.1128809  0.0077769  14.515  < 2e-16 ***
## ZIntegrantes_Sq      -0.0060064  0.0007729  -7.771 8.24e-15 ***
## ZDepartamento        -0.1881696  0.0270504  -6.956 3.62e-12 ***
## ZVecindad            -0.2935302  0.0388858  -7.549 4.63e-14 ***
## ZAire_acond           0.7773290  0.0141275  55.022  < 2e-16 ***
## ZNo_gas              -0.3032057  0.0158623 -19.115  < 2e-16 ***
## ZProp_foco_ahorrador  0.0980912  0.0121409   8.079 6.95e-16 ***
## Ztemperatura          0.0401730  0.0009744  41.228  < 2e-16 ***
## ZEstrato_bajo_r      -0.1992871  0.0167410 -11.904  < 2e-16 ***
## ZEstrato_medio_r     -0.0276357  0.0166971  -1.655  0.09792 .  
## ZEstrato_bajo_u      -0.1177212  0.0256884  -4.583 4.62e-06 ***
## ZEstrato_medioalto_u  0.1051703  0.0129728   8.107 5.55e-16 ***
## ZEstrato_alto_u       0.1592297  0.0190028   8.379  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6051 on 16561 degrees of freedom
## Multiple R-squared:  0.5037, Adjusted R-squared:  0.5032 
## F-statistic:  1120 on 15 and 16561 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Q ~ X_2st)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.4664 -0.4170 -0.0118  0.4053  3.0999 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               1.3714298  0.5241718   2.616  0.00889 ** 
## X_2stlog_Ingreso          0.3105201  0.0087304  35.568  < 2e-16 ***
## X_2stlog_Precio_elec_1st -1.3118329  0.0654166 -20.054  < 2e-16 ***
## X_2stlog_Precio_gaslp    -0.3180297  0.2013187  -1.580  0.11419    
## X_2stIntegrantes          0.1282777  0.0086176  14.886  < 2e-16 ***
## X_2stIntegrantes_Sq      -0.0057188  0.0008554  -6.685 2.38e-11 ***
## X_2stDepartamento        -0.2402170  0.0299726  -8.015 1.18e-15 ***
## X_2stVecindad            -0.3675009  0.0430855  -8.530  < 2e-16 ***
## X_2stAire_acond           0.7475829  0.0156574  47.746  < 2e-16 ***
## X_2stNo_gas              -0.3240032  0.0175645 -18.446  < 2e-16 ***
## X_2stProp_foco_ahorrador  0.1372508  0.0134818  10.180  < 2e-16 ***
## X_2sttemperatura          0.0182382  0.0012442  14.658  < 2e-16 ***
## X_2stEstrato_bajo_r      -0.2313678  0.0185493 -12.473  < 2e-16 ***
## X_2stEstrato_medio_r     -0.0113796  0.0184843  -0.616  0.53814    
## X_2stEstrato_bajo_u      -0.1865347  0.0284958  -6.546 6.08e-11 ***
## X_2stEstrato_medioalto_u  0.1552715  0.0144267  10.763  < 2e-16 ***
## X_2stEstrato_alto_u       0.2907804  0.0213572  13.615  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6697 on 16560 degrees of freedom
## Multiple R-squared:  0.4666, Adjusted R-squared:  0.4661 
## F-statistic: 905.4 on 16 and 16560 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = log_Q_kwh ~ X_2st)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2987 -0.3438  0.0223  0.3813  2.4520 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               1.3714298  0.4512491   3.039  0.00238 ** 
## X_2stlog_Ingreso          0.3105201  0.0075158  41.315  < 2e-16 ***
## X_2stlog_Precio_elec_1st -2.3118329  0.0563158 -41.051  < 2e-16 ***
## X_2stlog_Precio_gaslp    -0.3180297  0.1733112  -1.835  0.06652 .  
## X_2stIntegrantes          0.1282777  0.0074187  17.291  < 2e-16 ***
## X_2stIntegrantes_Sq      -0.0057188  0.0007364  -7.766 8.60e-15 ***
## X_2stDepartamento        -0.2402170  0.0258028  -9.310  < 2e-16 ***
## X_2stVecindad            -0.3675009  0.0370914  -9.908  < 2e-16 ***
## X_2stAire_acond           0.7475829  0.0134792  55.462  < 2e-16 ***
## X_2stNo_gas              -0.3240032  0.0151210 -21.427  < 2e-16 ***
## X_2stProp_foco_ahorrador  0.1372508  0.0116062  11.826  < 2e-16 ***
## X_2sttemperatura          0.0182382  0.0010711  17.027  < 2e-16 ***
## X_2stEstrato_bajo_r      -0.2313678  0.0159687 -14.489  < 2e-16 ***
## X_2stEstrato_medio_r     -0.0113796  0.0159128  -0.715  0.47454    
## X_2stEstrato_bajo_u      -0.1865347  0.0245314  -7.604 3.03e-14 ***
## X_2stEstrato_medioalto_u  0.1552715  0.0124196  12.502  < 2e-16 ***
## X_2stEstrato_alto_u       0.2907804  0.0183860  15.815  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5765 on 16560 degrees of freedom
## Multiple R-squared:  0.5495, Adjusted R-squared:  0.5491 
## F-statistic:  1263 on 16 and 16560 DF,  p-value: < 2.2e-16

Conclusiones

  • Una mala definición de las variables para un modelo especifico deriva en una mala especificación del modelo y por tanto en el sesgo del estimador de MCO por lo que la definición de las variables como endógenas o exógenas no debe interpretarse como una decisión trivial del investigador.

  • La probabilidad de ignorar el problema de simultaneidad se puede reducir con una buena revisión de la literatura, con un buen desarrollo del marco teórico y con conocimiento de la naturaleza o mecánica de las variables disponibles.

  • La obtención de resultados que carecen de sentido es indicio de una mala especificación del modelo la cual pudo ser ocasionada de la omisión de una variable relevante o un problema de simultaneidad, entre otros.

  • Se debe aplicar una prueba de endogeneidad cuando la literatura o la misma naturaleza o mecánica de las variables sugieren que las variables en cuestión se determinan de forma simultánea.

  • Se puede realizar la prueba de endogeneidad cuando se tiene la sospecha de que una estimación carente de sentido fue producto de un problema de simultaneidad. En cualquier caso, encontrar evidencia estadística de un problema de simultaneidad que no está sustentado en la literatura no podría fundamentarse únicamente en el resultado del test sino que se debería argumentar de manera lógica por qué razón ocurre el problema de simultaneidad. Un test estadístico no se debe considerar como prueba absoluta de la hipótesis contrastada.

  • Una de las aplicaciones de la Metodología de Variables Instrumentales IV es la corrección de endogeneidad pero esta requiere de variables que ayuden a explicar al regresor que ocasiona el problema de simultaneidad y que a su vez no estén correlacionados con la perturbación del modelo que se desea estimar.

Creative Commons License
El criterio de definición de variables endógenas y exógenas by Ricardo Arturo Cárdenas Ovalle is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.


  1. Podríamos cuestionarnos si la elasticidad precio de la demanda es significativa, en cualquier caso la estimación de una función de demanda debe considerar el precio del bien o servicio ya que se espera que sea una variable relevante en el modelo y su omisión provocaría un sesgo en el estimador MCO por subidentificación del modelo. Además, nos interesa conocer si la elasticidad precio de la demanda es significativa, esperando que la relación sea negativa.

  2. Ver Econometría, Capítulo 19: “El problema de identificación”, Gujarati, D.N. Porter, D. C., Edicion: Quinta, 2010, Publicación: Mc Graw Hill.

  3. Se utiliza el precio medio de la electricidad ya que para los consumidores es costoso distinguir el precio marginal partiendo de la informació́n proporcionada en su recibo de electricidad ya que el precio varía para diferentes niveles de consumo dependiendo del esquema de bloques de consumo (Fernáandez, 2006). Lo anterior se soporta empíricamente, en el trabajo de Shin (1985), que contrasta si los consumidores de electricidad residencial responden al precio medio o al precio marginal favoreciendo a la hipó́tesis de que los consumidores responden al precio medio que perciben a partir de la factura de electricidad. Si se desea documentar al respecto ver Partí y Partí (1980), Shin (1985), Baker, Blundell y Micklewright (1989),Branch (1993), Silk y Joutz (1997), Nesbakken (1999), Halvorsen y Larsen (2001) y Zarnikau (2003).

  4. En lugar de utilizar el ingreso como indicador de la renta del hogar se utiliza el gasto no energético ya que el primero puede influir tanto en el consumo de la electricidad como en el equipamiento de electrodomésticos de los hogares (Fernández, 2006) mientras que el gasto no energético indica el poder adquisitivo sin la distorsión sobre la capacidad adquisitiva de equipos eléectricos. Si se desea documentar acerca de este punto ver Dubin y McFadden (1984), Baker y Blundell (1991), Leth-Petersen (2002) y Halvorsen, Larsen y Nesbakken (2003) y Fernández (2006).

  5. El problema de endogeneidad entre las variables “consumo de kwh” y “precio de kwh” se ha encontrado presente con regularidad en trabajos previos cuando el “precio de kwh” varía por bloques de consumo como en este caso. Por tanto, estimar el modelo de forma directa no garantiza la consistencia de los estimadores. Ver Reiss y White (2005), Fell, Li y Paul (2014) y Fernández(2006).

  6. La temporada de verano en cuestión es establecida por la CFE y comprende los 6 meses consecutivos más calurosos del año para una localidad.

  7. Hay que tomar con cautela el resultado de la elasticidad precio de la demanda ya que: 1) Esto es sólo un ejercicio; y 2) Trabajos previos que aplicaron una metodología similar han obtenido los siguientes resultados: -0.20 Branch (1993); -0.39 Reiss y White (2005); -0.55 Dubin, Miedema y Chandran (1986); -0.58 Parti y Parti (1980); -0.59 Fernández (2006); -0.62 Baker (1992); - 0.75 Baker, Blundell y Micklewright (1989). Aunque también se debe considerar que la elasticidad precio de la demanda de electricidad puede ser distinta entre economías y que el trabajo más reciente de los citados es el de Fernández (2006). Por su parte, He y Reiner (2014) realizaron una estimación de la demanda de electricidad de los hogares para tres provincias de China enfrentando un esquema de tarifa de consumo por bloques y obtuvieron elasticidades precio de la demanda de -3.59 y -2.91 para hogares rurales y urbanos, respectivamente.