Econometría II
Introducción
En esta publicación intento estimar los ejercicios hechos en la clase de Econometría II en la Facultad de Economía, UNAM. Dichos ejercicios fueron hechos en clase con Python. Todas las ecuaciones y explicaciones que se presentan fueron realizadas por el profesor Benjamín Oliva Vázquez, en su Github ( https://github.com/benjov ) se pueden encontrar los archivos para dichos ejercicios en Python. Así, solo intento pasar dichos ejercicios en R para observar las diferencias que se pueden llegar a presentar entre lenguajes de programación a la hora de estimar tales modelos.
Regresión lineal
Aplicación del Método de MCO: Retornos a Escala en la Industria Eléctrica.
Los oferentes/generadores de electricidad son monopolios locales privados. Las tarifas o precios minoristas de la eléctricidad son establecidos por un ente regulador. Los precios de los factores productivos están dados y no son modificables por las empresas en el corto plazo, ya que existen diversos contratos de largo plazo (por ejemplo, los contratos laborales). Respecto de los datos, estos consisten en 145 empresas ubicadas en 44 estados en EUA en el año 1955, ya que son para los únicos estados para los que existe información. El estudio utilizó información de aproximadamente el 80% de la electricidad producida.
Visto por la forma de producción, Nerlove identicó que existían 3 métodos de producción de electricidad:
- Motores de conbustión interna.
- Hidroeléctricas.
- Termoeléctricas. Al respecto, Nerlove muestra que en los 50’s ’ cerca del 70% de la electricidad era producida por las empresas termoeléctricas. El combustible pincipal empleado en dichas termoeléctricas era carbón (66.4%), seguido de petróleo (14.5%) y gasolina (19.1%).
Variables:
Las variables consideradas son: costos totales, precios de los factores (salarios, precios de combustibles, renta o precio del capital), y el producto. Aunque las empresas son dueñas del capital, en el modelo se supone que dichas empresas se comportan como si estas pagaran una renta de capital, por lo que se imputa un precio por el costo de capital.
No obstante, para mayores detalles refierase al documento original de Nerlove, donde se describe con mayor detalle la forma en que fue construída la base de datos. Los datos de producción, combustibles y costos laborales fueron obtenidos de la Federal Power Commision (1956)
Motivación económica: La motivación para el analísis es que mediante un enfoque econométrico se puede construir una curva de costo promedio (AC, por sus siglas en inglés) para cada empresa, misma que es diferente de la promedio de la industria. Esto es, la empresas enfrentan diferentes precios por los factores productivos y por lo tanto diferentes costos totales, medios y marginales.
Para enfocarnos en la conexión entre la eficiencia de producción y el producto, asumimos que todas las empresas enfrentan mas o menos los mismos precios de los factores, y la única razón por la que las curvas de costo medio (AC) y de costo marginal (MC) difieren entre las empresas es la diferencia en la eficiencia productiva. Las curvas de AC y de MC tienen pendiente positiva para reflejar retornos a escala decrecientes.
Si vemos la siguiente Figura, las curvas de AC y MC de la empresa A estan a la izquierda de las de la empresa B porque la empresa A es menos eficiente que B. Esto es derivado de que la industria es competida, ambas empresas enfrentan el mismo precio \(p\). Dado que la cantidad está determinada por la intersección de MC y el precio de mercado, las combinaciones de cantidad / producto y el AC para las dos empresas e ilustra en la Figura.
De esta forma, la curva que resulta de conectar los puntos A y B puede tener una pendiente negativa, dando la impresión de un escenario de rendimientos crecientes a escala en la industria, ya que la agregación de todos los puntos de las empresas individuales conformaran la curva de costos promedio de la industria.
La parametrización de la función de costos parte de una función de producción del tipo Cobb - Douglas: \[Q_i = A_i x^{\alpha_1}_{i1} x^{\alpha_2}_{i2} x^{\alpha_3}_{i3}\]
Donde \(Q_i\) es la producción de la empresa \(i\), \(x_{i1}\) es el insumo de trabajo para la empresa \(i\), \(x_{i2}\) es el insumo capital para la empresa \(i\), y \(x_{i3}\) es el insumo de combustible para la empresa \(i\). El término \(A_i\) captura las direncias no observables en la eficiencia de producción (este término también es conocido como el de heterogenidad de las empresas).
Asimismo, la suma de los paramétros: \(\alpha_1 + \alpha_2 + \alpha_3 = r\) indica el grado de retornos a escala. Dado esto último, asumiremos que el grado de retornos a escala es constante (esto no significa que existen retornos a escala constantes, ya que para ello se debería cumplir que \(r = 1\)). Adicionalmente, en el modelo se supone que dada la naturaleza de propiedad de las empresas generadoras, el problema que cada una ellas enfrenta es uno de minimización de costos (véase Nerlove (1963) para una discusión sobre las restricciones relacionadas con este supuesto).
En este sentido, el problema que cada empresa enfrenta es el de minimizar sus costos de producción, sujeto a la cantidad producida, es decir: \[\min_{x_{i1}, \ldots, x_{iK}} \sum_{k = 1}^{K} p_{ik}x_{ik}\] s.a. \[Q_i = f(x_{i1}, \ldots, x_{iK}, A_i)\]
Resolviendo el problema anterior: \[ln(C_i) = \mu_i + \frac{1}{r} ln(Q_i) + \frac{\alpha_1}{r} ln(p_{i1}) + \frac{\alpha_2}{r} ln(p_{i2}) + \frac{\alpha_3}{r} ln(p_{i3})\]
Donde \(\mu_i = ln \left[ r \left( A_i \alpha^{\alpha_1}_{1} \alpha^{\alpha_2}_{2} \alpha^{\alpha_3}_{3} \right)^{-1/r} \right]\).
La ecuación es conocida como una ecuación log-lineal, de la cual se puede interpretar a sus pendientes como elasticidades. Es decir, el cambio porcentual en el costo total cuando se incremnta en 1% el precio de cualquiera de los factores.
Si definimos a \(\mu = \mathbb{E} [\mu_i]\) y a \(\varepsilon_i = \mu_i - \mu\), de tal forma que \(\mathbb{E} [\varepsilon_i] = 0\). De esta forma \(\varepsilon_i\) se puede interpretar como la eficiencia productiva de las empresas. Considerando lo anterior plateamos la expresión: \[ln(C_i) = \beta_1 + \beta_2 ln(Q_i) + \beta_3 ln(p_{i1}) + \beta_4 ln(p_{i2}) + \beta_5 ln(p_{i3}) + \varepsilon_i\]
Donde: \[\beta_1 = \mu\]
\[\beta_2 = \frac{1}{r}\]
\[\beta_3 = \frac{\alpha_1}{r}\]
\[\beta_4 = \frac{\alpha_2}{r}\]
\[\beta_5 = \frac{\alpha_3}{r}\]
De esta forma podemos decir que \(y_i = ln(C_i)\) y que: \[\mathbf{X}'_i = [ln(Q_i), ln(p_{i1}), ln(p_{i2}), ln(p_{i3})]\]
Esta función tmabién es conocida como una función trans-log o trans-logarítmica, de la cual podemos recuperar una forma estimada de la función de costos original:
"
Plan de la clase: Media condicional descrita por:
\[ln(C_i) = \beta_1 + \beta_2 ln(Output_i) + \beta_3 ln(plabor_{i1}) + \beta_4 ln(pfuel_{i2}) + \beta_5 ln(pkap_{i3}) + \varepsilon_i\]
Metadatos: La base de datos contiene 145 observaciones de las siguientes variables: Datos de Demanda de Gasolina: totcost: costs in 1970, MM USD output: output billion KwH plabor: price of labor pfuel: price of fuel pkap: price of capital
Creamos variables aplicando logaritmos y agregamos una constante
Estadísticas descriptivas
Primero observamos las variables con las que contamos:| totcost | output | plabor | pfuel | pkap | Ltotcost | Loutput | Lplabor | Lpfuel | Lpkap | avgcost | constan |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.082 | 2 | 2.09 | 17.9 | 183 | -2.5010360 | 0.6931472 | 0.7371640 | 2.884801 | 5.209486 | 0.0410000 | 1 |
| 0.661 | 3 | 2.05 | 35.1 | 174 | -0.4140014 | 1.0986123 | 0.7178398 | 3.558201 | 5.159055 | 0.2203333 | 1 |
| 0.990 | 4 | 2.05 | 35.1 | 171 | -0.0100503 | 1.3862944 | 0.7178398 | 3.558201 | 5.141664 | 0.2475000 | 1 |
| 0.315 | 4 | 1.83 | 32.2 | 166 | -1.1551826 | 1.3862944 | 0.6043160 | 3.471967 | 5.111988 | 0.0787500 | 1 |
| 0.197 | 5 | 2.12 | 28.6 | 233 | -1.6245516 | 1.6094379 | 0.7514160 | 3.353407 | 5.451039 | 0.0394000 | 1 |
| 0.098 | 9 | 2.12 | 28.6 | 195 | -2.3227878 | 2.1972246 | 0.7514160 | 3.353407 | 5.273000 | 0.0108889 | 1 |
En la siguiente gráfica se puede observar el histograma de los costos totales.
En la siguiente gráfica se presenta la misma información pero en fomra de gráfica de densidad
Y en esta última gráfica se presenta la relación entre la producción y el promedio del los costos.
Regresión Realizamos una regresión lineal simple, a partir de ella obtenemos diferentes componentes de tal regresión.
Call:
lm(formula = Ltotcost ~ Loutput + Lplabor + Lpfuel + Lpkap, data = base1)
Residuals:
Min 1Q Median 3Q Max
-0.97784 -0.23817 -0.01372 0.16031 1.81751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.52650 1.77437 -1.987 0.0488 *
Loutput 0.72039 0.01747 41.244 < 2e-16 ***
Lplabor 0.43634 0.29105 1.499 0.1361
Lpfuel 0.42652 0.10037 4.249 3.89e-05 ***
Lpkap -0.21989 0.33943 -0.648 0.5182
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3924 on 140 degrees of freedom
Multiple R-squared: 0.926, Adjusted R-squared: 0.9238
F-statistic: 437.7 on 4 and 140 DF, p-value: < 2.2e-16
Obtenemos los estimadores: \[\hat{\boldsymbol \beta} = (\mathbf{X'X})^{-1}\mathbf{X'Y}\]
(Intercept) Loutput Lplabor Lpfuel Lpkap
-3.5265028 0.7203941 0.4363412 0.4265169 -0.2198884
La especificación más común de la prueba de hipótesis en el análisis de regresión es: \[H_0: \beta_k = 0\] \[H_a: \beta_k \neq 0\]
Lo que en términos de una prueba \(t\) es la siguiente: \[t = \frac{\hat{\beta}_k - 0}{\sqrt{\hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}_{kk}}} \sim t_{n - k}\] La hipotésis nula de una prueba global se puede escribir como: \[H_0: \beta_1 = \beta_2 = \ldots = \beta_K = 0\] \[H_a: No H_0\]
Esta prueba se le conoce como prueba global, ya que prueba si en conjunto todas las variables independientes tienen un efecto nulo en \(\mathbf{Y}\). Notemos que la prueba implica que la estadística \(F\) de prueba será: \[F = \frac{(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{r})'[\mathbf{R} \hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}\mathbf{R}']^{-1}(\mathbf{R} \boldsymbol{\hat{\beta}} - \mathbf{r})}{J} \sim F_{J, n - K}\]
La matriz \(\mathbf{R}\) y vector \(\mathbf{r}\): \[\mathbf{R} = \left[ \begin{array}{c c c c} 1 & 0 & \ldots & 0 \\ 0 & 1 & \ldots & 0 \\ 0 & 0 & \ldots & 0 \\ \vdots & \vdots & \cdots & \vdots \\ 0 & 0 & \ldots & 1 \\ \end{array} \right]\]
\[\mathbf{r} = \left[ \begin{array}{c} 0 \\ 0 \\ 0 \\ \vdots \\ 0 \\ \end{array} \right]\]
Los resultados indican que, la probabilidad de F es de 4, lo que indica que se puede rechazar la hipótesis de que, en conjunto, las variables son estadísticamente 0.
En el caso que nos ocupa queremos probar si la suma de los coeficientes asociados los factores productivos es 1, es decir, la función de costos exibe rendimientos constantes a escala: \[H_0: \beta_3 + \beta_4 + \beta_5 = 1\] \[H_1: \beta_3 + \beta_4 + \beta_5 \neq 1\]
Existen dos alternativas para probar la hipótesis. Partamos de que: La matriz \(\mathbf{R}\) y vector \(\mathbf{r}\): \[\mathbf{R} = \left[ \begin{array}{c c c c c} 0 & 0 & 1 & 1 & 1 \end{array} \right]\]
\[\mathbf{r} = 1\]
El p-value que se obtiene de la prueba t es de 0.450, se acepta la hipótesis nula, lo que quiere decir que estadísticamente hay retornos a escala constantes en la industria.
El p-value de la prueba f es de 0.4500. Se concluye que la hipótesis nula se acepta, al igual que en la prueba t.
Cómo se ve la curva de costos medios estimados. Para ello obtenemos los fitted values de la regresión y con esos valores los dividimos entre el producto, a ello lo llamamos costos medios estimados.
Una curva de ese tipo infiere que podríamos seguir aumentando la producción y eso seguiría generando retornos crecientes a escala. Con las hipótesis observamos que la industria en conjunto, todas las empresas tienen la misma estructura de retornos a escala.
OLS Variables Instrumentales
Para esta clase utilizaremos como referencia la hipótesis y datos utilizados en el artículo: “The Colonial Origins of Comparative Development: An Empirical Investigation”
Autores: Daron Acemoglu, Simon Johnson, James A. Robinson
Fuente: The American Economic Review, Vol. 91, No. 5 (Dec., 2001), pp. 1369-1401 https://economics.mit.edu/files/4123
La versión en español la pueden encontrar en redalyc.org/pdf/419/41901302.pdf
PROPÓSITO DE ESTA CLASE Aplicar el concepto de variables instrumentales que ya revisamos de forma teórica. Utilizando un modelo de 2 etapas analizar la hipótesis de los autores: el desempeño económico observado puede ser atribuido a las diferencias institucionales.
Los autores del artículo proponen 3 premisas:
- Los diversos tipos de políticas de colonización crearon diferentes grupos de instituciones. En un extremo, los europeos establecieron “Estados extractivos” , instituciones que no proporcionaron mucha protección a la propiedad privada, ni establecieron un sistema de pesos y contrapesos contra la expropiación del gobierno.
En el otro extremo, muchos europeos emigraron y se asentaron en diversas colonias, creando “nuevas Europas”. Los colonizadores trataron de replicar las instituciones europeas, con gran énfasis en la propiedad privada y en el control del poder del gobierno.
La factibilidad de los asentamientos influyó en la estrategia de colonización. En lugares donde el ambiente insalubre no era favorable al asentamiento europeo, no resultaba posible crear “nuevas Europas”,y era más factible la formación del Estado extractivo.
El Estado colonial y las instituciones persistieron aun después de la independencia.
HIPÓTESIS: las tasas de mortalidad (potenciales) de los colonizadores fueron el principal determinante de los asentamientos; los asentamientos fueron un determinante importante de las instituciones iniciales (en la práctica, las instituciones de 1900); y existe una fuerte correlación entre las instituciones iniciales y las instituciones actuales.
¿Cómo medimos las diferencias institucionales y los resultados económicos?
Los resultados económicos de una economía son aproximados por el logaritmo del PIB per cápita en 1995, ajustados por la paridad del poder adquisitivo, ppp.
Las diferencias institucionales son aproximadas mediante el índice de protección contra la expropiación que reporta un valor entre 0 y 10 para cada país y año,donde 0 corresponde a la menor protección contra la expropiación. Se utilizó el valor promedio de cada país entre 1985 y 1995 ( “riesgo de expropiación” promedio 1985-95", este índice fue construido por el Grupo de Servicios de Riesgo Político https://www.prsgroup.com/).
La principal contribución del artículo es el uso de las tasas de mortalidad como fuente de variación exógena en las diferencias institucionales.
Dicha variación es necesaria para determinar si son las instituciones las que dan lugar a un mayor crecimiento económico, y no al revés.
Explorando los datos Observamos las variables:
| shortnam | euro1900 | excolony | avexpr | logpgp95 | cons1 | cons90 | democ00a | cons00a | extmort4 | logem4 | loghjypl | baseco |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AFG | 0 | 1 | NA | NA | 1 | 2 | 1 | 1 | 93.70 | 4.540098 | NA | NA |
| AGO | 8 | 1 | 5.363637 | 7.770645 | 3 | 3 | 0 | 1 | 280.00 | 5.634790 | -3.4112477 | 1 |
| ARE | 0 | 1 | 7.181818 | 9.804219 | NA | NA | NA | NA | NA | NA | NA | NA |
| ARG | 60 | 1 | 6.386363 | 9.133459 | 1 | 6 | 3 | 3 | 68.90 | 4.232656 | -0.8722738 | 1 |
| ARM | 0 | 0 | NA | 7.682482 | NA | NA | NA | NA | NA | NA | NA | NA |
| AUS | 98 | 1 | 9.318182 | 9.897972 | 7 | 7 | 10 | 7 | 8.55 | 2.145931 | -0.1707883 | 1 |
Con una gráfica de dispersión exploraremos la relación entre las variables ‘avexpr’ Protección promedio contra el riesgo de expropiación,1985-1995 y ‘logpgp95’ Logaritmo del pib per cápita, 1975 y 1995
En efecto, a medida que hay más protección contra la expropiación (instituciones más sólidas) habrá mayor PIB per cápita.
*Modelo OLS Bivariado
La gráfica 2 muetra las mismas variables que la gráfica 1, pero ahora con el nombre corto de los países en lugar de puntos.
Añadimos una constante al dataset para poder estimar el modelo OLS.
Estimamos el modelo con variable endógena al logaritmo del PIB pc de 1995 y como variables exógenas a la constante y al índice promedio contra el riesgo de expropiación. Se usa la función ivreg del paquete “AER”
Call:
ivreg(formula = logpgp95 ~ avexpr | avexpr, data = base2)
Residuals:
Min 1Q Median 3Q Max
-1.9020 -0.3160 0.1380 0.4225 1.4406
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.62609 0.30058 15.39 <2e-16 ***
avexpr 0.53187 0.04062 13.09 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7179 on 109 degrees of freedom
Multiple R-Squared: 0.6113, Adjusted R-squared: 0.6078
Wald test: 171.4 on 1 and 109 DF, p-value: < 2.2e-16
Resultados: intercepto=4.63, B1=0.53, la calidad institucional tiene un efecto positivo en el desempeño económico. p-value: El efecto de las instituciones sobre el PIB per cápita es estadísticamente significativo R²=.611 al rededor de 61% de la variación en la variable LOG PIB per cápita es explicada por la variable Índice de Protección promedio contra el riesgo de expropiaciónEl modelo es estadísticamente significativo a nivel global.
Utilizando nuestro modelo para predecir niveles de PIB pc
Modelo Multivariado
Hasta ahora, nuestro modelo sólo considera como variable explicativa el Índice de Protección promedio contra el riesgo de expropiación, seguramente existen otras variables que tienen un efecto sobre el PIB per cápita.
Los cálculos de los parámetros de nuestro modelo pueden estar afectados por lo que se conoce como “sesgo de variable omitida”, para solucionar este problema, extenderemos nuestro modelo para incluir otras variables.
Cargamos el segundo conjunto de datos para las nuevas variables
| shortnam | africa | lat_abst | avexpr | logpgp95 | other | asia | loghjypl | baseco |
|---|---|---|---|---|---|---|---|---|
| AFG | 0 | 0.3666667 | NA | NA | 0 | 1 | NA | NA |
| AGO | 1 | 0.1366667 | 5.363637 | 7.770645 | 0 | 0 | -3.4112477 | 1 |
| ARE | 0 | 0.2666667 | 7.181818 | 9.804219 | 0 | 1 | NA | NA |
| ARG | 0 | 0.3777778 | 6.386363 | 9.133459 | 0 | 0 | -0.8722738 | 1 |
| ARM | 0 | 0.4444444 | NA | 7.682482 | 0 | 1 | NA | NA |
| AUS | 0 | 0.3000000 | 9.318182 | 9.897972 | 1 | 0 | -0.1707883 | 1 |
El primer modelo es considerando la latitud (junto con la variable avexpr) de los países.
Call:
ivreg(formula = logpgp95 ~ avexpr + lat_abst, data = base3)
Residuals:
Min 1Q Median 3Q Max
-1.7531 -0.3475 0.1207 0.4432 1.3814
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.8729 0.3280 14.855 < 2e-16 ***
avexpr 0.4635 0.0555 8.352 2.49e-13 ***
lat_abst 0.8722 0.4877 1.788 0.0765 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7108 on 108 degrees of freedom
Multiple R-Squared: 0.6225, Adjusted R-squared: 0.6155
Wald test: 89.05 on 2 and 108 DF, p-value: < 2.2e-16
El siguiente modelo es utilizando las variables anteriores más las variables de ‘asia’, ‘africa’ y ‘other’
Call:
ivreg(formula = logpgp95 ~ avexpr + lat_abst + asia + africa +
other, data = base3)
Residuals:
Min 1Q Median 3Q Max
-1.66865 -0.28680 0.06585 0.34075 1.25274
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.85108 0.33959 17.230 < 2e-16 ***
avexpr 0.38956 0.05065 7.691 8.26e-12 ***
lat_abst 0.33256 0.44549 0.747 0.457
asia -0.15306 0.15478 -0.989 0.325
africa -0.91639 0.16627 -5.511 2.56e-07 ***
other 0.30355 0.37476 0.810 0.420
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.6261 on 105 degrees of freedom
Multiple R-Squared: 0.7152, Adjusted R-squared: 0.7016
Wald test: 52.74 on 5 and 105 DF, p-value: < 2.2e-16
Se observa que al agregar más variables, el Índice de Protección promedio contra el riesgo de expropiación disminuye, puede inferirse que hay un pequeño sesgo en las variables. En variables de continente, la única variable significativa es África y un coeficiente negativo, lo que dice que por el simple hecho de ser de África se tiene un PIB pc menor que el de los demás países; a su vez, la constante incrementa y el índice va perdiendo relevancia. El resumen de los modelos es que, hay información omitida relevante que se tiene que incorporar.
Endogeneidad Modelo de Mínimos Cuadrados en dos etapas
Endogeneidad puede surgir como resultado de un error de medición, autorregresión con autocorrelación de errores, simultaneidad y variables omitidas. Utilizando un modelo OLS de dos etapas revisaremos cómo podemos arreglar este problema.
- La relación que existe entre el Índice de protección promedio contra el riesgo de expropiación (‘avexpr’) y el Logaritmo del PIB per cápita, puede ser bidireccional.
- Por ejemplo, es probable que los países más ricos puedan financiar o preferir mejores instituciones; o que las variables que afectan el ingreso también pueden estar correlacionadas con diferencias institucionales; también podría se plausible que la construcción del índice de protección promedio contra el riesgo de expropiación pudo sesgarse, los analistas pueden estar predispuestos a ver que los países con mayores ingresos tengan mejores instituciones
Instrumentos y Método de Variables Intrumentales en dos etapas
Instrimentemos nuestro índice de protección a la democracia a través de una variable instrumental: la tasa de mortalidad de los primeros colonizadores.
De esta forma utilizaremos el procedimiento de estimación de Mínimos Cuadros en Dos Etapas. Podemos utilizar el estimador de Variables Instrumentales para determinar (Segunda Etapa):
\[\hat{\boldsymbol{\beta}}^{IV} = (\hat{\mathbf{X}}' \mathbf{X})^{-1} \hat{\mathbf{X}}' \mathbf{Y}\]
- Por otro lado, podemoos establecer el siguiente vector de innstrumentos:
\[\begin{equation*} \mathbf{z}_i = (1, x_{i1}, \ldots, x_{iK-1}, z_{i1}, \ldots, z_{iM}) \end{equation*}\]
- Contruyendo de forma simimar a otras matrices a \(\mathbf{Z}\) apilado la información de cada uno de los individuos. De esta forma podremos constriuir \(\hat{\mathbf{X}}\) mediante el uso de un estimador de MCO:
\[\begin{eqnarray*} \hat{\mathbf{X}} & = & \mathbf{Z} \hat{\boldsymbol{\gamma}} \\ & = & \mathbf{Z} (\mathbf{Z}' \mathbf{Z})^{-1} \mathbf{Z}' \mathbf{X} \end{eqnarray*}\]
- De lo anterior tendríamos que (Primera Etapa):
\[\begin{equation*} \hat{\mathbf{X}}' = \mathbf{X}' \mathbf{Z} (\mathbf{Z}' \mathbf{Z})^{-1} \mathbf{Z}' \end{equation*}\]
- Sólo para poner en contexto, podemos platear el Método Generalizado de Momentos de la siguiente forma:
\[\hat{\boldsymbol{\beta}}^{GMM} = (\hat{\mathbf{X}}' \hat{\mathbf{W}} \mathbf{X})^{-1} \hat{\mathbf{X}}'\hat{\mathbf{W}} \mathbf{Y}\]
Donde \(\hat{\mathbf{W}}\) es una matriz definida positiva.
- Hacemos una gráfico para ilustrar la relación entre las variables
Primera Etapa: Para la primera etapa requerimos instrumentar el riesgo de expropiación
\[avexpr_i = \delta_0 + \delta_1 logem4_i + \nu_i\]
Call:
lm(formula = avexpr ~ logem4, data = base4)
Residuals:
Min 1Q Median 3Q Max
-2.6682 -1.0031 -0.0321 0.8697 3.4022
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.4558 0.6249 15.132 < 2e-16 ***
logem4 -0.6287 0.1289 -4.876 8.53e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.274 on 59 degrees of freedom
Multiple R-squared: 0.2873, Adjusted R-squared: 0.2752
F-statistic: 23.78 on 1 and 59 DF, p-value: 8.525e-06
La relación que guardan ambas variables es negativa. Son significativos ambos parámetros, se observa que el \(R^2\) es bajo.
Segunda Etapa: En la segunda etapa estimamos la ecuación de interés
\[logpgp95_i = β_0 + β_1 \widehat{avexpr}_i + \varepsilon_i\]
Creamos una nueva columna con los valores predichos de la primera etapa. Se separa el efecto de endogeneidad, solo queda información ortogonalal término de error.
Etimamos la Segunda Etapa, mediante la estimación de la ecuación de interés
Call:
ivreg(formula = logpgp95 ~ avexpr | avexpr + predicted_avexpr,
data = base4)
Residuals:
Min 1Q Median 3Q Max
-1.8952 -0.4238 0.1593 0.4383 1.1398
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.78241 0.39762 12.028 < 2e-16 ***
avexpr 0.50730 0.05951 8.524 7.16e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.6897 on 59 degrees of freedom
Multiple R-Squared: 0.5519, Adjusted R-squared: 0.5443
Wald test: 72.66 on 1 and 59 DF, p-value: 7.156e-12
Se observa que, al controlar por endogeneidad, la constante es más pequeña y el efecto de la protección promedio contra el riesgo de expropiación aumentó.
Datos panel
Referencia: Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.
Los datos importados son: * nr: person identifier
year: 1980 to 1987
black: =1 if black
exper: labor market experience
hisp: =1 if Hispanic
hours: annual hours worked
married: =1 if married
educ: years of schooling
union: =1 if in union
lwage: log(wage)
expersq: exper^2
occupation: Occupation code
| nr | year | black | exper | hisp | hours | married | educ | union | lwage | expersq | occupation |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 13 | 1980 | 0 | 1 | 0 | 2672 | 0 | 14 | 0 | 1.197540 | 1 | 9 |
| 13 | 1981 | 0 | 2 | 0 | 2320 | 0 | 14 | 1 | 1.853060 | 4 | 9 |
| 13 | 1982 | 0 | 3 | 0 | 2940 | 0 | 14 | 0 | 1.344462 | 9 | 9 |
| 13 | 1983 | 0 | 4 | 0 | 2960 | 0 | 14 | 0 | 1.433213 | 16 | 9 |
| 13 | 1984 | 0 | 5 | 0 | 3071 | 0 | 14 | 0 | 1.568125 | 25 | 5 |
| 13 | 1985 | 0 | 6 | 0 | 2864 | 0 | 14 | 0 | 1.699891 | 36 | 2 |
Se observa un problema de endogeneidad. Las horas de trabajo determinan el salario, y a mayor salario se quiere menos horas de trabajo. Para propósitos del ejercicio se omite este asunto.
Regresión Pooled Como se estudio en la parte teórica, este modelo no asume algún tipo de estructura sobre el término de error (fijo o aleatorio). En R no es necesario indexar desde el principio las variables “nr” y “year” el paquete plm incluye un parámetro para realizarlo desde la función.
Pooling Model
Call:
plm(formula = lwage ~ black + hisp + exper + expersq + married +
educ + union + year + hours, data = base5, model = "pooling",
index = c("nr", "year"))
Balanced Panel: n = 545, T = 8, N = 4360
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-5.281650 -0.248559 0.033299 0.294822 2.437222
Coefficients:
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 2.0735e-01 8.0636e-02 2.5714 0.0101620 *
black -1.3787e-01 2.3498e-02 -5.8674 4.756e-09 ***
hisp 2.1022e-02 2.0743e-02 1.0135 0.3108984
exper 7.5316e-02 1.3722e-02 5.4888 4.278e-08 ***
expersq -2.8547e-03 8.2085e-04 -3.4778 0.0005106 ***
married 1.2027e-01 1.5779e-02 7.6219 3.050e-14 ***
educ 9.2307e-02 5.2217e-03 17.6776 < 2.2e-16 ***
union 1.7596e-01 1.7135e-02 10.2687 < 2.2e-16 ***
year1981 6.0433e-02 3.0249e-02 1.9978 0.0457973 *
year1982 6.3504e-02 3.3098e-02 1.9187 0.0550899 .
year1983 6.6063e-02 3.6538e-02 1.8080 0.0706699 .
year1984 9.5593e-02 3.9960e-02 2.3922 0.0167889 *
year1985 1.1375e-01 4.3207e-02 2.6328 0.0084995 **
year1986 1.4770e-01 4.6271e-02 3.1921 0.0014223 **
year1987 1.8315e-01 4.9287e-02 3.7160 0.0002049 ***
[ reached getOption("max.print") -- omitted 1 row ]
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Total Sum of Squares: 1236.5
Residual Sum of Squares: 995.21
R-Squared: 0.19516
Adj. R-Squared: 0.19238
F-statistic: 70.2215 on 15 and 4344 DF, p-value: < 2.22e-16
Ahora se estiman efectos aleatorios, con las mismas variables explicativas y explicada. Efectos aleatorios trata de separar el término de error en dos variables aleatorias: una de componente individual y otra de forma similar para todos los individuos
Oneway (individual) effect Random Effect Model
(Swamy-Arora's transformation)
Call:
plm(formula = lwage ~ black + hisp + exper + expersq + married +
educ + union + year + hours, data = base5, model = "random",
index = c("nr", "year"))
Balanced Panel: n = 545, T = 8, N = 4360
Effects:
var std.dev share
idiosyncratic 0.1200 0.3464 0.531
individual 0.1059 0.3255 0.469
theta: 0.6479
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-4.542337 -0.136124 0.026794 0.187919 1.557318
Coefficients:
Estimate Std. Error z-value Pr(>|z|)
(Intercept) 1.9894e-01 1.5201e-01 1.3087 0.190630
black -1.4082e-01 4.7806e-02 -2.9456 0.003224 **
hisp 2.9597e-02 4.2693e-02 0.6933 0.488141
exper 1.2255e-01 1.5396e-02 7.9597 1.725e-15 ***
expersq -5.6357e-03 6.8808e-04 -8.1905 2.602e-16 ***
married 6.9332e-02 1.6621e-02 4.1714 3.028e-05 ***
educ 9.3740e-02 1.0681e-02 8.7767 < 2.2e-16 ***
union 9.8020e-02 1.7693e-02 5.5401 3.022e-08 ***
year1981 4.2926e-02 2.4469e-02 1.7543 0.079387 .
year1982 3.0128e-02 3.2167e-02 0.9366 0.348958
year1983 2.4532e-02 4.1458e-02 0.5917 0.554028
year1984 4.8640e-02 5.1240e-02 0.9493 0.342485
year1985 6.2173e-02 6.1200e-02 1.0159 0.309673
year1986 9.8411e-02 7.1244e-02 1.3813 0.167175
year1987 1.4756e-01 8.1380e-02 1.8133 0.069793 .
[ reached getOption("max.print") -- omitted 1 row ]
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Total Sum of Squares: 654.45
Residual Sum of Squares: 525.16
R-Squared: 0.19756
Adj. R-Squared: 0.19478
Chisq: 1069.46 on 15 DF, p-value: < 2.22e-16
Los años se tratan como una dummy. En efectos aleatorios, la constante es no significativa, al igual que todas las variables de tiempo.
Estimamos efectos fijos. Para este caso tenemos que quitar aquellas variables que son constantes (no cambian a lo largo del tiempo).
Oneway (individual) effect Within Model
Call:
plm(formula = lwage ~ expersq + union + married + year + hours,
data = base5, effect = "individual", model = "within", index = c("nr",
"year"))
Balanced Panel: n = 545, T = 8, N = 4360
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-4.107109 -0.119713 0.011461 0.152630 1.502243
Coefficients:
Estimate Std. Error t-value Pr(>|t|)
expersq -6.2394e-03 7.0284e-04 -8.8773 < 2.2e-16 ***
union 7.2673e-02 1.9069e-02 3.8110 0.0001406 ***
married 4.7623e-02 1.8069e-02 2.6356 0.0084332 **
year1981 1.7345e-01 2.1770e-02 7.9673 2.124e-15 ***
year1982 2.9100e-01 2.4385e-02 11.9334 < 2.2e-16 ***
year1983 4.1771e-01 2.9520e-02 14.1500 < 2.2e-16 ***
year1984 5.7427e-01 3.6696e-02 15.6496 < 2.2e-16 ***
year1985 7.1988e-01 4.5770e-02 15.7282 < 2.2e-16 ***
year1986 8.8980e-01 5.6722e-02 15.6870 < 2.2e-16 ***
year1987 1.0757e+00 6.9468e-02 15.4855 < 2.2e-16 ***
hours -1.3566e-04 1.3347e-05 -10.1638 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Total Sum of Squares: 572.05
Residual Sum of Squares: 456.36
R-Squared: 0.20224
Adj. R-Squared: 0.08585
F-statistic: 87.6693 on 11 and 3804 DF, p-value: < 2.22e-16
Ahora estimamos efectos fijos, pero efectos fijos determinados por tiempo, por lo que quitamos la variable explicativa “year”. Para obtener los mismos resultados que la clase, ajuste el efecto en “twoways” y no en “time”. Al ajustar así el modelo, obtuve los mismos coeficientes, el mismo \(R^2\) el mismo estadístico F, su misma probabilidad del estadístico y su misma distribución.
Twoways effects Within Model
Call:
plm(formula = lwage ~ expersq + union + married + hours, data = base5,
effect = "twoways", model = "within", index = c("nr", "year"))
Balanced Panel: n = 545, T = 8, N = 4360
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-4.107109 -0.119713 0.011461 0.152630 1.502243
Coefficients:
Estimate Std. Error t-value Pr(>|t|)
expersq -6.2394e-03 7.0284e-04 -8.8773 < 2.2e-16 ***
union 7.2673e-02 1.9069e-02 3.8110 0.0001406 ***
married 4.7623e-02 1.8069e-02 2.6356 0.0084332 **
hours -1.3566e-04 1.3347e-05 -10.1638 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Total Sum of Squares: 479.09
Residual Sum of Squares: 456.36
R-Squared: 0.047437
Adj. R-Squared: -0.091541
F-statistic: 47.3588 on 4 and 3804 DF, p-value: < 2.22e-16
Como comentario personal, la función de “compare” la cual imprime los estadísticos de los diferentes modelos estimados me parece muy útil, en R no encontré una función parecida, puede que se deba a la diferencia en el environment (Jupiter y RStudio). Aunque dicha tabla sí se puede realizar en RMarkdown, pero de una manera mucho más manual.
Comparando todos los modelos estimados, se observa una diferencia en la horas de trabajo en el modelo Pooled, la experiencia al trabajo es más o menos estable en todos los modelos, así, el salario sube a medida que la experiencia crece, pero llega un punto en el que los rendimientos de la experiencia son negativos. En el ejercicio se estima un modelo con varianza robusta, en R aún no he encontrado ninguna función de ningún paquete el cual se pueda optar por diferentes tipos de varianza como en Python. Por otro lado, en R se encuentran funciones para las diferentes prubas (Breusch & Pagan y Hausman) para observar si es mejor estimar por efectos aletorios, fijos, etc. En Python no es tan simple estimar estas pruebas, al menos para modelos panel.
Modelo Probit
Conjunto de datos: participación laboral femenina
En este ejercicio trabajamos en el conjunto de datos de Mroz sobre la participación laboral femenina con 8 variables.
Los datos cubren una muestra de 753 mujeres blancas casadas de entre 30 y 60 años en 1975.
La fuente original de estos datos es Mroz, T.A. (1987). “The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions.” Econometrica 55, 765-799.
La descripción de las variables se puede encontrar a continuación:
lfp: Labor-force participation of the married white woman (Categorical: 0/1)
k5: Number of children younger than 6 years old (Entero positivo)
k618: Number of children aged 6-18 (Entero positivo)
age: Age in years (Entero positivo)
wc: Wife’s college attendance (Categorical: 0/1)
hc: Husband’s college attendance (Categorical: 0/1)
lwg: Log expected wage rate for women in the labor force (Numerical)
inc: Family income without the wife’s income (Numerical)
Estimación del modelo Probit
Call:
glm(formula = lfp_d ~ k5 + k618 + age + wc_d + hc_d + lwg + inc,
family = binomial(link = "probit"), data = base6)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.1359 -1.1024 0.5967 0.9746 2.2236
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.918418 0.382356 5.017 5.24e-07 ***
k5 -0.874712 0.114423 -7.645 2.10e-14 ***
k618 -0.038595 0.040950 -0.942 0.345942
age -0.037824 0.007605 -4.973 6.58e-07 ***
wc_d 0.488310 0.136731 3.571 0.000355 ***
hc_d 0.057172 0.124207 0.460 0.645306
lwg 0.365635 0.089992 4.063 4.85e-05 ***
inc -0.020525 0.004852 -4.230 2.34e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1029.75 on 752 degrees of freedom
Residual deviance: 905.39 on 745 degrees of freedom
AIC: 921.39
Number of Fisher Scoring iterations: 4
Estos resultados se tiene que leer como correlaciones, los coeficientes se interpretan con los efectos marginales. Por ejemplo, el número de hijos está correlacionado negativamente con acudir al mercado laboral, es decir, es poco probable que una mujer tiene un hijo menor a 5 años es poco probable. Conforme se incrementa la edad de las mujeres, acudir al mercado laboral se vuelve menos probable. El tener educación superior aporta positivamente acudir al mercado laboral. Que el esposo tenga educación es estadísticamente no significativo.
Tablas de frecuencias por categoria para hc: Husband’s college attendance (Categorical: 0/1)
base6$hc
base6$lfp no yes
no 207 118
yes 251 177
Las mujeres que no trabajan y que su esposo no tiene educación superior: 207 Mujeres que no trabajan y que su esposo tiene educación superior: 118 Las mujeres que trabajan pero que su esposo no tiene educación superior: 251 Las mujeres que trabajan y su esposo tiene educación superior: 177
Efectos marginales
\[\begin{eqnarray*} EMg_j & = & P(y = 1 | \mathbf{x}_i, x_j = 1) - P(y = 1 | \mathbf{x}_i, x_j = 0) \\ & = & G(\mathbf{x}_i \boldsymbol{\beta} | x_j = 1) - G(\mathbf{x}_i \boldsymbol{\beta} | x_j = 0) \\ & = & G(\beta_1 + x_{2} \beta_2 + \ldots + \beta_j + \ldots + x_{K} \beta_K) \\ & & - G(\beta_1 + x_{2} \beta_2 + \ldots + 0 + \ldots + x_{K} \beta_K) \end{eqnarray*}\]
En R no logré encontrar en ninguna función de ningún paquete la posibilidad de computar estos efectos marginales de manera individual. En Python se hace un arreglo de columnas donde se obtienen las medias de las demás variables y para el efecto marginal de la variable en cuestión se coloca un 1 o un 0 a dicha variable, como muestra la ecuación de arriba, para así satisfacer la condición en la que está sujeta. En Python, este vector se adjunta al modelo antes estimado “(probit_model.predict(wc_data0)” donde “wc_data0” es dicho vector. En R, los valores predicho se obtiene como: “probit_model$fitted.values” pero a ese call ya no se le puede añadir ningún tipo de objeto, matriz, vector, valor, etc.
El resultado cuando la variable dicotómica es 0: 0.56938181
El resultado cuando la variable dicotómica es 1: 0.59171968 Así, el efecto marginal acuda o no al mercado laboral es la diferencia entre los dos valores anteriores (0.02233787). Entonces, una mujer va a aumentar su probabilidad de acudir al mercado laboral en 2.23% cuando su marido tiene educación superior.
Tablas de frecuencias por categoria para wc: Wife’s college attendance (Categorical: 0/1)
base6$wc
base6$lfp no yes
no 257 68
yes 284 144
Las mujeres que no están en el mercado laboral pero que no tienen educación superior son 257. Las mujeres que están en el mercado laboral pero que no tiene educación superior son 284. Las mujeres que no están trabajando pero que sí tienen educación superior son 68. Las mujeres que sí están trabajando pero que sí tienen educación superior son 144.
Calculando el efecto marginal para este caso, tenemos que ahora la variable dicotómica será con la educación de la mujer:
El resultado cuando es 0: 0.52380974
El resultado cuando es 1: 0.70816505
Entonces, la propabilidad de que una mujer acuda al mercado laboral condicional en que tenga educación superior se incrementa en 18.43%.
Para interpretar la incidencia que tienen los hijos la interpretación cambia un poco debido a que es una variable categórica Tablas de frecuencias por categoria para k5: Number of children younger than 6 years old (Entero positivo)
base6$k5
base6$lfp 0 1 2 3
no 231 72 19 3
yes 375 46 7 0
Las mujeres que no trabajan y tienen cero hijos son 231, las que tienen 2 hijos son 19, las que no trabajan y tienen 3 hijos son 3.
Las mujeres que sí trabajan y tienen 0 hijos son 375, las que trabajan y tienen 2 hijos son 46 y las mujeres que sí trabajan y tienen 3 hijos son 0.
Se calculan los efectos marginales de una variable categórica:
\[\begin{eqnarray*} EMg_j & = & P(y = 1 | \mathbf{x}_i, x_j = 1) - P(y = 1 | \mathbf{x}_i, x_j = 0) \\ & = & G(\mathbf{x}_i \boldsymbol{\beta} | x_j = C + 1) - G(\mathbf{x}_i \boldsymbol{\beta} | x_j = C) \\ \end{eqnarray*}\]
Tenemos que: Que la mujer incremente sus hijos en 0 a 1 hijo, disminuye la probabilidad de acudir al mercadi laboral en 33.79%. Si una mujer que tiene un solo hijo decide tener un segundo hijo, va disminuir la probabilidad de acudir al mercado laboral en 22.99%. Por último, si una mujer tiene dos hijos y decide tener un tercer hijo, disminuirá su probabilidad de acudir al mercado laboral en 7.61%. El efecto marginal de tener hijos es decreciente, aunque alto en los primeros hijos.
Sin importar el modelo que estemos ocupando, la forma de interpretar el modelo es mediante el efecto marginal, cuando \(x_j\) sea una variable continua:
\[\begin{equation*} EMg_j = \frac{\partial}{\partial x_j} P(y = 1 | \mathbf{x}_i) = \frac{\partial}{\partial x_j} G(\mathbf{x}_i \boldsymbol{\beta}) = g(\mathbf{x}_i \boldsymbol{\beta}) \beta_j \end{equation*}\]
Obtenemos los efectos marginales de todas las variables del modelo antes estimado
Call:
probitmfx(formula = lfp_d ~ k5 + k618 + age + wc_d + hc_d + lwg +
inc, data = base6)
Marginal Effects:
dF/dx Std. Err. z P>|z|
k5 -0.3422404 0.0448777 -7.6261 2.420e-14 ***
k618 -0.0151008 0.0160224 -0.9425 0.3459470
age -0.0147988 0.0029723 -4.9789 6.394e-07 ***
wc_d 0.1843537 0.0489772 3.7641 0.0001672 ***
hc_d 0.0223384 0.0484612 0.4610 0.6448321
lwg 0.1430585 0.0351917 4.0651 4.801e-05 ***
inc -0.0080307 0.0019002 -4.2263 2.376e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
dF/dx is for discrete change for the following variables:
[1] "wc_d" "hc_d"
Aquí se nota un pequeña diferencia entre los resultados arrojados en Python y en R. Aunque los coeficientes del modelo estimado anteriormente son exactamente los mismos en ambos programas. Si bien son diferentes, las variables estadísticamente significativas y las no significativas son las mismas.
El efecto marginal promedio de tener hijos menores de 5 años es el diminuir la probabilidad de acudir al mercado laboral en 34.22% (en Python es de 29.97%).
Tener hijos de entre 6 y 18 años tiene un efecto marginal negativo pero no significativo (al igual que en Python).
Un año adicional de edad es practicamente irrelevante.
Tener educación superior aumenta la probabilidad de acudir al mercado laboral en 18.43%
Que el esposo tenga educación superior es estadísticamente no relevante (al igual que en Python).
Una variación de 1pp incrementa en 12% la probabilidad de acudir al mercado laboral. Salarios más competitivos genera una mayor participación.
Una disminución del ingreso del hogar incentiva en casi 1% la probabilidad de que la mujer acuda al mercado laboral.
Logit Multinomial
Decisiones escolares y laborales para hombres jóvenes Dataset y objetivo del ejemplo:
Los datos (un subconjunto del trabajo de Keane y Wolpin, 1997, “The Career Decisions of Young Men”, Journal of Political Economy, Vol. 105, No. 3, pp. 473-522) contienen historial de empleo y escolaridad para una muestra de hombres para los años 1981 a 1987.
Utilizamos los datos para 1987. Los tres resultados posibles se inscribieron en la escuela (estado = 0), no en la escuela y no trabajando (estado = 1), y trabajando (estado = 2).
Las variables explicativas son educación, experiencia de trabajo cuadrática y un indicador binario de si el individuo es de raza negra.
Descripción de variables: * id: identifier * numyrs: number of years in sample * year: 81 to 87 * choice: sch=1,home=2,wc=3,bc=4,serv=5 * wage: annual wage, 1987 $ * educ: years of schooling * expwc: experience in white collar * expbc: experience in blue collar * expser: experience in services * manuf: =1 if in manufacturing * black: =1 if black * lwage: log(wage) * y81: =1 if year == 81 * … y87 * enroll: =1 if choice == 1 * employ: =1 if choice == 3, 4, or 5 * attrit: =1 if attrit in next year * exper: expwc + expbc + expser * expersq: exper^2 * status: sch=1,home=2,work=3
| id | numyrs | year | choice | wage | educ | expwc | expbc | expser | manuf | black | lwage | y81 | y82 | y83 | y84 | y85 | y86 | y87 | enroll | employ | attrit | exper | expersq | status |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 9 | 81 | 2 | NA | 10 | 0 | 0 | 0 | 0 | 1 | NA | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
| 1 | 9 | 82 | 2 | NA | 10 | 0 | 0 | 0 | 0 | 1 | NA | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
| 1 | 9 | 83 | 2 | NA | 10 | 0 | 0 | 0 | 0 | 1 | NA | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
| 1 | 9 | 84 | 1 | NA | 10 | 0 | 0 | 0 | 0 | 1 | NA | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
| 1 | 9 | 85 | 2 | NA | 11 | 0 | 0 | 0 | 0 | 1 | NA | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
| 1 | 9 | 86 | 2 | NA | 11 | 0 | 0 | 0 | 0 | 1 | NA | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
Para este ejercicio se trabaja con el año de 1987. Después creamos la variable “estado”, la cual tomará el valor de 1 si status es 2, tomará el valor de 2 si status tiene el valor 3. A su vez, trabajaremos solo con la variable “estado”, “educ”, “exper”, “expersq”, “black”.
| estado | educ | exper | expersq | black |
|---|---|---|---|---|
| 1 | 11 | 0 | 0 | 1 |
| 2 | 12 | 5 | 25 | 1 |
| 2 | 9 | 0 | 0 | 1 |
| 2 | 9 | 7 | 49 | 1 |
| 1 | 8 | 4 | 16 | 1 |
| 2 | 10 | 3 | 9 | 1 |
Observamos las tablas cruzadas:
base7.1$educ
base7.1$estado 7 8 9 10 11 12 13 14 15 16 17 18 19
0 0 1 2 0 2 8 3 9 20 17 22 10 5
1 12 23 34 61 53 84 17 12 10 20 4 2 0
2 5 35 72 78 136 473 96 78 52 210 36 13 2
Podemos tener la hipótesis de que la educación puede definir mucho el estado de los individuos. Personas con mayor educación deberían trabajar por el grado de capacitación que han adquirido. Pero esto no considera que el individuo no esté ni trabajando ni estudiando.
Estimamos el modelo
# weights: 18 (10 variable)
initial value 1886.317300
iter 10 value 1034.528631
iter 20 value 907.857379
final value 907.857241
converged
Call:
multinom(formula = estado ~ educ + exper + expersq + black, data = base7.1)
Coefficients:
(Intercept) educ exper expersq black
1 10.276258 -0.6735461 -0.1059273 -0.01251516 0.8121823
2 5.541934 -0.3145539 0.8490249 -0.07730822 0.3105258
Std. Errors:
(Intercept) educ exper expersq black
1 1.133149 0.06988995 0.1732851 0.02523261 0.3026748
2 1.086238 0.06510033 0.1569959 0.02292661 0.2814867
Residual Deviance: 1815.714
AIC: 1835.714
En este caso también se encuentran pequeñas diferencias con la salida en Python, aunque los signos de los coeficientes son los mismos (excepto en el estado 2 para la variable “black”).
Así,la educación está correlacionada negativamente en el estado 1, es decir, si el individuo no está trabajando ni estudiando, no se está educando. La experiencia también está correlacionado negativamente, la probabilidad de estar en la categoría de no estudiar ni trabajar se ve disminuida conforme la experiencia aumenta. El ser de raza negra está correlacionada positivamente en la condición de no trabajar ni estudiar.
En el estado 2, donde el individuo está trabajando. Trabajar está correlacionado negativamente con educarse, es decir, si el individuo se educa más, es probable que no esté en el mercado laboral. La experiencia se correlacionada positivamente con el estado 2. La experiencia al cuadrado está relacionado negativamente, se puede decir que, al llegar a un grado de experiencia, el acudir al mercado laboral es negativo.
En efectos marginales es donde me encuentro actualmente. Aún no encuentro una función de algún paquete para dichos efectos, teniendo problemas debido a que la variable dependiente no es binaria (“estado” tiene 3 posibles resultados). Posiblemente se puedan calcular manualmente.