Muchas veces en el análisis econométrico se suelen usar variables binarias, un caso particular de estas variables, es cuando estas son las dependientes, es decir, el modelo tratará de explicar la probabilidad de ocurrencia de cierto evento, o bien, la probabilidad de la ausencia o presencia de cierta característica en las observaciones. Cuando se habla de este tipo de modelo se está interesado en predecir la probabilidad de ocurrencia de cierto evento en base a variables explicativas. Se puede definir la ocurrencia de un evento mediante un indicador de estructura binaria con valor igual a 1 cuando el evento ocurre (éxito) y 0 cuando no ocurre (fracaso). Por ejemplo:
y: Situación laboral
Los modelos de elección discreta binaria son aquellos modelos que explican la probabilidad de ocurrencia para el evento en la variable 𝑦, condicionado por un conjunto de variables explicativas, denotado de la siguiente manera: \[ p_i=Prob(y_i=1|x_i)\text{i=1,..,n.} \] Debe notarse que como “y” sólo toma valores 0 y 1, la distribución de “y” condicional en “x” es la de Bernoulli. Por lo tanto, si se denota \(Prob(y_i=1|x_i)=p_i\), entonces: \(Pr(v_i=0|x_i)=1-p_i\), y por lo tanto:
Si tenemos el siguiente modelo: \[
y_i=\beta_0+\beta_1x_i+e
\] Donde \(x_i\) es una variable explicativa numérica cualquiera, \(y_i\) es una variable dependiente tipo binario. Como la variable \(y_i\)es binaria, este modelo se denomina Modelo Lineal de Probabilidad (MLP). La esperanza o el valor esperado viene dado por la siguiente expresión: \[
E(y_i|x_i)=\beta_0+\beta_1*x_i
\] Las probabilidades se distribuirán de la siguiente manera:
La varianza, como ya se explicó tiene el siguiente valor \(p_i:(1-p_i)\), y os valores pronosticados de cada una de las probabilidades no aseguran que la probabilidad estimada este comprendida entre 0 y 1, por lo que el modelo tendrá valores absurdos. Con el avance de las herramientas informáticas en la econometría, este modelo es obsoleto en uso y los modelos que se usan son los logit y probit.
Si tenemos el siguiente modelo donde la variable dependiente es binaria: \[ y_i=\beta_0+\beta_1x_i+e \] Como el modelo lineal de probabilidad no proporciona buenos estimadores, existen alternativas, una de estas es el modelo Logit, este tipo de estimación usa a la función de distribución logística: \[ Prob(y_i=1)=p_i=\frac{e^{z_i}}{1+e^{-z_i}}=\wedge(z) \] Donde: \(z_i=\beta_0+\beta_1x_i\) La función \(\wedge(z)\) es la distribución logística, esta función de distribución servirá para la estimación de los parámetros en un modelo con variable de elección discreta binaria. Se puede notar que \(p_i\) no está linealmente relacionado con \(z_i\), esto quiere decir que no se puede estimar los parámetros por MCO, pero se puede linealizar, haciendo o siguiente, si \(p_i\) es la probabilidad de éxito, la probabilidad de fracaso es: \[ 1-p_i=\frac{1}{1+e^{z_i}} \] Por consiguiente, se tiene: \[ \frac{p_i}{1-p_i}=\frac{1-e^{z_i}}{1+e^{z_i}}=e^{z_i} \] La última expresión es llamada la razón de probabilidades en favor de tener éxito, es decir, la razón de probabilidad para que $y_i# sea igual a uno o también llamada Ratio de Odds. Por ejemplo, si este valor es 0.5, esto nos dirá que la razón de la probabilidad de tener éxito respecto de la probabilidad de fracasar es igual a un medio. Si se toma el logaritmo natural de esta expresión se tendrá: \[ L_i=ln(\frac{p_i}{1-p_i})=z_i \\ L_i=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1 \] Donde \(L_i\), el logaritmo de la razón de probabilidades, no sólo es lineal en x, sino también lineal en los parámetros. L se llama Logit , a partir de ahí es que se tiene el modelo logit.
Para la estimación de un modelo Logit se usa la función glm() que realiza modelos lineales generalizados, que es una función en donde se debe especificar la familia de la distribución de los datos en la variable dependiente, en este caso binomial. Se tiene un modelo donde se quiere estimar la probabilidad de que un alumno de universidad sea aceptado a la escuela de postgrado, donde las variables explicativas son el puntaje en el test de aptitud, el puntaje promedio de grado y una variable categórica que muestra que tan alto es el ranking de la universidad en cuestión.
Los resultados serán los siguientes:
##
## Call:
## glm(formula = admit ~ gre + gpa + factor(rank), family = "binomial",
## data = binary)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.6268 -0.8662 -0.6388 1.1490 2.0790
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.989979 1.139951 -3.500 0.000465 ***
## gre 0.002264 0.001094 2.070 0.038465 *
## gpa 0.804038 0.331819 2.423 0.015388 *
## factor(rank)2 -0.675443 0.316490 -2.134 0.032829 *
## factor(rank)3 -1.340204 0.345306 -3.881 0.000104 ***
## factor(rank)4 -1.551464 0.417832 -3.713 0.000205 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 499.98 on 399 degrees of freedom
## Residual deviance: 458.52 on 394 degrees of freedom
## AIC: 470.52
##
## Number of Fisher Scoring iterations: 4
La interpretación de los coeficientes afirma que a medida que el puntaje del examen de graduados (gre) aumenta, aumentarán las probabilidades de ser admitido a la escuela de postgrado. Al igual que para el puntaje promedio de grado (gpa). La variable de indicador tiene una explicación diferente, por ejemplo, cuando la institución tiene un ranking de tipo 2 (donde 4 es la reputación más baja), nos dirá que a comparación con una institución con ranking en la categoría 1 (categoría base), habrá menos probabilidades, y estas seguirán disminuyendo a medida que la categoría de la institución tenga la menor reputación (categoría 4). Para calcular los Odds Ratios hacemos uso de la función exp():
## (Intercept) gre gpa factor(rank)2 factor(rank)3
## 0.0185001 1.0022670 2.2345448 0.5089310 0.2617923
## factor(rank)4
## 0.2119375
Estos resultados muestran la razón de probabilidades entre el éxito y el fracaso, por ejemplo, para el incremento en una unidad de la variable gpa, la razón de probabilidades de ser admitido (versus no ser admitido), aumenta en 2.23. También se pueden predecir probabilidades de ocurrencia condicionando los valores de las variables explicativas. En este caso se calcularán las probabilidades a para categoría de ranking de la universidad del pregrado. En primer lugar, se debe crear una nueva data, de la siguiente forma:
## gre gpa rank
## 1 587.7 3.3899 1
## 2 587.7 3.3899 2
## 3 587.7 3.3899 3
## 4 587.7 3.3899 4
Una vez que se ha creado la nueva data, donde la variable gre será igual a la media de gre en la data anterior, igual para gpa, y con la variable rank convertida en una variable de factor, se procede a realizar el cálculo de las probabilidades pronosticadas.
Este código indica que en la nueva data se quiere crear una nueva variable de nombre rankP, que contendrá a las probabilidades pronosticadas del modelo estimado. Esto mostrará las probabilidades estimadas para el modelo en cuestión de acuerdo a la variable Rank, y manteniendo la media en las variable gre y gpa.
En el modelo probit se especifica a través de la siguiente función de distribución acumulada normal: \[ F(z)=\varPsi(z)=\int^z_{-\infty}\varPsi(v)dv \] Donde \(\varPsi(z)\) es la distribución normal estándar: \[ \phi(v)=(2\pi)^{-1/2}exp\left(-\frac{z^2}{2}\right) \] Por lo cual el modelo quedaría especificado de la siguiente manera: \[ y_i=\int^z_{-\infty}(2\pi)^{-1/2}exp\left(-\frac{z^2}{2}\right)dv+e_i \] ## Estimación de Probit en R
Para estimar un modelo en R, se debe hacer uso de función glm() y especificar la función de enlace que será una de tipo probit.
Los resultados serán:
##
## Call:
## glm(formula = admit ~ gre + gpa + factor(rank), family = binomial(link = "probit"),
## data = binary)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.6163 -0.8710 -0.6389 1.1560 2.1035
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.386836 0.673946 -3.542 0.000398 ***
## gre 0.001376 0.000650 2.116 0.034329 *
## gpa 0.477730 0.197197 2.423 0.015410 *
## factor(rank)2 -0.415399 0.194977 -2.131 0.033130 *
## factor(rank)3 -0.812138 0.208358 -3.898 9.71e-05 ***
## factor(rank)4 -0.935899 0.245272 -3.816 0.000136 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 499.98 on 399 degrees of freedom
## Residual deviance: 458.41 on 394 degrees of freedom
## AIC: 470.41
##
## Number of Fisher Scoring iterations: 4
Estos resultados indican que para un aumento en una unidad de gre, el puntaje z aumenta en 0.001, para gpa pasa lo mismo, pero aumenta en 0.478. Para obtener las probabilidades estimadas se debe seguir el método que se usó con el modelo logit.
## gre gpa rank
## 1 587.7 3.3899 1
## 2 587.7 3.3899 2
## 3 587.7 3.3899 3
## 4 587.7 3.3899 4
Y se le añade una variable que representará las probabilidades:
## gre gpa rank prob
## 1 587.7 3.3899 1 0.5163741
## 2 587.7 3.3899 2 0.3540742
## 3 587.7 3.3899 3 0.2203290
## 4 587.7 3.3899 4 0.1854353
Se mostrarán los valores correspondientes a la probabilidad de ocurrencia para cada uno de los tipos de ranking y con la media de las variables gre y gpa.
Cuando se quieren estimar probabilidades de ocurrencia de cierto evento o simplemente se quiere clasificar a individuos en base a características, se suele usar modelos con variable de respuesta binaria, uno de ellos es el modelo Logit, que usa a la función de distribución logística para clasificar y estimar probabilidades de ocurrencia. En el siguiente ejemplo se verá la estimación de este tipo de modelos usando el programa R. La base de datos será la usada anteriormente. Esta data tiene una variable de respuesta binaria, llamada admit, que indica si el estudiante fue admitido a la escuela de graduados. Se pide estimar un modelo donde las independientes sean:
• gre, que es el puntaje del examen graduados. • gpa, promedio de puntaje de grado. • rank, es una variable categórica que muestra el prestigio de la escuela de pregrado, va del 1 al 4. Instituciones con alto prestigio tienen puntaje 1, y el más bajo prestigio es 4.
Una vez importada la data, se debe hacer la regresión de la misma, que tendrá los siguientes resultados:
##
## Call:
## glm(formula = admit ~ gre + gpa + factor(rank), family = "binomial",
## data = binary)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.6268 -0.8662 -0.6388 1.1490 2.0790
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.989979 1.139951 -3.500 0.000465 ***
## gre 0.002264 0.001094 2.070 0.038465 *
## gpa 0.804038 0.331819 2.423 0.015388 *
## factor(rank)2 -0.675443 0.316490 -2.134 0.032829 *
## factor(rank)3 -1.340204 0.345306 -3.881 0.000104 ***
## factor(rank)4 -1.551464 0.417832 -3.713 0.000205 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 499.98 on 399 degrees of freedom
## Residual deviance: 458.52 on 394 degrees of freedom
## AIC: 470.52
##
## Number of Fisher Scoring iterations: 4
La explicación para los coeficientes hallados es la siguiente: • Para cada cambio unitario en la variable ‘gre’, el logaritmo del odds (logit de la probabilidad del evento) de ser admitido (sobre no ser admitido) crece en 0.002. • Si varía en una unidad la variable ‘gpa’, el log-odds de ser admitido crece en 0.804. • Para la interpretación de la variable ‘rank’, que es un indicador se la entenderá de la siguiente manera: Si se tiene un postulante que viene de una institución con ranking 2, comparado con la institución de ranking 1, el logit de la probabilidad de que sea admitido caerá en 0.675.
Para hallar los Odds ratio se hace lo siguiente:
## (Intercept) gre gpa factor(rank)2 factor(rank)3
## 0.0185001 1.0022670 2.2345448 0.5089310 0.2617923
## factor(rank)4
## 0.2119375
La interpretación de los odds ratio es la siguiente: • Por ejemplo, se dirá que para un incremento unitario en la variable ‘gpe’, el odds ratio de la variable que representa a la admisión del individuo, crecerá en un factor de 1.002.