Para \(Y = \lbrace 0, 1 \rbrace\), la regresión logística estima la siguiente ecuación \[\begin{align} \ln \left(\frac{p}{1-p} \right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k, \tag{1} \end{align}\] donde \(p = \Pr \left(Y = 1 \right)\).
En principio, el coeficiente de regresión \(\beta_j\) se puede interpretar como el cambio en el logaritmo natural del momio cuando la variable \(X_j\) incrementa su valor en una unidad, manteniendo lo demás constante, pero eso no es de mucha ayuda.1
Todo lo que podemos hacer es interpretar derivar del signo del coeficiente la asociación de la variable con la probabilidad de \(Y = 1\).
Existen dos formas muy comunes para interpretar los resultados del modelo. Una en términos de la probabilidad de éxito condicional a los valores de los regresores, otra en términos de la razón de momios. Existe una tercera interpretación que es menos común pero tiene ventajas indiscutibles.
Para derivar la probabilidad de que la variable \(Y\) tenga el valor de 1 en términos de los valores de los regresores \(X_1, \dots, X_k\), sólo debemos despejar \(p\) de la ecuación (1): \[\begin{align} \ln \left(\frac{p}{1-p} \right) & = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k \notag \\ \frac{p}{1-p} & = e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \qquad \text{tomamos el exponencial de ambos lados} \tag{2}\\ p & = \left(1 - p \right) e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \notag \\ p & = e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} - p \cdot e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \qquad \text{expansión del lado derecho} \notag \\ p + p \cdot e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} & = e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \notag \\ p \left(1 + e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \right) & = e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k} \qquad \text{factorizamos el lado izquierdo} \notag \\ p & = \frac{e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k}}{1 + e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k}}. \tag{3} \end{align}\]
Nótese que, por la ecuación (2), \(e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k}\) es el momio: la probabilidad de \(Y=1\) entre la probabilidad de \(Y = 0\). Esto será utilizado en la siguiente sección.
Por lo pronto, una vez que hemos estimado los coeficientes \(\beta_1, \beta_2, \dots, \beta_k\) usamos la ecuación (3) para sustituir con los valores de \(X_1, X_2, \dots, X_k\) que sea de interés y así obtener la probabilidad de \(Y =1\), condicional a dichos valores.
Para estos efectos, conviene tener en cuenta que \[\begin{align*} \frac{e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k}}{1 + e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k}} = \frac{1}{1 + e^{- \left(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k \right)}}. \end{align*}\] La expresión del lado derecho simplifica el cálculo de las probabilidades porque, en ella, únicamente hay que sustituir una vez en los valores de las \(X\) (y en general es más fácil del manipular).
Ahora podemos valorar qué pasa con la probabilidad de \(Y = 1\) cuando la variable independiente \(X_j\) cambia su valor. Sea \(\mathbf{X}_{\left[\neg j\right]}\) el conjunto de variables distintas a \(X_j\). Supóngase que \(X_j = \lbrace 0, 1 \rbrace\). El cambio en la probabilidad de \(Y = 1\) cuando \(X_j\) pasa de 0 a 1 está dado por \[\begin{align*} p \left(X_j = 1, \mathbf{X}_{\left[\neg j\right]} = \mathbf{x}_{\left[\neg j\right]}^* \right) - p \left( X_j = 0, \mathbf{X}_{\left[\neg j\right]} = \mathbf{x}_{\left[\neg j\right]}^* \right). \end{align*}\]
Es decir que con la ecuación (3) calculamos \(p\) para \(X_j = 1\) y definiendo algún valor para el resto de las variables independientes.2 Al resultado se le resta el valor de \(p\) calculado para \(X_j = 0\) y con los mismos valores que antes para las otras variables independientes. Esta diferencia es llamada efecto marginal.3
El efecto marginal se puede calcular para cualquier variable, aunque no se dicotómica. Por ejemplo, para dos niveles consecutivos de una variable ordinal, o de cada nivel de una variable nominal con respecto de la categoría de referencia. Si se trata de una variable numérica como edad o ingreso, puede definirse para los valores mínimo o máximo.4
Otra forma de interpretar el coeficiente \(\beta_j\) es tomando su exponencial; es decir \(e^{\beta_j}\). Al exponencial del coeficiente se le conoce como la “razón de momios”. Veamos por qué.
Otra vez supongamos que \(X_j = \lbrace 0, 1 \rbrace\). Por la ecuación (2), el momio cuando \(X_j = 1\) y los valores del resto de las variables tienen algún valor fijo en \(\mathbf{x}_{\left[\neg j\right]}^*\) es \[\begin{align*} \frac{p \left(X_j = 1\right)}{1 - p \left(X_j = 1\right)} & = e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^* + \beta_j \times 1} \\ & = e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^* + \beta_j} \end{align*}\]
Por otro lado, el momio para \(X_j = 0\) y los valores de las demás variables se mantienen en el mismo valor que antes es \[\begin{align*} \frac{p \left(X_j = 0\right)}{1 - p \left(X_j = 0\right)} & = e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^* + \beta_j \times 0} \\ & = e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^*} \end{align*}\]
Dividir el momio para \(X_j =1\) entre el momio para \(X_j =0\) es… pues una razón de momios. Veamos. \[\begin{align*} \frac{\frac{p \left(X_j = 1\right)}{1 - p \left(X_j = 1\right)}}{\frac{p \left(X_j = 0\right)}{1 - p \left(X_j = 0\right)}} & = \frac{e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^* + \beta_j}}{e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^*}} = e^{\beta_0 + \sum_{i \neq j} \beta_i x_i^* + \beta_j - \left(\beta_0 + \sum_{i \neq j} \beta_i x_i^* \right)} = e^{\beta_j}. \end{align*}\]
Si el exponencial del coeficiente es mayor a 1, entonces entendemos que el momio incrementa cuando \(X_j\) pasa de 0 a 1, lo que a su vez indica (indirectamente) una asociación positiva de \(X_j\) con \(p\). De la misma forma, un valor del exponencial del coeficiente menor a 1 corresponde a una reducción del momio con el mismo cambio en \(X_j\), lo que habla (indirectamente) de una asociación negativa entre \(X_j\) y \(p\).
Es fácil ver que, si \(X_j\) es numérica, entonces \(e^{\beta_j}\) expresa la razón de momios para incrementos de una unidad en \(X_j\). Si \(X_j\) es la variable indicadora correspondiente a un nivel de una variable cualitativa, el exponencial de coeficiente da la razón de momios para ese nivel con respecto a la categoría de referencia.
Una ventaja de la razón de momios es que su valor es constante. Los efectos marginales son distintos para cada valor da la variable analizada y, además, son sensibles a los valores escogidos para las otras variables independientes. Otra ventaja es que su valor involucra claramente al coeficiente. La desventaja es que sigue siendo lejana a la intuición. Nos habla de la relación relativa de los momios para distintos valores de la variable independiente, perdiendo la referencia directa a la probabilidad que tiene el efecto marginal.
Esta interpretación es mencionada por Gary King.
A partir de la ecuación (3), se pude tomar la derivada parcial de \(p\) con respecto a \(X_j\). La cantidad resultante es el cambio en \(p\) cuando \(X_j\) incrementa infinitesimalmente su valor y el resto de las variable se mantiene constante. \[\begin{align*} \frac{\partial p}{\partial X_j} = \beta_j p \left(1 - p \right). \end{align*}\]
Dado que \(\beta_j\) es un valor fijo, la asociación de \(X_j\) y \(p\) dependen del valor de \(p\). Ahora bien, \(p \left(1 - p \right)\) tiene su valor máximo cuando \(p = 1/2\). Entonces, sustituyendo por ese valor, tenemos que la asociación entre \(X_j\) y \(p\) no es mayor a \(\beta_j / 4\), lo que establece un vínculo directo entre el coeficiente y la probabilidad, que adicionalmente es fácil de interpretar.
De hecho, la ecuación (1) es una variante del modelo log-lineal. Entonces, \(\beta_j \times 100\) es el cambio porcentual del momio cuando \(X_j\) incrementa su valor en una unidad. Más allá de la forma en que se obtiene esta interpretación, tampoco parece muy intuitiva.↩︎
Si no hay un interés concreto en estas variables, se puede escoger algún valor “típico” para ellas, como la media y la mediana en variables numéricas y la categoría modal en las variables cualitativas.↩︎
La expresión efecto marginal es de hecho más amplia, y esta es una de las variantes.↩︎
En lo personal, me parece más razonable definirlo para las cuantiles .025 y .975, a fin de no distorsionar con valores extremos.↩︎