La regresión logística es el modelo más conocido para hacer predicciones cuando la variable respuesta \(Y\) es binaria. Algunos ejemplos donde se puede utilizar este tipo de regresión son:
Uno de los objetivos en regresión logística es utilizar las \(p\) covariables \(X_1, X_2, \ldots, X_p\) para explicar la probabilidad \(P(Y=1 | X_1, X_2, \ldots, X_p)\) de la siguiente manera:
\[ P(Y=1 | X_1, X_2, \ldots, X_p) = \frac{1}{1-\exp[-(\beta_0 + \beta_1 X_1 + \ldots + \beta_p X_p)]} \]
La expresión anterior se suele escribir de forma compacta como \(P(Y=1|\boldsymbol{X})\) donde \(\boldsymbol{X}=(X_1, X_2, \ldots, X_p)^\top\).
Los elementos \(\beta_0, \beta_1, \ldots, \beta_p\) se llaman parámetros del modelo y se estiman por el método de máxima verosimilitud.
El odds es una medida de la posible ocurrencia del evento de interés \(Y=1\) y matemáticamente se expresa como:
\[ O(\boldsymbol{X}) = \frac{P(Y=1)}{P(Y \neq 1)} = \frac{P(Y=1)}{1 - P(Y=1)} = \exp(\beta_0 + \beta_1 X_1 + \ldots + \beta_p X_p) \]
La razón de odds es una medida relativa del riesgo (\(RR\)) cuando se comparan dos perfiles de un individuo.
Supongamos que se tienen dos perfiles específicos, es decir:
así el odds para cada uno de ellos sería \(O(\boldsymbol{X}^k)\) y \(O(\boldsymbol{X}^l)\), respectivamente. La razón de odds o riesgo relativo del individuo \(k\) frente al individuo \(l\) está definida como:
\[ RR = \frac{O(\boldsymbol{X}^k)}{O(\boldsymbol{X}^l)} = \exp \left[ \beta_1(X_{k1}-X_{l1}) + \beta_2(X_{k2}-X_{l2}) + \dots + \beta_p(X_{kp}-X_{lp}) \right] \]
En la expresión anterior NO está \(\beta_0\) que se cancela al hacer el cociente.
Supongamos que se ajustó un modelo de regresión logística para explicar la probabilidad de morir (\(Y=1\)) en un accidente marítimo similar al Titanic. Las covariables utilizadas en el modelo fueron clase del viaje (1, 2 o 3), sexo y edad. El modelo ajustado es el siguiente:
\[ P(Y=1) = \frac{1}{1-\exp[-(-3.6 + 1.2 \times Clase2 + 2.4 \times Clase3 + 2.7 \times SexoHombre + 0.03 \times Edad)]} \]
¿Es posible hacer interpretación de los parámetros del modelo?
La interpretación del \(RR\) se puede hacer en tres situaciones que se describen a continuación.
Para facilitar las interpretaciones vamos a usar los resultados del ejemplo anterior.
Vamos a comparar dos individuos con los perfiles que se muestran a continuación.
Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:
Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:
\[ \begin{equation} \begin{split} RR &= \exp \left[ 1.2 (0-0) + 2.4 (1-0) + 2.7 (1-0) + 0.03 (30-20) \right] \\ &= 221.4064 \end{split} \end{equation} \]
Esto significa que la situación del individuo 1 es 221 veces más riesgosa que la situación del individuo 2.
Vamos a comparar dos individuos con los perfiles que se muestran a continuación.
Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:
Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:
\[ \begin{equation} \begin{split} RR &= \exp \left[ 0.03 (30-20) \right] \\ &= 1.349859 \end{split} \end{equation} \]
Esto significa que la situación del individuo 1 es 1.35 veces más riesgosa que la situación del individuo 2.
Vamos a comparar dos individuos con los perfiles que se muestran a continuación.
Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:
Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:
\[ \begin{equation} \begin{split} RR &= \exp \left[ 0.03 (26-25) \right] \\ &= \exp \left[0.03 \right] \\ &= 1.030455 \end{split} \end{equation} \]
Esto significa que la situación del individuo 1 es 3.0455% veces más riesgosa que la situación del individuo 2.
Si el \(\beta\) asociado a una covariable \(X\) es positivo significa que al aumentar \(X\) la probabilidad \(P(Y=1)\) se incrementa, eso significa que \(X\) favorece la aparición del evento de interés.
Si el \(\beta\) asociado a una covariable \(X\) es negativo significa que al aumentar \(X\) la probabilidad \(P(Y=1)\) disminuye, eso significa que \(X\) perjudica la aparición del evento de interés.
Dependiendo del evento de interés una covariable se puede llamar factor protector o factor de riesgo.
Como ilustración, recordemos que en el caso de la muerte por covid-19 se dice que la Edad es un factor de riesgo porque entre mayor sea la edad del paciente covid en la UCI, mayor la posibilidad de fallecer.
Se le recomienda a lector consultar el libro de Monroy, Rivera, and Dávila (2018) para más detalles de la interpretación de los coeficientes en regresión logística.
Nota: Para conocer otras publicaciones relacionadas con glm visite este enlace.