1 Introducción

La regresión logística es el modelo más conocido para hacer predicciones cuando la variable respuesta \(Y\) es binaria. Algunos ejemplos donde se puede utilizar este tipo de regresión son:

  • \(Y=0\) o \(Y=1\),
  • \(Y=\) no sobrevive o \(Y=\) sobrevive,
  • \(Y=\) no paga el crédito o \(Y=\) si paga el crédito.





Uno de los objetivos en regresión logística es utilizar las \(p\) covariables \(X_1, X_2, \ldots, X_p\) para explicar la probabilidad \(P(Y=1 | X_1, X_2, \ldots, X_p)\) de la siguiente manera:

\[ P(Y=1 | X_1, X_2, \ldots, X_p) = \frac{1}{1-\exp[-(\beta_0 + \beta_1 X_1 + \ldots + \beta_p X_p)]} \]

La expresión anterior se suele escribir de forma compacta como \(P(Y=1|\boldsymbol{X})\) donde \(\boldsymbol{X}=(X_1, X_2, \ldots, X_p)^\top\).

Los elementos \(\beta_0, \beta_1, \ldots, \beta_p\) se llaman parámetros del modelo y se estiman por el método de máxima verosimilitud.

2 Odds

El odds es una medida de la posible ocurrencia del evento de interés \(Y=1\) y matemáticamente se expresa como:

\[ O(\boldsymbol{X}) = \frac{P(Y=1)}{P(Y \neq 1)} = \frac{P(Y=1)}{1 - P(Y=1)} = \exp(\beta_0 + \beta_1 X_1 + \ldots + \beta_p X_p) \]

3 Razón de odds

La razón de odds es una medida relativa del riesgo (\(RR\)) cuando se comparan dos perfiles de un individuo.

Supongamos que se tienen dos perfiles específicos, es decir:

  • Individuo \(k\): \(X_{k1}, X_{k2}, \ldots, X_{kp}\).
  • Individuo \(l\): \(X_{l1}, X_{l2}, \ldots, X_{lp}\).

así el odds para cada uno de ellos sería \(O(\boldsymbol{X}^k)\) y \(O(\boldsymbol{X}^l)\), respectivamente. La razón de odds o riesgo relativo del individuo \(k\) frente al individuo \(l\) está definida como:

\[ RR = \frac{O(\boldsymbol{X}^k)}{O(\boldsymbol{X}^l)} = \exp \left[ \beta_1(X_{k1}-X_{l1}) + \beta_2(X_{k2}-X_{l2}) + \dots + \beta_p(X_{kp}-X_{lp}) \right] \]

En la expresión anterior NO está \(\beta_0\) que se cancela al hacer el cociente.

4 Ejemplo

Supongamos que se ajustó un modelo de regresión logística para explicar la probabilidad de morir (\(Y=1\)) en un accidente marítimo similar al Titanic. Las covariables utilizadas en el modelo fueron clase del viaje (1, 2 o 3), sexo y edad. El modelo ajustado es el siguiente:

\[ P(Y=1) = \frac{1}{1-\exp[-(-3.6 + 1.2 \times Clase2 + 2.4 \times Clase3 + 2.7 \times SexoHombre + 0.03 \times Edad)]} \]

¿Es posible hacer interpretación de los parámetros del modelo?

5 Interpretaciones

La interpretación del \(RR\) se puede hacer en tres situaciones que se describen a continuación.

Para facilitar las interpretaciones vamos a usar los resultados del ejemplo anterior.

5.1 Perfiles diferentes

Vamos a comparar dos individuos con los perfiles que se muestran a continuación.

  • Individuo 1: clase=3, sexo=hombre, edad=30.
  • Individuo 2: clase=1, sexo=mujer, edad=20.

Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:

  • Individuo 1: \(X_{clase2}=0\), \(X_{clase3}=1\), \(X_{sexoHombre}=1\) y \(X_{edad}=30\).
  • Individuo 2: \(X_{clase2}=0\), \(X_{clase3}=0\), \(X_{sexoHombre}=0\) y \(X_{edad}=20\).

Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:

\[ \begin{equation} \begin{split} RR &= \exp \left[ 1.2 (0-0) + 2.4 (1-0) + 2.7 (1-0) + 0.03 (30-20) \right] \\ &= 221.4064 \end{split} \end{equation} \]

Esto significa que la situación del individuo 1 es 221 veces más riesgosa que la situación del individuo 2.

5.2 Perfiles iguales excepto en una variable

Vamos a comparar dos individuos con los perfiles que se muestran a continuación.

  • Individuo 1: clase=1, sexo=hombre, edad=30.
  • Individuo 2: clase=1, sexo=hombre, edad=20.

Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:

  • Individuo 1: \(X_{clase2}=0\), \(X_{clase3}=0\), \(X_{sexoHombre}=1\) y \(X_{edad}=30\).
  • Individuo 2: \(X_{clase2}=0\), \(X_{clase3}=0\), \(X_{sexoHombre}=1\) y \(X_{edad}=20\).

Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:

\[ \begin{equation} \begin{split} RR &= \exp \left[ 0.03 (30-20) \right] \\ &= 1.349859 \end{split} \end{equation} \]

Esto significa que la situación del individuo 1 es 1.35 veces más riesgosa que la situación del individuo 2.

5.3 Perfiles iguales excepto que \(X_{ki} = X_{li} + 1\)

Vamos a comparar dos individuos con los perfiles que se muestran a continuación.

  • Individuo 1: clase=1, sexo=hombre, edad=26.
  • Individuo 2: clase=1, sexo=hombre, edad=25.

Los perfiles anteriores se pueden expresar en términos de las variables del modelo así:

  • Individuo 1: \(X_{clase2}=0\), \(X_{clase3}=0\), \(X_{sexoHombre}=1\) y \(X_{edad}=26\).
  • Individuo 2: \(X_{clase2}=0\), \(X_{clase3}=0\), \(X_{sexoHombre}=1\) y \(X_{edad}=25\).

Reemplazando los valores anteriores en la expresión para calcular \(RR\) se tiene que:

\[ \begin{equation} \begin{split} RR &= \exp \left[ 0.03 (26-25) \right] \\ &= \exp \left[0.03 \right] \\ &= 1.030455 \end{split} \end{equation} \]

Esto significa que la situación del individuo 1 es 3.0455% veces más riesgosa que la situación del individuo 2.

6 Interpretación rápida del \(\beta\)

  • Si el \(\beta\) asociado a una covariable \(X\) es positivo significa que al aumentar \(X\) la probabilidad \(P(Y=1)\) se incrementa, eso significa que \(X\) favorece la aparición del evento de interés.

  • Si el \(\beta\) asociado a una covariable \(X\) es negativo significa que al aumentar \(X\) la probabilidad \(P(Y=1)\) disminuye, eso significa que \(X\) perjudica la aparición del evento de interés.

Dependiendo del evento de interés una covariable se puede llamar factor protector o factor de riesgo.

Como ilustración, recordemos que en el caso de la muerte por covid-19 se dice que la Edad es un factor de riesgo porque entre mayor sea la edad del paciente covid en la UCI, mayor la posibilidad de fallecer.

Se le recomienda a lector consultar el libro de Monroy, Rivera, and Dávila (2018) para más detalles de la interpretación de los coeficientes en regresión logística.



Referencias

Monroy, Luis Guillermo Dı́az, Mario Alfonso Morales Rivera, and Leidy Rocı́o León Dávila. 2018. Análisis Estadı́stico de Datos Categóricos. Universidad Nacional de Colombia.