Inteligencia Analítica de Datos con R

Regresión Logística

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

6/8/23

Regresión Logística - Motivación

  • En la parte anterior del curso, presentamos técnicas de regresión lineal, todas las cuales asumieron que la variable de respuesta Y, es una variable numérica o cuantitativa.

  • ¿Qué sucede si la variable respuesta es una variable cualitativa o categórica? En este capítulo, comenzamos a introducir técnicas para modelos que predicen una respuesta categórica.

  • Cuando hacemos predicciones para observaciones que tienen una respuesta cualitativa, se dice que clasificamos esas observaciones.

  • Existen muchos tipos de técnicas de clasificación. En este capítulo, presentamos una de las técnicas de clasificación más básicas pero ampliamente utilizadas: la regresión logística.

Introducción

Los métodos de clasificación permiten predecir variables cualitativas o categóricas. Tres de los clasificadores más usados son:

  • Regresión logística

  • Análisis discriminante lineal y cuadrático

  • K-vecinos más cercanos (K-nearest neighbours)

El método de regresión logística es el recomendado cuando se trabaja en regresión lineal múltiple con una variable cualitativa con dos niveles.

  • Al igual que en el caso de regresión, en los problemas de clasificación contamos con un set de observaciones de entrenamiento

\[(x_1,y_2),\dots,(x_n,y_n)\] que usamos para generar el clasificador.

  • El objetivo es que nuestro modelo funcione bien no sólo con las observaciones de entrenamiento, sino con nuevas observaciones.

¿Por qué no usar regresión lineal en este tipo de problemas?

  • Para una variable respuesta binaria (dos niveles) podríamos crear dos variables “dummy” (0/1) y predecir la variable codificada como:

    • 1, si \(\hat{Y} > 0.5\) ó 0, si \(\hat{Y} \leqslant 0.5\)
    • o usando un límite mayor o menor dependiendo del interés
  • En este caso no importaría que nivel fuera codificado como 0 o 1, el modelo de regresión lineal daría el mismo resultado.

  • Por otro lado, algunos de los valores estimados mediante una recta de mínimos cuadrados pueden ser:

    • < 0 ó > 1,
    • Esto entra en conflicto con el hecho de que toda probabilidad está comprendida entre [0, 1].

Objetivos

El objetivo primordial de esta técnica es el de modelar como influyen las variables regresoras en la probabilidad de ocurrencia de un suceso particular.

  • Investigar como influye en la probabilidad de ocurrencia de un suceso, la presencia o no de diversos factores y el valor o nivel de los mismos.
  • Determinar el modelo más parsimonioso y mejor ajustado que siendo razonable describa la relación entre la variable respuesta y un conjunto de variables regresoras.

Regresión Logística simple: el modelo

Dada una variable respuesta \(Y\), categórica con dos niveles, la regresión logística modela la probabilidad de que Y pertenezca a una categoría o nivel particular, dados los valores de un único predictor \(X\).

  • La clasificación depende del umbral (límite) o threshold que se establezca.

\[p(Y=k|X=x)\]

En regresión logística utilizamos la función logística:

\[p(X)=\frac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}\]

Siempre producirá una curva en forma de S, comprendiéndose los valores de Y entre [0, 1].

Función logística con \(\beta _{0}+\beta _{1}x+e\) en el eje horizontal y \(p(x)\) en el eje vertical.

La ecuación anterior puede reestructurarse como

\[\frac{p(X)}{1-p(X)}=e^{\beta_0 + \beta_1X}\]

Regresión Logística simple

La curva odds

Siempre producirá una curva en forma de S, comprendiéndose los valores de Y entre [0, 1].

Función logística con \(\beta _{0}+\beta _{1}x+e\) en el eje horizontal y \(p(x)\) en el eje vertical.

Los odds ratios

La ecuación anterior puede reestructurarse como

\[\frac{p(X)}{1-p(X)}=e^{\beta_0 + \beta_1X}\]

  • La última ecuación corresponde a los odds ratio (cocientes de probabilidad), pudiendo tomar cualquier valor entre:
    • 0 (muy baja probabilidad de éxito)
    • \(\inf\) (muy alta probabilidad de éxito).
  • Este ratio (cociente), pues, indica cuanto más probable es el éxito que el fracaso.

Regresión Logística simple

Modelo: log odds ratios

Introduciendo el logaritmo en ambos lados de la ecuación, obtenemos una función lineal

\[\ln\frac{p(X)}{1-p(X)}=\beta_0 + \beta_1X\]

La parte izquierda de la ecuación es lo que se conoce como logaritmo de odds (log-odds) o logit.

\(p(x)\) en el eje horizontal y odds en el eje vertical.

Curva de probabilidad

La transformación de probabilidad a odds es monotónica, lo que significa que los odds aumentan conforme aumenta la probabilidad, y viceversa:

  • Todas estas transformaciones se implementan para evitar la restricción del rango de probabilidad [0, 1] en la variable respuesta, ya que transformación logística (logaritmo de odds) permite mapear desde menos infinito hasta más infinito.

Regresión Logística simple - Interpretaciones del modelo

  • Si tomamos un valor de ejemplo, digamos \(p(X=50) = 2/3\), entonces

\[{\displaystyle {\frac{p(X=50)}{1-p(X=50)}}={\frac{\frac{2}{3}}{1-{\frac {2}{3}}}}=2.}\]

Cuando \(x = 50\), un éxito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que las chances (odds) son 2 a 1.

Ejemplo:

Un odds de \(\frac{1}{4}\), corresponde a una probabilidad de 0.20; es decir

\[{\displaystyle {\frac{p(X)}{1-p(X)}}={\frac{\frac{1}{5}}{1-{\frac {1}{5}}}}={\frac{0.2}{1-{0.2}}}=\frac{1}{4}}\]

Es decir, las chances (odds) son 4 a 1.

Estimación de los coeficientes de regresión

  • Los coeficientes \(\beta_0\) y \(\beta_1\) de la ecuación logística son desconocidos, y han de estimarse a partir de los datos de entrenamiento.

  • Mientras que en regresión lineal los coeficientes del modelo se estiman por mínimos cuadrados, en regresión logística se utiliza el método de máxima verosimilitud (máximum likelihood): se buscan coeficientes tales que la probabilidad prevista \(\hat{p}(x_i)\)) de éxito se aproxime lo máximo posible a las observaciones reales.

  • Los coeficientes estimados por el modelo para las variables se corresponden al valor del logaritmo de odds, o lo que es lo mismo, multiplica los odds por \(e^{\beta_1}\)

  • Podemos medir la precisión de los coeficientes estimados a partir de sus errores estándar.

  • En este modelo se emplea el estadístico \(Z\) para obtener el nivel de significancia del predictor (p-value), a diferencia del estadístico t en regresión lineal, aunque juegan el mismo papel.

    • Por ejemplo, el estadístico z asociado a \(\beta_1\) sería igual a

\[\frac{\hat{\beta_1}}{SE(\hat{\beta_1})}\]

Hipótesis sobre los coeficientes de regresión

  • Un valor alto (absoluto) de Z indica la evidencia en contra de la hipótesis nula \[H_0: \beta_1=0\]

lo que implica que la probabilidad de éxito no depende de la variable independiente \(X\); es decir \[p(X)=\frac{e^{\beta_0}}{1+e^{\beta_0 }}\]

  • Si el p-value es menor que el nivel de significancia establecido, podemos deducir que hay una relación entre el predictor \(X\) y la probabilidad de éxito.
  • La ordenada en el origen \(\beta_1\) estimada en el modelo no suele ser de interés.

Regresión Logística Múltiple

El modelo

  • La regresión logística múltiple es una extensión del modelo de regresión logística simple en el que se predice una respuesta binaria en función de múltiples predictores, que pueden ser tanto continuos como categóricos.
  • La ecuación con la que podemos obtener las predicciones en este caso es

\[p(X)=\frac{e^{\beta_0 + \beta_1X_1 + ... + \beta_pX_p}}{1+e^{\beta_0 + \beta_1X_1 + ... + \beta_pX_p}}\]

\[\ln\frac{p(X)}{1-p(X)}=\beta_0 + \beta_1X_1 + ... + \beta_pX_p\]

donde \(X = (X_1,...,X_p)\) son los p predictores.

  • De nuevo usamos el método de máxima verosimilitud para estimar los coeficientes \(\beta_0,\beta_1,...,\beta_p\).
    • Cada coeficiente se interpreta manteniendo fijos al resto.
  • Al igual que en el caso de la regresión lineal, los resultados obtenidos usando solo un predictor pueden diferir respecto a aquellos obtenidos usando múltiples predictores, especialmente cuando existe correlación entre ellos. Este fenómeno se conoce como confusión (confounding).

Condiciones del modelo logístico

La regresión logística no requiere de ciertas condiciones como linealidad, normalidad y homocedasticidad de los residuos que sí lo son para la regresión lineal. Las principales condiciones que este modelo requiere son:

  • Respuesta binaria: La variable dependiente ha de ser binaria.
  • Independencia: las observaciones han de ser independientes.
  • Multicolinealidad: se requiere de muy poca a ninguna multicolinealidad entre los predictores (para regresión logística múltiple).
  • Linealidad: se requiere linealidad entre la variable independiente y el logaritmo natural de odds.
  • Tamaño muestral: como regla general, se requiere un mínimo de 10 casos con el resultado menos frecuente para cada variable independiente del modelo.

Ejemplo 1

Para este ejemplo, usaremos un conjunto de datos de muestra para ilustrar los conceptos de regresión logística.

  • Imagine que es un actuario de atención médica y está tratando de comprender mejor los factores que conducen a enfermedades cardíacas entre su población asegurada.

  • Además, está tratando de utilizar este conocimiento para predecir mejor quién tiene una enfermedad cardíaca para poder intervenir y ayudar a mejorar su salud y calidad de vida.

  • Dicho de otra manera, desea poder predecir la probabilidad o probabilidad de que una persona con ciertas características tenga una enfermedad cardíaca.

Ejemplo 1

Se le ha proporcionado un conjunto de datos (heart_data) de muestra de la población asegurada con los siguientes campos y características:

heart_disease coffee_drinker fast_food_spend income
0 0 1823.81 44361.625
0 1 2042.95 12106.13
0 0 2683.87 31767.13
0 0 1323.12 35704.49
0 0 1964.13 38463.49
0 1 2298.97 7491.55
  • heart_disease: un campo indicador correspondiente a si una persona tiene una enfermedad cardíaca (1 = sí, enfermedad cardíaca; 0 = ninguna enfermedad cardíaca)
  • coffee_drinker: un campo indicador correspondiente a si una persona bebe café regularmente (1 = sí, bebe café; 0 = no bebe café)
  • fast_food_spend: un campo numérico correspondiente al gasto anual de cada individuo en comida rápida
  • ingresos: un campo numérico que corresponde a los ingresos anuales de la persona.