Regresión Logística
Universidad Tecnológica de Bolivar
6/8/23
En la parte anterior del curso, presentamos técnicas de regresión lineal, todas las cuales asumieron que la variable de respuesta Y, es una variable numérica o cuantitativa.
¿Qué sucede si la variable respuesta es una variable cualitativa o categórica? En este capítulo, comenzamos a introducir técnicas para modelos que predicen una respuesta categórica.
Cuando hacemos predicciones para observaciones que tienen una respuesta cualitativa, se dice que clasificamos esas observaciones.
Existen muchos tipos de técnicas de clasificación. En este capítulo, presentamos una de las técnicas de clasificación más básicas pero ampliamente utilizadas: la regresión logística.
Los métodos de clasificación permiten predecir variables cualitativas o categóricas. Tres de los clasificadores más usados son:
Regresión logística
Análisis discriminante lineal y cuadrático
K-vecinos más cercanos (K-nearest neighbours)
El método de regresión logística es el recomendado cuando se trabaja en regresión lineal múltiple con una variable cualitativa con dos niveles.
\[(x_1,y_2),\dots,(x_n,y_n)\] que usamos para generar el clasificador.
Para una variable respuesta binaria (dos niveles) podríamos crear dos variables “dummy” (0/1) y predecir la variable codificada como:
En este caso no importaría que nivel fuera codificado como 0 o 1, el modelo de regresión lineal daría el mismo resultado.
Por otro lado, algunos de los valores estimados mediante una recta de mínimos cuadrados pueden ser:
El objetivo primordial de esta técnica es el de modelar como influyen las variables regresoras en la probabilidad de ocurrencia de un suceso particular.
Dada una variable respuesta \(Y\), categórica con dos niveles, la regresión logística modela la probabilidad de que Y pertenezca a una categoría o nivel particular, dados los valores de un único predictor \(X\).
\[p(Y=k|X=x)\]
En regresión logística utilizamos la función logística:
\[p(X)=\frac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}\]
Siempre producirá una curva en forma de S, comprendiéndose los valores de Y entre [0, 1].
Función logística con \(\beta _{0}+\beta _{1}x+e\) en el eje horizontal y \(p(x)\) en el eje vertical.
La ecuación anterior puede reestructurarse como
\[\frac{p(X)}{1-p(X)}=e^{\beta_0 + \beta_1X}\]
Siempre producirá una curva en forma de S, comprendiéndose los valores de Y entre [0, 1].
Función logística con \(\beta _{0}+\beta _{1}x+e\) en el eje horizontal y \(p(x)\) en el eje vertical.
La ecuación anterior puede reestructurarse como
\[\frac{p(X)}{1-p(X)}=e^{\beta_0 + \beta_1X}\]
Introduciendo el logaritmo en ambos lados de la ecuación, obtenemos una función lineal
\[\ln\frac{p(X)}{1-p(X)}=\beta_0 + \beta_1X\]
La parte izquierda de la ecuación es lo que se conoce como logaritmo de odds (log-odds) o logit.
\(p(x)\) en el eje horizontal y odds en el eje vertical.
La transformación de probabilidad a odds es monotónica, lo que significa que los odds aumentan conforme aumenta la probabilidad, y viceversa:
\[{\displaystyle {\frac{p(X=50)}{1-p(X=50)}}={\frac{\frac{2}{3}}{1-{\frac {2}{3}}}}=2.}\]
Cuando \(x = 50\), un éxito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que las chances (odds) son 2 a 1.
Un odds de \(\frac{1}{4}\), corresponde a una probabilidad de 0.20; es decir
\[{\displaystyle {\frac{p(X)}{1-p(X)}}={\frac{\frac{1}{5}}{1-{\frac {1}{5}}}}={\frac{0.2}{1-{0.2}}}=\frac{1}{4}}\]
Es decir, las chances (odds) son 4 a 1.
Los coeficientes \(\beta_0\) y \(\beta_1\) de la ecuación logística son desconocidos, y han de estimarse a partir de los datos de entrenamiento.
Mientras que en regresión lineal los coeficientes del modelo se estiman por mínimos cuadrados, en regresión logística se utiliza el método de máxima verosimilitud (máximum likelihood): se buscan coeficientes tales que la probabilidad prevista \(\hat{p}(x_i)\)) de éxito se aproxime lo máximo posible a las observaciones reales.
Los coeficientes estimados por el modelo para las variables se corresponden al valor del logaritmo de odds, o lo que es lo mismo, multiplica los odds por \(e^{\beta_1}\)
Podemos medir la precisión de los coeficientes estimados a partir de sus errores estándar.
En este modelo se emplea el estadístico \(Z\) para obtener el nivel de significancia del predictor (p-value), a diferencia del estadístico t en regresión lineal, aunque juegan el mismo papel.
\[\frac{\hat{\beta_1}}{SE(\hat{\beta_1})}\]
lo que implica que la probabilidad de éxito no depende de la variable independiente \(X\); es decir \[p(X)=\frac{e^{\beta_0}}{1+e^{\beta_0 }}\]
\[p(X)=\frac{e^{\beta_0 + \beta_1X_1 + ... + \beta_pX_p}}{1+e^{\beta_0 + \beta_1X_1 + ... + \beta_pX_p}}\]
\[\ln\frac{p(X)}{1-p(X)}=\beta_0 + \beta_1X_1 + ... + \beta_pX_p\]
donde \(X = (X_1,...,X_p)\) son los p predictores.
La regresión logística no requiere de ciertas condiciones como linealidad, normalidad y homocedasticidad de los residuos que sí lo son para la regresión lineal. Las principales condiciones que este modelo requiere son:
Para este ejemplo, usaremos un conjunto de datos de muestra para ilustrar los conceptos de regresión logística.
Imagine que es un actuario de atención médica y está tratando de comprender mejor los factores que conducen a enfermedades cardíacas entre su población asegurada.
Además, está tratando de utilizar este conocimiento para predecir mejor quién tiene una enfermedad cardíaca para poder intervenir y ayudar a mejorar su salud y calidad de vida.
Dicho de otra manera, desea poder predecir la probabilidad o probabilidad de que una persona con ciertas características tenga una enfermedad cardíaca.
Se le ha proporcionado un conjunto de datos (heart_data) de muestra de la población asegurada con los siguientes campos y características:
heart_disease | coffee_drinker | fast_food_spend | income |
---|---|---|---|
0 | 0 | 1823.81 | 44361.625 |
0 | 1 | 2042.95 | 12106.13 |
0 | 0 | 2683.87 | 31767.13 |
0 | 0 | 1323.12 | 35704.49 |
0 | 0 | 1964.13 | 38463.49 |
0 | 1 | 2298.97 | 7491.55 |