Taller 2 CD

Author

Isabella Petro - Maura Moreno

REGRESIÓN LOGISTICA

La regresión logística es una técnica estadística fundamental en análisis de datos que permite modelar la probabilidad de que un evento ocurra en función de una o más variables predictoras. Este modelo es especialmente útil cuando la variable depenediente que queremos predecir es categórica y tiene solo dos posibles resultados (binaria), como “sí” o “no”, “éxito” o “fracaso”.

En esencia, la regresión logística establece una relación matemática entre las variables independientes (predictoras) y la probabilidad de que ocurra el evento de interés. Esta relación se expresa a través de una función logística, que transforma los valores de las variables predictoras en una probabilidad entre 0 y 1.

Considere una entrada \(X= x1, x2, x3, …, xn\), la regresión logística pretende encontrar una función h tal que podamos calcular

\[ y = \begin{cases} 1 & \text{si } h(X) \geq \text{umbral}, \\ 0 & \text{si } h(X) < \text{umbral} \end{cases} \]

Por lo general el umbral se toma como un valor de 0.5

La función sigmoide, definida con valores [0,1]. Se escribe:

\[ \sigma (x) = \frac{1}{1+ e^{-x} } \]

Conceptos básicos

Variable dependiente: Es una variable binaria que toma el valor 1 o 0, donde 1 indica que el evento de interés ocurre y 0 indica que no ocurre.
Variables independientes: Son las variables explicativas (también llamadas regresores o predictores) que influyen en la probabilidad de que ocurra el evento.
La regresión logística usa la función sigmoide para modelar la probabilidad de ocurrencia del evento. La función sigmoide se expresa como:

\[P(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n)}}\]

Donde:

\(P(Y = 1 | X)\) es la probabilidad de que el evento ocurra dado un conjunto de predictores \(X_1, X_2, ..., X_n\)
\(\beta_0, \beta_1, ..., \beta_n\) son los coeficientes que se estiman.
\(X_1, X_2, ..., X_n\) Son las variables independientes.

Estimación de los parametros del modelo

Función de verosimilitud

La estimación de los parámetros en la regresión logística se realiza comúnmente mediante el método de máxima verosimilitud. Este método busca encontrar los valores de los parámetros que maximizan la probabilidad de observar los datos dados esos parámetros.

El objetivo es encontrar los parámetros que maximicen la siguiente función de verosimilitud:

\[L(\beta) = \prod_{i=1}^{n} P(y_i | x_i)^{y_i}(1 - P(y_i | x_i))^{1 - y_i}\]

Donde \(y_i\) es el valor real de la variable dependiente (0 o 1) y \(P(y_i |x_i)\) es la probabilidad estimada por el modelo.

Optimización

Se utilizan algoritmos de optimización (como el método de Newton-Raphson o el descenso de gradiente) para encontrar los parámetros que maximizan la función de verosimilitud.

Predicciones

Una vez que los parámetros del modelo han sido estimados, la predicción se realiza calculando la probabilidad de que un nuevo conjunto de datos pertenezca a la clase 1 (evento):

\[\hat{P}(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n)}}\]

Aquí, \(\hat{\beta_0}, \hat{\beta_1}, ..., \hat{\beta_n}\) son los coeficientes estimados, y la predicción final será la probabilidad de \(Y = 1\)

Si esta probabilidad es mayor que el umbral (generalmente 0.5), se predice que el evento ocurrirá (clase 1), de lo contrario se predice la clase 0.

Evaluación del modelo

Matriz de confusión: Es una tabla que resume los resultados de las predicciones versus los valores reales. Incluye:

Verdaderos Positivos (VP)
Falsos Positivos (FP)
Verdaderos Negativos (VN)
Falsos Negativos (FN)

A partir de la matriz de confusión, se pueden calcular varias métricas como:

Exactitud: proporción de predicciones correctas. Se calcula como:

\[EXACTITUD = \frac{VP+VN}{VP+VN+FP+FN}\]

Sensibilidad: proporción de verdaderos positivos entre todos los casos positivos reales. Se calcula como:

\[SENSIBILIDAD = \frac{VP}{VP+FN}\]

Especificidad: Es la proporción de verdaderos positivos entre todas las predicciones positivas. Se calcula como:

\[ESPECIFICIDAD = \frac{VP}{VP+FP}\]

Curva ROC y AUC:

La curva ROC (Receiver Operating Characteristic) muestra la relación entre la tasa de verdaderos positivos (Recall) y la tasa de falsos positivos para diferentes umbrales.

El AUC (Area Under the Curve) mide el área bajo la curva ROC y da una idea general del rendimiento del modelo. Un valor de 1 indica un modelo perfecto, mientras que un valor de 0.5 indica un modelo aleatorio.

Bibliografía

Daniel. (2021, diciembre 16). ¿Qué es la regresión logística? Formación en ciencia de datos | Datascientest.com; DataScientest. https://datascientest.com/es/que-es-la-regresion-logistica

Fiuza, & Jc, R. P. (2000). La regresión logística: una herramienta versátil. Nefrologia: publicacion oficial de la Sociedad Espanola Nefrologia, 20(6), 495–500. https://revistanefrologia.com/es-la-regresion-logistica-una-herramienta-articulo-X0211699500035664

RPubs - REGRESIÓN LOGISTICA. (s/f). Rpubs.com. Recuperado el 13 de octubre de 2024, de https://rpubs.com/HOM05/RL1

James, G., D. Witten, T. Hastie, R. Tibshirani, y J. Taylor. 2021. An Introduction to Statistical Learning: with Applications in R. Springer Texts en Statistics. Springer International Publishing.

ANALISIS DISCRIMINANTE LINEAL (LDA)

El Análisis Discriminante Lineal (LDA) es un método estadístico y de aprendizaje automático que se utiliza para la clasificación de datos y la reducción de dimensionalidad.

Su principal objetivo es encontrar una combinación lineal de características que maximice la separabilidad entre diferentes clases. Esto se logra proyectando los datos en un espacio de menor dimensión, donde se busca que las medias de las clases estén lo más distantes posible, mientras que la varianza dentro de cada clase se minimiza.

Conceptos básicos

Función Discriminante: LDA utiliza una función discriminante que permite proyectar los datos en una dimensión donde las clases están separadas de manera óptima. Esta proyección se realiza buscando maximizar la varianza entre clases y minimizar la varianza dentro de cada clase.

Varianza entre Clases y Varianza dentro de Clases:

Varianza entre Clases: Refleja la distancia entre las medias de las diferentes clases. LDA se enfoca en maximizar esta varianza.

Varianza dentro de Clases: Representa la variabilidad de los datos dentro de cada clase. LDA busca minimizar esta variabilidad para lograr una mejor compactación de los datos dentro de cada clase.

Hipótesis del Modelo: LDA asume que las clases siguen una distribución normal (gaussiana) con la misma matriz de covarianza, pero con medias diferentes. Esta suposición facilita el cálculo de la probabilidad de que un nuevo punto de datos pertenezca a una clase específica.
Reducción de Dimensionalidad: El LDA se utiliza no solo para clasificar, sino también para reducir la dimensionalidad de los datos, lo que ayuda a evitar el sobreajuste y a disminuir los costos computacionales. Esto es especialmente útil en situaciones donde el número de características es alto en relación con el número de muestras.

Generalización: Originalmente desarrollado para problemas de clasificación binaria, el LDA ha sido generalizado para manejar múltiples clases, lo que se conoce como Análisis Discriminante Lineal Multiclase o Análisis Discriminante Múltiple.