Bibliografia Los principales conceptos y algunos de los ejemplos han sido tomadas de los siguientes recursos: * James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning with Applications in R. Springer, 2013. * Hand, D.; Mannila, H.; Smyth, P. Principles of Data Mining. The MIT Press, 2001. * Provost F.; Fawcet, T. Data Science for Business. O’Reilly, 2015.
Es una técnica multivariante, en la que la variable dependiente [Y] es categórica y las variables independientes son de cualquier naturaleza, en otras palablas las variables predictoras [X1, X2, X3…] pueden ser cualitativas (dummies) o cuantitativas, el interés de este tipo de algoritmos es por medio de probabilidades predecir a qué grupo de la variable de respuesta pertenece un sujeto especifico, dado otras características del mismo. Este tipo de algoritmos son muy utilizados en diferentes áreas como la investigación aplicada y clínica entre muchas otras.
Al igual que en el caso de regresión, en los problemas de clasificación contamos con un set de observaciones de entrenamiento (x1,y2),…,(xn,yn) que usamos para generar el clasificador. El objetivo es que nuestro modelo funcione bien no sólo con las observaciones de entrenamiento, sino con nuevas observaciones.
Cuando tenemos una variable de respuesta dicotómica o binaria, la regresión logística modela la probabilidad de que [Y] pertenezca a una categoría o nivel particular, dados los valores de uno o varios predictores [X]. La clasificación depende del límite o threshold que se establezca.
La regresión logística no requiere de ciertas condiciones como linealidad, normalidad y homocedasticidad de los residuos que sí lo son para la regresión lineal. Las principales condiciones que este modelo requiere son:
• Respuesta binaria: La variable dependiente ha de ser binaria.
• Independencia: las observaciones han de ser independientes.
• Multicolinealidad: se requiere de muy poca a ninguna multicolinealidad entre los predictores (para regresión logística múltiple).
• Linealidad entre la variable independiente y el logaritmo natural de odds.
• Tamaño muestral: como regla general, se requiere un mínimo de 10 casos con el resultado menos frecuente para cada variable independiente del modelo.
La regresión logística intenta determinar la probabilidad de ocurra determinado suceso, por ejemplo: - Ganar una convocatoria - Aprobar una materia - Graduarse - Desertar o cancelar el semestre - Vota o no vota en las elecciones - Diagnóstico positivo o negativo - Probabilidad de ganar un partido
Es el cociente que se obtiene entre la probabilidad de que ocurra un suceso frente a la probabilidad de que no ocurra, teniendo en cuenta otro evento. Por ejemplo: La probabilidad de que que un paciente tenga un infarto es de 0.80, si tiene más de 75 años y de 0.40 si el paciente tiene menos edad, para un solo caso se tiene:
Veamos la probabilidad para el caso del paciente mayor de 75 años: # \[ odds = \frac{0.80}{1- 0.80} = 4\]
Ahora veamos la probabilidad para el paciente menor de 75 años
En el caso anterior, se puede ver claramente que el paciente mayor de 75 años tiene una alta probabilidad de sufrir in infarto. El ejemplo anterior es un caso de probabilidad condicional.
Después del ejemplo veamos la definición del ODDS Ratio (OD) es el cociente entre dos Odds, nos permite cuantificar cuánto es más probable que el paciente mayor de 75 años pueda sufrir un infarto (Primer Odds) respecto al (segundo Odds) del paciente menor de 75 años.
Con base en el Odds Ratio (OR) anterior, podemos concluir que es 6 veces más problable que el paciente mayor de 75 años subra un infarto frente a los pacientes menores de esta edad.
Otra manera de obtener el Odds Ratio es con el exponencial de beta 1:
Para asignar un valor de regresión logística a una categoría binaria, se debe definir un umbral de clasificación (también denominado umbral de decisión). Un valor por encima de ese umbral indica que el sujeto pertenece a la clase B y una valor por debajo indica que pertenece a clase A. Resulta tentador suponer que el umbral de clasificación siempre debe ser 0.5, pero los umbrales dependen de cada problema y, por lo tanto, son valores que se deben ajustar.
“Gráfico Theshold”