Regresión Logística

En estadística, la regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento ocurriendo en función de otros factores. El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un único ensayo se modelan como una función de variables explicativas, utilizando una función logística.

La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.

Funcion sigmoide

Caso de estudio: Accidente del challenger

El accidente del transbordador espacial Challenger se produjo el martes 28 de enero de 1986 a las 16:39:13 UTC, 1 cuando el transbordador espacial Challenger (misión STS-51-L) se desintegró 73 segundos tras el lanzamiento, 2 provocando la muerte de los siete miembros de la tripulación —Francis “Dick” Scobee, Michael J. Smith, Ronald McNair, Ellison Onizuka, Gregory Jarvis, Judith Resnik y Christa McAuliffe.3 La nave se desintegró sobre el océano Atlántico, frente a la costa del centro de Florida (Estados Unidos) a las 11:38 EST (16:38 UTC) Ha sido calificado como el accidente más grave en la conquista del espacio.

La desintegración del vehículo entero comenzó después de que una junta tórica de su cohete acelerador sólido (SRB) derecho fallara durante el despegue. El fallo de la junta tórica causó la apertura de una brecha, permitiendo que el gas caliente presurizado del interior del motor del cohete sólido saliera al exterior y contactara con la estructura adyacente de conexión con el SRB y el tanque externo de combustible. Esto provocó la separación de la conexión posterior del SRB derecho y el fallo estructural del depósito externo. Las fuerzas aerodinámicas destruyeron rápidamente el orbitador.

. También ignoraron las advertencias de los ingenieros sobre los peligros en el lanzamiento provocados por las frías temperaturas de aquella mañana y no habían informado adecuadamente a sus superiores de estas preocupaciones. La Comisión Rogers hizo nueve recomendaciones a la NASA que debía poner en práctica antes de continuar con los vuelos de transbordadores

En 1986, el transbordador espacial Challenger tuvo un accidente catastrófico debido a un incendio en una de las piezas de sus propulsores. Era la vez 25 en que se lanzaba un transbordador espacial. En todas las ocasiones anteriores se habían inspeccionado los propulsores de las naves, y en algunas de ellas se habían encontrando defectos.

El fichero challenger contiene 23 observaciones de las siguientes variables: defecto, que toma los valores 1 y 0 en función de si se encontraron defectos o no en los propulsores; y temp, la temperatura (en grados Fahrenheit) en el momento del lanzamiento. 1. Cargar datos y contamos las frecuencias de casos sin y con defectos:

library(readr)
datos <- read_csv("challenger.csv")
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   temp = col_double(),
##   defecto = col_double()
## )
datos
## # A tibble: 23 x 2
##     temp defecto
##    <dbl>   <dbl>
##  1    66       0
##  2    70       1
##  3    69       0
##  4    68       0
##  5    67       0
##  6    72       0
##  7    73       0
##  8    70       0
##  9    57       1
## 10    63       1
## # … with 13 more rows

Observe que los datos estan etiquetados en exito=1 y fracaso=0 variable categórica “Y” donde si se encontraron defectos=1 o no=0 en los propulsores

Tabla de frecuencia

tabla <- table(datos$defecto)
tabla
## 
##  0  1 
## 16  7

Según la tabla anterior se presentarón 7 fallas de 23 ensayos o inspeciones y 16 de 23 no presentaron fallas en las turbinas

Representacion grafica

colores <- NULL
colores[datos$defecto == 0] <- "green"
colores[datos$defecto == 1] <- "red"
plot(datos$temp, datos$defecto, pch = 21, bg = colores, 
    xlab = "Temperatura", ylab = "Probabilidad de defectos")
legend("bottomleft", c("No defecto", "Si defecto"), pch = 21, col = c("green", 
    "red"))

Parece razonable, a la vista de los datos, pensar que la temperatura puede influir en la probabilidad de que los propulsores tengan defectos o No. Luego la idea es ajustar por medio de la regresión logistica,un modelo de regresión logística para estudiar la posible relación entre Y=1 dado diferentes valores de temperatura: P(Y=1|X). Para ajustar el modelo se usa el comando glm (para modelos lineales generalizados) indicando que la respuesta es binomial mediante el argumento family:

regresion <- glm(defecto ~ temp, data=datos, family = binomial)
summary(regresion)
## 
## Call:
## glm(formula = defecto ~ temp, family = binomial, data = datos)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -1.00342  -0.58426  -0.18732   0.08337   2.00587  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  23.4033    11.8316   1.978   0.0479 *
## temp         -0.3610     0.1755  -2.057   0.0397 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 28.267  on 22  degrees of freedom
## Residual deviance: 14.377  on 21  degrees of freedom
## AIC: 18.377
## 
## Number of Fisher Scoring iterations: 7

La formula del modelo de regresion logistica es:

\[ P(Y=1|X)=\dfrac{e^{15.0429-0.2322x}}{1+e^{15.0429-0.2322x}} \]