Regresión logĆstica
En estadĆstica, la regresión logĆstica es un tipo de anĆ”lisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un nĆŗmero limitado de categorĆas) en función de las variables independientes o predictoras. Es Ćŗtil para modelar la probabilidad de un evento ocurriendo como función de otros factores. El anĆ”lisis de regresión logĆstica se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglĆ©s) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un Ćŗnico ensayo se modelan, como una función de variables explicativas, utilizando una función logĆstica.
Caso de estudio: fallo del transbordador challanger en 1986
En 1986, el transbordador espacial Challenger tuvo un accidente catastrófico debido a un incendio en una de las piezas de sus propulsores. Era la vez 25 en que se lanzaba un transbordador espacial. En todas las ocasiones anteriores se habĆan inspeccionado los propulsores de las naves, y en algunas de ellas se habĆan encontrando defectos. El fichero challenger contiene 23 observaciones de las siguientes variables: defecto, que toma los valores 1 y 0 en función de si se encontraron defectos o no en los propulsores; y temp, la temperatura (en grados Fahrenheit) en el momento del lanzamiento.
Primero leemos los datos y contamos las frecuencias de casos sin y con defectos:
challenger <- read.table("http://verso.mat.uam.es/~joser.berrendero/datos/challenger.txt", header=TRUE)
table(challenger$defecto)##
## 0 1
## 16 7
Una representación grÔfica de los datos, puede obtenerse mediante:
colores <- NULL
colores[challenger$defecto==0] <- "green"
colores[challenger$defecto==1] <- "red"
plot(challenger$temp, challenger$defecto, pch =21, bg= colores, xlab = "Temperatura",ylab = "Probabilidad de defectos")
legend("bottomleft", c("No defecto", "Si defecto"),pch =21, col=c("green","red") )En la siguiente grÔfica podemos observar que la temperatura en la que la nave debió despegar es de 75° en adelante por que el margen de error es minimo con relacion a los errores que ocurren por debajo de ese rango.
Parece razonable, a la vista de los datos, pensar que la temperatura puede influir en la probabilidad de que los propulsores tengan defectos. En esta prĆ”ctica, vamos a ajustar un modelo de regresión logĆstica para estudiar la posible relación. Para ajustar el modelo se usa el comando glm (para modelos lineales generalizados) indicando que la respuesta es binomial mediante el argumento family:
##
## Call:
## glm(formula = defecto ~ temp, family = binomial, data = challenger)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.0611 -0.7613 -0.3783 0.4524 2.2175
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 15.0429 7.3786 2.039 0.0415 *
## temp -0.2322 0.1082 -2.145 0.0320 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 28.267 on 22 degrees of freedom
## Residual deviance: 20.315 on 21 degrees of freedom
## AIC: 24.315
##
## Number of Fisher Scoring iterations: 5
- El modelo de regresión logĆstica, la raĆz de las desviaciones representa el papel de los residuos:
\[D_i = \mp \sqrt{-2 [Y_i\log \hat p_i + (1-Y_i)\log(1-\hat p_i)]}, \]
Explosion del challenger
Lamentablemente la nave exploto por el descuido de algunos ingenieros al omitir la dilatación de los materiales al estar en diferentes temperaturas. Ahora a nosotros nos toca no repetir errores y pensar las cosas dos veces para evitar que catastrofes como estas sigan sucediendo.