Regresión Logistica

En estadística, la regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento ocurriendo como función de otros factores. El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un único ensayo se modelan, como una función de variables explicativas, utilizando una función logística.

Caso de estudio: fallo del transbordador challanger en 1986

La tripulación

El despegue

Accidente

challenger <- read.table("http://verso.mat.uam.es/~joser.berrendero/datos/challenger.txt", header= TRUE)
table(challenger$defecto)
## 
##  0  1 
## 16  7

Una representación gráfica de los datos, puede obtenerser mediante:

colores <- NULL
colores[challenger$defecto==0] <- "pink"
colores[challenger$defecto==1] <- "red"
plot(challenger$temp, challenger$defecto, pch=21, bg= colores, xlab="Temperatura", ylab="Probabilidad de defecto")

legend("bottomleft", c("No defecto", "Sí defecto"), pch= 21, col=c("pink", "red"))

reg <- glm(defecto~temp, data= challenger, family=binomial)
summary (reg)
## 
## Call:
## glm(formula = defecto ~ temp, family = binomial, data = challenger)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.0611  -0.7613  -0.3783   0.4524   2.2175  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  15.0429     7.3786   2.039   0.0415 *
## temp         -0.2322     0.1082  -2.145   0.0320 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 28.267  on 22  degrees of freedom
## Residual deviance: 20.315  on 21  degrees of freedom
## AIC: 24.315
## 
## Number of Fisher Scoring iterations: 5
datos <- data.frame(temp=seq(50,85, 0.11))
probabilidades <- predict(reg, datos, type="response")
plot(challenger$temp, challenger$defecto, pch=21, bg=colores, xlab="Temperatura", ylab="Probabilidad de defectos")
legend("bottomleft", c("No defecto", "Sí defecto"), pch= 21, col=c("pink", "red"))
lines(datos$temp, probabilidades, col= "black", lwd=2)

* El modelo de regresión logística, la raíz de las desviaciones representa el papel de los residuos:

\[D_i = \mp \sqrt{-2 [Y_i\log \hat p_i + (1-Y_i)\log(1-\hat p_i)]} \]

Cuestiones

  1. ¿Se puede afirmar a nivel α=0.05 que la temperatura influye en la probabilidad de que los propulsores tengan defectos? ¿Y a nivel α=0.01? Usa el test de Wald.

¿Qués es el test de Wald? El Test de Wald es un contraste de hipótesis donde se trata de ver la coherencia de afirmar un valor concreto de un parámetro de un modelo probabilístico una vez tenemos ya un modelo previamente seleccionado y ajustado. Recuperado de: https://jllopisperez.com/2013/04/30/test-de-wald/

library(aod)

# Para α= 0.05
cinco <- (-0.2322-0.01)/0.1082
cinco
## [1] -2.238447
# para α=0.01
uno <- (-0.2322-0.05)/0.1082
uno
## [1] -2.608133
  1. Interpreta el valor del coeficiente estimado para la variable temperatura: β^1=−0.2322.

Significa la desviación estandar, lo que apreciamos es que la desviación no es tan alta, por lo que quiere decir que los riegos de que la temperatura afecte es baja.

  1. ¿Para qué valores de la temperatura la probabilidad estimada de que se produzcan defectos es menor que 0.1?

Entre los 67 aprox. y 80 grados, guíandonos por la tabla.

  1. ¿Para qué valores de la temperatura se predice que se van a producir defectos?

Entro los 50 y 75 aproximadamente, en base a la tabla se han contestado estás preguntas.

Conclusión

Es un lamentable accidente el que hemos analizado en el presente documento, pero ha echo un empujón a los humanos a analizar profundamente este tipo de operaciones para evitar un hecho catastrófico como este. Realizar las operaciones nos llevan a predecir posibles situaciones que sin duda evitarlas sería lo mejor. La útilidad de la regresión lógistica es muy importante dentro de trabajos que podrían llevar mucho riego hacía los humanos o seres vivos.