U1A11

HectorZapata

6/10/2020

Regresión logística

“Regresion Logistica”

En estadística, la regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento ocurriendo como función de otros factores. El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un único ensayo se modelan, como una función de variables explicativas, utilizando una función logística. “transbordador especial”

Caso de estudio: fallo del transbordador challanger en 1986

En 1986, el transbordador espacial Challenger tuvo un accidente catastrófico debido a un incendio en una de las piezas de sus propulsores. Era la vez 25 en que se lanzaba un transbordador espacial. En todas las ocasiones anteriores se habían inspeccionado los propulsores de las naves, y en algunas de ellas se habían encontrando defectos. El fichero challenger contiene 23 observaciones de las siguientes variables: defecto, que toma los valores 1 y 0 en función de si se encontraron defectos o no en los propulsores; y temp, la temperatura (en grados Fahrenheit) en el momento del lanzamiento.

Primero leemos los datos y contamos las frecuencias de casos sin y con defectos:

challenger <- read.table("http://verso.mat.uam.es/~joser.berrendero/datos/challenger.txt", header=TRUE)
table(challenger$defecto)
## 
##  0  1 
## 16  7

Una representación gráfica de los datos, puede obtenerse mediante:

colores <- NULL
colores[challenger$defecto==0] <- "green"
colores[challenger$defecto==1] <- "red"
plot(challenger$temp, challenger$defecto, pch =21, bg= colores, xlab = "Temperatura",ylab = "Probabilidad de defectos")

legend("bottomleft", c("No defecto", "Si defecto"),pch =21, col=c("green","red") )

________________________________________________________________________________________________________________________________________________________________________ “Pregunta”

Podemos observar que no es nada bueno, hay mucho margen de error y eso no pinta nada bien, en este caso se tuvo que asegurar el clima ya que los metales se contraen con la temperatura y ese fue el error por el cual hubo explosión, también podemos observar que el rango de seguridad es de 75 grados en adelante.

Y la pregunta es….. ¿Que paso?

“Causa” Desafortunadamente la nave exploto, y asi es como surge una reflexión un poco sentimental y filosofica de las cosas, como es posible que un solo dato acabara de esta manera, como es posible que algo tan insignificante y básico para el equipo de trabajo se les allá ido de las manos.

reg <- glm(defecto ~ temp, data = challenger, family=binomial)
summary(reg)
## 
## Call:
## glm(formula = defecto ~ temp, family = binomial, data = challenger)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.0611  -0.7613  -0.3783   0.4524   2.2175  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  15.0429     7.3786   2.039   0.0415 *
## temp         -0.2322     0.1082  -2.145   0.0320 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 28.267  on 22  degrees of freedom
## Residual deviance: 20.315  on 21  degrees of freedom
## AIC: 24.315
## 
## Number of Fisher Scoring iterations: 5
  • El modelo de regresión logística, la raíz de las desviaciones representa el papel de los residuos:

\[D_i = \mp \sqrt{-2 [Y_i\log \hat p_i + (1-Y_i)\log(1-\hat p_i)]}, \]