Modelo de Regresión Logística

A continuación se presenta un resumen teórico sobre el modelo de regresión logística, los supuestos de este comparados con los del modelo de regresión lineal y ejemplos donde se emplea.

El modelo de regresión logística es un modelo de regresión generalizado, este tipo de análisis de regresión se utiliza para predecir el resultado de una variable categórica (que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras (categóricas y/o cuantitativas). La regresión logística a diferencia de la lineal no quiere predecir un valor numérico de la variable dependiente, si no $ p $ la probabilidad de que ocurra el suceso definido por “Y=1” lo cual llamaremos éxito, y la no ocurrencia (“Y=0”) será el fracaso.

Suponiendo que la variable dependiente es dicotómica, el modelo más sencillo es:

$ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k + \epsilon $

Como $ Y $ solo toma el valor 1 o 0 para cada individuo entonces,

$ P(Y=1) = P[\epsilon = 1 - (\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)]= \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k $

$ P(Y=1) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k $

entonces queremos estimar:

$ p = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k $

Si Y=1, $ \epsilon=1-p $ y tiene probabilidad $ p $ Si Y=0, $ \epsilon=-p $ y tiene probabilidad $ 1-p $

Como estamos hablando de probabilidad queremos que el modelo tome valores en el intervalo [0,1]. Para restringir los valores a dicho intervalo se usa la función de distribución acumulada de la distribución logística dada por:

$ p = \frac {\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}{1+\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)} $

Aplicando una transformación a $ p $ se obtienen los log odds:

$ \log\left(\frac{p}{1-p}\right) = \log\left(\frac{\frac {\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}{1+\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}}{1-\frac {\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}{1+\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}}\right) = \log\left(\frac{\frac {\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}{1+\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}}{\frac {1}{1+\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}}\right) = \log\left(\frac {\exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k)}{1}\right) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_kX_k $

Esta transformación tiene propiedades semejantes al Modelo Lineal, es lineal en sus parámetros, puede ser continua y puede tomar cualquier valor.

La estimación de parámetros para el modelo de regresión logística es por el método de máxima verosimilitud, ya que la estimación por mínimos cuadrados no es capaz de producir estimadores insesgados de mínima varianza para los parámetros.

El método consiste en, como su nombre lo dice, maximizar la función de verosimilitud y encontrar los $ k+1 $ parámetros $ \beta $ para los cuales la probabilidad de los datos observados en la más alta.

Se define la variable: $ Z_i= 1 "éxito" $

$ Z_i= 0 "fracaso" $

Tenemos: N - número de poblaciones, donde población se define como la combinación de valores de las variables independientes.

n - vector con $ n_i $'s representando el número de observaciones en la población con i $ \in $ (1,2,….N).

Donde,

$ \sum_{i=1}^{N} n_i = M $ (número total de observaciones)

Y - vector de tamaño N donde $ Y_i $ es una variable aleatoria representando el número de éxitos de Z para la población i

y - vector con $ y_i $ representando el número observado de éxitos de Z para cada población.

$ \pi $ vector columna de tamaño N

$ \pi_i = P (Z_i| i) $ será la probabilidad de exito para cualquier observación en la población i

El componente lineal del modelo contiene la matriz y el vector de parámetros a estimar.

La matriz de variables independientes contiene N filas y k+1 columnas donde k es el número de variables independientes.

Para cada renglón el primer elemento $ x_{i0} = 1 $.

El vector de parámetros $ \beta $ mide k+1 hay un parametro correspondiente a cada k columna de las variables independientes $ x $ más uno para el intercepto $ \beta_0 $.

Ecuación 1

$ \log(\frac{\pi_i}{1-\pi_i}) = \sum_{k=1}^{K} X_{ik}\beta_{k} i=1,2,3,......,N $

La función de máxima verosimilitud se deriva de la distribución de probabilidad de la variable dependiente, cada $ y_i $ representa una binomial, por lo tanto la densidad conjunta de Y es:

$ f(y|\beta)=\prod_{i=1}^{N} \frac{n_i!}{y_i!(n_i!-y_i!)} \pi_i^{y_i}(1-\pi_i)^{n_i-y_i} $

Como la probabilidad de éxito para cualquiera de los $ n_i $ es $ \pi_i $ la probabilidad de éxito de $ y_i $ = $ \pi_i^{y_i} $

Debemos notar que $ \beta $ está relacionado por $ \pi $ por a primera ecuación.

La función de verosimilitud tiene la misma forma de la función de densidad excepto por que los parámetros de la función son revertidos, la verosimilitud expresa los valores de $ \beta $ en términos de los valores de y, entonces:

$ L(\beta|y)= \prod_{i=1}^{N} \frac{n_i!}{y_i!(n_i!-y_i!)} \pi_i^{y_i}(1-\pi_i)^{n_i-y_i} $

La estimación máximo verosímil son los valores de $ \beta $ que maximizan la función de verosimilitud, intentar derivar la ecuación anterior respecto a $ \beta $ no es sencillo sin embargo se simplifica considerablemente, primero debemos notar que $ \binom{n_i}{y_i} $ no contienen $ \pi_i $ por lo tanto son constantes que podemos ignorar, después reordenando la ecuación a maximizar una vez aplicada la ley de los exponentes en la división la rescribimos así:

$ \prod_{i=1}^{N} \frac{\pi_i}{1-\pi_i}^{y_i} (1-\pi_i)^{n_i} $

De la ecuación 1 tomamos la exponencial de ambos lados de la ecuación y tenemos:

$ \frac{\pi_i}{1-\pi_i} = \exp(\sum_{k=1}^{K} X_{ik}\beta_{k}) $

Despejando $ \pi_i $

$ \pi_i = \frac{\exp(\sum_{k=1}^{K} x_{ik}\beta_{k})}{1+\exp(\sum_{k=1}^{K} x_{ik}\beta_{k})} $

Sustituyendo tenemos

$ \prod_{i=1}^{N} (\exp(\sum_{k=1}^{K} x_{ik}\beta_{k})))^{y_i} (1+\exp(\sum_{k=1}^{K} x_{ik}\beta_{k}))^{-n_i} $

Tomamos el logaritmo, ya que como función monótona cualquier máximo de la función de log verosimilitud es máximo de la de verosimilitud y viceversa.

$ \textit{l}(\beta) = \sum_{i=1}^{N} y_i (\sum_{k=0}^{K} x_{ik}\beta_{k}) - n_i \log (1+ \exp(\sum_{k=0}^{K} x_{ik}\beta_{k})) $

Derivamos respecto a $ \beta $ e igualamos a 0.

Para la parte 1

$ \frac{\partial}{\partial\beta_k} \sum_{k=0}^{K} x_{ik}\beta_{k} = x_{ik} $ ya que todo los demás es constante.

Al derivar la segunda parte debemos tomar en cuenta:

$ \frac{d}{dx} \log y = \frac{1}{y} \frac{dy}{dx} $

entonces derivando respecto a cada $ \beta_k $

$ \frac{\partial\textit{l}(\beta)}{\partial\beta_k} = \sum_{i=1}^{N} y_ix_{ik} - n_i \frac{1}{1+\exp(\sum_{k=0}^{K} x_{ik}\beta_{k})} \frac{\partial}{\partial\beta_k} (1+\exp(\sum_{k=0}^{k} X_{ik}\beta_{ik}) $

$ =\sum_{i=1}^{N} y_ix_{ik} - n_i \frac{1}{1+\exp(\sum_{k=0}^{K} x_{ik}\beta_{k})}exp(\sum_{k=0}^{K} x_{ik}\beta_{k})\frac{\partial}{\partial\beta_k}\sum_{k=0}^{K} x_{ik}\beta_{k} $

$ =\sum_{i=1}^{N} y_ix_{ik} - n_i \frac{1}{1+\exp(\sum_{k=0}^{K} x_{ik}\beta_{k})}exp(\sum_{k=0}^{K} x_{ik}\beta_{k})x_{ik} $

$ =\sum_{i=1}^{N} y_ix_{ik} - n_i\pi_ix_{ik} $ **

Los estimadores máximo verosímiles para $ \beta $ se obtienen igualando a cero cada una de las k+1 ecuaciones **. Cada solución específica un punto crítico (min o máx.)

$ \frac{\partial^{2}\textit{l}\beta}{\partial\beta_k\partial\beta_{k'}} = \frac{\partial}{\partial\beta_{k'}} \sum_{i=1}^{N} y_ix_{ik} - n_ix_{ik}\pi_i $

$ \frac{\partial}{\partial\beta_{k'}} \sum_{i=1}^{N} - n_ix_{ik}\pi_i $

$ =-\sum_{i=1}^{N} n_ix_{ik} \frac{\partial}{\partial\beta_{k'}} \frac{\exp(\sum_{k=0}^{K}x_{ik}\beta_k)}{1+\exp(\sum_{k=0}^{K}x_{ik}\beta_k)} $

Sea $ u(x)=\sum_{k=0}^{K}x_{ik}\beta_k $

Se deben recordar dos reglas de derivación: $ \frac{d}{dx}\exp(u(x)) =\exp(u(x))\frac{d}{dx}u(x) $ y

$ \left(\frac{f}{g}\right)'(a) = \frac{g(a)f'(a)-f(a)g'(a)}{[g(a)]^2} $

Aplicando esas dos reglas:

$ \frac{d}{dx}\frac{\exp(u(x))}{1+\exp(u(x))} =\frac{1+\exp(u(x))\exp(u(x))\frac{d}{dx}u(x)-\exp(u(x))\exp(u(x))\frac{d}{dx}u(x)}{(1+\exp(u(x)))^2} $

$ =\frac{\exp(u(x))\frac{d}{dx}u(x)}{(1+\exp(u(x)))^2} $

$=\frac{\exp(u(x))}{1+\exp(u(x))}\frac{1}{1+\exp(u(x))}\frac{d}{dx}u(x)

Se rescribe entonces, $ =-\sum_{i=1}^{N} n_ix_{ik}\pi_i(1-\pi_i)x_{ik'} $

Supuestos de los modelos de Regresión

Modelo de Regresión Lineal

El modelo de regresión lineal establece supuestos que los datos deben cumplir, estos se enuncian a continuación:

Linealidad.- Relación lineal entre las variables explicativas y la variable dependiente.
Homoscedasticidad.-Además se pide que los residuos sean independientes entre si y que tengan la misma varianza.

$ Var (\epsilon_i) = \sigma^2 \ \forall\ i $
Normalidad.- Los residuos $ \epsilon_i $ tengan distribución Normal.

$ \epsilon_i \sim N(0,\sigma^2) \ \forall \ i $

Modelo de Regresión Logística

La regresión logística no asume los supuestos de la regresión lineal, particularmente el de normalidad, Linealidad y homoscedasticidad. Puede manejar cualquier tipo de relación no necesariamente lineal, ya que aplica una transformación logarítmica no lineal.

Las variables explicativas pueden ser continuas o discretas (categóricas, ordinales) y no necesitan ser independientes pero de serlo, la regresión da una solución más estable.

La variable dependiente puede adoptar un número limitado de categorías, cuando es de respuesta binaria, se debe cuidar la manera en la que se define “el resultado deseado”, pues se asume que $ P(Y=1) $ indica la ocurrencia del evento.

Se deben incluir en el modelo todas las variables significativas para obtener un modelo que ajuste bien los datos.

Se pide poca o nula multicolinealidad, los errores deben ser independientes, por lo tanto las observaciones deben ser independientes entre ellas. En caso de existir multicolinealidad, centrar las variables en su media podría resolver el problema.

Existe la posibilidad de incluir la interacción entre variables categóricas en el análisis y por tanto en el modelo.

Como se menciono antes el modelo de regresión logística no pide linealidad entre su variable dependiente y sus variables explicativas sin embargo si requiere que la relación entre la variable dependiente y los log odds sea lineal.

Este modelo requiere muestras más grandes respecto a las que se usan para el modelo de regresión lineal, ya que la estimación por máxima verosimilitud es más débil que la estimación por mínimos cuadrados.

Ejemplo # 1

Un investigador está interesado en ¿Como variables como la calificación en el GRE (Graduate Record Exam), el promedio GPA (grade point average) y el prestigio de la institución afectan la admisión en posgrados? La variable dependiente en este caso es de respuesta binaria (aceptado o no aceptado) y por tanto se usará una regresión logística.

library(aod)

## Warning: package 'aod' was built under R version 2.15.3

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 2.15.3

datos <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
# Observamos los primeros renglones de información
head(datos)

##   admit gre  gpa rank
## 1     0 380 3.61    3
## 2     1 660 3.67    3
## 3     1 800 4.00    1
## 4     1 640 3.19    4
## 5     0 520 2.93    4
## 6     1 760 3.00    2

Tenemos entonces tres variables predictivas, tomamos las variables GRE y GPA como continuas y rank como variable ordinal con valores entre 1 y 4, donde 1 representa un prestigio alto y 4 es el menor nivel de prestigio.

La variable dependiente será Admit

$ Y=0 $ , significa no aceptado
$ Y=1 $ , significa aceptado

Antes de empezar se hace un análisis de las cuatro variables.

summary(datos)

##      admit            gre           gpa            rank     
##  Min.   :0.000   Min.   :220   Min.   :2.26   Min.   :1.00  
##  1st Qu.:0.000   1st Qu.:520   1st Qu.:3.13   1st Qu.:2.00  
##  Median :0.000   Median :580   Median :3.40   Median :2.00  
##  Mean   :0.318   Mean   :588   Mean   :3.39   Mean   :2.48  
##  3rd Qu.:1.000   3rd Qu.:660   3rd Qu.:3.67   3rd Qu.:3.00  
##  Max.   :1.000   Max.   :800   Max.   :4.00   Max.   :4.00

y se obtiene la desviación estándar de cada una.

sapply(datos, sd)

##    admit      gre      gpa     rank 
##   0.4661 115.5165   0.3806   0.9445

Para las variables categóricas revisamos que no haya ceros

xtabs(~admit + rank, data = datos)

##      rank
## admit  1  2  3  4
##     0 28 97 93 55
##     1 33 54 28 12

El siguiente código estima el modelo de regresión usando la función glm (generalized lineal model). Primero se deben convertir las variables categóricas a rangos.

datos$rank <- factor(datos$rank)
mylogit <- glm(admit ~ gre + gpa + rank, data = datos, family = "binomial")

para ver los resultados del modelo:

summary(mylogit)

## 
## Call:
## glm(formula = admit ~ gre + gpa + rank, family = "binomial", 
##     data = datos)
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -1.627  -0.866  -0.639   1.149   2.079  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -3.98998    1.13995   -3.50  0.00047 ***
## gre          0.00226    0.00109    2.07  0.03847 *  
## gpa          0.80404    0.33182    2.42  0.01539 *  
## rank2       -0.67544    0.31649   -2.13  0.03283 *  
## rank3       -1.34020    0.34531   -3.88  0.00010 ***
## rank4       -1.55146    0.41783   -3.71  0.00020 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 499.98  on 399  degrees of freedom
## Residual deviance: 458.52  on 394  degrees of freedom
## AIC: 470.5
## 
## Number of Fisher Scoring iterations: 4

anova(mylogit, test = "Chisq")

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: admit
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)    
## NULL                   399        500             
## gre   1    13.92       398        486  0.00019 ***
## gpa   1     5.71       397        480  0.01685 *  
## rank  3    21.83       394        459  7.1e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Aquí podemos ver los coeficientes, sus errores estandar, la z-estadística de Wald y sus p-valores asociados.

Observando los resultados concluimos que:

-Para cada cambio de una unidad de gre los log odds de admisión contra los de no admisión incrementan $ .002 $.

-Para cada cambio de una unidad de gpa los log odds de admisión incrementan $ 0.804 $.

-Y por ultimo para rank se debe hacer una interpretación diferete. Por ejemplo, haber asistido a una institución con rango de prestigio 2 en vez de una con prestigio 1 cambia los log odds en $ -0.675 $ y así respectivamente para 3 y 4.

Con la función confint() se construyen los intervalos de confianza de los coeficientes estimados. Para los modelos logísticos, los intervalos de confianza están basados en la función de log-verosimilitud. Así mismo usando el método default se obtienen intervalos de confianza basados únicamente en los errores estándar.

confint(mylogit)

## Waiting for profiling to be done...

##                  2.5 %    97.5 %
## (Intercept) -6.2716202 -1.792547
## gre          0.0001376  0.004436
## gpa          0.1602959  1.464143
## rank2       -1.3008888 -0.056746
## rank3       -2.0276713 -0.670372
## rank4       -2.4000265 -0.753543

confint.default(mylogit)

##                  2.5 %    97.5 %
## (Intercept) -6.2242419 -1.755716
## gre          0.0001202  0.004409
## gpa          0.1536837  1.454391
## rank2       -1.2957513 -0.055135
## rank3       -2.0169921 -0.663416
## rank4       -2.3703986 -0.732529

Se puede revisar el efecto general de la variable rank usando la función wald.test(). El orden que tienen los coeficientes en la tabla resumen del modelo es el mismo que tienen en el modelo, es importante mencionarlo porque la función wald.test() hace referencia a los coeficientes en orden, le damos a la función los coeficientes, la matriz de varianzas y covarianzas de los errores y por último le indicamos que términos del modelo corresponden a los niveles de rank

wald.test(b = coef(mylogit), Sigma = vcov(mylogit), Terms = 4:6)

## Wald test:
## ----------
## 
## Chi-squared test:
## X2 = 20.9, df = 3, P(> X2) = 0.00011

Los resultados de la prueba nos indican que el efecto de la variable rank es significativo para el modelo.

Podemos exponenciar los coeficientes y sus intervalos de confianza e interpretarlos como odds ratios

## odds ratios e Intervalos de Confianza al 95%
exp(cbind(OR = coef(mylogit), confint(mylogit)))

## Waiting for profiling to be done...

##                 OR    2.5 % 97.5 %
## (Intercept) 0.0185 0.001889 0.1665
## gre         1.0023 1.000138 1.0044
## gpa         2.2345 1.173858 4.3238
## rank2       0.5089 0.272290 0.9448
## rank3       0.2618 0.131642 0.5115
## rank4       0.2119 0.090716 0.4707

Entonces podemos decir que al aumentar en una unidad en gpa los odds de ser admitido (contra los de no ser admitido) incrementa por un factor de 2.23.

Ejemplo # 2

En 2005 dos estudiantes (Rachel Mullet and Lauren Garafola) hicieron una investigación en la que estudiaron un fenómeno llamado “Inattentional Blindness”, que se refiere a situaciones en las cuales las personas no ven cosas obvias que se presentan frente a sus ojos.

Es estudio consistía en observar un video en el que se jugaba basquetbol y contar cuantas veces los jugadores de playera blanca pasaban el balón. Durante el video una persona disfrazada de chango caminaba en la toma de forma muy obvia, al final se les pregunto si habían visto el gorila, la mayoría respondió que no.

La hipótesis de las estudiantes era que la “Inattentional Blindness” se puede predecir de acuerdo al desempeño de las personas en un test de palabras con colores conocido como el “Stroop Color Word test”. Este estudio produce 3 resultados “W” (solo palabra, representa un score derivado de leer una lista de palabras coloreadas), “C” (solo color, este score se obtiene de decir el color del cual están pintadas las palabras), y “CW” (Este score se obtiene de decir el color en el que una palabra está impresa cuando la palabra y el color no coinciden). Los datos se presentan a continuación:

file = "http://ww2.coastal.edu/kingw/statistics/R-tutorials/text/gorilla.csv"
gorila <- read.csv(file)
head(gorila)

##   seen   W  C CW
## 1    0 126 86 64
## 2    0 118 76 54
## 3    0  61 66 44
## 4    0  69 48 32
## 5    0  57 59 42
## 6    0  78 64 53

En este ejemplo la variable dependiente será Seen

$ Y=0 $ , significa que no se observo el gorila
$ Y=1 $ , significa que se observo el gorila

Se observa el análisis general de los datos y la desviación estándar de cada variable.

summary(gorila)

##       seen             W               C               CW      
##  Min.   :0.000   Min.   : 57.0   Min.   : 46.0   Min.   :28.0  
##  1st Qu.:0.000   1st Qu.: 89.0   1st Qu.: 65.0   1st Qu.:42.0  
##  Median :0.000   Median :100.0   Median : 73.0   Median :48.0  
##  Mean   :0.388   Mean   : 99.8   Mean   : 74.4   Mean   :47.1  
##  3rd Qu.:1.000   3rd Qu.:113.0   3rd Qu.: 84.0   3rd Qu.:53.0  
##  Max.   :1.000   Max.   :156.0   Max.   :112.0   Max.   :67.0

sapply(gorila, sd)

##    seen       W       C      CW 
##  0.4923 18.8908 14.5026  8.9233

Se estima el modelo de regresión usando la función glm. Para este ejemplo se decidió incluir las interacciones entre las variables.

mylogit <- glm(seen ~ W * C * CW, , data = gorila, family = "binomial")

Para ver los resultados del modelo:

summary(mylogit)

## 
## Call:
## glm(formula = seen ~ W * C * CW, family = "binomial", data = gorila)
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -1.807  -0.990  -0.574   1.237   1.736  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -1.32e+02   8.04e+01   -1.65    0.100 .
## W            1.32e+00   7.51e-01    1.75    0.080 .
## C            2.13e+00   1.21e+00    1.75    0.080 .
## CW           2.21e+00   1.66e+00    1.33    0.184  
## W:C         -2.13e-02   1.14e-02   -1.87    0.062 .
## W:CW        -2.20e-02   1.53e-02   -1.44    0.150  
## C:CW        -3.58e-02   2.41e-02   -1.48    0.138  
## W:C:CW       3.58e-04   2.23e-04    1.61    0.108  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 65.438  on 48  degrees of freedom
## Residual deviance: 57.281  on 41  degrees of freedom
## AIC: 73.28
## 
## Number of Fisher Scoring iterations: 5

anova(mylogit, test = "Chisq")

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: seen
## 
## Terms added sequentially (first to last)
## 
## 
##        Df Deviance Resid. Df Resid. Dev Pr(>Chi)  
## NULL                      48       65.4           
## W       1     0.08        47       65.4    0.784  
## C       1     0.31        46       65.1    0.578  
## CW      1     0.11        45       64.9    0.745  
## W:C     1     2.36        44       62.6    0.124  
## W:CW    1     0.57        43       62.0    0.451  
## C:CW    1     1.43        42       60.6    0.232  
## W:C:CW  1     3.31        41       57.3    0.069 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se observa que por cada cambio de una unidad del score W los log odds de observación contra los de no observación incrementan $ 1.32 $.

Y para cada cambio de una unidad de C los log odds incrementan $ 2.13 $.Por ultimo para CW incrementan en $ 2.21 $ por cada unidad extra en el score.

Se construyen los intervalos de confianza

confint(mylogit)

## Waiting for profiling to be done...

##                  2.5 %     97.5 %
## (Intercept) -3.210e+02 -0.3165267
## W            7.198e-02  3.0705396
## C            1.240e-01  4.9780837
## CW          -6.644e-01  5.9861860
## W:C         -4.798e-02 -0.0023907
## W:CW        -5.669e-02  0.0045349
## C:CW        -9.111e-02  0.0057619
## W:C:CW      -2.495e-05  0.0008675

confint.default(mylogit)

##                  2.5 %    97.5 %
## (Intercept) -2.898e+02 2.524e+01
## W           -1.567e-01 2.789e+00
## C           -2.518e-01 4.511e+00
## CW          -1.046e+00 5.458e+00
## W:C         -4.363e-02 1.074e-03
## W:CW        -5.200e-02 7.975e-03
## C:CW        -8.311e-02 1.147e-02
## W:C:CW      -7.825e-05 7.941e-04

Se presentan los odd ratios y los intervalos de confianza.

exp(cbind(OR = coef(mylogit), confint(mylogit)))

## Waiting for profiling to be done...

##                    OR      2.5 %   97.5 %
## (Intercept) 3.504e-58 3.844e-140   0.7287
## W           3.729e+00  1.075e+00  21.5535
## C           8.410e+00  1.132e+00 145.1959
## CW          9.079e+00  5.146e-01 397.8942
## W:C         9.789e-01  9.532e-01   0.9976
## W:CW        9.782e-01  9.449e-01   1.0045
## C:CW        9.648e-01  9.129e-01   1.0058
## W:C:CW      1.000e+00  1.000e+00   1.0009