Fortalecimento estadística

Agenda: Análisis de Regresión Logística

Introducción a la Regresión Logística

Estadísticos

El grado de relación existente entre dos variables categóricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencia. Incluso aunque la tabla recoja las frecuencias porcentuales en lugar de las absolutas, la simple observación de las frecuencias no puede llevarnos a una conclusión definitiva (aunque sí pueda darnos alguna pista). Para determinar si dos variables se encuentran relacionadas debemos utilizar alguna medida de asociación, preferiblemente acompañada de su correspondiente prueba de significación. Para obtener medidas de asociación:

Chi cuadrado

contraste o test que me mida las distancias entre lo que uno observa y lo que esperaría si se cumple la hipótesis nula de independencia

\[ \chi^{2}=\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{\left(n_{i j}-\frac{n_{i \cdot} n_{\cdot j}}{n_{. .}}\right)^{2}}{\frac{n_{i \cdot} n_{\cdot j}}{n_{..}}} \]

\[\chi^2 = \sum_{i,j} \frac{(\text{observado}_{ij} - \text{esperado}_{ij})^2}{\text{esperado}_{ij}}\]

La prueba Chi-cuadrado es un método estadístico utilizado para determinar si existe una asociación significativa entre dos variables categóricas en una muestra. Es una prueba de independencia que compara las frecuencias observadas en una tabla de contingencia con las frecuencias esperadas bajo la hipótesis de que las dos variables son independientes.

\(H0:\) No hay asociación significativa entre las variables.

\(H1:\) Hay una asociación significativa entre las variables.

Para que las probabilidades de la distribución \(\chi^2\) constituyan una buena aproximación a la distribución del estadístico \(\chi^\) conviene que se cumplan algunas condiciones; entre ellas, que las frecuencias esperadas no sean demasiado pequeñas. Suele asumirse que, si existen frecuencias esperadas menores que 5, éstas no deben superar el 20 por ciento del total de frecuencias esperadas.

La salida del SPSS muestra un mensaje indicando el valor de la frecuencia esperada más pequeña; si existe alguna casilla con frecuencia esperada menor que 5, la salida también muestra el porcentaje que éstas representan sobre el total de casillas de la tabla. En el caso de que ese porcentaje supere el 20 por ciento, el estadístico de Pearson debe ser interpretado con cautela (usar Fisher)

Además del estadístico chi-cuadrado, la tabla muestra otro estadístico denominado razón de verosimilitud (Fisher, 1924; Neyman y Pearson, 1928), que se obtiene mediante:

\[\text{Razon de verosimilitud}= 2 \sum\sum n_{ij}\log\bigg(\frac{m_{ij}}{m_{ij}}\bigg)\]

Se trata de un estadístico asintóticamente equivalente a \(\chi^2\) (se distribuye e interpreta igual que \(\chi^2\) ) y es muy utilizado para estudiar la relación entre variables categóricas, particularmente en el contexto de los modelos log-lineales

La corrección por continuidad de Yates (1934)

consiste en restar 0,5 puntos al valor absoluto de las diferencias nij – mij del estadístico X 2 (antes de elevarlas al cuadrado). Algunos autores sugieren que, con muestras pequeñas, esta corrección permite que el estadístico \(\chi^2\) se ajuste mejor a las probabilidades de la distribución \(χ2\) , pero no existe un consenso generalizado sobre la utilización de esta corrección.

El estadístico exacto de Fisher (1935)

ofrece, basándose en la distribución hipergeométrica y en la hipótesis de independencia, la probabilidad exacta de obtener las frecuencias de hecho obtenidas o cualquier otra combinación más alejada de la hipótesis de independencia.

Datos nominales

El estadístico chi-cuadrado de Pearson permite contrastar la hipótesis de independencia en una tabla de contingencia, pero no nos dice nada sobre la fuerza de la asociación entre las variables estudiadas. Esto es debido a que su valor depende, no sólo del grado en que los datos se ajustan al modelo de independencia, sino del número de casos de que consta la muestra. Con tamaños muestrales muy grandes, diferencias relativamente pequeñas entre las frecuencias observadas y las esperadas pueden dar lugar a valores chi-cuadrado demasiado altos. Por esta razón, para estudiar el grado de relación existente entre dos variables se utilizan medidas de asociación que intentan cuantificar ese grado de relación eliminando el efecto del tamaño muestral.

Medidas basadas en chi-cuadrado.

Son medidas que intentan corregir el valor del estadístico \(\chi^2\) para hacerle tomar un valor entre 0 y 1, y para minimizar el efecto del tamaño de la muestra sobre la cuantificación del grado de asociación (Pearson, 1913; Cramer, 1946).

  • Coeficiente de contingencia:

\[C=\sqrt{\frac{\chi^2}{\chi^2+n}}\] Toma valores entre 0 y 1, pero difícilmente llega a 1. Su valor máximo depende del número de filas y de columnas . Un coeficiente de 0 indica independencia, mientras que un coeficiente que alcanza su valor máximo indica asociación perfecta.

  • El coeficiente phi

se obtiene de la siguiente manera:

\[\phi=\sqrt{\frac{\chi^2}{n}}\]

En tablas de contingencia 2x2, phi adopta valores entre 0 y 1, y su valor es idéntico al del coeficiente de correlación de Pearson.

  • V de Cramér

La V de Cramér es una medida del tamaño del efecto para la prueba chi-cuadrado de la independencia. En él se mide la forma en que están asociados dos campos categóricos.

V de Cramer

La V de Cramer es una corrección que se puede aplicar al coeficiente Ji Cuadrado, lo cual permite obtener un índice con valor máximo (que indica la mayor asociación entre variables) igual a 1 (el valor mínimo es 0, que indica NO asociación).

La fórmula es \[\sqrt{\frac{\chi^2}{N\cdot m}}\]

donde

\(N:\) el número total de observaciones en la tabla.

\(m:\) min(f-1,c-1). Menor valor de “filas - 1” y “columnas - 1”.

Tabla 1. Interpretación del tamaño del efecto

Tamaño de efecto (ES) Interpretación
ES ≤ 0.2 El resultado es débil. Aunque el resultado es estadísticamente significativo, los campos sólo están débilmente asociados.
0.2 < ES ≤ 0.6 El resultado es moderado. Los campos están asociados moderadamente.
ES > 0.6 El resultado es fuerte. Los campos están fuertemente asociados.

Contenido de las casillas

Las casillas o celdas de una tabla de contingencia pueden contener información muy variada (frecuencias observadas, porcentajes, residuos, etc.). Parte de esta información es esencial para poder interpretar apropiadamente las pautas de asociación presentes en una tabla dada. Para controlar el contenido de las casillas:

### Frecuencias.

  • Observadas. Número de casos resultantes de la clasificación.
  • Esperadas. Número de casos que deberíamos encontrar en cada casilla si las variables utilizadas fueran independientes.

Porcentajes. Podemos elegir una o más de las siguientes frecuencias porcentuales:

  • Fila. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su fila.

  • Columna. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su columna.

  • Total. Porcentaje que la frecuencia observada de una casilla representa respecto al número total de casos.

Residuos.

Los residuos son las diferencias existentes entre las frecuencias observadas y esperadas de cada casilla. Son especialmente útiles para interpretar la pautas de asociación presentes en una tabla. Podemos elegir una o más de las siguientes opciones:

  • No tipificados. Diferencia entre la frecuencia observada y la esperada.

  • Tipificados. Residuo no tipificado dividido por la raíz cuadrada de su correspondiente frecuencia esperada. Su valor esperado vale 0, pero su desviación típica es menor que 1, lo cual hace que no puedan interpretarse como puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada casilla contribuye al valor del estadístico chicuadrado. De hecho, sumando los cuadrados de los residuos tipificados obtenemos el valor del estadístico chi-cuadrado.

  • Tipificados corregidos. Residuos tipificados corregidos de Haberman (1973). Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. Se calculan dividiendo el residuo de cada casilla por su error típico, que en tablas bidimensionales se obtiene como la raíz cuadrada de: .

La gran utilidad de los residuos tipificados corregidos radica en que, puesto que se distribuyen normalmente con media cero y desviación típica uno, N(0, 1), son fácilmente interpretables: utilizando un nivel de confianza de 0,95, podemos afirmar que los residuos mayores de 1,96 delatan casillas con más casos de los que debería haber en esa casilla si las variables estudiadas fueran independientes; mientras que los residuos menores de –1,96 delatan casillas con menos casos de los que cabría esperar bajo la condición de independencia. En tablas de contingencia con variables nominales, una vez que hemos establecido que entre dos variables existe asociación significativa (mediante el estadístico chicuadrado) y que hemos cuantificado esa asociación con algún índice de asociación (coeficiente de contingencia, etc.), los residuos tipificados corregidos constituyen la mejor herramienta disponible para poder interpretar con precisión el significado de la asociación detectada.

Regresion Logística

La Regresión Logística es probablemente el tipo de análisis multivariante más empleado en Ciencias de la Vida. Las razones más poderosas son:

  1. Permite introducir como variables predictoras de la respuesta (efecto o v. dependiente) una mezcla de variables categóricas y cuantitativas.

  2. A partir de los coeficientes de regresión (\(β\)) de las variables independientes introducidas en el modelo se puede obtener directamente la OR de cada una de ellas, que corresponde al riesgo de tener el resultado o efecto evaluado para un determinado valor (x) respecto al valor disminuido en una unidad (x-1).

  • Así, si la variable independiente es una variable cuantitativa, la OR que se obtiene representa la probabilidad del evento predicho que tiene un individuo con un valor \(x\) frente a la probabilidad que tiene un individuo con valor (x-1). Por ejemplo, si X es la variable EDAD (en años cumplidos) y estamos prediciendo muerte, la OR será la probabilidad de muerte que tiene, por ejemplo, un individuo de 40 años en relación a la que tiene uno de 39 años

  • Si la variable independiente es cualitativa, la RL sólo admite categóricas dicotómicas, de manera que la OR es el riesgo de los sujetos con un valor frente al riesgo de los sujetos con el otro valor para esa variable.

  1. En la RL la variable dependiente (la que se desea modelizar, Y) es categórica, habitualmente dicotómica (RL binaria), lo que constituye una circunstancia muy frecuente y simple de representar fenómenos en la naturaleza y en ciencias de la vida: SI/NO, PRESENTE/AUSENTE, etc.

  2. Lo que se pretende mediante la RL es expresar la probabilidad de que ocurra el evento en cuestión como función de ciertas variables, que se presumen relevantes o influyentes. Si ese hecho que queremos modelizar o predecir lo representamos por \(Y\) (la variable dependiente), y las \(k\) variables explicativas (independientes y de control) se designan por \(X_1\), \(X_2\), \(X_3\),…,\(X_k\), la ecuación general (o función logística) es:

\[P(Y=1)=\frac{1}{1+\exp{(-(\alpha}+\beta_1 X_1+ \cdots \beta_n X_n ))}\]

Cómo proceder en el programa SPSS.

  • La variable dependiente (oresultado), la que deseamos modelizar o predecir, que seráuna categórica dicotómica, codificada con valores 0 y 1 (sino está así codificada elprograma le asigna ese código interno).

  • La (o las) covariable (-s), ya sean predictoras, confundentes y/o modificadoras de efecto, y que nos parecen deben ser incluidas en el modelo (porestas diferentes razones).

El método para seleccionar variables en el modelo. Hay tres opciones principales:

INTRODUCIR.

Permite al investigador tomar el mando, decidir que variables se introducen o extraen del modelo.

El método INTRODUCIR es el adecuado cuando el objetivo del estudio es el ajuste de variables de confusión y la exploración de términos de interacción. Los métodos automáticos (ADELANTE ó ATRÁS) “por pasos” son adecuados para obtener diferentes modelos, con una finalidad predictiva, que pueden dar idea al investigador de aquellos más parsimoniosos. Como se ha comentado anteriormente debe tenerse en cuenta de que estos procedimientos automáticos en SPSS no incorporan el principio jerárquico.

MÉTODO ADELANTE

es uno de los métodos automáticos (o por pasos), que deja que el programa vaya introduciendo variables en el modelo, empezando por aquellas que tienen coeficientes de regresión más grandes,estadísticamente significativos. En cada paso reevalúa los coeficientes y su significación, pudiendo eliminar del modelo aquellos que no considera estadísticamente significativos

El método Atrás:

En este caso parte de un modelo con todas las covariables que se hayan seleccionado en el cuadro de diálogo, y va eliminando del modelo aquellas sin significación estadística.

En los métodos por pasos (Adelante y Atrás) el programa SPSS da las opciones de elegir entre tres criterios para adoptar “decisiones estadísticas”:

  • Razón de verosimilitud (RV),
  • condicional y
  • Wald.

Cualquiera de ellos es correcto, aunque la mayoría de autores prefieren el criterio RV.

  • Gráficos de clasificación. Histograma de los valores actuales y pronosticados por el modelo para la variable dependiente.

  • Bondad de ajuste de Hosmer-Lemeshow. Este estadístico de bondad de ajuste es un método para evaluar el ajuste global del modelo, más robusto que el estadístico de bondad de ajuste tradicionalmente utilizado en la regresión logística, especialmente para los modelos con covariables continuas y los estudios con tamaños de muestra pequeños. Se basa en agrupar los casos en deciles de riesgo y comparar la probabilidad observada con la probabilidad esperada dentro de cada decil.

  • Listado de residuos por caso. Muestra los residuos no estandarizados, la probabilidad pronosticada y los grupos de pertenencia observado y pronosticado.

  • Correlaciones de estimaciones. Muestra la matriz de correlaciones de las estimaciones de los parámetros para los términos del modelo.

  • Historial de iteraciones: Muestra los coeficientes y el logaritmo de la verosimilitud en cada iteración del proceso de estimación de los parámetros.

-IC para la OR. Rango de valores que el N% de las veces incluye el valor e (2,718) elevado al valor del parámetro (coeficiente de regresión logística, b). Para cambiar el valor por defecto (95%), introduzca un número entre 1 y 99 (los valores habituales son 90, 95 y 99). Si el valor verdadero del parámetro poblacional es 0, los límites de confianza de Exp(B) deben incluir el valor 1 (el valor nulo de la OR).

RESULTADOS Regresion logistica

Primero aparece un cuadro resumen con el número de casos (n) introducidos, los seleccionados para el análisis y los excluídos (casos perdidos, por tener algún valor faltante).

Inmediatamente aparece una tabla que especifica la codificación de la variable dependiente (que debe ser dicotómica).Internamente el programa asigna el valor 0 al menor de los dos códigos, y el valor 1 al mayor. En este caso coincide con la codificación empleada en la base de datos.

Es importante que el valor 1 identifique a la categoría de la variable dependiente que resulte ser el resultado evaluado, ya que ello permite comprender mejor el coeficiente \(b_i\) de las variables independientes y de control

Esta tabla muestra la codificación empleada en las variables independientes y de control (covariables).Además nos señala la frecuencia absoluta de cada valor. Si en el cuadro de Definir Variables Categóricas hemos seleccionado en Contraste Indicador y en Categoría de referencia última (opciones que da el programa por defecto), la categoría codificada con el valor interno más bajo (0) será la de referencia, la “última” para el SPSS.

Bloque 0: Bloque inicial

En este bloque inicial se calcula la verosimilitud de un modelo que sólo tiene el término constante (a ó \(b_0\)). Puesto que la verosimilitud \(L\) es un número muy pequeño (comprendido entre 0 y 1), se suele ofrecer el logaritmo neperiano de la verosimilitud (LL), que es un número negativo, o el menos dos veces el logaritmo neperiano de la verosimilitud (-2LL), que es un número positivo.

El estadístico -2LL mide hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta medición recibe también el nombre de “desviación”.

Cuanto más pequeño sea el valor, mejor será el ajuste. En este primer paso sólo se ha introducido el término constante en el modelo.

Como habíamos solicitado en Opciones el historial de iteraciones, la salida del ordenador nos muestra un resumen del proceso iterativo de estimación del primer parámetro (b0). El proceso ha necesitado siete ciclos para estimar correctamente el término constante, porque la variación de -2LL entre el segundo y tercer bucle ha cambiado en menos del criterio fijado

Esta tabla, que es muy parecida a la empleada para valorar una prueba diagnóstica, es la que permite evaluar el ajuste del modelo de regresión (hasta este momento, con un solo parámetro en la ecuación), comparando los valores predichos con los valores observados. Por defecto se ha empleado un punto de corte de la probabilidad de \(Y\) para clasificar a los individuos de 0,5: esto significa que aquellos sujetos para los que la ecuación –con éste único término- calcula una probabilidad < 0,5 se clasifican como ESTADO=0, mientras que si la probabilidad resultante es ≥ 0,5 se clasifican como ESTADO=1.

Finalmente se presenta el parámetro estimado (\(B\)), su error estándar (E.T.) y su significación estadística con la prueba de Wald, que es un estadístico que sigue una ley Chi cuadrado con 1 grado de libertad. Y la estimación de la OR (Exp(B)).

En la ecuación de regresión sólo aparece, en este primer bloque, la constante, habiendo quedado fuera las variabl. Sin embargo, como vemos en la subtabla inferior, como tiene una significación estadística asociada al índice de Wald de 0,029, el proceso automático por pasos continuará, incorporándola a la ecuación

Bloque 1: Método = Por pasos hacia adelante (Razón de verosimilitud)

Como puede apreciarse en el encabezamiento, se inicia de forma automática (POR PASOS) un segundo paso (BLOQUE 1), especificándose que se hace con el método hacia delante (ADELANTE) y empleando el criterio de la razón de la verosimilitud (RV) para contrastar las nuevas variables a introducir o sacar del modelo.

En la primera tabla se muestra el proceso de iteración, que ahora se realiza para los coeficientes, la constante (ya incluida en el anterior paso) y las variables SEXO. Vemos como disminuye el -2LL respecto al paso anterior.

PRUEBA OMNIBUS SOBRE LOSCOEFICIENTES DEL MODELO se muestra una prueba Chi Cuadrado que evalúa la hipótesis nula de que los coeficientes (\(β\)) de todos los términos (excepto la constante) incluidos en el modelo son cero El estadístico Chi Cuadrado para este contraste es la diferencia entre el valor de -2LL para el modelo sólo con la constante y el valor de -2LL para el modelo actual:

Chi cuadrado = (-2LLMODELO_0) – (-2LLMODELO_1)

Como puede verse en la tabla de la Prueba Omnibus, el programa nos ofrece tres entradas: Paso, Bloque y Modelo.

  • La fila primera (PASO) es la correspondiente al cambio de verosimilitud (de -2LL) entre pasos sucesivos en la construcción del modelo, contrastando la \(H_0\) de que los coeficientes de las variables añadidas en el último paso son cero.

  • La segunda fila (BLOQUE) es el cambio en -2LL entre bloques de entrada sucesivos durante la construcción del modelo. Si como es habitual en la práctica se introducen las variables en un solo bloque, el Chi Cuadrado del Bloque es el mismo que el Chi Cuadrado del Modelo.

  • La tercera fila (MODELO) es la diferencia entre el valor de -2LL para el modelo sólo con la constante y el valor de -2LL para el modelo actual.

RESUMEN DE LOS MODELOS, complementarias a la anterior, para evaluar de forma global su validez: la primera es el valor del -2LL y las otras dos son Coeficientes de Determinación (R2 ), parecidos al que se obtiene en Regresión Lineal, que expresan la proporción (en tanto por uno) de la variación explicada por el modelo. Un modelo perfecto tendría un valor de -2LL muy pequeño (idealmente cero) y un R2 cercano auno (idealmente uno).

  • -2 log de la verosimilitud (-2LL) mide hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta medición recibe también el nombre de “desviación”. Cuanto más pequeño sea el valor, mejor será el ajuste.

  • La R cuadradro de Cox y Snell es un coeficiente de determinación generalizado que se utiliza para estimar la proporción de varianza de la variable dependiente explicada por las variables predictoras (independientes). Sus valores oscilan entre 0 y 1.

  • La R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo “perfecto”. La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango completo de 0 a 1.