Introducción
Los modelos logit forman parte de lo que conocemos como Modelos Lineales Generalizados. Utilizamos la expresión generalizados porque son un marco general dentro del que pueden aplicar varios casos particulares. Los modelos lineales con variables categoricas y continua son un caso particular de los generalizados: aquellos con una distribución normal y una función de enlace directa. Los modelos logit son un caso particular de los modelos lineales generalizados en los que la distribución es binomial y la función de enlace el logaritmo de las razones de probabilidad, es decir, la función logit que les da nombre.
En ese caso podemos usar la ecuación:
\[\begin{equation*} log(\frac{p_i}{1-p_i})=\beta_0+\beta_1 x_i \end{equation*}\]
donde los valores observados \(Y_i \sim\) binomiales con \(p=p_i\) para un valor dado \(x_i\) y \(n=1\) para respuestas binarias.
Presentación de los datos
Usaremos el conjunto de datos “Tallerlogistica_basededatos.xls”. Los datos consisten en un conjunto de factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades (HTA, Diabetes). La base de datos contiene información de 342 sujetos de las variables mencionadas anteriormente y descritas en detalle en la hoja 2 del archivo en cuestión.
Situación
De acuerdo con la variable Obesidad por índice de Masa Corporal (IMC):
1. Establecer la comparabilidad de las categorías de desenlace (presencia/ausencia) de acuerdo con las variables edad y sexo. Representación gráfica y prueba estadística adecuada.
Para este estudio se revisa la asociación entre la variable Obesidad por IMC y variable categórica sexo. Para empezar, simplemente contamos el número de pacientes con obesidad por IMC que son mujeres y que son hombres, y pacientes que no tienen obesidad por IMC que son mujeres y hombres. Es útil trazar esto como recuentos, pero también como proporciones. Lo que se está comparando son proporciones, pero también se desea conocer los números absolutos.
Figura 1. Resultado de la obesidad por IMC para Hombres y Mujeres
No resultan tan obvias las diferencias en la Figura 1 que muestra el gráfico de barras de los conteos con respecto al primer grupo de obesos mujeres y hombres, y no obesos mujeres y hombres. Sin embargo, en el segundo gráfico de porcentajes se puede apreciar que en ambos grupos de obesos y no obesos, el porcentaje de mujeres es un poco más alto que el de los hombres, sin embargo, a simple vista no se logran apreciar unas diferencias marcadas.
Como se puede observar en la tabla de porcentajes, entre las personas con obesidad por IMC, las mujeres representan la mayor proporción con un 57% del total de personas que presentan esta condición. También se repite esta situación, en la condición de no obesidad por IMC donde las mujeres representan el 51% del total de personas no obesos por IMC.
Prueba de chi-cuadrado de Pearson
Como la herramienta visual no permite definir si verdaderamente existe una relación significativa entre la variable sexo y ser Obesos por IMC o no serlo, se realiza una prueba Chi cuadrado, con el objetivo de evaluar la independencia entre estas variables.
La prueba de independencia de chi-cuadrado de Pearson se utiliza para determinar si dos variables categóricas son independientes en una población determinada. Para nuestra situación particular se determinará si se cumple La independencia entre la variable Obesidad por IMC y la variable Sexo.
El escenario planteado es una matriz 2x2. Esto se refiere a las dos variables categóricas con exactamente dos niveles cada una, como se muestra en el gráfico anterior. Se pretende constatar las siguientes hipótesis:
\(H_{0}\):La Obesidad por IMC no se relaciona con el sexo.
\(H_{1}\):La Obesidad por IMC se relaciona con el sexo.
Estadistico | P Valor | Parametro | Metodo |
---|---|---|---|
0.2 | 0.66 | 1 | Pearson’s Chi-squared test with Yates’ continuity correction |
De acuerdo a los resultados de la prueba chi cuadrado, se puede afirmar con un grado de confianza del 95%, que no existe evidencia suficiente para rechazar la hipótesis nula, por tanto, no es posible negar la independencia entre la variable obesidad por IMC y la variable sexo, es decir, se puede inferir que la variable respuesta no se relaciona con la variable predictora.
Para el segundo caso de interés se estudia la asociación entre la Obesidad por IMC y la variable cuantitativa continua edad. Se visualiza un diagrama de caja como método para comparar una variable continua, como la edad, con una variable categórica como la obesidad por IMC.
Figura 2. Relación entre la varible Obesidad por IMC y la Edad
Las gráficas nos permiten evidenciar que los cuadros que representan las medianas para los grupos de Obesos y No Obesos, muestras diferencias entre las mismas. Siguiendo este orden de ideas el rango intercuartílico nos muestra que en el grupo de los No obesos hay una dispersión mucho mayor, así como una acumulación mayor de los datos. Los valores atípicos también evidencian estas relaciones.
La gráfica también nos permite observar que la edad media del grupo de no Obesos es menor que la edad media del grupo de Obesos, y otro hallazgo importante en la relación que muestra el gráfico, es que la variación del grupo de Obesos con respecto a la edad es mucho mayor que la variación del grupo de no Obesos.
Prueba T student
Se utiliza una prueba t para comparar las medias de dos grupos de mediciones continuas. En este caso el grupo de las medias de las edades de los No obesos por IMC y el grupo de las medias de las edades de los Obesos por IMC.
Se pretende constatar las siguientes hipótesis:
\(H_{0}\): Las medias de las edades son iguales en los grupos de Obesos por IMC y no Obesos por IMC.
\(H_{1}\): Las medias de las edades son diferentes en los grupos de Obesos por IMC y no Obesos por IMC.
Estadistico | P Valor | Parametro | IC Inf | IC Sup | Metodo |
---|---|---|---|---|---|
2.3 | 0.03 | 33.11 | 0.72 | 11.77 | Welch Two Sample t-test |
De la prueba T student se obtiene un P valor de 0.027 menor que un Alpha de 0.05 por tanto con un porcentaje del 95% se rechaza la hipótesis nula de igualdad de medias por tanto no existe evidencia suficiente para aceptar la igualdad entre las medias de los grupos.
Prueba de ANOVA
El análisis de varianza es una colección de pruebas estadísticas que se pueden utilizar para probar la diferencia de medias entre dos o más grupos.
Para este caso particular se revisará y evaluará las diferencias entre la medias de las edades de los que son obesos por IMC con las medias de la edades de aquellos que no son obesos por IMC.
Termino | df | Suma sq | Media sq | Estadístico | P Valor |
---|---|---|---|---|---|
Obesidad | 1 | 1001.71 | 1001.71 | 4.51 | 0.03 |
Residuals | 339 | 75223.46 | 221.90 | NA | NA |
Podemos concluir de la prueba F significativa que la edad media de los obesos por IMC y los no obesos por IMC no es la misma. Esto significa que todos los grupos incluidos son significativamente diferentes entre sí.
2. Realizar un modelo de regresión logística simple entre la variable Obesidad por IMC y las variables independientes:
2.1 Hábito de fumar.
2.2 Consumo de alcohol.
2.3 Realización de actividad física (sí / no).
2.4 Antecedente familiar de obesidad.
2.5 Alteraciones en lípido y glicemia
Prueba de Independencia
Se evaluó la independencia entre cada una de las variables predictoras y la variable obesidad por IMC, como cada una de la variable predictoras del estudio son variables cualitativas nominales se procedió a utilizar la prueba chi-cuadrado, sin embargo, para aplicar la prueba chi cuadrado todos los conteos esperados deben ser no más del 20% de todas las celdas, y este supuesto no se cumple en las tablas para la variable Hábitos de fumar, y la variable Antecedentes familiares de obesidad. La alternativa matemática si no se cumple este supuesto, es la prueba exacta de Fisher.
La hipótesis nula general y la hipótesis alternativa general para cada prueba consistió en:
\(H_{0}\): La variable predictora no se relaciona con la variable Obesidad por IMC.
\(H_{1}\): La variable predictora se relaciona con la variable Obesidad por IMC.
Varibles | Estadistico | P Valor | Metodo |
---|---|---|---|
Hábito de fumar | 1.3514 | 0.2250 | Fisher’s Exact Test for Count Data |
Consumo de alcohol | 2.5687 | 0.1090 | Pearson’s Chi-squared test with Yates’ continuity correction |
Realización de actividad física | 2.4071 | 0.3001 | Pearson’s Chi-squared test |
Antecedente familiar de obesidad | 2.2064 | 0.0731 | Fisher’s Exact Test for Count Data |
Alteraciones en lípido y glicemia | 0.0001 | 0.9940 | Pearson’s Chi-squared test with Yates’ continuity correction |
Los resultados obtenidos se visualizan en la Tabla 4; con un nivel de significancia del 5%, se determina que las variables categóricas hábito de fumar y antecedentes familiares de obesidad para la prueba exacta de fisher son independientes de la variable Obesidad por IMC, y las variables consumo de alcohol, realización de actividad física (sí / no) y alteraciones en lípido y glicemia(Bioquímicas) con la evaluación de la prueba chi cuadrado resultaron ser independientes de la variable obesidad por IMC. Esto significa que no existe evidencia significativa para descartar la independencia de las variables predictoras con respecto a la variable respuesta.
Análisis de la regresión logística simple
Los modelos que ajustaremos incluyen una variable independiente para cada caso con la Variable Obesidad por IMC, a la que simplificaremos para facilitar la exposición. Para el caso Modelo 1 esta variable es dicotómica y refiere a si fuma o no fuma: tendrá valor 0 si no fuma y valor 1 si fuma. Para el Modelo 2 se estudia la variable consume o no alcohol, para el Modelo 3 se estudia con la variable realiza o no realiza actividad física, y para los Modelos 4 y 5 se revisa si tiene antecedentes o no de obesidad, y si se presentan o no alteraciones en lípido y glicemia, respectivamente.
Modelos | Terminos | Estimaciones | IC Inf | IC Sup | Estadistico | P Valor |
---|---|---|---|---|---|---|
Modelo 1 | (Intercept) | 2.2156 | 1.4544 | 3.1701 | 5.1532 | 0.0000 |
Fuma2 | 0.3021 | -0.7410 | 1.2077 | 0.6181 | 0.5365 | |
Modelo 2 | (Intercept) | 2.2354 | 1.8005 | 2.7277 | 9.5017 | 0.0000 |
Alcohol2 | 0.7265 | -0.1597 | 1.7562 | 1.5127 | 0.1303 | |
Modelo 3 | (Intercept) | 2.0281 | 1.4179 | 2.7509 | 6.0292 | 0.0000 |
Actividad Fisica 2 |
0.6242 | -0.2383 | 1.4435 | 1.4710 | 0.1413 | |
Modelo 4 | (Intercept) | 1.7492 | 0.7940 | 2.9761 | 3.2289 | 0.0012 |
ANTOBESIDAD2 | 0.7945 | -0.4950 | 1.8568 | 1.3576 | 0.1746 | |
Modelo 5 | (Intercept) | 2.4218 | 1.9292 | 2.9929 | 8.9893 | 0.0000 |
BioquimicAS2 | 0.0781 | -0.7267 | 0.9119 | 0.1889 | 0.8502 |
De la tabla 5, podemos analizar en primera instancia que ninguna de las variables independientes tiene un P valor significativo con respecto a la variable respuesta, todas superan el umbral de alpha mayor a 0.05, lo que en un primer acercamiento nos muestra que no existe evidencia significativa para aceptar que dichas variables predicen la obesidad por IMC.
Modelos | AIC | BIC | Deviance |
---|---|---|---|
Modelo 1 | 185.50 | 193.09 | 181.50 |
Modelo 2 | 183.33 | 190.92 | 179.33 |
Modelo 3 | 183.80 | 191.39 | 179.80 |
Modelo 4 | 184.26 | 191.85 | 180.26 |
Modelo 5 | 185.83 | 193.42 | 181.83 |
En primera instancia la tabla compara los criterios AIC, BIC y Deviance, los cuáles fueron tomados como criterios de bondad de ajuste para así determinar el mejor modelo que predice la variable respuesta. De los siguientes resultados podemos evidenciar que la variable predictora que mejor predice a la Obesidad por IMC, es la variable de consumo o no consumo de alcohol, dado que para los tres criterios resulta ser la que arroja los menores valores, en este caso particular su AIC es de 183.33, su BIC es 190.92 y su Deviance es 179.33. Es importante enunciar que dichos valores no muestran diferencias significativas tan grandes con respecto a las otras variables, sin embargo nos basamos en esta evidencia para realizar las respectivas recomendaciones.
El modelo final de regresión logística simple escogido para el estudio es:
\[\log\left(\frac{\hat{p}_i}{1-\hat{p}_i}\right)=2.235-0.726 \textrm{Alcohol2}\]
Conclusiones y recomendaciones
En general, la obesidad es una enfermedad multifactorial y es difícil evaluar la contribución específica de las variables que fueron sometidas en este estudio de regresión logística simple con respecto a si causan o no obesidad por IMC, sin embargo, se encuentra con mayor posibilidad de éxito que la ingesta de alcohol puede causar el riesgo de padecer obesidad por IMC. La evidencia de observación se ve obstaculizada por la posibilidad de confusión debido a variables que aún no han sido medidas o consideradas, las cuales se expresan en las siguientes hipótesis para posteriores trabajos:
La ganancia de peso varía en función de la cantidad ingerida
Los bebedores moderados tienen menos posibilidades de tener sobrepeso o ser obesos.
Los consumidores habituales tienen una mayor tendencia a engordar.
Tomando en cuenta lo anterior, el lento desarrollo de la obesidad y la naturaleza polifacética de esta condición, realmente complica la posibilidad de mostrar una relación de asociación entre el hábito de fumar, la realización de actividad física o los antecedentes familiares, por otro lado con la variable consumo de alcohol se evidencian relaciones que inciden en el aumento de peso por IMC con una razón de probabilidad del 2.068, lo que nos indica que 2 personas de una que beban alcohol están propensas a sufrir de obesidad de acuerdo al IMC, esto significa que es un 100% mas probable que una persona sea obesa por IMC si consume alcohol, lo cual nos muestra la asociación de la ingesta de alcohol en la vulnerabilidad para ganar peso.
Parte del problema del consumo de esta sustancia, podría ser su aumento de forma progresiva y alarmante, donde las personas como hábito terminan siendo capaces de tolerar mayores cantidades de alcohol y consumirlo inclusive con mayor frecuencia. Ante este tipo de casos y la prevención de los mismos, es de suma importancia prestar especial atención, estudiar por ejemplo la cantidad de energía aportada por una bebida con alcohol y hacer mayor pedagogía al respecto, revisar si tiene un efecto inhibidor de la saciedad, lo que podría traducirse en consumir mayores cantidades de alimentos cuando se está consumiendo alcohol. Por ende, es necesario disminuir el consumo de alcohol de forma gradual, una forma de poder lograrlo es a través de la búsqueda de apoyo por parte de personal profesional, evitar las situaciones que se presentan como un riesgo para su consumo, tratar de evitar el consumo de alcohol durante la ingesta de alimentos en especial con aquellos que son ricos en carbohidratos, proteínas y grasas.