UNIVERSIDAD DEL NORTE

Maestría en Estadística Aplicada

Bioestadística Avanzada

La Organización Mundial de Salud (OMS) define a la obesidad como una acumulación anormal o excesiva de grasa que puede ser perjudicial para la salud. La obesidad es una enfermedad crónica, de origen multifactorial, de alta prevalencia, que se asocia con un mayor riesgo de desarrollar enfermedades cardiovasculares, de una disminución de la calidad de vida y de un incremento de la mortalidad.

Con el objeto de evaluar los factores asociados a diversos eventos cardiovasculares, un grupo de investigadores realizó la evaluación de factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades (HTA, Diabetes), a 341 sujetos.

Los datos utilizados en el análisis son obtenidos a través de los boletines del Sistema Nacional de Salud Pública (SIVIGILA).

En primer lugar se realizó un análisis exploratorio: se calcularon distribuciones de frecuencia, de acuerdo con el tipo de variable, y se categorizaron nuevas variables.

Datos

Los datos utilizados para el análisis fueron los siguientes:

Numero paciente Sexo Edad Fuma Actividad Fisica ACV DIABETES ANTOBESIDAD ObesAutor OBS_IMC HTA Diabetes Alcohol BioquimicAS
1 2 14 2 2 2 2 2 2 2 2 2 2 1
2 1 39 2 1 2 2 2 2 2 2 1 2 1
3 1 25 2 2 2 2 2 2 2 2 2 1 1
4 1 29 2 2 2 2 2 2 2 2 2 1 2
5 1 24 2 2 2 2 2 2 2 2 2 1 1

 

A continuación se presenta el registro de las variables empleadas en el estudio (Tabla 1., de las cuales solo se consideraron Edad, Sexo, hábito de fumar, consumo de alcohol, realización de actividad física (sí / no), antecedente familiar de obesidad alteraciones en lípido y glicemia; y obesidad autoreportada.

 

Tabla 1. Operacionalización de las variables estudiadas.
Macro_variable Variable Definición_variable Tipo_variable Nivel_de_medición Clasificación
Socio demográfico Edad Tiempo transcurrido desde el nacimiento de un individuo. Cuantitativa continua. Razón 10-20, 20-30, 30-40, 40-50, 50-60,60-70. 60-69.
Sexo Condición organica que distingue hombres y mujeres. Cualitativa. Nominal F,M.
Antecedentes familiares Obesidad Acumulación excesiva de grasa. Cualitativa. Nominal si=1,no=2.
ACV Accidente cardiovascular. Cualitativa. Nominal si=1,no=2.
Estilo de vida Hábito de fumar Aspirar y despedir el humo producido por la combustión del tabaco o de otra sustancia herbácea. Cualitativa. Nominal si=1,no=2.
Consumo de alcohol Necesidad de ingerir o no bebidas que contienen etanol en su composición. Cualitativa. Nominal si=1,no=2.
Realización de actividad física Movimiento corporal producido por los músculos. Cualitativa. Nominal si=1,no=2.
Enfermedades HTA Incremento continuo de la presión sanguínea en las arterias. Cualitativa. Nominal si=1,no=2.
Diabetes Niveles muy altos de glucosa en sangre. Cualitativa. Nominal si=1,no=2.
Obesidad auto reportada Cuantificación de la obesidad basada en datos autodeclarados. Cualitativa. Nominal si=1,no=2.
Obesidad por IMC Valoración por obesidad, bajo reportes de peso y talla. Cualitativa. Nominal si=1,no=2.
Alteraciones en lípido y glicemia BIOQUIMICO, pruebas bioquimicas. Cualitativa. Nominal si=1,no=2.
Note:
Sistema de Salud Pública (SIVIGILA).

 

En la siguiente tabla se presenta la ruta de comparabilidad entre la variable obesidad autoreportada de acuerdo con las variables sexo y edad; y sus respectivas pruebas estadísticas.

 

Tabla 2. Comparabilidad de las categorías de Obesidad autoreportada (presencia/ausencia) de acuerdo con las variables edad y sexo; y sus pruebas estadistica adecuadas.
. Relación Tipo_tabla Comparaciones Prueba
Relación entre las variables Obesidad autoreportada y Sexo. Tabla de doble entrada Comparación de proporciones Prueba Chi cuadrado
Relación entre las variables Obesidad autoreportada y Edad. Tabla de doble entrada Comparación de promedios Prueba T

 

Se realizó la prueba de independencia entre la variable sexo y la variable obesidad autoreportada, por lo que se procedió a utilizar la prueba chi-cuadrado, en donde la hipótesis a contratar fue:

\[\begin{aligned} H_0&:\mbox{el sexo es independiente de la presencia o ausencia de obesidad autoreportada}\hspace{0.5cm} vs \\ H_1&:\mbox{el sexo es dependiente de la presencia o ausencia de obesidad autoreportada} \end{aligned} \]

 

Con un nivel de significancia del \(5\%\) y un p-valor<0.05 (p-valor=0.009629), se rechaza la hipótesis nula, por lo que podemos afirmar que la variable la presencia/ausencia de obesidad autoreportada esta correlacionada con el sexo de los sujetos.

Ahora, con relación a la edad se podría comparar la media de edad de los que si presentan obesidad autoreportada con la media de la edad de los que no presentan. El estadístico utilizado en el análisis fue la prueba \(t\)-Student. Las hipótesis a contrastar son:

\[\begin{aligned} H_0&: \mbox{media de edad si presenta obesidad autoreportada = media de edad no presenta obesidad autoreportada}\hspace{0.5cm} vs\\ H_1&: \mbox{media de edad si presenta obesidad autoreportada} \neq \mbox{ media de edad no presenta obesidad autoreportada } \end{aligned}\]  

En este caso el p-valor de la prueba es > 0.05 (p-valor=0.5825), por lo cual se concluyó que existe evidencia estadística suficiente para rechazar la hipótesis nula, es decir, que la media de la edad del grupo que si presenta obesidad autoreportada difiere de la media de la edad del grupo que no presenta obesidad autoreportada; con un intervalo de confianza al \(95\%\) para la diferencia de medias IC(-3.89, 6.91).

En la siguiente tabla se presenta la distribución porcentual por rango de edad, con respecto a la presencia o ausencia de obesidad autoreportada en los sujetos.

 

Tabla 3 . Distribución porcentual por rangos de Edad de personas que reportan la presencia/ausencia de Obesidad autoreportada.
.
Presencia obesidad autoreportada
Ausencia obesidad autoreportada
Rango.de.edad Frecuencia F.acumulada Porcentaje Frecuencia.1 F.acumulada.1 Porcentaje.1
[10,20) 78 78 22.90 6 6 1.76
[20,30) 73 151 21.40 7 13 2.05
[30,40) 54 205 15.80 8 21 2.35
[40,50) 51 256 15.00 7 28 2.05
[50,60) 40 296 11.70 5 33 1.47
[60,70) 12 308 3.52 0 0.00
Note:
Sistema de Salud Pública (SIVIGILA).

 

En relación a los rangos de edad para los que presentan obesidad autoreprotada se puede apreciar que el \(22.9\%\) de los sujetos esta entre los 10 y 20 años, mientras el \(3.52\%\) de los sujetos entre los 60 y 70 años presenta obesidad autoreportada, además este último es el rango de edad donde es poco frecuente encontrar obesidad autoreportada para esta muestra.

En el gráfico a continución se ilustra el histograma entre los rangos de edad y la presencia o ausencia de obesidad autoreportada.

 

 

La mediana de edad para los que presentaron obesidad autoreportada es de 33 años, y el rango intercuartílico es 25.25 años, es decir que el \(50\%\) de las personas que presentan obesidad autoreportada están comprendidas en 25.25 años, mientras que la mediana de edad para los que no presentaron obesidad autoreportada es de 30 años, y el rango intercuartílico es de 25 años , es decir que el \(50\%\) de las personas que no presentan obesidad autoreportada están comprendidas en 25 años, además el \(25\%\) de las personas que no presentan obesidad autoreportada presentan mayor dispersión con respectos a la edad. También se observó que las edades se encuentran sesgados ante la presencia o ausencia de la obesidad autoreportada (Figura 2.)

 

 

Diagrama de Barras entre las variables categóricas predictoras y la variable obesidad autoreportada  

Para la comprensión de la interrelación existente entre las variables explicativas y la variable predictora, se construyeron una serie de tablas de contingencia y posterior a esto se graficaron empleando diagramas de barras, cada una de ellas vinculando sus categorias y la presencia/ausencia de obesidad autoreportada (Figura 3.,Figura 4.,Figura 5.y Figura 6.).

En la Figura 3. se observó que hubo mayor frecuencia (n=246) entre los sujetos que no fuman y no presentan obesidad autoreportada.

En la Figura 4. se observó que los sujetos que no presentan obesidad autoreportada e ingieren alcohol tienen la mayor frecuencia en esta categoria con un (n=190).

En la Figura 5. se observó que los sujetos que no presentan obesidad autoreportada y tienen alteración en lípidos y glicemia tienen mayor frecuencia para esta categoria en este estudio con un (n=169), seguidos de los que no presentan obesidad autoreportada y si tienen alteración (n=139).

En la Figura 6. Finalmente vemos que en la variable Obesidad autoreportada, la ausencia de obesidad autoreportada tuvo mayor frecuencia en aquellos sujetos que no tenían antedecentes por obesidad (n=279).

 

Construcción del Modelo

Para la construcción del modelo final, inicialmente se realizaron pruebas de independencia de las variables predictoras, los resultados se muestran a continuación:

 

Se realizó la prueba de independencia entre cada una de las variables predictoras y la variable obesidad autoreportada, en este caso se trabajó solo con variables cualitativas nominales por lo que se procedió a utilizar la prueba chi-cuadrado, en donde la hipótesis nula y alternativa para cada prueba consistió de manera general en:

\[\begin{aligned} H_0&:\mbox{la variable predictora es independiente de la variable obesidad autoreportada}\hspace{0.5cm} vs \\ H_1&:\mbox{la variable predictora es dependiente de la variable obesidad autoreportada} \end{aligned} \]

Donde las variables predictoras a considerar fueron: hábito de fumar, consumo de alcohol, realización de actividad física (sí / no), antecedente familiar de obesidad, alteraciones en lípido y glicemia(Bioquímico).

 

Tabla 4. Correlación entre las variables categóricas predictoras y la variable obesidad autoreportada
Variables.predictoras chi.value p.value
Fuma 0.07 0.79
Alcohol 1.55 0.212
Actividad física 2.81 0.093
Antecedentes de obesidad 17.79 <0.0001**
Bioquímico 0.39 0.528
Note:
a. Variable predictora: antecedentes de obesidad, fumar, alcohol,Actividad física,bioquímica

 

Los resultados obtenidos se ilustran en la Tabla 4; con un nivel de significancia del \(5\%\), se observó que las variables categóricas hábito de fumar, consumo de alcohol, realización de actividad física (sí / no) y alteraciones en lípido y glicemia(Bioquímico), son independientes de la variable obesidad autoreportada, mientras que la variable categórica antecedente de obesidad es dependiente de la varible respuesta, a un nivel de significancia del \(5\%\).

 

Modelo Completo  

El primer modelo se inició con todas las variables como predictores de las cuales salió significativa la variable antecedentes por obesidad (p-valor 0.001) (Tabla 5.Anexos), sin embargo se utilizó un modelo alternativo con el método stepwise mixto (both) que selecciona los mejores predictores del modelo con el criterio Akaike (AIC), con el fin de determinar la calidad del modelo y se calculó un valor similar al del \(R^2\) en los modelo lineales mediante la medida de Hosmer & Lemeshow (R2L). El método stepwise seleccionó tres variables como predictoras con un AIC = 66.98 y finalmente se concluye que el modelo seleccionado es capaz de explicar el 5.08% de la variabilidad observada \((R^2=0.0508)\), bastantate bajo para el objeto del estudio.

 

La ecuación del modelo final (Tabla 6.Anexos) es : \[Obesidad\hspace{0.1cm} autoreportada=1.38+2.44\hspace{0.1cm} A.Obesidad+1.37\hspace{0.1cm}Alcohol-1.18\hspace{0.1cm}Sexo\]

En este caso la devianza del modelo nulo fue −2LR=73.378, pero cuando se añadieron las variables sexo, consumo alcohol y antecedentes por obesidad, este valor se redujo a 58.977, asi que con estas variables el modelo mejoró su capacidad para predecir si alguien presenta o no obesidad autoreportada.

Para saber la eficacia del modelo prediciendo la variable obesidad autoreportada se utilizó el estadístico chi-cuadrado \(LR=-2(l(\Theta_0)-l(\hat \Theta))\) dado que \(LR\sim \mathcal{X}_p^2\), donde \(l(\Theta_0)\) es la función log-verosimilitud del modelo final y \(l(\hat \Theta))\) es la función log-verosimilitud del modelo resultante sin variables independientes, sólo con la constante. Con \(p\) grados de libertad equivalente a la diferencia entre el número de parámetros del modelo final y el modelo nulo.

Se obtuvo que la probabilidad asociada al estadístico chi-cuadrado \(p-valor=P(\mathcal{X}_3^2>LR)=0.002\) es menor de 0.05, se concluye que el efecto general del modelo es estadisticamente significativo al 5%.

El odds ratio (OR) expresa si la probabilidad de ocurrencia de un evento o enfermedad: presencia/ausencia difiere o no en distintos grupos, por lo general catalogados de alto o bajo riesgo.

En este Caso, se estimó los OR para el modelo final y se calculó sus respectivos intervalos de confianza correspondiente a cada variable predictora del modelo, del cual se observó que con un \(OR=11.44\) y un intervalo de confianza del \(95\%\), \(IC(2.62-58.72)\) lo que indica la magnitud del efecto, es decir que el presentar o no atecedentes familiares por obesidad es altamente siginificativa para la presencia o ausencia de obesidad autoreportada en los sujetos, mientras que el consumo de alcohol con un \(OR=3.92\) y un intervalo de confianza del \(95\%\) \(IC(0.94-22.16)\), es insignificante en la presencia o ausencia de obesidad autoreportada (Tabla 6 - Anexos).

Se comprabaron los supuestos del modelo, entre ellos linealidad y multicolinealidad. Para la linealidad (Tabla 6.) vemos que las variables sexo, consumo de alcohol y la constante tienen valores de significación (columna Pr(>|z|)) mayores de 0.05, indicando que el supuesto de linealidad se cumple para estas variables, con la excepción de la variable antecedentes de obesidad en donde Pr(>|z|)) es menor de 0.05.

El supuesto de colinealidad se verificó mediante el estadístico de VIF (variance inflation factor), un VIF más de 10 se considera problemático, en este caso ninguna de la variables predictoras preseanta un VIF mayor de 10 por lo que no hay colinialidad.

 

Anexos  

Tabla 5. Modelo 1 con todas las variables como predictores.
Variable Estimado SE z.value p.value
(Intercept) 13.44 2399.550 0.006 0.990
Edad 0.02 0.030 0.660 0.510
Sexo -1.29 0.800 -1.610 0.107
Fuma -0.57 1.179 -0.490 0.630
A. Obesidad 3.06 0.930 3.286 0.001
Alcohol 1.53 0.830 1.840 0.065
Bioquímico -1.16 0.790 -1.460 0.140
Actividad Fisica -12.03 2399.550 -0.005 0.990
Note:
Sistema de Salud Pública (SIVIGILA).
Tabla 6. Coeficientes del modelo de regresión logística final, sus estimaciones, desviación estandar del error, Odds Ratio(OR) y sus respectivos intervalos de confianza al 95 %.
Variable Beta SE OR IC.OR z.value p.value
(Intercept) 1.38 1.26 3.98 (0.37-60.24) 1.09 0.270
A.Obesidad 2.44 0.77 11.44 (2.62-58.72) 3.15 0.002
Alcohol 1.36 0.78 3.92 (0.94-22.16) 1.74 0.080
Sexo -1.18 0.78 0.30 (0.06-1.26) -1.52 0.130
Note:
Sistema de Salud Pública (SIVIGILA).