PROBLEMA

El incremento de la obesidad ha pasado a ser un desafío importante para la salud pública, no solo por su propensión a extenderse, sino además por la conexión que tiene con distintos estilos de vida. Para entender mejor este fenómeno y respaldar futuros análisis o intervenciones, es Importante tener informacion que explique este comportamiento de variables unidas con la actividad física, la alimentación y el uso del tiempo.

Este estudio emplea una base de datos que incluye la información demográfica y sobre el estilo de vida de los adultos como la categoría de obesidad, las costumbres alimenticias, el tiempo que se utilizan dispositivos electrónicos, el consumo de agua y el nivel de actividad física. Aunque los datos no permite determinar relaciones de causa y efecto, sí nos da la oportunidad de examinar patrones descriptivos que muestren una perspectiva más clara acerca de cómo estas variables se distribuyen y se conectan entre sí.

Formulación del problema

El problema que orienta este análisis es la siguiente:

¿De qué manera se reparten los hábitos alimentarios y de vida entre los distintos grados de obesidad, y qué patrones descriptivos pueden ser reconocidos con base en esta información?

Alcance

El estudio es descriptivo en cuanto a su alcance. No se busca hacer inferencias poblacionales ni evaluar la causalidad; el propósito es comprender cómo las variables actúan dentro del conjunto de datos disponible, a través de:

  • Cuadros resumen,

  • Representaciones gráficas apropiadas al tipo de variable,

  • Comparaciones con descripciones,

  • Descubrimientos de tendencias globales.

Si bien los resultados del análisis posibilitan determinar patrones, no posibilitan establecer relaciones de causa y efecto ni afirmar efectos directos.

Supuestos

Se tomaron en cuenta los siguientes aspectos para llevar a cabo el análisis:

  1. La base de datos representa correctamente a la población investigada, aunque no necesariamente a una población general más extensa.
  2. Los valores imputados o limpios a través del preprocesamiento son sensatos y retienen la estructura original de los datos.
  3. Los tipos y escalas de cada variable (como el grado de obesidad, la frecuencia de actividad física o la ingesta de agua) se entienden conforme a la definición del conjunto de datos, sin alteraciones posteriores.
  4. Los hallazgos de la investigación, al ser un estudio descriptivo, tienen que interpretarse como patrones o asociaciones y no como efectos.

Objetivo General

Examinar los elementos vinculados con el grado de obesidad en una población adulta a través de un estudio descriptivo que facilite la detección de patrones en conductas relacionadas con el estilo de vida, actividad física y hábitos alimentarios.

Objetivo 1: Hidratación y obesidad

Examinar la variación del consumo diario de agua (CH2O) entre los distintos grados de obesidad para determinar si hay patrones de hidratación relacionados con el peso corporal.

Objetivo 2: Género y distribución del nivel de obesidad

Comparar la distribución de los grados de obesidad entre hombres y mujeres para establecer si existen desigualdades notables en la frecuencia de cada grupo por género.

Objetivo 3: Actividad física y obesidad

Examinar cómo varía la frecuencia de actividad física (FAF) entre los distintos niveles de obesidad, con el fin de identificar patrones en el comportamiento físico relacionados con el peso corporal.

Objetivo 4 :Edad de las personas y su actividad física semanal (FAF)

Analizar la relación entre la edad de las personas y su nivel de actividad física semanal (FAF), con el propósito de identificar posibles patrones o tendencias que ayuden a comprender cómo varía la actividad física a lo largo del ciclo de vida y su posible vinculación con el peso corporal.

Objetivo 5: Tiempo frente a pantallas (TUE) y obesidad

Examinar cómo varía el tiempo de uso de dispositivos electrónicos (TUE) entre los diferentes niveles de obesidad, con el fin de identificar posibles tendencias entre el sedentarismo y el peso corporal.

Datos, Descripcion y pre-procesamiento:

Descripción de los datos

La recopilación de datos usada en esta investigación se basa en un registro de información sobre personas adultas que contiene rasgos demográficos, costumbres alimenticias, conductas vinculadas al estilo de vida y la obesidad clasificada en siete categorías.

El archivo final que se usó para el análisis, “ObesityDataSet_clean.csv, tiene todas las observaciones depuradas y listas para ser empleadas en los propósitos .

La recopilación de datos incluye variables cualitativas y cuantitativas, lo que ayuda la realización de análisis y comparaciones entre diferentes tipos de información.

Descripción de Variables del Dataset
Variable Tipo Descripción
Age Cuantitativa Edad en años
Height Cuantitativa Estatura en metros
Weight Cuantitativa Peso en kilogramos
FCVC Cuantitativa (1–3) Frecuencia de consumo de vegetales
NCP Cuantitativa Número de comidas principales al día
CH2O Cuantitativa Vasos de agua consumidos al día
FAF Cuantitativa (0–3) Frecuencia de actividad física
TUE Cuantitativa (0–2) Tiempo diario en pantallas
Gender Cualitativa Género del individuo
family_history_with_overweight Cualitativa Historial familiar de sobrepeso
FAVC Cualitativa Consumo frecuente de alimentos altos en calorías
CAEC Cualitativa Comida entre horas (No/Sometimes/Frequently/Always)
SMOKE Cualitativa Hábito de fumar
SCC Cualitativa Auto-percepción sobre calorías consumidas
CALC Cualitativa Consumo de alcohol
MTRANS Cualitativa Medio de transporte habitual
NObeyesdad Cualitativa (7 niveles) Nivel de obesidad

Detección de errores y valores faltantes

Se comprobaron lo siguiente durante la revisión del archivo original:

  • Formatos inconsistentes en categorías cualitativas (por ejemplo, el uso de mayúsculas y minúsculas).

  • Valores numéricos que exceden el rango teórico (por ejemplo, CH2O=0 o valores más altos que el máximo permitido).

  • Posibles duplicados.

  • Existencia de valores vacíos o NA.

Detección de valores atípicos

Ya que el análisis es descriptivo, no se eliminaron outliers de forma agresiva, pero:

  • Se analizaron mediante boxplots preliminares.

  • Se verificó que los valores extremos se encontraban dentro de valores posibles para adultos.

  • Por lo tanto, no se eliminaron, pero se consideran parte de la variabilidad que se describirá en las tablas y gráficos siguientes.

Imputación de datos

No hubo imputación porque el archivo limpio final no tiene valores perdidos. En caso de existir NA en el archivo original, estos fueron subsanados antes de crear la versión final, asegurando la reproducibilidad del análisis.

OBJETIVO 1: Consumo de agua (CH2O) según nivel de obesidad

El primero pretende caracterizar la variación en el consumo diario de agua según los niveles de obesidad. Esta variable es importante porque puede ser un indicador de hábitos de hidratación que no influyen directamente en el peso, pero que pueden ser un reflejo de patrones de alimentación y estilo de vida.

A continuación, se muestra la estadística del consumo de agua según la categoría de obesidad.

Tabla 1. Resumen descriptivo del consumo de agua (CH2O) por nivel de obesidad
NObeyesdad n media mediana sd minimo maximo Q1 Q3 IQR CV
Insufficient_Weight 267 1.883852 2.000000 0.5982821 1 3 1.318828 2.222785 0.9039570 0.3175845
Normal_Weight 282 1.858156 2.000000 0.6378518 1 3 1.000000 2.000000 1.0000000 0.3432714
Obesity_Type_I 351 2.112218 2.014990 0.6246441 1 3 1.753000 2.657607 0.9046070 0.2957289
Obesity_Type_II 297 1.877658 2.001208 0.5531227 1 3 1.413218 2.165408 0.7521900 0.2945812
Obesity_Type_III 324 2.208493 2.431036 0.6037820 1 3 1.665423 2.692467 1.0270435 0.2733910
Overweight_Level_I 276 2.010979 2.000000 0.5919096 1 3 1.638483 2.411388 0.7729045 0.2943390
Overweight_Level_II 290 2.025133 2.000000 0.5539598 1 3 1.795954 2.262651 0.4666963 0.2735424

Los niveles de Obesidad Tipo II y Obesidad Tipo III son los que tienen el promedio más bajo de consumo de agua, con valores medios que se sitúan en la parte baja del rango (entre 1 y 2 vasos). Esto nos dice que en estos grupos la hidratación es menos frecuente si se les compara con categorías como Peso Normal o Peso Insuficiente, las cuales muestran promedios más elevados.

El(CV) es bastante bajo en todas las categorías, lo que dice que el consumo de agua no varía significativamente dentro de cada grado de obesidad. Esto indica que cada grupo presenta patrones de hidratación relativamente constantes.

Los valores más bajos y más altos son parecidos entre categorías, lo que señala que el grado de obesidad no determina los extremos del uso de agua. No obstante, la mediana tiende a decrecer en las categorías de obesidad más elevada, lo que evidencia un patrón suave de menor hidratación en dichos grupos.

Figura 1. Distribución del consumo de agua (CH2O) por nivel de obesidad

Las categorías de menos peso (Normal_Weight e Insufficient_Weight) muestran distribuciones que se centran en valores más elevados de CH2O, lo cual está de acuerdo con las cifras estadísticas de la tabla y respalda la noción de que el consumo promedio es mayor en estos grupos.

Los grupos de Obesidad Tipo II y III tienen medianas más reducidas, lo que indica que el consumo habitual de agua es inferior en estas categorías en comparación con niveles como el de Sobrepeso I o el de Peso Normal.

Los valores de IQR que se obtuvieron en la tabla son consistentes con el hecho de que las cajas presentan una dispersión moderada a todos los niveles. No se aprecian variaciones drásticas en la variabilidad, pero sí una tendencia general a moverse hacia abajo entre las categorías con más obesidad.

OBJETIVO 2: Distribución del nivel de obesidad según género

El segundo objetivo tiene como propósito detallar la manera en que los niveles de obesidad se reparten entre los hombres y las mujeres. A pesar de que el género no condiciona el peso corporal, la comparación de las proporciones entre categorías posibilita detectar diferencias descriptivas importantes al interior de la población estudiada.

Tabla 2. Distribución porcentual de niveles de obesidad por género
Gender NObeyesdad n total_genero porcentaje
Female Insufficient_Weight 169 1035 16.3
Female Normal_Weight 137 1035 13.2
Female Obesity_Type_I 156 1035 15.1
Female Obesity_Type_II 2 1035 0.2
Female Obesity_Type_III 323 1035 31.2
Female Overweight_Level_I 145 1035 14.0
Female Overweight_Level_II 103 1035 10.0
Male Insufficient_Weight 98 1052 9.3
Male Normal_Weight 145 1052 13.8
Male Obesity_Type_I 195 1052 18.5
Male Obesity_Type_II 295 1052 28.0
Male Obesity_Type_III 1 1052 0.1
Male Overweight_Level_I 131 1052 12.5
Male Overweight_Level_II 187 1052 17.8

Las proporciones son un poco distintas, pero ambos sexos tienen casos en todas las categorías de obesidad. Esto señala que la distribución del peso corporal en la muestra es extensa y no se concentra en un único nivel para ningún grupo.

En algunas categorías, como la de Obesidad tipo I y la de Sobrepeso nivel I, se nota una ligera diferencia porcentual entre sexos, lo cual indica que el peso no está distribuido de la misma manera en ambos géneros, aunque las diferencias no son significativas.

No hay ningún género que domine por completo las categorías extremas (Obesidad tipo III e Insuficiencia de peso), lo que indica que los valores extremos de peso están distribuidos de forma relativamente equilibrada.

Las proporciones entre géneros son parecidas en diversas categorías, lo que concuerda con la tabla y sugiere que el género no produce variaciones significativas en la distribución de los niveles de obesidad.

Algunas categorías presentan ligeras diferencias en la proporción de hombres y mujeres, particularmente en niveles intermedios como Obesidad Tipo I y Sobrepeso Nivel I, donde un género puede tener una representación algo mayor.

No se notan diferencias marcadas en los extremos de la clasificación (peso insuficiente y obesidad tipo III), lo que sugiere una distribución más o menos uniforme en esas categorías.

OBJETIVO 3: Frecuencia de actividad física (FAF) según nivel de obesidad

El propósito número tres es analizar la manera en que cambia la frecuencia de actividad física entre los distintos grados de obesidad. Esta variable es importante para el análisis ya que representa la frecuencia con la cual las personas realizan actividad física o ejercicio a la semana, lo que puede estar relacionado con comportamientos propios del estilo de vida.

Tabla 3. Resumen descriptivo de la actividad física (FAF) por nivel de obesidad
NObeyesdad n media mediana sd minimo maximo Q1 Q3 IQR CV
Insufficient_Weight 267 1.2735420 1.3746700 0.8471558 0 3 0.4990500 2.000000 1.500950 0.6651965
Normal_Weight 282 1.2517730 1.0000000 1.0213453 0 3 0.0000000 2.000000 2.000000 0.8159189
Obesity_Type_I 351 0.9867483 0.9906420 0.8946746 0 3 0.0170585 1.692517 1.675459 0.9066899
Obesity_Type_II 297 0.9718570 0.9944220 0.5812384 0 2 0.5826860 1.376217 0.793531 0.5980699
Obesity_Type_III 324 0.6648171 0.2226535 0.7328641 0 2 0.0000000 1.461248 1.461248 1.1023545
Overweight_Level_I 276 1.0596770 0.9958970 0.8729089 0 3 0.2572940 1.767369 1.510075 0.8237500
Overweight_Level_II 290 0.9580723 0.9607160 0.8247436 0 3 0.1210170 1.438672 1.317655 0.8608365

Las categorías con un índice de obesidad más elevado suelen tener medias y medianas de FAF inferiores, lo que indica que la actividad física es menos común en ellos si se los compara con las categorías de peso normal o insuficiente.

El IQR es bastante semejante entre categorías, lo que señala que la dispersión del ejercicio a nivel interno no varía significativamente entre los niveles de obesidad. Dicho de otra manera, a pesar de que cambien los valores centrales, la variabilidad en cada categoría se mantiene moderada.

Los valores mínimos y máximos indican que en todos los grados de obesidad hay personas que llevan a cabo muy poca actividad física (0) o bastante (≥ 2 o 3), lo cual demuestra que la conducta con respecto al ejercicio no es uniforme dentro de ningún conjunto y hay situaciones extremas en niveles altos y bajos de obesidad.

La tabla muestra que la actividad física va decreciendo de manera gradual en los niveles más elevados de obesidad, lo que se ve una tendencia evidente: las personas con un nivel de obesidad más bajo tienden a realizar actividad física con mayor regularidad. Las cajas se mueven hacia valores bajos en Obesidad Tipo II y III, osea que señala que la mayoría de las personas pertenecientes a estos grupos tiene niveles de actividad física (0-1) bajos.

La existencia de valores atípicos en casi todas las categorías muestra que hay personas con niveles de actividad física inusualmente altos o bajos, lo que implica que dentro de cada categoría de peso se dan comportamientos diversos.

OBJETIVO 4: Relación entre edad (Age) y actividad física semanal (FAF)

El cuarto objetivo busca describir cómo se distribuyen los niveles de obesidad según la frecuencia con la cual los individuos consumen comidas entre horas (CAEC). Este hábito alimenticio puede aportar información relevante sobre patrones de ingesta que acompañan distintos niveles de peso corporal.

Tabla 1. Estadísticos descriptivos de Edad (Age) y Actividad Física Semanal (FAF)
Valor
Media_Edad 24.3530898
SD_Edad 6.3688014
Min_Edad 14.0000000
Q1_Edad 19.9159375
Mediana_Edad 22.8476180
Q3_Edad 26.0000000
Max_Edad 61.0000000
CV_Edad 0.2615192
Media_FAF 1.0128119
SD_FAF 0.8534747
Min_FAF 0.0000000
Q1_FAF 0.1245050
Mediana_FAF 1.0000000
Q3_FAF 1.6781020
Max_FAF 3.0000000
CV_FAF 0.8426784

En los niveles de actividad física más bajos (FAF = 0 y 1), especialmente en el rango de edad de 14 a 25 años, se encuentra una mayor cantidad de personas jóvenes. Esto muestra que, a pesar de lo que se podría esperar, una cantidad considerable de los jóvenes no hace ejercicio frecuentemente, esto podría ser un factor de peligro temprano para el avance del sobrepeso.

Cuando la actividad física aumenta (FAF = 2 y 3), la distribución por edad tienden a moverse hacia edades adultas e intermedias, siendo destacables los niveles medios entre los 30 y los 40 años. Esto indica que los individuos con una cantidad moderada o alto de actividad física frecuentemente son, adultos que han tomado rutinas más conscientes o estables de cuidado corporal. La desviación estándar muestra que los grupos con más actividad física tienen una edad más dispersa, lo cual indica que el ejercicio regular se presenta en adultos jóvenes y mayores. Por otra parte, las edades más jóvenes tienen una mayor frecuencia de niveles bajos de actividad física.

Los grupos más jóvenes (de entre 14 y 20 años y de entre 21 y 30) tienen una mayor cantidad de valores bajos de FAF, sobre todo entre los valores de 0 y 1. Esto indica que, a estas edades, es más frecuente presentar niveles bajos de actividad física semanal. Esto podría causarse por rutinas menos organizadas o costumbres aún en desarrollo. La mediana de actividad física en los grupos de edad intermedia (41–50 y 31–40 años) suele ser un poco mayor, ubicándose cerca de niveles moderados (FAF = 2). Esto demuestra que en estas fases es más común incluir actividades rutinarias o seguir un régimen de ejercicio más constante.

Los conjuntos de mayor tamaño (51-60 y 60+) muestran una mayor dispersión de los valores de FAF, ya que incluyen personas con niveles bastante altos y otras con actividad muy baja. Esta variabilidad indica que el ejercicio en edades más avanzadas no se basa en una única orientación, sino que depende en gran parte de rasgos individuales como las preferencias personales, la salud o el estilo de vida.

OBJETIVO 5:Tiempo de uso de dispositivos electrónicos (TUE) según nivel de obesidad

El quinto objetivo explica las diferencias en la cantidad de tiempo al día que se dedica a utilizar dispositivos electrónicos (TUE), una medida vinculada con el sedentarismo, entre los diferentes grados de obesidad.

Tabla 5. Resumen descriptivo de TUE por nivel de obesidad
NObeyesdad n media mediana sd minimo maximo Q1 Q3 IQR CV
Insufficient_Weight 267 0.8476886 1.0000000 0.6370207 0 2 0.2081265 1.256096 1.047969 0.7514795
Normal_Weight 282 0.6773050 1.0000000 0.6896148 0 2 0.0000000 1.000000 1.000000 1.0181747
Obesity_Type_I 351 0.6767428 0.5376590 0.6878970 0 2 0.0000000 1.213140 1.213140 1.0164823
Obesity_Type_II 297 0.5151860 0.3436350 0.5638620 0 2 0.0000000 0.863740 0.863740 1.0944826
Obesity_Type_III 324 0.6046227 0.6568560 0.2818518 0 1 0.4130310 0.853701 0.440670 0.4661614
Overweight_Level_I 276 0.6440861 0.4109665 0.6801310 0 2 0.0000000 1.000000 1.000000 1.0559628
Overweight_Level_II 290 0.6972746 0.7542745 0.5884358 0 2 0.0000000 1.000000 1.000000 0.8439083

Los valores centrales del tiempo frente a pantallas pueden ser más altos en algunos niveles, según indican las medias y medianas de TUE, aunque la diferencia no es tan significativa.

Los valores de IQR son parecidos entre las distintas categorías, lo cual indica que la dispersión interna del tiempo frente a pantallas no cambia significativamente entre los diversos niveles. Esto concuerda con la desviación estándar, que también presenta una escasa variación entre los grupos. Los valores máximos y mínimos son prácticamente iguales en todas las categorías, lo que sugiere que los extremos de la utilización de pantallas (muy poco o mucho tiempo) se encuentran presentes en todos los grados de obesidad y no parecen ser exclusivos de una categoría específica.

Las medianas del tiempo de uso de pantallas no presentan variaciones significativas entre categorías, lo que va con la tabla y sugiere que este factor tiene un comportamiento similar en la mayor parte de los niveles de obesidad.

Las cajas presentan una dispersión moderada en todas las categorías, lo que concuerda con los valores del rango intercuartilico (IQR). Esto señala que la variabilidad del tiempo frente a las pantallas es similar dentro de cada grupo y no está claramente determinada por el grado de obesidad.

Los valores atípicos se encuentran en todas las categorías, lo que evidencia la existencia de personas con niveles de uso de pantallas muy altos o bajos, sin importar su grado de obesidad. Esto refuerza la idea de que el comportamiento en TUE es variado a lo largo de toda la muestra.

Gráfico Multivariado

Relación conjunta entre edad, actividad física (FAF) y nivel de obesidad

Edad → cuantitativa
FAF → cuantitativa
NObeyesdad → cualitativa

La curva suavizada refleja que en general, la actividad física (FAF) tiende a bajar cuando la edad aumenta. Esto indica que, en la muestra, los individuos de mayor edad suelen informar una frecuencia más baja de actividad física. Se nota que en los grupos con niveles más elevados de obesidad hay una mayor cantidad de puntos con valores bajos de FAF, lo que señala que la escasa actividad física es más frecuente en estos casos, aunque no es exclusiva. La presencia de todas las categorías de obesidad en casi todos los grupos etarios pone de manifiesto que la fluctuación del peso no se debe solamente a la edad o al nivel de actividad física, sino que intervienen otros elementos.

Pero el patrón combinado (edad - FAF -> mayor cantidad de puntos de obesidad) es visible detalladamente.

Conclusiones

Este análisis nos permitió examinar varias variables relacionadas con el grado de obesidad en una muestra poblacional, teniendo en cuenta factores como la actividad física, los hábitos alimentarios y el estilo de vida. Las siguientes conclusiones generales van de los cinco objetivos específicos establecidos:

  1. Existen diferencias en el consumo diario de agua entre las categorías de obesidad, aunque con superposiciones significativas. Aunque los niveles más bajos de obesidad suelen mostrar medianas de consumo de agua un poco más altas, la variabilidad dentro de cada grupo nos dice que este comportamiento por sí solo no es un indicador claro del peso corporal. La evidencia indica que podría funcionar como un factor adicional en el contexto de patrones de vida más extensos.
  2. La relación entre la obesidad y el género no muestra tendencias significativas. Las evaluaciones muestran que la repartición entre las diferentes categorías de obesidad es parecida para los dos géneros. A unque hay ciertas diferencias porcentuales menores en algunos grupos, estas no son lo suficientemente significativas como para inferir un impacto significativo del género sobre el estado nutricional. Esto nos dice que los cambios en el peso parecen estar más relacionados con costumbres personales que con las diferencias biológicas entre hombres y mujeres.
  3. La práctica regular de actividad física está relacionada con niveles más bajos de obesidad. Los resultados nos confirmaron que existe una tendencia bastante evidente en cuanto a la frecuencia semanal de actividad física, los grupos con peso normal tienen las medianas más elevadas de actividad, en tanto que los niveles más altos de obesidad agrupan valores.
  4. Existe una relación moderadamente positiva entre el tiempo diario que se pasa frente a las pantallas y el grado de obesidad. Los grupos con niveles de obesidad más altos tienen más tiempo de exposición a dispositivos electrónicos. A pesar de que en conjuntos de personas con peso normal hay cifras parecidas, la tendencia general indica que el sedentarismo vinculado al uso extendido de pantallas podría tener un efecto en cómo se acumula el peso. Sin embargo, la variabilidad interna de cada grupo muestra que este no es un factor independiente.

Referencias:

Gutiérrez-Álvarez, D., García-García, P., Hernández-Aguirre, A., & García-García, E. (2020). Estimation of obesity levels based on eating habits and physical condition [Data set]. UCI Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Estimation+of+obesity+levels+based+on+eating+habits+and+physical+condition