La obesidad es un problema de salud pública en Colombia que está afectando a más de la mitad de la población colombiana (56,4%) centrándose principalmente en los departamentos de Amazonas, Vichada, Guainía y Meta. De acuerdo con el Ministerio de Salud esto se debe a causas como la mala alimentación y el sedentarismo en los hogares. Para determinar los grupos poblacionales con mayor vulnerabilidad de padecer sobrepeso y obesidad en una región de Colombia se entrevistaron a 110 personas de diferentes géneros y edades entre 12-102 años teniendo en cuenta la distribución de la obesidad por edades, géneros, índice de masa corporal, altura y peso de cada individuo. Cabe aclarar que los datos presentes en esta investigación fueron tomados del sitio oficial de Kaggle y se les ha otorgado un contexto para su mejor interpretación.
Realizar un análisis estadístico descriptivo de los datos recolectados en una muestra acerca de la obesidad en una región de Colombia en el periodo de mayo del 2023.
El índice de masa corporal (IMC) es un método utilizado para estimar la cantidad de grasa corporal que tiene una persona, y determinar por tanto si el peso está dentro del rango normal, o por el contrario, se tiene sobrepeso o delgadez. Para ello, se pone en relación la estatura y el peso actual del individuo. Esta fórmula matemática fue ideada por el estadístico belga Adolphe Quetelet, por lo que también se conoce como índice de Quetelet o Body Mass Index (BMI). Se establece los siguientes rangos para determinar la categoría del IMC: Bajo peso<20, Sobrepeso >25 y <28.9, Peso normal 21-25, Obesidad >28.9.
Con la información recolectada de la muestra se procede a realizar su respectivo análisis descriptivo. Como es fundamental el cálculo de los indicadores de tendencia central y de dispersión, dado que estos nos brindan una idea de donde se concentran los valores y que tan dispersos o variables son los datos, se muestran a continuación dichos indicadores:
| VARIABLES | MEDIA | MEDIANA | DESVIACIÓN | VARIANZA | C.V |
|---|---|---|---|---|---|
| Edad | 46.55556 | 42.5 | 24.720620 | 611.1090 | 53.09918 |
| Altura | 166.57407 | 175.0 | 175.000000 | 776.9384 | 16.73347 |
| Peso | 59.49074 | 55.0 | 28.856233 | 832.6822 | 48.50542 |
| IMC | 20.54907 | 21.2 | 7.583818 | 57.5143 | 36.90589 |
Del contenido de la tabla se puede observar que el promedio de la población de la muestra, presentan características que se asocian con la etiqueta de peso normal, cabe aclarar, que la media es un indicador de tendencia central que se puede afectar fácilmente por la presencia de datos atípicos, esto lo podemos evidenciar con ayuda de la mediana, la cual es más precisa cuando se quiere buscar el centro de los datos.
Se evidencio que en la variable altura se presenta una mayor diferencia entre la media y la mediana lo que nos puede indicar que hay poca simetría en los datos, además si tenemos en cuenta su desviación estándar podemos decir que los datos se encuentran más dispersos con respecto a la media, lo que puede suponer la presencia de un sesgo. De nuestras variables analizadas se contempla por medio de las medidas de tendencia central y de dispersión que la variable que presenta una mayor simetría es el índice de masa corporal (IMC).
Para observar mejor el comportamiento de los datos de las variables Peso e IMC se realizó un diagrama de densidad de frecuencia logrando así visualizar la simetría o el tipo de asimetría presente en los datos.
| Variable | curtosis | C.Asimetría |
|---|---|---|
| Peso | 2.028601 | 0.1933355 |
| IMC | 2.599249 | -0.2799554 |
En ambos histogramas de densidad de frecuencias se presentaron sesgos de acuerdo al coeficiente de asimetría (ver tabla 2), en la Fig. 1 se da una sesgo positivo donde se aprecia que la mayoría de las personas pesan entre 30-80 kg y muy pocas tienen un peso mayor a 80 kg, además, respecto al índice de masa corporal de la muestra (Ver Fig.2) se evidencia un sesgo leve que es negativo, indicando que la mayoría de las personas tienen un IMC de 21.2 que se asocia a un Peso normal, con una menor concentración en IMC menores a 21.2. Las distribuciones tienen una curtosis menor a 3 indicando una distribución platicurtica donde los datos están menos concentrados alrededor de la media y se distribuyen a lo largo del rango, es decir dándose mayor dispersión entre los datos. Además, el grafico de IMC presenta un comportamiento más simétrico que el peso, ya que, el valor de la curtosis es 2.5 estando más cercano a 3, lo cual muestra concordancia con el comportamiento del análisis de tendencia central.
El gráfico de barras proporciona una representación visual de la frecuencia del género de los participantes en el estudio sobre la obesidad. En este gráfico, los participantes se dividen en dos categorías principales según la muestra: “male” (hombres) y “fémale” (mujeres). De este grafico cabe resaltar que se obtuvieron con mayor frecuencia datos provenientes de hombres, del mismo modo se realizó el estudio de la frecuencia de las etiquetas que se asignaron para la clasificación respecto al peso, IMC, edad y altura de las personas en estudio y del grafico (ver Fig.4) se puede decir que la mayor parte de las personas se categorizan como de peso bajo y no se presenta con tanta frecuencia un caso de obesidad en la muestra recolectada. Cabe aclarar que el hecho de que se clasifiquen con mayor frecuencia los individuos con la etiqueta de peso bajo (Underweight) puede generar cierta discrepancia en los análisis hechos anteriormente, sin embargo, se debe tener en cuenta que el análisis previo fue realizado bajo el criterio de las características del promedio y de la mediana.
Para complementar este análisis descriptivo se elaboró un diagrama de cajas y alambres para nuestras variables en estudio, con el fin de conocer la dispersión de los datos con respecto al mayor y menor valor. De estos diagramas se observa que el índice de masa corporal (IMC) presenta una mayor simetría a comparación de la altura, edad y el peso, las cuales por medio del grafico se puede decir que si presentan sesgo debido a la distancia de la mediana a los cuartiles de los extremos (Q1 y Q2).
Finalmente, se realizó diferentes diagramas de dispersión para así analizar la relación entre dos variables cuantitativas, para ello se elaboró los gráficos entre la Edad-Peso, Peso-Altura y el Peso-IMC (Índice de Masa Corporal):
| Cruce | C.Pearson |
|---|---|
| peso-edad | 0.4651065 |
| peso-altura | 0.4288899 |
| peso-IMC | 0.9728293 |
De acuerdo a los gráficos y el valor de r (Coeficiente de correlación lineal de Pearson) se establece que los dos primeros gráficos donde se relaciona Edad-Peso y Peso-Altura las variables presenta una correlación positiva leve, ya que, el valor de r está por debajo de 0.5, por ello en los gráficos se observa una gran dispersión entre los datos sin presentar una tendencia lineal lo que indica que el peso depende débilmente de la edad y de la altura en cambio en el último gráfico del Peso y IMC están correlacionadas de forma positiva e intensas porque su r = 0.97, permitiendo determinar que IMC depende fuertemente del peso.
De los datos recolectados en el estudio se quiso analizar un poco más a detalle algunas cantidades de peso que en relación con el IMC presentan mayor tendencia a padecer obesidad, a continuación, se presenta la distribución de probabilidad de dichas cantidades.
| x | probabilidad |
|---|---|
| 50 | 0.054 |
| 55 | 0.072 |
| 65 | 0.765 |
| 75 | 0.081 |
| 90 | 0.028 |
Calcule la probabilidad de que:
Cuando mucho las personas que pesan 55 tiendan a padecer obesidad.
Que las personas que pesan entre 65 y 90 tiendan a padecer obesidad.
Solución:
La probabilidad de que cuando mucho las personas que pesan 55 tiendan a padecer obesidad es de:
## [1] 0.126
La probabilidad de que las personas que pesan entre 65 y 90 tiendan a padecer obesidad es de:
## [1] 0.874
De acuerdo a los datos recolectados del estudio de obesidad se supone que el 20% de las personas tienen una edad de 42 años. Si del estudio se seleccionan 60 personas al azar, encuentre las siguientes probabilidades:
Que más de 10 personas tengan 42 años.
Que exactamente 2 personas tengan 42 años.
Que la mitad de las personas seleccionadas tengan 42 años.
Solución:
La probabilidad de que mas de 10 personas tengan 42 años es de:
## [1] 0.6765967
La probabilidad de que exactamente 2 personas tengan 42 años es de:
## [1] 0.0001695323
La probabilidad de que la mitad de las personas seleccionadas tengan 42 años es de:
## [1] 1.572006e-07
Se realizaron dos pruebas de hipótesis para establecer el peso promedio y la etiqueta (IMC) que clasifica a la mayoría de las personas del estudio de acuerdo a los datos obtenidos, empleando el método estadístico y el valor p para el análisis.
Para verificar que el peso promedio de la muestra era superior a 70kg se hizo una prueba de hipótesis con un nivel de confianza de 99%, se sabe que el promedio de las personas pesa 59.491kg y se tiene una desviación estándar de 28.86kg. Utilizando el método estadístico de Zc.
Ho:µx=70
H1:µx>70
Método I
## n: 110 x: 59.491 s: 28.86 Mx: 70
## Zc: -3.819103
## Zexp: 0.02132805
## Zc>Zexp se rechaza Ho: FALSE ,No se rechaza Ho
Método II
## Valor P(Z>Zc): 0.9858714
## P≤α Se rechaza Ho: FALSE ,No se rechaza Ho
Se puede concluir que hay suficiente evidencia estadística con un nivel de significancia del 0.01 de que el peso de las personas es menor a 70kg.
Además, para comprobar si la mayoría de las personas se clasificaban en la etiqueta de bajo peso con un IMC menor a 20, se realizó una prueba de hipótesis teniendo en cuenta una media de 20.55kg con una desviación estándar de 7.58 realizando los cálculos con un nivel de confianza de 95%. Se empleo el método estadístico de Zc.
Ho:µx=20
H1:µx<20
Método I
## n: 110 x: 20.55 s: 7.58 Mx: 20
## Zc: 0.7610091
## Zexp: 0.9787427
## Zc<Zexp se rechaza Ho: TRUE , Se rechaza Ho
Método II
## Valor P(Z<Zc): 0.004518057
## P≤α Se rechaza Ho: TRUE , Se rechaza Ho
Se puede concluir que se cuenta con suficiente evidencia estadística para establecer que la mayoría de las personas se encuentran en la etiqueta de bajo peso con una significancia de 0.05.
Intervalos de confianza, con sus límites inferiores y superiores. Calculado al 95%.
## Intervalo de Confianza para Peso: [53.99, 65]
## Intervalo de Confianza para Altura: [161.26, 171.89]
## Intervalo de Confianza para IMC: [19.1, 22]
## Intervalo de Confianza para Edad: [41.84, 51.27]
Peso: El intervalo de confianza para el peso oscila entre aproximadamente 53.99 kg y 65 kg. Esto significa que, con un nivel de confianza del 95%, podemos estar razonablemente seguros de que el peso promedio de la población se encuentra dentro de este rango.
Altura: Para la altura, el intervalo de confianza abarca desde alrededor de 161.26 cm hasta 171.89 cm. Esto sugiere que, con un 95% de confianza, la altura promedio de la población podría caer dentro de este intervalo.
IMC (Índice de Masa Corporal): El intervalo de confianza para el IMC va desde aproximadamente 19.1 hasta 22. Este rango nos indica, con un 95% de certeza, dónde es probable que se encuentre el IMC promedio de la población.
Edad: Para la edad, el intervalo de confianza abarca desde alrededor de 41.84 años hasta 51.27 años. Con un nivel de confianza del 95%, podemos inferir que la edad promedio de la población se encuentra dentro de este intervalo.
-Ejercicio 1: Con base en la base de datos sobre obesidad, se te pide realizar un análisis de intervalo de confianza para determinar la proporción de personas que pesan exactamente 85 kg y tienen sobrepeso en la población.
Datos de referencia:
Tamaño de la muestra (submuestra): n personas. Peso objetivo: 85 kg. Categoría de interés: Sobrepeso. Realiza el cálculo del intervalo de confianza con un nivel del 95% y presenta tu conclusión. Asegúrate de considerar la posible variabilidad en la proporción y utiliza las fórmulas y conceptos pertinentes de estadística inferencial.
Solucion
## Intervalo de Confianza para personas que pesan 85 kg y tienen sobrepeso: 26.02 a 27.23
El resultado del intervalo de confianza para personas que pesan 85 kg y tienen sobrepeso es el siguiente: 26.02 a 27.23.
Esto significa que, con un nivel de confianza del 95%, podemos estar razonablemente seguros de que la verdadera proporción de personas en la población que pesan 85 kg y tienen sobrepeso se encuentra en el intervalo del 26.02% al 27.23%.
-Ejercicio 2: El objetivo es realizar una estimación de la proporción de personas con sobrepeso en dos categorías específicas: hombres y mujeres. Se te pide que sigas los siguientes pasos:
Filtra los datos para identificar a los hombres y mujeres con sobrepeso.
Calcula el intervalo de confianza para la proporción de hombres con sobrepeso con un nivel de confianza del 95%.
Calcula el intervalo de confianza para la proporción de mujeres con sobrepeso con un nivel de confianza del 95%.
Presenta los resultados de manera clara y concisa, incluyendo la interpretación de los intervalos de confianza.
Solucion:
## Intervalo de Confianza para la Proporción de Hombres con Sobrepeso: 6.13% 18.97%
## Intervalo de Confianza para la Proporción de Mujeres con Sobrepeso: 3.49% 14.51%
Intervalo de Confianza para la Proporción de Hombres con Sobrepeso (6.13% - 18.97%): Esto significa que, con un nivel de confianza del 95%, estimamos que la proporción de hombres con sobrepeso en la población podría estar en cualquier lugar entre el 6.13% y el 18.97%. Es decir, nuestra estimación puntual es el valor medio de este rango, pero existe cierta incertidumbre alrededor de esta estimación.
Intervalo de Confianza para la Proporción de Mujeres con Sobrepeso (3.49% - 14.51%): De manera similar, con un nivel de confianza del 95%, estimamos que la proporción de mujeres con sobrepeso en la población podría estar en cualquier lugar entre el 3.49% y el 14.51%.
Se puede concluir que la mayoría de las personas entrevistadas en una región de Colombia pertenecen al género masculino y se caracterizan por ser de bajo peso o de peso normal, dado que, los valores de IMC presentan una mayor tendencia en el valor de 21.1 presentando gran variabilidad en los datos de peso, edad y altura. Además, se puede apreciar que se requiere realizar la implementación de diferentes indicadores y herramientas para un buen análisis descriptivo, debido a que un solo indicador no muestra con gran exactitud lo que nos dicen los datos.
para terminar, se hace énfasis en que, para una acertada toma de decisiones, a partir de los datos obtenidos en la muestra es esencial acudir a la estadística inferencial, debido a que podemos implementar medidas que ayuden a la reducción de los problemas de obesidad en dicha población, sin embargo, es recomendable no descuidar los problemas de desnutrición, dado que, la mayoría de personas de esta muestra se caracterizan por ser de bajo peso.
Cadena, E. (2021, March 4). Obesidad, un factor de riesgo en el covid-19. Ministerio de Salud y Protección Social. Retrieved September 3, 2023, from https://www.minsalud.gov.co/Paginas/Obesidad-un-factor-de-riesgo-en-el-covid-19.as px
SUJITH K MANDALA. (2023, Mayo 10). Obesity Classification Dataset. Kaggle. Retrieved September 3, 2023, from https://www.kaggle.com/datasets/sujithmandala/obesity-classification-dataset