OBESIDAD

Introducción

La obesidad se ha consolidado como uno de los principales problemas de salud pública en el mundo contemporáneo. Esta condición, caracterizada por una acumulación excesiva de grasa corporal, no solo incrementa el riesgo de padecer enfermedades crónicas como diabetes tipo 2, hipertensión y enfermedades cardiovasculares, sino que también representa una carga económica considerable para los sistemas de salud y una disminución de la calidad de vida de las personas afectadas. Según información de la Organización Mundial de la Salud (OMS), la prevalencia de obesidad ha aumentado de forma sostenida en las últimas décadas, alcanzando proporciones alarmantes tanto en países desarrollados como en vías de desarrollo.

El presente trabajo tiene como propósito analizar los factores que podrían estar relacionados con el número de muertes atribuidas a la obesidad en diferentes países. Para ello, se recopilaron datos correspondientes al año 2014, centrados en variables de tipo cuantitativo y categórico.

Se construirá un modelo de regresión lineal múltiple con el fin de identificar la relación entre la variable dependiente (Muertes por obesidad) y las variables independientes seleccionadas. Este enfoque para el modelo permitirá cuantificar el efecto de cada variable sobre el problema, ademas de ofrecer un panorama crítico sobre los elementos que más inciden en la mortalidad relacionada con la obesidad, partiendo desde un punto donde se espera que las variables seleccionadas tengan un efecto sobre la variable estudiada.

Metodología

Descripción variables

En esta investigación se analiza la variable dependiente (Muertes por obesidad) y su relación con tres variables cuantitativas y dos categóricas. A continuación se describen las variables:

Variable dependiente (Y)

- Muertes por obesidad (Muertes_obesidad): Número de muertes atribuidas directamente a la obesidad en cada país, reportadas en 2014. Es la variable que se busca explicar o predecir con base en otras características asociadas al estilo de vida, comportamiento poblacional y condiciones individuales. Se escogió esta variable como la Y dependiente dado que las muertes por obesidad reflejan de forma clara la gravedad del problema, permitiendo analizar cómo diferentes factores contribuyen a un desenlace crítico en los individuos de la población.

Variables Cuantitativas

- Ingesta calórica diaria por persona (Calorias_diarias): Promedio diario de calorías consumidas por individuo. Se utiliza como aproximación al nivel de alimentación de la población. Se espera que un mayor consumo calórico pueda estar relacionado con una mayor prevalencia de obesidad.

- Porcentaje de adultos con obesidad (Adultos_obesidad): Proporción de personas mayores de edad con IMC superior a 30. Esta variable refleja directamente la magnitud del problema de obesidad en cada país en gran parte de su población.

- Porcentaje con actividad física insuficiente (Muertes_act_fisica): Población con niveles de actividad física por debajo de las recomendaciones mínimas. Esta variable se considera porque la falta de ejercicio es uno de los factores que contribuye tanto al desarrollo de obesidad como a enfermedades asociadas.

Variables Categóricas

- Predominio obesidad por género (Predominio_obesidad): Categoriza los países según si la obesidad es más prevalente en hombres “H” o en mujeres “M”, permitiendo analizar posibles patrones de diferencia o tendencias respecto a ambos géneros.

- Grupo etario predominante (Grupo_etario): Clasifica los países según si el mayor número de muertes ocurre en personas mayores de 70 años o en población en edad productiva (15-69 años). Los nombres de las categorías van a ser “Mayor” y “Productivo” respectivamente. Esta variable ayuda a entender qué grupo está siendo más afectado y si existen patrones por etapa de vida.

Base de datos

A continuación se presenta la base de datos final utilizada para el análisis. Esta fue construida recopilando información de múltiples fuentes de datos relacionadas con la temática central, incluyendo las variables cuantitativas y categóricas ya mencionadas. La tabla muestra los registros organizados y filtrados en el año de estudio, los cuales se usaron posteriormente para desarrollar el análisis.

Modelo lineal

Para el análisis se utilizó un modelo de regresión lineal múltiple, el cual permite explorar la relación entre una variable dependiente (Muertes por obesidad), y un conjunto de variables independientes tanto cuantitativas como categóricas. La fórmula de la regresión lineal múltiple tiene la siguiente forma: \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \varepsilon \]

  • La Y representa la variable dependiente del modelo.

  • B0 es el intercepto del modelo.

  • Desde B1 hasta Bn se hace referencia a los coeficientes de regresión que indican el efecto de cada variable independiente (Predictores) sobre la Y.

  • Desde X1 hasta Xn se hace referencia a las variables independientes que se utilizan en el modelo.

  • En el modelo se pueden incluir variables categóricas a través de variables Dummy. Sus coeficientes muestran cómo cambia la variable dependiente al pertenecer a una categoría en comparación con la categoría base.

  • ε representa el término de error.

Resultados Descriptivos

En esta sección se presentan los resultados descriptivos de las variables utilizadas en el estudio. Inicialmente, se incluyen las tablas con los principales estadísticos descriptivos, tanto para las variables cuantitativas como para las categóricas. Además, se incluyen gráficos exploratorios que facilitan la visualización de los datos junto con un análisis interpretativo que permita extraer hallazgos relevantes y establecer conexiones con los resultados del modelo que se va a desarrollar.

Estadísticos descriptivos de las variables cuantitativas

A continuación, se presentan los estadísticos descriptivos de las variables cuantitativas incluidas en la base de datos, además de la variable dependiente del estudio. Entre los factores analizados en esta sección se encuentran las muertes por obesidad, las calorías diarias ingeridas, el porcentaje de adultos con obesidad y las muertes asociadas a la falta de actividad física.

En primera instancia, analizando la variable dependiente del estudio (Muertes_Obesidad), se tiene que en promedio los países presentaron aproximadamente 68,381 muertes por obesidad en el año 2014, dato que se puede contrastar con la mediana, dandonos a entender que la distribución tiene una forma asimétrica a la derecha, es decir, pocos países tienen valores extremadamente altos que elevan el promedio. Esto se da porque la mediana es significativamente menor que la media. La mayoria de países reportan cifras relativamente bajas. De igual manera, una dispersión tan amplia indica que los datos están muy dispersos respecto a la media, traduciendose en una existencia de diferencias marcadas entre los países en cuando al número de muertes. El rango en el que se encuentra el número de muertes de los países de la muestra indica que algunos países tienen cifras mínimas (poco más de 1,000 muertes), mientras que otros llegan a cifras muy elevadas. Lo anterior se puede deber a diferentes factores, ya sea la locación geografica, el número total de habitantes por país, cantidad de recursos destinadas al área de salud (en especial a tratar temas relacionados a la obesidad), entre otros más.

Por otro lado, sumergiendose en las variables independientes del estudio, puntualmente en (Calorias_diarias), se observa una cercanía entre la media y la mediana, lo cual sugiere que la distribución del consumo calórico es aproximadamente simétrica. En otras palabras, los países tienden a tener una ingesta similar sin una diferencia abismal entre los registros; no hay valores extremos que incluyan fuertemente en la media. Por otra parte, la dispersión en este caso es moderada, indicando diferencias en la ingesta calórica, pero sin las grandes disrupciones que se pudieron observar en las muertes por obesidad. Gracias al rango de los valores, se puede intuir que los países varían en el consumo calórico, lo que podría reflejar diferencias en los hábitos culturales o en las condiciones económicas, pero en todo momento dentro de un rango razonable.

De igual manera se tiene la variable correspondiente al porcentaje de adultos con un IMC mayor o igual a 30 *(Adultos_obesidad). Los calores de tendencia central indican que, en promedio, entre el 18% y 19% de la población adulta se clasifica como obesa. La mediana se encuentra ligeramente por encima de la media, sugiriendo un sesgo leve, posiblemente debido a la existencia de algunos países con tasas muy bajas. La variabilidad es considerable, indicando que existe una amplia gama de prevalencias de obesidad entre los países, desde niveles muy bajos hasta cifras elevadas. Lo anterior se puede justificar gracias a la amplitud del rango, el cual sugiere diferencias sustanciales en la prevalencia de la obesidad, siendo probablemente causado por variaciones en el estilo de vida o factores socioeconómicos.

Finalmente, adentrandose en el apartado de muertes relacionadas por falta de actividad fisica (Muertes_act_fisica), la gran diferencia entre la media y la mediana confirma la presencia de una fuerte asimetría positiva. Esto indica que, si bien muchos países reportan cifras relativamente bajas, unos pocos con valores extremadamente algos elevan la media. Asimismo, una dispersión extremadamente alta evidencia diferencias enormes en la cantidad de muertes atribuidas a la inactividad física, lo que puede estar relacionado no solo con la inactividad por persona, sino también con ell tamaño de la población y otras condiciones que dependen del contexto y entorno. El rango de valores en el que se encuentran los registros confirma la presencia de valores extremos. Algunos países tienen cifras muy bajas, mientras que otros alcanzan casi el millón de muertes, lo cual resalta la alta variabilidad en los datos y la necesidad de un análisis más enfocado.

Diagramas de dispersión

En este apartado se presentarán diagramas de dispersión para examinar visualmente la posible relación entre la variable dependiente (muertes por obesidad) y las independientes continuas (como calorías diarias, porcentaje de adultos con obesidad y muertes por inactividad física).

Diagrama respecto al promedio de calorías diarias ingerídas

Como se puede apreciar en el grafico, no existe una relacion clara entre la variable de ingesta calórica diaria y la variable dependiente a pesar de que en principio se esperaria una correlación directa entre ambas variables. La mayoría de países se agrupan entre 2200 y 3400 calorías diarias, pero dentro de ese rango se observa una amplia variabilidad en el número de muertes, lo que indica que el consumo calórico no es el único factor asociado a la mortalidad por obesidad. Se puede decir que la variable correspondiente al número de calorías ingeridas no parece tener por si sola una influencia significativa sobre las muertes por obesidad. La variabilidad de los valores y algunos puntos extremos no permiten explicar individualmente el nivel de mortalidad por obesidad a través de esta variable.

Diagrama respecto al número de muertes por baja actividad física

Este diagrama relaciona ambos factores de mortalidad en busca de una relación que explique el comportamiento de la variable dependiente. Se puede llegar a pensar que una baja actividad física incrementaria las muertes por obesidad, sin embargo, la mayoría de los países con altos nuveles de muertes por obesidad presentan bajas cifras de muertes por inactividad física. Esto sugiere que la mortalidad por obesidad no siempre está directamente relacionada con la falta de ejercicio, tambien otros factores entran a jugar, como por ejemplo la alimentación, el acceso a servicios médicos o factores externos que relacionan directamente ambas variables.

Diagrama respecto al índice de masa corporal en adultos

Basandose en el gráfico, se puede intuir que no existe una relacion clara ni directa entre las muertes por obesidad y el IMC promedio en los adultos. A pesar de que existen valores altos de IMC, no se refleja un aumento lineal en las muertes, lo cual nos demuestra que esta variable podría no ser muy significativa para explicar la variable de muertes por obesidad. Dado que no tiene un comportamiento lineal el gráfico, no se puede decir que existe una relacion de incremento o disminución entre ambas variables, por ende, no llega a explicar el comportamiento de las muertes por obesidad conforme varia el IMC, demostrando que existen otros factores que incluyen en el comportamiento de la Y.

Histogramas

Los histogramas se presentan para ilustrar la distribución de frecuencias de las variables cuantitativas. A través de estos gráficos se podrá determinar la forma de la distribución de las variables.

Número de muertes por obesidad

El siguiente gráfico corresponde a un histograma de la variable dependiente del estudio (Número de muertes por obesidad). Este va a ser útil para poder observar la distribución general de la variable que se esta tratando de explicar.

El histograma muestra una distribución altamente sesgada e inclinada hacia la izquierda (tiene un sesgo positivo), indicando que la mayoría de los países registran menos de 50,000 muertes anuales por obesidad. A medida que aumenta el número de muertes, la frecuencia cae drásticamente, mostrando que pocos países superan las 200,000 o incluso 500,000 muertes, siendo casos excepcionales. La asimetría evidenciada sugiere la presencia de valores atípicos, los cuales son posiblemente países con poblaciones mucho más grandes.

Ingesta calórica diaria

La distribución se encuentra centrada entre 2500 y 3000 calorías. Ademas, la mayoría de los paises consumen (en promedio) entre 2200 y 3300 calorías por día, catalogandose como una ingesta calórica entre normal-alta y alta según información propuesta por la OMS.

Promedio del IMC en adultos

El gráfico muestra que la mayoria de los países observados tienen un IMC promedio que oscila entre 20 y 30. La distribución muestra una asimetría a la derecha con algunos valores extremos que se encuentran por encima de los 40 puntos de IMC promedio, lo cual es inusualmente alto. Lo anterior sugiere que la mayoría de los países tienen un IMC promedio dentro de los rangos considerados “normales” o “sobrepeso moderado” según la OMS, pero hay algunos casos atípicos con valores muy altos que pueden influir en la media general. Además, se puede observar la existencia de algunos valores muy bajos (un IMC < 10), lo cual podría traducirse en poblaciones con grandes cantidades de individuos en estado de extrema desnutrición.

Muertes por falta de actividad física

La figura muestra una distribución sesgada a la derecha, esto significa que la mayoría de las observaciones están concentradas en valores bajos (menos de 100,000 muertes), mientras que pocos países tienen números extremadamente altos de muertes por inactividad. A medida que aumentan las muertes, la frecuencia cae notoriamente. Esto indica que la situación crítica de muchas muertes por inactividad es un problema muy enfocado en unos pocos lugares, no es un problema generalizado.

Diagramas de caja

En esta sección se presentaran los diagramas de caja que permiten analizar la distribución y la dispersión de las variables cuantitativas incluidas en el estudio. Se utilizarán para identificar asimetrías, valores atípicos y rango de cuartiles.

El gráfico revela una diferencia drástica respecto al predominio por género en los países. Aproximadamente el 87% de los países muestran un predonomio de obesidad en mujeres, mientras que solo el 13% presenta mayor obesidad en hombres. Aparte de ser estadísticamente llamativo, esta diferencia posee implicaciones más alla de los números. Este patrón puede estar influenciado por diferentes factores, como temas hormonales, condiciones metabólicas, diferencias sociales o culturales, entre otros aspectos que pueden explicar este resultado.

Desde una perspectiva analítica, este resultado plantea la hipótesis de que ser mujer representa un mayor riesgo de desarollar obesidad en la mayor parte de los países analizados. Esta hipótesis podría desarrollarse de una mejor manera mediante modelos donde se incluyan por ejemplo el nivel de ingreso, la región geografica a la que se pertenece, o el acceso al sistema de salud local.

Estadísticos descriptivos de las variables categóricas

De igual manera, se presentan los estadísticos descriptivos de las variables categóricas incluidas en la base de datos, las cuales permiten segmentar y analizar los patrones en las muertes por obesidad desde una perspectiva cualitativa. En esta sección se consideran dos dimensiones: el grupo etario predominante en los fallecimientos (mayores de 70 años o población en edad productiva) y el predominio de género (si las muertes por obesidad se concentran más en hombres o en mujeres).

Predominio de obesidad por género

Como se puede observar en la tabla, existe una desproporción visible entre los géneros. En la muestra tomada, el problema de obesidad afecta en mayor medida a las mujeres. Esto podría estar reflejando desigualdades en factores socioculturales como los roles de género, acceso desigual a programas de salud, o diferencias en los patrones alimentarios y actividad física entre hombres y mujeres. A su vez, esto tambien se puede explicar basandose en factores biológicos y hormonales para el sexo femenino, ademas de temas emocionales y estrés crónico.

Diagrama de pastel

A continuación se presenta un gráfico de pastel que permite ilustrar la distribución del predominio de la obesidad por género en los países incluidos en el estudio. Los resultados nos permiten identificar si la obesidad tiende a afectar más a uno y otro género.

Distribución del predominio de obesidad por género

Grupo etario predominante en muertes por obesidad

Los resultados demuestran que las muertes por obesidad no están concentradas en los adultos mayores como muchas veces se supone por temas de inactividad física, sino que afectan sobre todo a la población en edad laboral o productiva. Esto se puede deber a un estilo de vida moderna sedentaria, donde el grupo productivo suele pasar largos periodos de tiempo sentado frente a pantallas y dispositivos electronicos, ya sea en oficina o por simple entretenimiento. El factor de tiempo es muy decisivo al momento de explicar los resultados, por ejemplo, al tener menos tiempo disponible para ejercitarse, al no tener la disponibilidad de cocinar comida saludable aumentando el consumo de comida rapida, al postergar chequeos médicos desencadenando diagnósticos tardíos, entre otros. De igual manera, este grupo está sometido a presión laboral, mayor ansiedad, rapido estilo de vida y labores multitareas, favoreciendo hábitos como comer a deshoras o de forma emocional.

Diagramas de caja

Muertes por obesidad según grupo etario

Aunque los adultos mayores presentan, en promedio, un mayor número de muertes por obesidad, en el grupo etario productivo hay una mayor dispersión de casos, con cifras que en algunos lugares resultan bastante altas. En conclusión, las muertes por obesidad no son tan comunes entre personas jóvenes, pero cuando ocurren, en ciertos países pueden alcanzar niveles muy elevados.

Resultados del Modelo

Se implementó un modelo de regresión lineal múltiple con el objetivo de identificar los factores que explican la variación en el número de muertes por obesidad entre distintos países. El análisis incluye variables cuantitativas como el consumo calórico diario, el porcentaje de adultos con obesidad y las muertes por inactividad física, así como variables categóricas relacionadas con el grupo etario predominante y el género con mayor prevalencia de obesidad. A continuación, se presentan los resultados obtenidos y su respectiva interpretación.

Gráfico de correlación de las variables

Antes de ajustar el modelo, se exploró la relación entre las variables mediante un gráfico de correlación. Esta visualización permite identificar posibles asociaciones lineales entre las variables cuantitativas incluidas en el análisis. Además, ayuda a detectar colinealidades que podrían afectar la interpretación del modelo y aporta una visión general sobre cómo se relacionan entre sí los distintos factores considerados.

Para comprender mejor la relación entre las variables de nuestro estudio, se construyó una matriz de correlación que analiza la fuerza y dirección de las asociaciones entre los seis factores, La escala de correlación va desde -1 hasta 1. Un valor cercano a 1 (color rojo) indica una correlación positiva fuerte, es decir, que a medida que una variable aumenta, la otra también tiende a aumentar. Un valor cercano a -1 (color azul) indica una correlación negativa fuerte, lo que significa que al aumentar una variable, la otra tiende a disminuir. Por su parte, valores cercanos a 0 indican que no hay una relación clara entre las variables.

En nuestro caso, la correlación más significativa es de 0.66 entre el consumo diario de calorías y el porcentaje de adultos con obesidad, lo cual sugiere que en los países donde las personas consumen más calorías al día, también tiende a haber un mayor porcentaje de adultos con obesidad. Esta es una relación lógica, ya que una ingesta calórica elevada, sin un gasto energético equivalente, puede llevar al aumento de peso y eventualmente a la obesidad. Por otro lado, hay una relación negativa moderada entre el predominio de obesidad y las calorías diarias consumidas (r = -0.41). Esto quiere decir que en países donde hay más obesidad en uno de los géneros (hombres o mujeres), en promedio se consumen menos calorías al día, y viceversa, en países donde se consumen más calorías al día, la obesidad tiende a estar más equilibrada entre hombres y mujeres, sin predominar en uno solo. Esto puede pasar porque no solo importa cuántas calorías se consumen, sino también la calidad de los alimentos, la actividad física y el estilo de vida.

Las demás correlaciones son débiles o casi nulas en algunos casos, lo cual indica que no haya una relación lineal fuerte entre esas variables, lo que evidencia la complejidad del problema de la obesidad a nivel global y refuerza la necesidad de un enfoque integral para abordar este problema de salud pública.

Gráficas de las rectas de regresión respecto a la variable dependiente

Muertes_obesidad respecto a Calorias_diarias

Muertes_obesidad respecto a Adultos_obesidad

Muertes_obesidad respecto a Muertes_act_fisica

Muertes_obesidad respecto a Predominio_obesidad

Muertes_obesidad respecto a Grupo_etario

Interpretación de coeficientes

Intercepto: Tiene relación (p = 0.01312). Si suponemos que todas las variables son 0, la variable de muertes por obesidad tiene una fuerte relación con las demás, logrando un valor beta = 290.24708. Sin embargo, este es un caso imposible en la vida real, debido a que ciertas variables no pueden ser 0. De ejemplo tenemos el índice de masa corporal y el promedio de calorías por país.

Calorias_diarias: No se observa una relación estadísticamente significativa entre el consumo calórico diario y las muertes por obesidad (p = 0.07284), aunque la asociación es débilmente negativa. Según el coeficiente estimado, por cada caloría adicional consumida diariamente en promedio, las muertes por obesidad disminuirían en aproximadamente 0.067 unidades, manteniendo constantes las demás variables. Esta relación podría explicarse por el hecho de que los países con mayor consumo calórico tienden a tener mejores condiciones de vida, acceso a servicios de salud y una alimentación más equilibrada, lo cual podría atenuar los efectos negativos del sobrepeso. Además, un mayor consumo calórico no implica necesariamente una dieta de mala calidad, ya que puede estar compuesto por alimentos nutritivos y variados que no contribuyen directamente a un aumento de la mortalidad por obesidad.

Adultos_obesidad: No se evidencia una relación significativa entre el porcentaje de adultos con obesidad y las muertes por obesidad (p = 0.23441). Esto podría deberse a que la mayoría de los países analizados se agrupan en torno a valores promedio, lo que podría ocultar la influencia de casos extremos en donde sí se podría observar una relación relevante. Además, es posible que otras variables tengan un peso mucho mayor en la explicación de la mortalidad por obesidad. Aun así, según el coeficiente estimado, por cada punto porcentual adicional en la proporción de adultos con obesidad, las muertes por esta causa aumentarían en promedio en 2 unidades, manteniendo constantes las demás variables.

Muertes_act_fisica: Esta variable muestra una relación significativa fuerte con las muertes por obesidad (p = 0.00674), siendo la más relevante entre las seleccionadas en el modelo. Sin embargo, el coeficiente negativo indica que, por cada muerte adicional atribuida a la falta de actividad física, las muertes por obesidad disminuyen en promedio en 0.123 unidades, manteniendo constantes las demás variables. Este resultado puede parecer contradictorio, pero podría explicarse por diferentes factores.

Predominio_obesidad: No se encuentra una relación significativa (p = 0.82152) entre el predominio de obesidad por género y las muertes por obesidad. Aunque el modelo estima que, en promedio, los países donde el predominio de la obesidad se da en mujeres presentan 8.68 muertes más por obesidad que aquellos donde predomina en hombres, esta diferencia no es significativa. Por tanto, se concluye que esta variable no aporta de manera relevante al modelo.

Grupo_etario: No se evidencia una relación significativa o es muy débil (p = 0.05876). Según el modelo, en los países donde el grupo etario con mayor prevalencia de obesidad corresponde a la población productiva, se presentan en promedio 59 muertes menos por obesidad, en comparación con aquellos donde predominan los adultos mayores. Sin embargo, esta diferencia no es significativa, por lo que no puede afirmarse con certeza que exista un efecto real en la población.

Tabla de valores P

Supuestos

Normalidad de los residuos

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.6, p-value < 2.2e-16

Uno de los supuestos fundamentales en la regresión lineal es que los residuos del modelo se distribuyan normalmente. Para verificar este supuesto, se aplicó la prueba de normalidad de Shapiro-Wilk test, la cual permite evaluar si los residuos presentan una distribución normal. Esta prueba plantea dos hipótesis: La hipótesis nula (H₀) establece que los residuos sí siguen una distribución normal. La hipótesis alternativa (H₁) plantea que los residuos no se distribuyen normalmente. Entonces el criterio dice: si el valor-p de la prueba es mayor a 0.05, no se rechaza la hipótesis nula, lo cual indica que los residuos podrían ser normales. Por el contrario, si el valor-p es menor a 0.05, se rechaza H₀ y se concluye que los residuos no siguen una distribución normal. El estadístico W, que mide qué tan cerca están los residuos de una distribución normal. Este valor se encuentra entre 0 y 1. Si el valor de W está cercano a 1, indica que los datos sí se parecen a una distribución normal. En cambio, si el valor es mucho más bajo sugiere que los residuos se desvían bastante de lo que sería una distribución normal(ver gráfica). En este análisis, el resultado de la prueba fue un valor estadístico W = 0.59891 con un valor-p < 2.2e-16, lo que significa que el valor-p es extremadamente bajo. Por lo tanto, se rechaza la hipótesis nula y se concluye que los residuos no se distribuyen normalmente Esto no es grave. Como tenemos bastantes datos, el modelo de regresión sigue siendo válido. Solo hay que tener cuidado al interpretar los resultados, porque los valores p y las conclusiones pueden no ser tan precisos.

Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 8.2366, df = 5, p-value = 0.1437

Para evaluar este supuesto fundamental del modelo de regresión lineal, aplicamos la prueba Studentized Breusch-Pagan test. Esta prueba sirve para determinar si los residuos del modelo presentan una varianza constante, es decir, si se cumple el supuesto de homocedasticidad. Las hipótesis que se plantean en esta prueba son: H₀ (hipótesis nula): los residuos son homocedásticos (la varianza es constante). H₁ (hipótesis alternativa): los residuos son heterocedásticos (la varianza cambia) El criterio de decisión se basa en el valor p: Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula, lo que indica que sí hay homocedasticidad. Si el p-valor es menor a 0.05, se rechaza la hipótesis nula, lo que sugiere problemas de heterocedasticidad En nuestro análisis, el p-valor obtenido fue de 0.1429, el cual es mayor a 0.05. Esto significa que no se rechaza la hipótesis nula y, por lo tanto, se cumple el supuesto de homocedasticidad en nuestro modelo, esto lo vemos como una buena señal, ya que implica que los residuos del modelo presentan una varianza constante a lo largo de todas las observaciones. En otras palabras, el modelo es estable y no muestra señales de sesgo en los errores que puedan afectar la confiabilidad de las predicciones.

Multicolinealidad

Calcular el factor de inflación de la varianza (VIF) y evaluar posibles problemas de colinealidad entre las variables independientes.

Como parte del análisis de supuestos del modelo de regresión lineal, se evaluó si existía multicolinealidad entre las variables independientes.La multicolinealidad es un fenómeno en el que dos o más variables independientes en un modelo de regresión están altamente correlacionadas entre sí, lo que puede distorsionar los resultados y afectar la interpretación de los coeficientes. Para detectarla, utilizamos el Factor de Inflación de la Varianza (VIF), que cuantifica cuánto aumenta la varianza de un coeficiente debido a la correlación con otras variables. El VIF mide cuánto se incrementa la varianza de los coeficientes de regresión debido a la colinealidad. Las reglas generales para interpretar el VIF son : Si el VIF es menor a 5, no hay señales de preocupación. Entre 5 y 10, puede haber una colinealidad moderada. Si el VIF supera los 10, hay una colinealidad alta que puede distorsionar el modelo y debe resolverle Los resultados obtenidos en nuestro modelo son:

  • Calorías_diarias: 2.081441
  • Adultos_obesidad: 1.771406
  • Muertes_act_física: 1.034210
  • Predominio_obesidad: 1.228775
  • Grupo_etario: 1.078584 Como se puede observar, todas las variables independientes mostraron valores bajos de VIF (entre 1.03 y 2.08), lo cual nos indica que no hay problemas de colinealidad. Esto es una buena noticia, ya que significa que cada variable aporta información diferente y única al modelo, y que los resultados pueden ser interpretados con confianza y sin interferencia estadística entre las variables.

Interpretación R y R ajustado

Según el R ajustado, se tiene una variabilidad del 6,49%, una cifra muy baja. Este valor sugiere que existen otras variables que no se incluyeron, y que la mayoría de las variables seleccionadas no tienen relación ni la capacidad para predecir la variable Y. El R cuadrado no se tuvo en cuenta, ya que no es tan preciso como el R ajustado; además, este aumenta dependiendo de la cantidad de variables, sin importar si influyen en el modelo o no.

Los datos proporcionados por el comando summary, los diagramas de dispersión, histogramas y demás nos ayudan a concluir que las variables que se plantearon en un principio resultaron no influir en la variable Y. Algunas de nuestras hipótesis resultaron ser falsas, entre ellas está: “Más calorias conduce a más obesidad, y más obesidad conduce a más muertes por la misma”.

Explicación del modelo de regresion lineal

Después de realizar el análisis descriptivo, el análisis del mapa de correlaciones y ajustar el modelo de regresión lineal, se obtuvieron resultados que nos permiten reflexionar sobre el comportamiento de las variables que incluimos. Inicialmente, esperábamos encontrar una relación directa entre algunas variables como el consumo calórico, la obesidad en adultos y las muertes por obesidad. El mapa de correlaciones nos ayudó a visualizar qué variables tenían relaciones más fuertes o más débiles entre sí, lo cual nos permitió tomar decisiones informadas al construir el modelo.

Al analizar los coeficientes (betas) de nuestro modelo de regresión lineal, encontramos resultados interesantes y, en algunos casos, inesperados. Recordemos que los betas indican cuánto cambia la variable dependiente (muertes por obesidad) por cada unidad que cambia una variable independiente, manteniendo las demás constantes. Comenzando con el intercepto (290.25), este valor representa la cantidad estimada de muertes por obesidad cuando todas las variables independientes toman el valor cero. Si bien no siempre tiene una interpretación directa en el mundo real, funciona como el punto de partida del modelo matemático.

En cuanto a las variables explicativas, observamos que el coeficiente de calorías diarias es de aproximadamente -0.06689, es decir, por cada caloría adicional consumida, el modelo estima una ligera disminución en las muertes por obesidad. Este resultado nos parece extraño, ya que, en principio, un mayor consumo calórico debería estar asociado con un mayor riesgo de obesidad y sus consecuencias. Sin embargo, este comportamiento podría explicarse por factores no incluidos en el modelo, como el tipo de alimento consumido, el acceso a servicios de salud, o diferencias culturales etc.

Un resultado más coherente es el de la variable adultos con obesidad, cuyo coeficiente es 2.00312. Esto indica que por cada 1% adicional de adultos obesos en un país, se estiman alrededor de dos muertes más por esta causa. Esta relación positiva tiene sentido dentro del contexto de nuestro análisis. Sin embargo, volvemos a notar un comportamiento algo llamativo en el caso de las muertes por inactividad física, que tiene un coeficiente de -0.12314. Este signo negativo sugiere que a medida que aumentan las muertes por inactividad física, disminuyen ligeramente las muertes por obesidad.

Esta relación contradictoria podría deberse a que ambas causas están relacionadas entre sí y, al aparecer juntas en el modelo, se genera algo que afecta los resultados. otro coeficiente es 8.68 asociado a la variable “predominio_obesidad” nos indica que, cuando la obesidad predomina en un solo género (ya sea hombres o mujeres), el modelo estima un aumento promedio de 8.68 muertes por obesidad en comparación con los países donde no hay un predominio claro entre géneros. Nos está diciendo que la desigualdad en el predominio de obesidad entre géneros sí tiene un impacto en las muertes por obesidad. Es decir, cuando la obesidad afecta más marcadamente a un solo grupo el número de muertes tiende a ser mayor, en promedio.

En general, aunque el modelo permite detectar algunas relaciones esperadas, también nos deja interrogantes importantes. Esperábamos que variables como calorías diarias e inactividad física tuvieran una relación positiva con las muertes por obesidad, y al no ser así, esto nos obliga a revisar posibles omisiones, errores o limitaciones del modelo. Además, algunas variables que inicialmente pensamos incluir no pudieron ser utilizadas, posiblemente por falta de datos o por no cumplir con los supuestos requeridos. Esto también pudo afectar los resultados obtenidos. Se proyectó agregar variables como el nivel de hipertensión, nivel socioecónomico, y acceso a atencion de salud. Sin embargo, ninguna de estas variables representaron un cambio significativo en el modelo. Finalmente, es importante no asumir que el modelo representa una verdad absoluta, sino tomarlo como una herramienta de análisis que puede ayudarnos a comprender un fenómeno complejo, siempre teniendo en cuenta las limitaciones.

Ecuación del modelo

\[ Y_i = 290.25 - 0.0669X_{1} + 2.0031X_{2} - 0.1231X_{3} + 8.6824X_{4} - 59.2042X_{5} \]

  • x1 = Calorias_diarias
  • x2 = Adultos_Obesidad
  • x3 = Muertes_act_fisica
  • x4 = Predominio_obesidad (H si el predominio es hombre y M si es mujer)
  • x5 = Grupo_etario (Productivo si es entre 15-69 años y Mayor si es +70 años)

Conclusiones

Las variables que esperábamos como claves no mostraron significancia estadística alguna. Ni el porcentaje de adultos obesos (p = 0.234) ni el predominio de obesidad por género (p = 0.822) fueron relevantes en el modelo. Incluso el consumo calórico diario, aunque con una leve tendencia (p = 0.073), mostró un coeficiente negativo, sugiriendo que a mayor ingesta calórica, podrían haber menos muertes por obesidad, lo cual también contradice nuestra hipótesis inicial.

La matriz de correlaciones confirmó que ninguna de las variables independientes tenía una relación fuerte con la variable Y. Ninguna superó un coeficiente de correlación absoluta mayor a 0.23, lo cual ya anticipa la baja capacidad explicativa del modelo.

La mayoría de los resultados no fueron los que esperábamos, pero este proceso nos ayudó a entender que un modelo estadístico puede mostrar cosas inesperadas. También aprendimos que no es fácil explicar problemas de salud pública usando pocas variables. Vimos que es muy importante escoger bien los datos y que la realidad no siempre se comporta como uno piensa, lo cual también es un buen aprendizaje. Podemos inferir que con una muestra más enfocada y con menos observaciones se podría encontrar una mejor relación entre las variables, aumentando así la significancia de relación entre las variables y explicar el modelo de una mejor manera.

A partir de los hallazgos obtenidos, se puede evidenciar que los modelos estadísticos, aunque útiles, pueden arrojar resultados inesperados que invitan a una reflexión más profunda. Esta situación no debe verse como un obstáculo, sino como una oportunidad para enriquecer el análisis y ajustar el enfoque metodológico. En este sentido, pensamos que sería muy valioso seguir investigando este fenómeno desde distintas perspectivas, con más modelos y datos más variados. Entender verdaderamente por qué ocurren las muertes por obesidad no solo permitiría mejorar la precisión de los análisis, sino que también ayudaría a tomar decisiones más efectivas para prevenirlas.

Bibliografía