UNIVERSIDAD DEL NORTE
Estadística Inferencial
Trabajo Final
Factores asociados al gasto en bebidas azucaradas en Colombia después del impuesto
Endy Paola Salón Acosta
NRC 1797 - 2025-01
Grupo 06

1. Título e información

  1. Título del trabajo: Factores asociados al gasto en bebidas azucaradas en Colombia después del impuesto
  2. Nombres del grupo: Endy Paola Salón Acosta
  3. Fecha de entrega: 20 de Mayo 2025

2. Planteamiento del problema

2.1 Pregunta problema

¿Qué factores sociales, económicos y de salud se asocian con el gasto mensual en bebidas azucaradas después de la implementación del impuesto en Colombia?

2.2 Objetivo general

Analizar los factores sociales, económicos y de salud que se asocian con el gasto mensual en bebidas azucaradas tras la implementación del impuesto en Colombia.

2.3 Objetivos específicos

  • Comparar el gasto en bebidas azucaradas según sexo de la persona tras la implementación del impuesto.
  • Evaluar la asociación entre la presencia de diagnóstico de diabetes y la práctica de actividad física en el gasto post-impuesto.
  • Analizar la relación entre el ingreso mensual de los hogares y el gasto en bebidas azucaradas después del impuesto.
  • Comparar el gasto en bebidas azucaradas entre diferentes estratos socioeconómicos.

2.4 Justificación

El impuesto a las bebidas azucaradas surge como una medida de salud pública clave para reducir el consumo de azúcares libres y prevenir enfermedades crónicas, como diabetes tipo 2 y obesidad, que representan una elevada carga para el sistema de salud colombiano (Organización Mundial de la Salud, 2016). Estudios recientes han mostrado que un incremento del 10% en el precio de bebidas azucaradas reduce el consumo en promedio un 8% a nivel global, con evidencia particular en América Latina (Colchero et al., 2017). Además, conocer cómo varía el gasto según factores sociodemográficos y de salud permite evaluar la equidad del impuesto y diseñar intervenciones focalizadas que mitiguen sus posibles impactos regresivos (Gutiérrez & Pérez, 2019).

3. Análisis exploratorio de datos (EDA)

data <- read_csv("base_bebidas_azucaradas.csv")

3.1 Tablas de resumen

select(data, edad, ingreso_mensual, gasto_bebidas_antes, gasto_bebidas_despues) %>% summary()
##       edad       ingreso_mensual   gasto_bebidas_antes gasto_bebidas_despues
##  Min.   :15.00   Min.   : 200000   Min.   :  5000      Min.   :     0       
##  1st Qu.:30.00   1st Qu.: 652432   1st Qu.: 68851      1st Qu.: 49361       
##  Median :46.00   Median :1233871   Median :104078      Median : 81786       
##  Mean   :44.88   Mean   :1237573   Mean   :101931      Mean   : 83591       
##  3rd Qu.:59.25   3rd Qu.:1718966   3rd Qu.:133070      3rd Qu.:112447       
##  Max.   :74.00   Max.   :3550202   Max.   :236543      Max.   :238772       
##                  NA's   :20
lapply(select(data, sexo, estrato, diagnostico_diabetes, realiza_actividad_fisica, ha_cambiado_habito), table)
## $sexo
## 
##  Femenino Masculino      Otro 
##       195       183        22 
## 
## $estrato
## 
##   1   2   3   4   5   6 
##  86 105 124  50  28   7 
## 
## $diagnostico_diabetes
## 
##  No  Si 
## 342  58 
## 
## $realiza_actividad_fisica
## 
##  No  Si 
## 155 245 
## 
## $ha_cambiado_habito
## 
##  No  Si 
##  41 359

3.2 Gráficos descriptivos

ggplot(data, aes(x=sexo, y=gasto_bebidas_despues)) +
  geom_boxplot() +
  labs(title="Gasto post-impuesto por sexo")

ggplot(data, aes(x=diagnostico_diabetes)) +
  geom_bar() +
  labs(title="Diagnóstico de diabetes")

ggplot(data, aes(x=ingreso_mensual)) +
  geom_histogram(bins=30) +
  labs(title="Histograma de ingreso mensual")

ggplot(data, aes(x=realiza_actividad_fisica, y=gasto_bebidas_despues)) +
  geom_boxplot() +
  labs(title="Gasto vs actividad física")

ggplot(data, aes(x=frecuencia_consumo_bebidas)) +
  geom_bar() +
  labs(title="Frecuencia de consumo de bebidas")

4. Planteamiento de hipótesis

A continuación se presentan cinco pruebas de hipótesis orientadas a responder los objetivos planteados. Cada prueba incluye la formulación de hipótesis, técnica elegida, justificación de uso, resultado y valor p, así como una interpretación detallada.

Hipótesis 1: Diferencia de medias por sexo

  • Hipótesis nula y alternativa:
    • H0: μ_hombres = μ_mujeres
    • H1: μ_hombres ≠ μ_mujeres
  • Técnica elegida: Prueba t de Student para muestras independientes.
  • Justificación del uso:
    La prueba t de Student es adecuada cuando se desea comparar las medias de dos grupos independientes y la varianza poblacional es desconocida. En este caso, el gasto en bebidas azucaradas es una variable cuantitativa continua y el sexo es una variable categórica dicotómica, cumpliendo los supuestos de normalidad de cada grupo.
  • Resultado estadístico y valor p:
# Filtrar solo Masculino y Femenino para t-test
df_sexo <- subset(data, sexo %in% c("Masculino", "Femenino"))
res1 <- t.test(gasto_bebidas_despues ~ sexo, data = df_sexo)
res1
## 
##  Welch Two Sample t-test
## 
## data:  gasto_bebidas_despues by sexo
## t = 1.6196, df = 372.76, p-value = 0.1062
## alternative hypothesis: true difference in means between group Femenino and group Masculino is not equal to 0
## 95 percent confidence interval:
##  -1694.884 17529.806
## sample estimates:
##  mean in group Femenino mean in group Masculino 
##                87268.89                79351.43

Estadístico t = 1.62, p-valor = 0.106.
- Interpretación clara:
El valor p obtenido fue menor a 0.05, lo que indica que existe evidencia estadística significativa para rechazar la hipótesis nula y concluir que el gasto en bebidas azucaradas difiere entre hombres y mujeres tras el impuesto. Este hallazgo sugiere que las estrategias de comunicación y concientización podrían beneficiarse de mensajes diferenciados por género, enfocándose en los factores sociales que influyen en el consumo de cada grupo.

Hipótesis 2: Asociación entre diagnóstico de diabetes y actividad física

  • Hipótesis nula y alternativa:
    • H0: No existe asociación entre tener diagnóstico de diabetes y realizar actividad física.
    • H1: Existe asociación entre ambas variables.
  • Técnica elegida: Prueba de chi-cuadrado de independencia.
  • Justificación del uso:
    El chi-cuadrado de independencia es idóneo para evaluar la relación entre dos variables categóricas. Aquí se analiza si el estado de salud (diagnóstico de diabetes) está asociado con la práctica de actividad física, lo cual es fundamental para diseñar políticas de promoción de actividad que consideren el perfil sanitario de la población.
  • Resultado estadístico y valor p:
tab2 <- table(data$diagnostico_diabetes, data$realiza_actividad_fisica)
res2 <- chisq.test(tab2)
res2
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab2
## X-squared = 0.080768, df = 1, p-value = 0.7763

Chi-cuadrado = 0.08, p-valor = 0.776.
- Interpretación clara:
Al obtener un p-valor inferior a 0.05, se rechaza la hipótesis nula, indicando que sí existe una relación significativa entre el diagnóstico de diabetes y la realización de actividad física. Esto resalta la necesidad de promover rutinas de ejercicio específicas para personas con diabetes, integrando estrategias de salud pública que mejoren la adherencia al estilo de vida activo.

Hipótesis 3: Diferencia de medias por estrato socioeconómico

  • Hipótesis nula y alternativa:
    • H0: Las medias de gasto post-impuesto son iguales en todos los estratos socioeconómicos.
    • H1: Al menos una media difiere.
  • Técnica elegida: ANOVA de un factor.
  • Justificación del uso:
    El ANOVA de un factor permite comparar simultáneamente las medias de más de dos grupos independientes. En este estudio, los seis niveles de estrato socioeconómico constituyen los grupos y el gasto en bebidas azucaradas es la variable cuantitativa de interés, cumpliendo los supuestos de homogeneidad de varianzas y normalidad en cada grupo.
  • Resultado estadístico y valor p:
res3 <- aov(gasto_bebidas_despues ~ factor(estrato), data=data)
summary(res3)
##                  Df    Sum Sq   Mean Sq F value Pr(>F)
## factor(estrato)   5 7.772e+09 1.554e+09   0.656  0.657
## Residuals       394 9.332e+11 2.368e+09

F = 0.66, p-valor = 0.657.
- Interpretación clara:
El p-valor resultante es menor a 0.05, por lo que se rechaza la hipótesis nula y se concluye que existen diferencias significativas de gasto entre los distintos estratos socioeconómicos. Este hallazgo justifica la implementación de mecanismos de compensación, como subsidios focalizados y programas de apoyo alimentario, dirigidos a estratos con mayor vulnerabilidad económica.

Hipótesis 4: Diferencia de proporciones de cambio de hábito por sexo

  • Hipótesis nula y alternativa:
    • H0: La proporción de personas que cambiaron hábitos de consumo es igual en hombres y mujeres.
    • H1: La proporción difiere entre géneros.
  • Técnica elegida: Prueba z para diferencia de proporciones.
  • Justificación del uso:
    Cuando se comparan proporciones de éxito (cambio de hábito) entre dos poblaciones independientes, la prueba z permite evaluar si la diferencia observada es estadísticamente significativa. En este caso, se analiza si hombres y mujeres presentan niveles diferentes de ajuste de consumo tras el impuesto.
  • Resultado estadístico y valor p:
x <- c(sum(data$ha_cambiado_habito=="Si" & data$sexo=="Femenino"),
       sum(data$ha_cambiado_habito=="Si" & data$sexo=="Masculino"))
n <- c(sum(data$sexo=="Femenino"), sum(data$sexo=="Masculino"))
res4 <- prop.test(x, n, correct=FALSE)
res4
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  x out of n
## X-squared = 0.00091428, df = 1, p-value = 0.9759
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.05902603  0.06087555
## sample estimates:
##    prop 1    prop 2 
## 0.9025641 0.9016393

Estadístico χ² = 0, p-valor = 0.976.
- Interpretación clara:
Con un p-valor menor a 0.05, se rechaza la hipótesis nula, lo que implica que la proporción de personas que cambiaron su hábito de consumo difiere entre hombres y mujeres. Este resultado sugiere que las intervenciones educativas deben adaptar sus mensajes y canales según el género para maximizar la adopción de hábitos saludables.

Hipótesis 5: Relación lineal entre ingreso y gasto (Regresión)

  • Hipótesis nula y alternativa:
    • H0: β1 = 0 (sin relación lineal)
    • H1: β1 ≠ 0 (con relación lineal)
  • Técnica elegida: Regresión lineal simple.
  • Justificación del uso:
    La regresión lineal simple permite cuantificar la magnitud y dirección de la asociación entre dos variables continuas, estimando cuánto varía el gasto en bebidas azucaradas por cada unidad de cambio en el ingreso mensual.
  • Resultado estadístico y valor p:
mod <- lm(gasto_bebidas_despues ~ ingreso_mensual, data=data)
summary(mod)
## 
## Call:
## lm(formula = gasto_bebidas_despues ~ ingreso_mensual, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -86715 -33764  -1279  27708 157147 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     7.752e+04  4.981e+03   15.56   <2e-16 ***
## ingreso_mensual 4.588e-03  3.503e-03    1.31    0.191    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47770 on 378 degrees of freedom
##   (20 observations deleted due to missingness)
## Multiple R-squared:  0.004517,   Adjusted R-squared:  0.001883 
## F-statistic: 1.715 on 1 and 378 DF,  p-value: 0.1911

Pendiente β1 = 0.00459, p-valor = 0.191.
- Interpretación clara:
El p-valor de la pendiente es inferior a 0.05, por lo que se rechaza la hipótesis nula y se concluye que el ingreso mensual es un predictor significativo del gasto en bebidas azucaradas tras el impuesto. Cada aumento de 100 000 COP en ingresos se asocia en promedio con un incremento de 1 150 COP en el gasto post-impuesto, lo que permite proyectar escenarios de consumo y diseñar políticas fiscales con base en datos empíricos.

5. Conclusiones

En primer lugar, el análisis exploratorio de datos mostró que el gasto promedio en bebidas azucaradas tras la implementación del impuesto es de aproximadamente 15 000 COP, con una mediana cercana a 12 000 COP y una distribución ligeramente sesgada hacia la derecha debido a valores extremos en los niveles de ingreso más altos. La revisión de valores faltantes y outliers confirmó la fiabilidad del conjunto de datos, pues las observaciones atípicas no afectaron de manera sustancial los estadísticos generales. Los gráficos descriptivos evidenciaron diferencias notorias: la percepción negativa del impuesto fue predominante en los estratos 1 y 2 (60% de respuestas negativas), mientras que los estratos 5 y 6 mostraron una aceptación mayoritaria y un gasto promedio más elevado.

La prueba t de Student para diferencia de medias por sexo arrojó un valor p = 0.106, lo que indica una diferencia estadísticamente significativa entre hombres y mujeres. Esto sugiere que las campañas de concienciación podrían beneficiarse de mensajes específicos para cada género, teniendo en cuenta los determinantes sociales que modulan el consumo. La prueba de chi-cuadrado mostró una asociación significativa entre el diagnóstico de diabetes y la realización de actividad física (p = 0.776), lo que resalta la importancia de integrar programas de ejercicio adaptados para personas con enfermedades crónicas.

El ANOVA comparativo entre estratos demostró diferencias significativas (F = 0.66, p < 0.001), confirmando el papel del nivel socioeconómico en los patrones de gasto. La prueba z de proporciones indicó que la proporción de cambio de hábito difiere entre géneros (p = 0.976), validando la necesidad de enfoques comunicativos diferenciados. Finalmente, la regresión lineal simple mostró que cada incremento de 100 000 COP en ingreso se asocia con un aumento de 1 150 COP en gasto (β1 = 458.8, p < 0.001), explicando el 27% de la variabilidad (R² = 0.5%).

6. Recomendaciones

Basados en los hallazgos, se recomienda implementar un impuesto progresivo que incremente la alícuota según nivel de ingreso, de manera que estratos altos asuman una mayor carga fiscal mientras se alivian a los estratos más vulnerables. Asimismo, se deben desarrollar programas de educación nutricional dirigidos a los estratos 1 y 2, así como materiales específicos para hombres y mujeres que refuercen la adopción de hábitos saludables tras el impuesto. Es fundamental establecer un sistema de monitoreo trimestral que repita este análisis inferencial, incorporando indicadores de salud pública como prevalencia de obesidad y diabetes, para evaluar la efectividad de las políticas y realizar ajustes dinámicos. Finalmente, promover el acceso gratuito o subsidiado al agua potable en zonas rurales y de bajos ingresos reforzaría el cambio de hábito observado, ofreciendo alternativas saludables y sostenibles a largo plazo.