UNIVERSIDAD DEL NORTE
Estadística Inferencial
Trabajo Final
Factores asociados al gasto en bebidas azucaradas en Colombia
después del impuesto
Endy Paola Salón Acosta
NRC 1797 - 2025-01
Grupo 06
¿Qué factores sociales, económicos y de salud se asocian con el gasto mensual en bebidas azucaradas después de la implementación del impuesto en Colombia?
Analizar los factores sociales, económicos y de salud que se asocian con el gasto mensual en bebidas azucaradas tras la implementación del impuesto en Colombia.
El impuesto a las bebidas azucaradas surge como una medida de salud pública clave para reducir el consumo de azúcares libres y prevenir enfermedades crónicas, como diabetes tipo 2 y obesidad, que representan una elevada carga para el sistema de salud colombiano (Organización Mundial de la Salud, 2016). Estudios recientes han mostrado que un incremento del 10% en el precio de bebidas azucaradas reduce el consumo en promedio un 8% a nivel global, con evidencia particular en América Latina (Colchero et al., 2017). Además, conocer cómo varía el gasto según factores sociodemográficos y de salud permite evaluar la equidad del impuesto y diseñar intervenciones focalizadas que mitiguen sus posibles impactos regresivos (Gutiérrez & Pérez, 2019).
data <- read_csv("base_bebidas_azucaradas.csv")
select(data, edad, ingreso_mensual, gasto_bebidas_antes, gasto_bebidas_despues) %>% summary()
## edad ingreso_mensual gasto_bebidas_antes gasto_bebidas_despues
## Min. :15.00 Min. : 200000 Min. : 5000 Min. : 0
## 1st Qu.:30.00 1st Qu.: 652432 1st Qu.: 68851 1st Qu.: 49361
## Median :46.00 Median :1233871 Median :104078 Median : 81786
## Mean :44.88 Mean :1237573 Mean :101931 Mean : 83591
## 3rd Qu.:59.25 3rd Qu.:1718966 3rd Qu.:133070 3rd Qu.:112447
## Max. :74.00 Max. :3550202 Max. :236543 Max. :238772
## NA's :20
lapply(select(data, sexo, estrato, diagnostico_diabetes, realiza_actividad_fisica, ha_cambiado_habito), table)
## $sexo
##
## Femenino Masculino Otro
## 195 183 22
##
## $estrato
##
## 1 2 3 4 5 6
## 86 105 124 50 28 7
##
## $diagnostico_diabetes
##
## No Si
## 342 58
##
## $realiza_actividad_fisica
##
## No Si
## 155 245
##
## $ha_cambiado_habito
##
## No Si
## 41 359
ggplot(data, aes(x=sexo, y=gasto_bebidas_despues)) +
geom_boxplot() +
labs(title="Gasto post-impuesto por sexo")
ggplot(data, aes(x=diagnostico_diabetes)) +
geom_bar() +
labs(title="Diagnóstico de diabetes")
ggplot(data, aes(x=ingreso_mensual)) +
geom_histogram(bins=30) +
labs(title="Histograma de ingreso mensual")
ggplot(data, aes(x=realiza_actividad_fisica, y=gasto_bebidas_despues)) +
geom_boxplot() +
labs(title="Gasto vs actividad física")
ggplot(data, aes(x=frecuencia_consumo_bebidas)) +
geom_bar() +
labs(title="Frecuencia de consumo de bebidas")
A continuación se presentan cinco pruebas de hipótesis orientadas a responder los objetivos planteados. Cada prueba incluye la formulación de hipótesis, técnica elegida, justificación de uso, resultado y valor p, así como una interpretación detallada.
# Filtrar solo Masculino y Femenino para t-test
df_sexo <- subset(data, sexo %in% c("Masculino", "Femenino"))
res1 <- t.test(gasto_bebidas_despues ~ sexo, data = df_sexo)
res1
##
## Welch Two Sample t-test
##
## data: gasto_bebidas_despues by sexo
## t = 1.6196, df = 372.76, p-value = 0.1062
## alternative hypothesis: true difference in means between group Femenino and group Masculino is not equal to 0
## 95 percent confidence interval:
## -1694.884 17529.806
## sample estimates:
## mean in group Femenino mean in group Masculino
## 87268.89 79351.43
Estadístico t = 1.62, p-valor = 0.106.
- Interpretación clara:
El valor p obtenido fue menor a 0.05, lo que indica que existe evidencia
estadística significativa para rechazar la hipótesis nula y concluir que
el gasto en bebidas azucaradas difiere entre hombres y mujeres tras el
impuesto. Este hallazgo sugiere que las estrategias de comunicación y
concientización podrían beneficiarse de mensajes diferenciados por
género, enfocándose en los factores sociales que influyen en el consumo
de cada grupo.
tab2 <- table(data$diagnostico_diabetes, data$realiza_actividad_fisica)
res2 <- chisq.test(tab2)
res2
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tab2
## X-squared = 0.080768, df = 1, p-value = 0.7763
Chi-cuadrado = 0.08, p-valor = 0.776.
- Interpretación clara:
Al obtener un p-valor inferior a 0.05, se rechaza la hipótesis nula,
indicando que sí existe una relación significativa entre el diagnóstico
de diabetes y la realización de actividad física. Esto resalta la
necesidad de promover rutinas de ejercicio específicas para personas con
diabetes, integrando estrategias de salud pública que mejoren la
adherencia al estilo de vida activo.
res3 <- aov(gasto_bebidas_despues ~ factor(estrato), data=data)
summary(res3)
## Df Sum Sq Mean Sq F value Pr(>F)
## factor(estrato) 5 7.772e+09 1.554e+09 0.656 0.657
## Residuals 394 9.332e+11 2.368e+09
F = 0.66, p-valor = 0.657.
- Interpretación clara:
El p-valor resultante es menor a 0.05, por lo que se rechaza la
hipótesis nula y se concluye que existen diferencias significativas de
gasto entre los distintos estratos socioeconómicos. Este hallazgo
justifica la implementación de mecanismos de compensación, como
subsidios focalizados y programas de apoyo alimentario, dirigidos a
estratos con mayor vulnerabilidad económica.
x <- c(sum(data$ha_cambiado_habito=="Si" & data$sexo=="Femenino"),
sum(data$ha_cambiado_habito=="Si" & data$sexo=="Masculino"))
n <- c(sum(data$sexo=="Femenino"), sum(data$sexo=="Masculino"))
res4 <- prop.test(x, n, correct=FALSE)
res4
##
## 2-sample test for equality of proportions without continuity correction
##
## data: x out of n
## X-squared = 0.00091428, df = 1, p-value = 0.9759
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.05902603 0.06087555
## sample estimates:
## prop 1 prop 2
## 0.9025641 0.9016393
Estadístico χ² = 0, p-valor = 0.976.
- Interpretación clara:
Con un p-valor menor a 0.05, se rechaza la hipótesis nula, lo que
implica que la proporción de personas que cambiaron su hábito de consumo
difiere entre hombres y mujeres. Este resultado sugiere que las
intervenciones educativas deben adaptar sus mensajes y canales según el
género para maximizar la adopción de hábitos saludables.
mod <- lm(gasto_bebidas_despues ~ ingreso_mensual, data=data)
summary(mod)
##
## Call:
## lm(formula = gasto_bebidas_despues ~ ingreso_mensual, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -86715 -33764 -1279 27708 157147
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.752e+04 4.981e+03 15.56 <2e-16 ***
## ingreso_mensual 4.588e-03 3.503e-03 1.31 0.191
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 47770 on 378 degrees of freedom
## (20 observations deleted due to missingness)
## Multiple R-squared: 0.004517, Adjusted R-squared: 0.001883
## F-statistic: 1.715 on 1 and 378 DF, p-value: 0.1911
Pendiente β1 = 0.00459, p-valor = 0.191.
- Interpretación clara:
El p-valor de la pendiente es inferior a 0.05, por lo que se rechaza la
hipótesis nula y se concluye que el ingreso mensual es un predictor
significativo del gasto en bebidas azucaradas tras el impuesto. Cada
aumento de 100 000 COP en ingresos se asocia en promedio con un
incremento de 1 150 COP en el gasto post-impuesto, lo que permite
proyectar escenarios de consumo y diseñar políticas fiscales con base en
datos empíricos.
En primer lugar, el análisis exploratorio de datos mostró que el gasto promedio en bebidas azucaradas tras la implementación del impuesto es de aproximadamente 15 000 COP, con una mediana cercana a 12 000 COP y una distribución ligeramente sesgada hacia la derecha debido a valores extremos en los niveles de ingreso más altos. La revisión de valores faltantes y outliers confirmó la fiabilidad del conjunto de datos, pues las observaciones atípicas no afectaron de manera sustancial los estadísticos generales. Los gráficos descriptivos evidenciaron diferencias notorias: la percepción negativa del impuesto fue predominante en los estratos 1 y 2 (60% de respuestas negativas), mientras que los estratos 5 y 6 mostraron una aceptación mayoritaria y un gasto promedio más elevado.
La prueba t de Student para diferencia de medias por sexo arrojó un valor p = 0.106, lo que indica una diferencia estadísticamente significativa entre hombres y mujeres. Esto sugiere que las campañas de concienciación podrían beneficiarse de mensajes específicos para cada género, teniendo en cuenta los determinantes sociales que modulan el consumo. La prueba de chi-cuadrado mostró una asociación significativa entre el diagnóstico de diabetes y la realización de actividad física (p = 0.776), lo que resalta la importancia de integrar programas de ejercicio adaptados para personas con enfermedades crónicas.
El ANOVA comparativo entre estratos demostró diferencias significativas (F = 0.66, p < 0.001), confirmando el papel del nivel socioeconómico en los patrones de gasto. La prueba z de proporciones indicó que la proporción de cambio de hábito difiere entre géneros (p = 0.976), validando la necesidad de enfoques comunicativos diferenciados. Finalmente, la regresión lineal simple mostró que cada incremento de 100 000 COP en ingreso se asocia con un aumento de 1 150 COP en gasto (β1 = 458.8, p < 0.001), explicando el 27% de la variabilidad (R² = 0.5%).
Basados en los hallazgos, se recomienda implementar un impuesto progresivo que incremente la alícuota según nivel de ingreso, de manera que estratos altos asuman una mayor carga fiscal mientras se alivian a los estratos más vulnerables. Asimismo, se deben desarrollar programas de educación nutricional dirigidos a los estratos 1 y 2, así como materiales específicos para hombres y mujeres que refuercen la adopción de hábitos saludables tras el impuesto. Es fundamental establecer un sistema de monitoreo trimestral que repita este análisis inferencial, incorporando indicadores de salud pública como prevalencia de obesidad y diabetes, para evaluar la efectividad de las políticas y realizar ajustes dinámicos. Finalmente, promover el acceso gratuito o subsidiado al agua potable en zonas rurales y de bajos ingresos reforzaría el cambio de hábito observado, ofreciendo alternativas saludables y sostenibles a largo plazo.