Introducción

La gestión del recurso hídrico es un tema de creciente relevancia dentro del sector industrial colombiano, especialmente en aquellos sectores cuya producción depende de un uso intensivo del agua, como el manufacturero de alimentos. En este contexto, resulta fundamental comprender cómo diferentes factores —técnicos, geográficos y de gestión— influyen en la capacidad de las empresas para tratar las aguas residuales que generan.

El presente estudio analiza esta problemática a partir de la información proveniente de la Encuesta Ambiental Industrial 2022 del DANE, con el propósito de identificar los factores que explican las diferencias en el volumen de agua residual tratada por los establecimientos manufactureros de alimentos en Colombia. Para ello, se consideran variables relacionadas con el consumo de agua, la generación de residuos líquidos, la existencia de programas de uso eficiente y ahorro de agua, así como la región y el tipo de actividad industrial en la que opera cada establecimiento.

Investigaciones recientes, como las de Henao, Lis-Gutiérrez y Ariza-Salazar (2024), señalan que las inversiones en tratamiento, el volumen total de agua utilizada y el compromiso ambiental de las empresas son determinantes en la adopción de prácticas sostenibles; por otra parte, advierten sobre la brecha existente entre la certificación ambiental y la ejecución real de prácticas efectivas, evidenciando desafíos estructurales en la gestión del recurso.

En este marco, el presente estudio contribuye con evidencia empírica al análisis de los factores institucionales, geográficos y operativos que inciden en la capacidad de tratamiento de agua en la industria alimentaria colombiana. Los resultados permitirán comprender con mayor profundidad el grado de sostenibilidad hídrica del sector y ofrecer elementos de apoyo para la formulación de estrategias que promuevan un uso más responsable y eficiente del recurso.


Metodología

Descripción de variables

El estudio considera una variable dependiente y cinco variables independientes, tanto cuantitativas como categóricas, con el propósito de analizar los factores que explican el volumen de agua residual tratada en los establecimientos manufactureros del sector de alimentos en Colombia.

Descripción del modelo utilizado

Para el análisis se utilizó un modelo de regresión lineal múltiple, con el objetivo de analizar la influencia y la significancia estadística de diversos factores sobre el volumen de agua residual tratada en los establecimientos manufactureros del sector de alimentos en Colombia.

El modelo se expresa de la siguiente manera:

modelo <- lm(A_R_TRATADA ~ A_UTILIZADA + A_R_GENERADA + PROG + CODIGO_REGION + CODIGO_ACTIVIDAD, data = BD_Solo_alimentos)

Resultados Descriptivos

Variables cualitativas


La variable CODIGO_ACTIVIDAD clasifica los establecimientos manufactureros de alimentos según su tipo de producción. Los resultados muestran que el subsector de aceites y grasas concentra el 47.3 % de los establecimientos, seguido por pescados (14.9 %), frutas y hortalizas (13.9 %) y molinería y almidones (13.9 %). Las actividades de lácteos (5.3 %), carnes (3.4 %) y otros alimentos (1.2 %) presentan menor representación. En general, la distribución evidencia una alta concentración en el subsector de aceites y grasas, lo que sugiere diferencias importantes en la escala productiva y en los volúmenes de agua utilizados entre las distintas ramas de la industria alimentaria.


La variable PROG identifica si el establecimiento cuenta con un programa de uso eficiente y ahorro de agua. Del total de 826 establecimientos, el 59.4 % participa en dichos programas, mientras que el 40.6 % no lo hace. Esto indica un avance en la adopción de prácticas sostenibles, aunque aún existe una proporción considerable de empresas sin implementar medidas formales de gestión hídrica. La variable resulta relevante para el modelo, ya que permitirá analizar si la participación en estos programas influye en el volumen de agua residual tratada (A_R_TRATADA).


La región Central presenta el mayor porcentaje, superando el 25% del total de establecimientos. Esto sugiere una alta concentración del sector manufacturero de alimentos en esta zona, posiblemente por su cercanía a centros urbanos, disponibilidad de infraestructura y facilidad de distribución logística. Región Oriental y Bogotá Ambas muestran una participación intermedia-alta, entre el 19% y 21% aproximadamente. En el caso de Bogotá, esto se explica por su rol como principal centro industrial y administrativo del país, donde se concentran empresas con mayor capacidad tecnológica y acceso a servicios públicos. La región Oriental probablemente refleja una expansión industrial hacia áreas cercanas a la capital.


Variables cuantitativas


Medidas de tendencia central y dispersión
Medida Agua_utilizada Residual_generada Residual_tratada
Media 106720.57 71368.23 86480.62
Mediana 6502.50 3729.50 1781.00
Desviación Estándar 637600.14 590391.02 804384.64
Valor Mínimo 0.00 0.00 0.00
Valor Máximo 16401467.00 16382750.00 20949002.00
IQR 45734.50 28003.75 29399.00
Límite inferior -67315.25 -41097.38 -44098.50
Límite superior 115622.75 70917.62 73497.50

La distribución de las variables presentan una clara asimetría positiva, se observan medias mucho mayores que las medianas esto posiblemente sea debido a la presencia de valores atípicos altos que elevan el promedio. Los altos valores en la dispersión de los datos reflejan una gran variabilidad entre registros reforzando la idea anteriormente mencionada sobre presencia de valores atípicos.

El valor del IQR presenta que la mayoría de las observaciones se concentra en un rango bajo, mientras unos pocos registros cuentan con volúmenes muy altos de agua utilizada y tratada. Esto evidencia una fuerte concentración sectorial, donde pocas empresas tienen un alto peso en el uso del recurso, lo que plantea la necesidad de estrategias diferenciadas según el tamaño de la industria para un correcto control y gestión.

El histograma del volumen de agua utilizada evidencia que la mayoría de los establecimientos presentan consumos moderados de agua, ubicados entre 100 y 100.000 (m³/año), mientras que un grupo reducido muestra volúmenes significativamente mayores. La distribución refleja la heterogeneidad del tamaño y nivel de producción de las industrias alimentarias analizadas.


La distribución del volumen de agua residual generada es comparable a la del agua utilizada, concentrándose entre los rangos de 1.000 y 10.000 (m³/año). Este comportamiento sugiere que los establecimientos que utilizan más agua también son los que generan mayores volúmenes de residuos líquidos, reflejando la dependencia entre el consumo de agua y los procesos productivos.


El histograma del volumen de agua residual tratada muestra que la mayoría de los establecimientos no realizan tratamiento o lo hacen en volúmenes muy bajos. Solo un número limitado de empresas aplica procesos de tratamiento significativos, lo que evidencia una brecha en la gestión ambiental del recurso hídrico dentro del sector manufacturero de alimentos.

Resultados del Modelo


Interpretación de los coeficientes


El modelo de regresión lineal tiene como variable dependiente el volumen de agua residual tratada (A_R_TRATADA), y como variables explicativas, entre otras, el volumen de agua utilizada (A_UTILIZADA), el volumen de agua residual generada (A_R_GENERADA), la existencia de programas de uso eficiente (PROG), la región y la actividad industrial del establecimiento.

Los resultados indican que:

A_UTILIZADA presenta un coeficiente positivo (2.204) y altamente significativo (p < 2e-16). Esto sugiere que, manteniendo las demás variables constantes, por cada incremento de una unidad en el volumen de agua utilizada, el volumen de agua tratada aumenta en aproximadamente 2.2 unidades.

A_R_GENERADA tiene un coeficiente negativo (-2.109) y también es altamente significativo (p < 2e-16). Esto implica que, a mayor volumen de agua residual generada, el volumen tratado tiende a disminuir, lo que podría reflejar ineficiencias en el tratamiento o limitaciones en la capacidad instalada para procesar todo el volumen residual generado.

Las variables PROG, las categorías de región y las de actividad económica no son estadísticamente significativas (p > 0.05), por lo que no se puede afirmar que tengan un efecto diferencial sobre el volumen de agua tratada.


Evaluación de la bondad de ajuste del modelo

El coeficiente de determinación (R² = 0.2514) indica que el modelo explica aproximadamente el 25.14% de la variabilidad observada en el volumen de agua residual tratada. El R² ajustado (0.2385), que considera el número de variables incluidas, muestra un valor similar, lo que sugiere un ajuste moderado. A pesar de que el estadístico F (p < 2.2e-16) confirma que el modelo es globalmente significativo, el bajo R² indica que una proporción considerable de la variabilidad del volumen de agua tratada no es explicada por las variables incluidas. Es probable que existan otros factores como la capacidad tecnológica, la normativa ambiental, el tamaño de los establecimientos o la inversión en tratamiento que no fueron considerados en el modelo.

Evaluación de Supuestos del Modelo

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.98187, p-value = 1.355e-08

Aunque el test de Shapiro-Wilk indica que se rechaza la normalidad (por el p-value bajo), el valor W cercano a 1 y la observación visual del Q-Q plot muestran que los residuos se distribuyen aproximadamente de forma normal. Dado el tamaño grande de la muestra, pequeñas desviaciones se vuelven significativas estadísticamente, pero no necesariamente relevantes en la práctica.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 13.683, df = 14, p-value = 0.4736

La verificación del supuesto de homocedasticidad se realizó mediante el análisis gráfico de residuos y la prueba de Breusch–Pagan.

El gráfico de residuos frente a los valores ajustados no evidencia un patrón sistemático ni una variación creciente o decreciente en la dispersión, lo que sugiere varianza constante de los errores.

Asimismo, la prueba de Breusch–Pagan reportó un estadístico con un p-value=0.4736, valor superior al nivel de significancia de 0.05, por lo cual no se rechaza la hipótesis nula de homocedasticidad.

Se concluye que el modelo presenta varianza constante de los errores, cumpliendo con este supuesto fundamental de la regresión lineal.


Multicolinealidad

##                       GVIF Df GVIF^(1/(2*Df))
## A_UTILIZADA      14.477409  1        3.804919
## A_R_GENERADA     14.180527  1        3.765704
## PROG              1.071858  1        1.035306
## CODIGO_REGION     1.193462  5        1.017843
## CODIGO_ACTIVIDAD  1.191122  6        1.014681

A partir del análisis del Factor de Inflación de la Varianza Generalizado (GVIF), se identificó que las variables A_UTILIZADA y A_R_GENERADA presentan valores de 14.47 y 14.18, respectivamente. Dichos valores superan ampliamente el umbral de referencia de 10, lo cual evidencia la presencia de multicolinealidad alta entre estas dos variables explicativas.

Este resultado indica que ambas variables comparten una relación lineal fuerte, ya que el volumen de agua utilizada y el volumen de agua residual generada tienden a variar de manera conjunta.

En contraste, las variables PROG, CODIGO_REGION y CODIGO_ACTIVIDAD obtuvieron valores de GVIF cercanos a 1, lo cual indica ausencia de problemas de colinealidad entre ellas y el resto de las variables independientes.

Conclusiones

El estudio permitió identificar los factores que explican el volumen de agua residual tratada en los establecimientos manufactureros del sector de alimentos en Colombia. Los resultados muestran que las variables volumen de agua utilizada y volumen de agua residual generada son las únicas que presentan una influencia estadísticamente significativa sobre el volumen tratado. En particular, el coeficiente positivo de la variable referente al agua utilizada indica que los establecimientos con mayor consumo de agua tienden a tratar mayores volúmenes, mientras que el coeficiente negativo de la variable referente al agua residual generada sugiere limitaciones en la capacidad de tratamiento frente a los volúmenes generados. Esto es consistente con la evidencia de Henao et al. (2024), quienes advierten que la adopción de prácticas de conservación del agua depende en gran medida de la disponibilidad de infraestructura de tratamiento y de inversión ambiental.

Por otra parte, ninguna de las variables categóricas resultaron significativas, lo que indica que la ubicación geográfica, el tipo de actividad productiva y la implementación de programas de uso eficiente del agua no explican diferencias relevantes en los volúmenes de tratamiento de aguas residuales dentro del sector. Este resultado contrasta parcialmente con el estudio de Henao-Rodríguez, Lis-Gutiérrez y Angulo-Bustinza (2024), quienes evidencian que, en el contexto industrial colombiano, la existencia de programas o certificaciones ambientales no siempre se traduce en acciones efectivas para el uso eficiente del recurso hídrico.

Teniendo en cuenta estas variables se diseñó el modelo y presentó un ajuste moderado (R² = 0.2385), lo cual sugiere que otros factores no incluidos —como la infraestructura tecnológica, la inversión ambiental o el tamaño del establecimiento— podrían incidir en el comportamiento del tratamiento de aguas. Esto se confirma al evaluar los factores destacados en los trabajos de Henao et al. (2024) como elementos de peso en la adopción de prácticas sostenibles. Además, se verificó el cumplimiento del supuesto de homocedasticidad y una mejora en la normalidad de los residuos al hacer transformaciones logarítmicas, sin embargo la variabilidad presentada en los extremos condiciona el resultado llevando a rechazar el supuesto de normalidad. Adicionalmente, se detectó alta multicolinealidad entre las variables agua utilizada y agua residual generada, lo que podría afectar la estabilidad de los coeficientes. Por ello recomienda considerar la exclusión de una de ellas con el fin de mejorar la estabilidad y la interpretación del modelo de regresión.

Aunque los residuos no cumplieron completamente el supuesto de normalidad el modelo lineal ajustado sí permitió identificar cómo los factores región, sector productivo, programas de uso eficiente de agua y volúmenes de consumo y generación influyen en el volumen de agua residual tratada en los establecimientos manufactureros de alimentos.

Finalmente, para futuras investigaciones sería pertinente evaluar otros factores dentro del modelo para determinar si su influencia es significante en el resultado de la variable caso de estudio.


Bibliografía

Henao-Rodríguez, C., Lis-Gutiérrez, J. P., & Angulo-Bustinza, F. (2024). Unveiling greenwashing in Colombian manufacturing: A machine learning approach. Resources, Globalization and Sustainability, 4, 100196. https://doi.org/10.1016/j.resglo.2024.100196

Henao, C., Lis-Gutiérrez, J.P., Lis-Gutiérrez, M. et al. Determinants of efficient water use and conservation in the Colombian manufacturing industry using machine learning. Humanit Soc Sci Commun 11, 2 (2024). https://doi.org/10.1057/s41599-023-02524-x