Nelson Andrés Guerrero Jimenez
Daniela Aranzazu Medina
York Antony Calvache Tabarez
La calidad del aire es un factor determinante para la salud y bienestar de la población, especialmente en áreas urbanas y de alta densidad poblacional. En Colombia, como en muchos otros países, la emisión de diversas partículas contaminantes es un problema que afecta la calidad del aire y, por ende, la salud pública. En este sentido, el objetivo de este informe estadístico es analizar los datos de emisión de en algunos departamentos de Colombia en el año 2022, con el fin de cuantificar las irregularidades en la calidad del aire, de acuerdo con el Índice de Calidad del Aire (ICA).
Analizar la emisión de diversas partículas contaminantes en algunos departamentos de Colombia en el año 2022, con el fin de cuantificar las irregularidades en la calidad del aire, de acuerdo con el Índice de Calidad del Aire (ICA).
• Identificar los departamentos con mayor emisión de partículas contaminantes en el año 2022.
• Determinar la correlación entre la emisión de partículas contaminantes y el ICA.
• Evaluar el cumplimiento del Índice Nacional de Calidad del Aire (ICA) en los departamentos: Antioquia, Bogotá DC, Boyacá, Córdoba, Cundinamarca, Quindío, Risaralda y Valle del Cauca.
Corresponde a todas las estaciones distribuidas por los diferentes departamentos de Colombia.
Corresponde a un subconjunto de estaciones que han sido seleccionados para el estudio de la calidad del aire. En este caso, la muestra estaría compuesta por las estaciones encontradas en los departamentos de Antioquia, Bogotá DC, Boyacá, Córdoba, Cundinamarca, Quindío, Risaralda y Valle del Cauca.
La selección de estos departamentos como muestra se ha realizado en función de algunos criterios. Se han seleccionado estos departamentos porque son los más poblados, los que tienen una mayor actividad industrial o los que tienen una mayor concentración de vehículos, entre otros posibles criterios.
Se utilizó el software R (versión actual en línea, R Core Team, año actual). Se utilizaron las funciones y paquetes estadísticos disponibles en la versión en línea de R.
En primer lugar, se deben recopilar los datos de la SISAIRE sobre la calidad del aire en los departamentos seleccionados. Es importante verificar que los datos sean confiables y estén completos.
Se deben identificar las variables cualitativas de interés, como los contaminantes más comunes en cada departamento, y se deben crear gráficos estadísticos relevantes para representar esta información. Por ejemplo, se podrían crear gráficos de barras o de pastel para mostrar la distribución de los contaminantes en cada departamento.
Se deben identificar las variables cuantitativas de interés, como la concentración de un determinado contaminante en el aire, y se deben crear diagramas de cajas y alambres para mostrar la distribución de los datos. Se deben crear estos diagramas tanto para el conjunto de datos como para cada categoría de la variable cualitativa.
Se deben identificar posibles relaciones entre las variables cualitativas y cuantitativas y se deben crear gráficos estadísticos para representar esta información. Por ejemplo, se podrían crear gráficos de dispersión para evaluar si hay una relación entre la ubicación geográfica y la concentración de un determinado contaminante.
Se deben calcular los coeficientes de correlación lineal para las variables cuantitativas y se deben interpretar en función del contexto del problema. Por ejemplo, se podría calcular el coeficiente de correlación entre la concentración de un determinado contaminante y la ubicación geográfica para evaluar si existe una relación significativa entre estos dos factores.
Finalmente, se deben interpretar los resultados obtenidos y se deben sacar conclusiones relevantes en función del objetivo del informe.
El presente informe estadístico presenta un análisis de los agentes contaminantes presentes en el aire de varios departamentos, el cual se basa en la cantidad de estaciones de monitoreo presentes en cada una de ellas. La gráfica adjunta muestra claramente la distribución de estas estaciones en cada departamento seleccionada para el estudio.
La siguiente tabla presentada contiene la base de datos del estudio estadístico que se realizó con información recopilada por el SISAIRE. Los datos corresponden a los promedios de las mediciones ambientales de siete variables: PM2.5, PM10, NO, SO2, NO2, CO y O3, tomados durante todo el año 2022 en diferentes departamentos seleccionados como muestra.
En la tabla que se muestra a continuación se recopilan las estadísticas descriptivas de la base de datos trabajada. Estas estadísticas resumen la información contenida en la base de datos y proporcionan una comprensión básica de las características clave de los datos. Algunas de las estadísticas incluidas en la tabla son el número de observaciones, la media, la mediana, la desviación estándar, el mínimo y el máximo. Estas medidas son útiles para analizar la distribución de los datos y detectar valores atípicos o extremos.
Estadisticas descriptivas de los contaminantes:
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PM2,5 | 1 | 52 | 15.176154 | 7.021292 | 15.145 | 15.498571 | 4.003020 | 0 | 33.41 | 33.41 | -0.2432756 | 0.6226141 | 0.973678 |
| PM10 | 2 | 52 | 29.131731 | 14.853721 | 29.485 | 29.648333 | 8.836296 | 0 | 75.16 | 75.16 | -0.1918982 | 1.0860794 | 2.059840 |
| NO | 3 | 52 | 15.009039 | 21.529103 | 5.765 | 10.572143 | 8.547189 | 0 | 96.54 | 96.54 | 1.9180335 | 3.8271154 | 2.985549 |
| SO2 | 4 | 52 | 6.164615 | 8.124281 | 4.125 | 4.672857 | 6.115725 | 0 | 48.62 | 48.62 | 2.9740138 | 12.0749789 | 1.126635 |
| NO2 | 5 | 52 | 27.323462 | 12.760507 | 25.680 | 26.838571 | 14.195895 | 0 | 54.13 | 54.13 | 0.2897363 | -0.5484073 | 1.769564 |
| CO | 6 | 52 | 475.441731 | 562.838233 | 456.785 | 375.689048 | 677.229441 | 0 | 2475.30 | 2475.30 | 1.4420942 | 2.1306574 | 78.051620 |
| O3 | 7 | 52 | 13.684423 | 15.262642 | 11.745 | 11.269524 | 17.413137 | 0 | 51.01 | 51.01 | 0.9281542 | 0.0852618 | 2.116548 |
El análisis general de los indicadores de promedio, mediana y otras estadísticas descriptivas de los contaminantes ambientales en la base de datos del SISAIRE revela lo siguiente:
Tanto PM2.5 como PM10 muestran valores similares de promedio y mediana, lo que indica que la distribución de los datos es aproximadamente simétrica. Ambas variables presentan desviaciones estándar moderadas, lo que sugiere una dispersión de los datos alrededor de la media. Los valores mínimos de cero en ambas variables indican momentos en los que la concentración de partículas es baja o no se detecta. Las variables PM10 muestran una mayor variabilidad que PM2.5, como se evidencia en su desviación estándar y rango.
Estas tres variables tienen valores promedio y mediana que difieren considerablemente, lo que sugiere una posible asimetría en la distribución de los datos. Las desviaciones estándar son relativamente altas, lo que indica una mayor dispersión de los datos alrededor de la media. Los valores máximos indican momentos de alta concentración de gases contaminantes, que podrían estar relacionados con la contaminación del tráfico.
Ambas variables presentan valores promedio y mediana que difieren, lo que también sugiere posible asimetría en la distribución de los datos. Las desviaciones estándar son altas, lo que indica una dispersión amplia de los datos alrededor de la media. Los valores máximos en ambas variables son significativamente altos, lo que sugiere la posible presencia de fuentes de emisión cercanas que generan concentraciones elevadas de estos gases.
En general, este análisis nos proporciona una idea de la distribución y variabilidad de cada variable contaminante en la base de datos. Nos permite identificar posibles asimetrías, concentraciones extremas y variaciones en la dispersión de los datos, lo cual es fundamental para comprender la calidad del aire y la posible presencia de fuentes contaminantes.
Estos gráficos permiten visualizar la distribución de las emisiones de los contaminantes a analizar en los departamentos de la muestra, identificar valores atípicos y tener una idea general de la concentración y dispersión de los datos.
En cuanto a las emisiones de PM2.5, el gráfico de caja y bigotes muestra una distribución simétrica, con la mediana de emisiones de PM2.5 en 15.145. El valor mínimo de emisiones de PM2.5 es de 8.660, el primer cuartil (Q1) es de 12.840, el tercer cuartil (Q3) es de 18.585 y el valor máximo es de 26.990. También se observa la presencia de valores atípicos por encima del valor máximo, lo que indica la presencia de emisiones muy elevadas en algunos departamentos.
Para las emisiones de PM10, el gráfico de caja y bigotes muestra una distribución asimétrica positiva, con una mayor concentración de los datos entre el 50% y el 75%. El valor mínimo de emisiones de PM10 es de 20.090, el primer cuartil (Q1) es de 24.575, la mediana o segundo cuartil (Q2) es de 29.485, el tercer cuartil (Q3) es de 36.705 y el valor máximo es de 52.640. La presencia de valores atípicos por encima del valor máximo sugiere la existencia de emisiones muy elevadas en algunos departamentos.
En este análisis se presentan diagramas de cajas que representan la distribución de las emisiones para los contaminantes gaseosos NO, SO2, NO2, CO y O3. Se puede observar una asimetría positiva en la mayoria de las distribuciones de los datos, lo que indica que hay una mayor concentración de los datos en el lado inferior del diagrama, es decir, en valores más bajos.
En cuanto al contaminante O3, se puede ver que el 50% de las cantidades están por debajo de 20. Este valor se considera bueno para la salud de la población, ya que altos niveles de O3 pueden tener efectos negativos en la salud humana. Cabe destacar que los otros contaminantes presentados en el diagrama también tienen efectos adversos en la salud y el medio ambiente.
Es importante destacar que este análisis se basa en la muestra seleccionada y no representa necesariamente la situación en todo el país. Es necesario llevar a cabo estudios más amplios y detallados para obtener una imagen más completa de la calidad del aire en diferentes áreas geográficas.
En general, se puede observar que la distribución de las emisiones de PM10 en los departamentos analizados presenta una gran variabilidad. Se pueden identificar algunos departamentos que presentan valores atípicos, como Bogotá DC, Cundinamarca y Risaralda, que muestran una amplia dispersión en sus datos.
Por otro lado, se encuentran departamentos como Antioquia y Quindío que muestran una distribución más simétrica, con una concentración de datos en torno a su media.
En cuanto a la tendencia, se puede observar que Boyacá y Córdoba presentan una distribución poco negativa y negativa, respectivamente, mientras que Valle del Cauca muestra una tendencia negativa.
En general, es importante destacar la presencia de valores atípicos y una gran variabilidad en las emisiones de PM10 en los departamentos analizados, lo que puede implicar riesgos para la salud de las personas expuestas a estos niveles de contaminación.
Para el PM2.5, se puede observar que la distribución de datos en los departamentos de Antioquia, Boyacá, Córdoba y Quindío presentan valores similares en cuanto a la mediana y los cuartiles, aunque con algunas diferencias en la distribución de los datos. Antioquia y Quidío presenta una distribución más simétrica, mientras que Córdoba tiene una ligera tendencia positiva y Boyacá tiene un sesgo positivo más pronunciado, mientras que en Bogotá, Cundinamarca, Risaralda y Valle del Cauca la distribución presenta una asimetría negativa, con una mayor concentración de datos en la parte superior de la mediana.
Se puede observar que los departamentos de Bogotá y Risaralda tienen una alta concentración de emisiones de PM2.5, lo cual puede tener efectos negativos en la salud de las personas expuestas a estas emisiones.
Por otro lado, los departamento de Cundinamarca y Valle del Cauca presentan los valores más bajos de emisiones. En general, se puede concluir que la distribución de emisiones de PM2.5 varía significativamente entre los diferentes departamentos analizados, esto sugiere que las fuentes de emisión y los factores ambientales que influyen en la concentración de estos contaminantes pueden variar significativamente de una región a otra, lo que destaca la importancia de monitorear y controlar estas emisiones a nivel local para proteger la salud de las personas y el medio ambiente.
| Buena | moderada | |
|---|---|---|
| Antioquia | 2 | 0 |
| Bogota_DC | 19 | 1 |
| Boyaca_ | 3 | 0 |
| Cordoba | 4 | 0 |
| Cundinamarca | 13 | 0 |
| Quindio | 2 | 0 |
| Risaralda | 5 | 0 |
| Valle_del_cauca | 3 | 0 |
Lo anteriror muestra la cantidad de estaciones de monitoreo que registran una calidad del aire clasificada como buena o moderada en cada uno de los departamentos evaluados. Se puede observar que en el departamento de Córdoba hay una estación que registra una calidad del aire moderada, mientras que en los demás departamentos todas las estaciones registran una buena calidad del aire. Esta información es fundamental para comprender la situación actual de la calidad del aire en cada departamento y para diseñar medidas que permitan mejorarla.
La siguiente gráfica muestra la clasificación de los niveles de PM2,5, partículas que pueden tener efectos negativos en la salud de las personas. Los niveles se clasifican como buenos o moderados, lo que indica si el nivel de PM2,5 es bajo y, por lo tanto, no representa un riesgo para los habitantes. La leyenda para esta gráfica es la misma que la del gráfico anterior, sin embargo, por razones de presentación visual, no se ha incluido en esta versión de la gráfica. El análisis de los niveles de PM2,5 es crucial para evaluar la calidad del aire en cada departamento y para diseñar medidas adecuadas que minimicen los efectos negativos de estas partículas en la salud pública y el medio ambiente.
| Buena | moderada | |
|---|---|---|
| Antioquia | 0 | 2 |
| Bogota_DC | 1 | 19 |
| Boyaca_ | 0 | 3 |
| Cordoba | 0 | 4 |
| Cundinamarca | 5 | 8 |
| Quindio | 1 | 1 |
| Risaralda | 1 | 4 |
| Valle_del_cauca | 3 | 0 |
La gráfica muestra que las Emisiones de PM 10 son directamente proporcionales al ICA. Esto quiere decir que a medida que las emisiones de PM 10 aumentan el ICA proporciona un valor más alto a cada concentración para clasificarlo y así conocer el riesgo que presenta para la población, cabe aclarar que este grafico es una representacion obvia de la relacion entre ICA y la emision de material particulado pues para calcular el ICA se hace uso de las emisiones, aun asi, se anexo el grafico debido a que las variables de la base de datos analisadas no se pueden relacionar entre si al ser la mayoria datos de emisiones de agentes contaminantes completamente independientes entre si.
La gráfica muestra que las Emisiones de PM 2.5 son directamente proporcionales al ICA. Esto quiere decir que a medida que las emisiones de PM 2.5 aumentan el ICA proporciona un valor más alto a cada concentración para conocer el riesgo que presenta para la población. Al igual que en el grafico anterior, cabe aclarar que este grafico es una representacion obvia de la relacion entre ICA y la emision de material particulado pues para calcular el ICA se hace uso de las emisiones, aun asi, se anexo el grafico debido a que las variables de la base de datos analisadas no se pueden relacionar entre si al ser la mayoria datos de emisiones de agentes contaminantes completamente independientes entre si.
## El promedio puntual de PM2.5 es 15.17615 μg/m3.
## La desviación estándar puntual de PM2.5 es 7.021292 μg/m3.
## El intervalo de confianza para el promedio de PM2.5 es ( 13.22141 - 17.13089 ) μg/m3 (95% de confianza).
## El intervalo de confianza para la desviación estándar de PM2.5 es ( NA - NA ) μg/m3 (95% de confianza).
El intervalo de confianza está dado por los valores 13.22141 y 17.13089, por lo que con un 95% de confianza podemos afirmar que la media de la población de la variable “PM2.5” podría estar comprendida entre esos dos valores. A partir de una concentración de 12.1 ug/m3 la calidad del aire es inferior a buena, como el intervalo es cerrado por los valores de 13.22141 y 17.13089, eso quiere decir que la concentración desde la cual la calidad del aire no es buena esta dentro del intervalo, por tanto significa que la concentración de contaminantes en el aire puede ser inferior a buena en una gran cantidad de veces.
## El promedio puntual de PM10 es 29.13173 μg/m3.
## La desviación estándar puntual de PM10 es 14.85372 μg/m3.
## El intervalo de confianza para el promedio de PM10 es ( 24.99643 - 33.26703 ) μg/m3 (95% de confianza).
## El intervalo de confianza para la desviación estándar de PM10 es ( NA - NA ) μg/m3 (95% de confianza).
El intervalo de confianza está dado por los valores 24.99643 y 33.26703, por lo que con un 95% de confianza podemos afirmar que la media de la población de la variable “PM10” podría estar comprendida entre esos dos valores. A partir de una concentración de 55 ug/m3 la calidad del aire es inferior a buena, como el intervalo es encerrado por los valores de 24.99643 y 33.26703, eso quiere decir que el promedio esta por debajo de 55, por tanto, en un 95% de las veces la calidad del aire va a ser buena.
## La proporción puntual de la categoría 'Buena' para PM2.5 es 0.2115385 .
## El intervalo de confianza para la proporción de 'Buena' para PM2.5 es ( 0.1151608 - 0.3508672 ) (95% de confianza).
Esto significa que, con un nivel de confianza del 95%, podemos afirmar que la proporción verdadera de datos que tienen una clasificación de calidad del aire de “Buena” se encuentra entre 0.1151608 y 0.3508672. Lo anterior indica que menos de la mitad de mediciones cuentan con una clasificacion de calidad del aire menor a Buena, al estar la clasificacion Buena en una proporcion ubicada entre 0.1151608 y 0.3508672.
Hipótesis nula (H0): La media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es igual a 12.1 µg/m3. Hipótesis alternativa (Ha): La media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es mayor de 12.1 µg/m3.
#Prueba de hipotesis para la media
x = datos$`PM2,5`
t.test(x, mu = 12.1, alternative = "greater")
##
## One Sample t-test
##
## data: x
## t = 3.1593, df = 51, p-value = 0.001329
## alternative hypothesis: true mean is greater than 12.1
## 95 percent confidence interval:
## 13.54497 Inf
## sample estimates:
## mean of x
## 15.17615
Se realizó la prueba t de la muestra con un nivel de significancia del 0.05. El resultado de la prueba mostró un p-valor de 0.001329. Con base en este resultado, se rechaza la hipótesis nula a favor de la hipótesis alternativa. Por lo tanto, se concluye que hay suficiente evidencia estadística para afirmar que la media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es mayor que 12.1 µg/m3.
Hipótesis nula (H0): La concentración media de PM2.5 en Cundinamarca y Valle del Cauca es igual. Hipótesis alternativa (Ha): la concentración media de PM2.5 en Valle del Cauca es menor que en Cundinamarca.
valle <- datos$`PM2,5`[datos$UBICACIÓN == "Valle_del_cauca"]
cundinamarca <- datos$`PM2,5`[datos$UBICACIÓN == "Cundinamarca"]
t.test(cundinamarca, valle, alternative = "greater", var.equal = TRUE)
##
## Two Sample t-test
##
## data: cundinamarca and valle
## t = 1.2512, df = 14, p-value = 0.1157
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -2.285485 Inf
## sample estimates:
## mean of x mean of y
## 12.642308 7.036667
En este caso, se planteó la hipótesis alternativa de que la concentración de PM2.5 es mayor en Cundinamarca que en Valle del Cauca. El resultado del test t fue un p-valor de 0.1157, lo que indica que no hay suficiente evidencia estadística para rechazar la hipótesis nula de que las concentraciones son iguales o menores en Cundinamarca que en Valle del Cauca.
Finalmente, se identificó que los departamentos de Antioquia, Bogotá DC y Valle del Cauca presentaron los mayores niveles de emisión de partículas contaminantes, mientras que los departamentos de Cundinamarca y Quindío presentaron los niveles más bajos.
Asimismo, se determinó que existe una correlación entre la emisión de partículas contaminantes y el ICA, lo que sugiere que a medida que se aumenta la emisión de contaminantes, se deteriora la calidad del aire y se obtienen valores más altos del ICA, una apreciacion que verifica la estrecha correlacion entre ambos pues el ICA se calcula a traves de la formula matricial establecida en la norma con base en la cantidad de emisiones, el aumento en el ICA como indicador de la calidad del aire en un entorno puede tener consecuencias negativas para la salud pública.
Por otro lado, se pudo constatar que la mayoría de las emisiones fueron registradas como buenas y moderadas por el indicador ICA, lo que indica que se han cumplido las normas establecidas en el Índice Nacional de Calidad del Aire (ICA) en los departamentos evaluados. Sin embargo, es importante seguir monitoreando y evaluando la calidad del aire en estos y otros departamentos, con el fin de tomar medidas preventivas y correctivas oportunas para mejorar la calidad del aire y reducir los impactos negativos en la salud pública y el medio ambiente.
SISAIRE - IDEAM. (s. f.). http://sisaire.ideam.gov.co/ideam-sisaireweb/informacion.xhtml?de=que_es
SISAIRE - IDEAM. (s. f.-b). http://sisaire.ideam.gov.co/ideam-sisaire-web/consultas.xhtml
R Core Team. (2023). R: A language and environment for statistical computing [Software]. R Foundation for Statistical Computing. Recuperado de https://www.R-project.org/