1 Descripción del Conjunto de Datos sobre Emisiones de CO2 Agroalimentarias

Este conjunto de datos fue desarrollado a partir de la fusión de varios conjuntos de datos proporcionados por la Food and Agriculture Organization (FAO) y el Intergovernmental Panel on Climate Change (IPCC), los cuales fueron limpiados, procesados y combinados para crear una base de datos sólida y cohesiva. El objetivo es utilizarla para realizar análisis profundos y pronósticos relacionados con las emisiones de \(CO_2\) en el sector agroalimentario.

1.1 Emisiones de CO2 en el Sector Agroalimentario

El conjunto de datos aborda las emisiones de \(CO_2\) asociadas con el sector agroalimentario, que representan aproximadamente el 62% de las emisiones globales anuales de \(CO_2\). Estas emisiones son clave al analizar el cambio climático, dado que el sector agroalimentario tiene un impacto significativo en las emisiones globales. Comprender y mitigar el efecto ambiental de esta industria es esencial para combatir el cambio climático y promover prácticas agrícolas más sostenibles.

Este conjunto de datos también sirve para examinar cómo las actividades agrícolas contribuyen a las emisiones de gases de efecto invernadero y cómo podemos predecir cambios en las temperaturas utilizando técnicas de aprendizaje automático.

1.2 Características del Conjunto de Datos

A continuación, se presentan las principales características del conjunto de datos:

Principales Características del Conjunto de Datos
Variable Descripción
Savanna fires Emisiones de CO2 generadas por incendios en ecosistemas de sabana.
Forest fires Emisiones de CO2 generadas por incendios en áreas forestales.
Crop Residues Emisiones debido a la quema o descomposición de residuos vegetales tras la cosecha.
Rice Cultivation Emisiones de metano derivadas del cultivo de arroz.
Drained organic soils (CO2) Emisiones de CO2 liberadas al drenar suelos orgánicos.
Pesticides Manufacturing Emisiones originadas en la producción de pesticidas.
Food Transport Emisiones provenientes del transporte de productos alimenticios.
Forestland Superficie de tierra cubierta por bosques, considerada un sumidero de carbono.
Net Forest conversion Cambio en el área forestal debido a la deforestación y reforestación.
Food Household Consumption Emisiones generadas por el consumo de alimentos en los hogares.

1.3 Importancia del Conjunto de Datos

El sector agroalimentario es un factor fundamental en el cambio climático, ya que contribuye significativamente a las emisiones globales de \(CO_2\) Este conjunto de datos permite estudiar y comprender el impacto de las actividades agrícolas en las emisiones de \(CO_2\) Gracias a la capacidad de predecir emisiones futuras utilizando aprendizaje automático, este conjunto de datos se convierte en una herramienta crucial para que los responsables de la formulación de políticas y los investigadores diseñen estrategias para reducir las emisiones y promover prácticas más sostenibles en la agricultura.

1.4 Aplicación para el Aprendizaje de Regresión Cuantílica

Este conjunto de datos es ideal para aprender sobre regresión cuantílica debido a varias razones:

  • Diversidad de Variables: El conjunto de datos contiene una variedad de variables relacionadas con las emisiones de \(CO_2\) de distintas fuentes en el sector agroalimentario. La regresión cuantílica es particularmente útil cuando se tienen datos con distribuciones sesgadas o heterogéneas, como es el caso de las emisiones de \(CO_2\) Las variables como el consumo de alimentos, la deforestación y la producción agrícola pueden mostrar efectos no lineales a lo largo de la distribución de los datos, lo que permite evaluar cómo los cuantiles superiores e inferiores responden de manera diferente a los factores causantes.

  • Datos con Distribuciones No Normales: Las emisiones de \(CO_2\) de diversas fuentes pueden no seguir una distribución normal, lo que hace que los métodos tradicionales, como la regresión lineal, no sean los más adecuados. La regresión cuantílica puede modelar los diferentes cuantiles de la distribución de emisiones y proporcionar una visión más detallada de los efectos extremos, como el impacto de eventos de gran magnitud (incendios forestales o emisiones industriales).

  • Predicción de Temperaturas: En este conjunto de datos, la variable objetivo es el aumento promedio de la temperatura, lo cual se puede modelar utilizando regresión cuantílica para entender cómo los diferentes cuantiles de las predicciones de temperatura se comportan bajo distintas condiciones. Esto permite no solo predecir el valor promedio de la temperatura, sino también explorar las predicciones en los extremos, que son cruciales en el contexto del cambio climático.

  • Aprendizaje Automático y Regresión Cuantílica: Al aplicar regresión cuantílica, se pueden comparar diferentes modelos de predicción en función de cómo estiman los cuantiles de la distribución, lo cual es útil para desarrollar estrategias más precisas y enfocadas en los diferentes segmentos de la población o el sector agroalimentario.

Por todas estas razones, este conjunto de datos es una excelente base para aplicar y aprender sobre la regresión cuantílica, al ofrecer tanto un contexto relevante como una variedad de variables que se ajustan a las características típicas de los datos que pueden ser modelados eficazmente con este enfoque.

1.4.1 Nota del Autor

  • Las emisiones de \(CO_2\) están registradas en kilotoneladas (kt), donde 1 kt = 1000 kg de \(CO_2\)
  • La variable “Average Temperature °C” representa el aumento promedio de la temperatura por año. Un valor de 0.12 significa que la temperatura aumentó en 0.12°C en esa ubicación específica.
  • Forestland es la única variable que presenta emisiones negativas debido a su rol como sumidero de carbono. Los bosques absorben y almacenan \(CO_2\) a través de la fotosíntesis, reduciendo efectivamente las emisiones en la atmósfera. La gestión sostenible de los bosques y las acciones de reforestación contribuyen a aumentar la capacidad de secuestro de carbono.

Si se prefiere utilizar grados Fahrenheit en lugar de Celsius, se puede aplicar la siguiente fórmula:
\[ °F = (°C \times 9/5) + 32 \]

Este conjunto de datos contiene 7,000 filas y 31 columnas, proporcionando una base sólida para el análisis de las emisiones de \(CO_2\) y el cambio de temperatura en cada país entre 1990 y 2020. Los datos fueron recopilados a partir de las fuentes de la FAO y el IPCC.

2 Análisis Descriptivo Base de Datos

2.1 Exploración de datos faltantes

La imagen muestra que solo el 3.1% de los datos está ausente. Las variables “Savanna fires” y “Manure applied to soils” tienen más datos faltantes que el resto.

La Tabla anterior muestra un conjunto de variables relacionadas con factores ambientales, agrícolas y demográficos entre 1990-2020, incluyendo áreas categorizadas, años y múltiples indicadores como incendios en diferentes ecosistemas, prácticas agrícolas como cultivo de arroz y uso de fertilizantes, emisiones de \(CO_2\), consumo energético en la agricultura, así como población rural y urbana; estas variables presentan gran variabilidad con medias generalmente superiores a las medianas, indicando la presencia de valores atípicos o distribuciones sesgadas, lo que refleja la heterogeneidad geo-temporal de los datos, resaltando la necesidad de un análisis cuidadoso para interpretar tendencias y posibles extremos.

2.2 Emisiones Totales por zona en el Tiempo

El gráfico de barras apiladas muestra una tendencia creciente en las emisiones totales de \(CO_₂\) por zonas geográficas entre 1990 y 2020, alcanzando su punto máximo alrededor del año 2020 con más de 18 millones de unidades emitidas. A lo largo del tiempo, se observa un incremento sostenido en las emisiones, especialmente a partir del año 2000, con variaciones entre regiones, donde algunas, como Estados Unidos, mantienen una participación destacada en el total. El crecimiento es más notable entre 2000 y 2010, reflejando un aumento significativo en las contribuciones regionales, mientras que otras zonas aportan emisiones mínimas de manera constante.

2.3 Incendios Sabanas vs Incendios Forestales en el Tiempo

El gráfico compara las emisiones de \(CO_₂\) generadas por incendios en la sabana (barras amarillas) y por incendios forestales (barras azules) entre 1990 y 2020. En general, las emisiones derivadas de incendios en la sabana fueron consistentemente más altas que las de incendios forestales, con algunos picos notables en los años 2002 y 2010. Las emisiones forestales mostraron mayor variabilidad, alcanzando su punto máximo alrededor de 1999. A partir de 2010, ambas categorías tienden a estabilizarse, con ligeras disminuciones hacia el final del periodo, lo que podría indicar un posible control o reducción en la intensidad o frecuencia de estos incendios.

3 Conclusión

El análisis realizado sobre la base de datos de emisiones de \(CO_₂\) en el sector agroalimentario ha permitido identificar la relevancia de este sector como una fuente significativa de emisiones vinculadas al cambio climático. La diversidad de variables incluidas en el conjunto de datos —como incendios forestales, prácticas agrícolas, consumo de pesticidas y transporte de alimentos— proporciona una visión integral de los factores que contribuyen a estas emisiones. Además, se ha evidenciado que variables como el uso de la tierra forestal actúan como sumideros de carbono, destacando la importancia de su conservación.

La presencia de datos faltantes es mínima (3.1%), por lo que no compromete la calidad del análisis. A través de la exploración descriptiva se identificó una alta variabilidad y asimetría en varias variables, lo cual sugiere la pertinencia de enfoques robustos como la regresión cuantílica para modelar adecuadamente el comportamiento de las emisiones y su relación con el aumento de la temperatura.

En conjunto, esta base de datos ofrece una plataforma valiosa para estudiar la interacción entre prácticas agroalimentarias y el cambio climático, así como para desarrollar modelos predictivos que apoyen la formulación de políticas ambientales sostenibles.