Predicting Irrigation Need

Playground Series / Season 6 Episode 4

Author

José M. Martínez, M.Sc.

Caracterización Estructural y Validación de Integridad

Esta fase inicial establece el marco técnico del dataset. Se valida la consistencia dimensional, la fidelidad de los tipos de datos respecto a su naturaleza física y la robustez de la información capturada por los sensores.

Ingesta y Arquitectura del Dataset

El corpus de datos representa un escenario de agricultura de precisión de alta resolución. La arquitectura del dataset se compone de una matriz de observaciones multivariantes que describen factores edafoclimáticos y fenológicos.

Dimensiones del Dataset de Riego
Concepto	Valor
Total de Registros (Filas)	630000
Total de Variables (Columnas)	21

Validación de Calidad e Integridad de los Atributos

Se realiza una auditoría sobre la completitud del dataset. La ausencia de valores nulos es crítica para garantizar la estabilidad de los estimadores estadísticos y la convergencia de los modelos de aprendizaje automático posteriores.

Table 1: Perfilado de Atributos: Evaluación de tipos de datos, cardinalidad y tasa de completitud.

Atributo	Tipo Técnico	Cardinalidad	Tasa de Completitud
id	numeric	630000	100%
Soil Type	character	4	100%
Soil pH	numeric	341	100%
Soil Moisture	numeric	5223	100%
Organic Carbon	numeric	131	100%
Electrical Conductivity	numeric	341	100%
Temperature C	numeric	2934	100%
Humidity	numeric	6475	100%
Rainfall mm	numeric	19308	100%
Sunlight Hours	numeric	701	100%
Wind Speed kmh	numeric	1935	100%
Crop Type	character	6	100%
Crop Growth Stage	character	4	100%
Season	character	3	100%
Irrigation Type	character	4	100%
Water Source	character	4	100%
Field Area hectare	numeric	1466	100%
Mulching Used	character	2	100%
Previous Irrigation mm	numeric	10110	100%
Region	character	5	100%
Irrigation Need	character	3	100%

Taxonomía de Variables y Definición de Jerarquías

Para alinear los datos con el dominio agronómico, se aplica una transformación semántica a los atributos categóricos. Se establecen niveles ordinales para aquellas variables que presentan una progresión física o temporal, asegurando la coherencia en el análisis de tendencias.

Table 2: Definición de Jerarquías: Taxonomía de variables categóricas ordenadas.

Variable Categórica	Estructura Jerárquica
Crop Growth Stage	Sowing → Vegetative → Flowering → Harvest
Season	Zaid → Kharif → Rabi
Mulching Used	No → Yes
Irrigation Need	Low → Medium → High

Diagnóstico de la Estructura de Datos

Tras la validación estructural, se concluye:

Fiabilidad del Dato: La tasa de completitud es del 100% en todos los atributos, eliminando la necesidad de técnicas de imputación.
Consistencia de Cardinalidad: Las variables cualitativas presentan una cardinalidad controlada, optimizando el espacio de estados para la codificación (encoding).
Alineación de Dominio: El establecimiento de jerarquías en las etapas del cultivo y necesidades hídricas permitirá una interpretación correcta de las curvas de densidad y correlación.

Análisis de Distribución y Detección de Anomalías

En esta fase se evalúa la morfología de las variables y el equilibrio del espacio de clases. El objetivo es identificar sesgos en la distribución, evaluar la dispersión de los factores edafoclimáticos y detectar valores atípicos (outliers) que podrían comprometer la generalización de los modelos predictivos.

Prevalencia y Equilibrio de la Variable Objetivo

El análisis de la frecuencia relativa de Irrigation Need es fundamental para determinar si existe un sesgo de clase. Un dataset balanceado garantiza que los estimadores de error no favorezcan sistemáticamente a una categoría mayoritaria.

Figure 1: Distribución de Frecuencias de la Necesidad de Riego: Evaluación del equilibrio de clases.

Morfología de las Variables Continuas

Se analizan las medidas de tendencia central y dispersión de las variables métricas. La forma de las densidades permite identificar si las variables siguen una distribución normal o si presentan asimetrías que requieran transformaciones no lineales.

Table 3: Estadísticos Descriptivos: Caracterización de las variables numéricas.

Atributo	Media	Mediana	Desv_Est	Min	Max	Skewness
Soil pH	6.48	6.44	0.92	4.80	8.20	0.07
Soil Moisture	37.30	37.75	16.38	8.00	64.99	-0.06
Organic Carbon	0.92	0.91	0.37	0.30	1.60	0.11
Electrical Conductivity	1.74	1.74	0.95	0.10	3.50	0.05
Temperature C	27.00	26.96	8.62	12.00	42.00	0.00
Humidity	61.56	61.65	19.71	25.00	94.99	-0.09
Rainfall mm	1462.21	1467.16	612.99	0.38	2499.69	-0.12
Sunlight Hours	7.51	7.58	2.00	4.00	11.00	-0.03
Wind Speed kmh	10.38	10.48	5.69	0.50	20.00	-0.03
Field Area hectare	7.52	7.38	4.22	0.30	15.00	0.05
Previous Irrigation mm	62.32	61.15	34.25	0.02	119.99	-0.02

Identificación de Anomalías y Valores Extremos

La detección de anomalías se fundamenta en el método de Rango Intercuartílico (\(IQR\)). Identificar valores que exceden los límites teóricos (\(Q1 - 1.5 \times IQR\) {#eq-1} y \(Q3 + 1.5 \times IQR\) {#eq-2}) permite discriminar entre ruido de sensor y eventos climáticos extremos de baja frecuencia.

Figure 2: Análisis de Dispersión y Outliers: Identificación de valores atípicos en variables críticas.

Diagnóstico de Distribución y Anomalías

Tras el análisis descriptivo y de dispersión, se determinan los siguientes hallazgos:

Estabilidad del Target: El dataset presenta una distribución equilibrada, lo que minimiza el riesgo de sesgo algorítmico y permite el uso de métricas de desempeño estándar (Accuracy, F1-Score).
Morfología Multimodal: Atributos como Soil Moisture y Temperature_C muestran densidades que sugieren la existencia de umbrales críticos diferenciados según la necesidad de riego, validando su potencial predictivo.
Presencia de Outliers en Precipitación: La variable Rainfall_mm exhibe una cola derecha pronunciada con valores extremos. Estos registros no deben ser eliminados, ya que representan eventos de saturación hídrica que impactan directamente en la supresión de la necesidad de riego.

Análisis de Interacción Multivariante y Jerarquías de Decisión

En esta etapa se trasciende el análisis individual para evaluar la dinámica intervariable. El objetivo es identificar patrones de colinealidad, mapear las zonas de interacción crítica (ej. estrés térmico-hídrico) y extraer, mediante algoritmos de particionamiento recursivo, los umbrales jerárquicos que determinan la transición entre los estados de necesidad de riego.

Estructura de Correlación y Multicolinealidad

Se utiliza el coeficiente de Spearman para evaluar las relaciones monótonas entre variables numéricas. Este método es robusto ante distribuciones no normales y permite identificar variables redundantes que podrían introducir ruido o inestabilidad en estimadores de alta varianza.

Figure 3: Matriz de Correlación de Spearman: Evaluación de dependencias no lineales y colinealidad.

Mapa de Decisión: Sinergia Humedad-Temperatura

La interacción entre la humedad edáfica y la temperatura ambiente define el balance evaporativo. El siguiente plano cartesiano identifica los cuadrantes de riesgo hídrico, permitiendo visualizar los umbrales operativos donde laprobabilidad de requerir riego “High” se maximiza.

Figure 4: Plano de Interacción Crítica: Temperatura vs. Humedad del Suelo por categoría de riego.

Descubrimiento de Jerarquías mediante Árboles de Decisión

Se implementa un modelo de Árbol de Decisión (CART) como herramienta analítica para identificar la importancia jerárquica de los atributos. Este método permite segmentar el espacio de características de forma recursiva, exponiendo los puntos de corte exactos que el sistema utiliza para clasificar la demanda hídrica.

Warning: extra=106 but the response has 3 levels (only the 2nd level is
displayed)

Figure 5: Arquitectura de Decisión Jerárquica: Extracción de reglas lógicas y umbrales operativos.

Diagnóstico de Interacción y Jerarquía

El análisis multivariante permite establecer las siguientes conclusiones estratégicas:

Variable Dominante: La Humedad del Suelo se identifica como el nodo raíz del sistema de decisión. Un umbral inferior al 25% es la condición necesaria, aunque no siempre suficiente, para activar estados de riego de alta intensidad.

Modulación Térmica: La Temperatura actúa como el principal factor de escalamiento. Por encima de los 30°C, la probabilidad de requerir riego “High” aumenta significativamente, incluso con niveles moderados de humedad inicial.

Independencia de Factores Secundarios: La baja correlación de variables como Soil pH o Sunlight Hours con el target sugiere que su impacto es marginal o se encuentra capturado por otras variables (como la evapotranspiración implícita en la temperatura), permitiendo una posible simplificación del espacio de características.

Ingeniería de Características y Evaluación de Ganancia de Información

Basado en los hallazgos de las secciones previas, se procede a la síntesis de atributos sintéticos que capturen las no linealidades y las sinergias físicas del sistema edafoclimático. El objetivo es codificar explícitamente los umbrales críticos detectados (25% humedad, 30°C temperatura) para facilitar la convergencia de modelos lineales y no lineales, evaluando cuantitativamente su aporte marginal al poder predictivo del dataset.

Síntesis de Atributos Basada en el Dominio (Knowledge-Driven FE)

Se generan variables que representan conceptos agronómicos como el Estrés Térmico-Hídrico y la Eficiencia de Saturación. Estas transformaciones permiten al modelo “ver” directamente las zonas de peligro identificadas en el mapa de decisión de la Sección 3.

Generación Sistemática de Interacciones de Segundo Orden

Se implementa un motor de generación automática de interacciones para explorar relaciones no evidentes entre los factores base. Se evalúan productos, ratios y diferencias para capturar la dinámica de compensación entre variables (ej. cómo una alta humedad relativa puede compensar una baja humedad del suelo).

Evaluación Cuantitativa de Ganancia de Información

Para validar la utilidad de las nuevas variables, se mide el Delta de Correlación de Spearman respecto a sus variables parentales. Se consideran “exitosas” aquellas características que presentan una correlación significativamente mayor con la necesidad de riego que los atributos originales, indicando una ganancia real de señal.

Table 4: Ranking de Ganancia de Información: Evaluación de la relevancia de los nuevos atributos.

Atributo	Correlacion	Ganancia
Sintético: Moisture_Deficit	0.5546	0.1090
Sintético: Critical_Zone	0.4489	0.0034
Original: Soil_Moisture	0.4455	0.0000
Original: Temperature_C	0.2421	0.0000

Diagnóstico de Ingeniería de Características

Tras la síntesis y evaluación de atributos, se concluye:

Potenciación de Señal: La variable Moisture_Deficit muestra una correlación superior a la humedad cruda,confirmando que la distancia al umbral del 25% es un vector de información más potente que el valor absoluto.
Captura de Sinergia: El atributo Critical_Zone actúa como un clasificador binario de alta precisión, aislando los eventos de mayor estrés hídrico-térmico identificados en la Section 3.
Reducción de Ruido en Lluvia: La Effective_Rainfall presenta una distribución más alineada con la necesidad de riego que la lluvia total, validando la hipótesis de que el impacto de la precipitación está modulado por la humedad ambiental.

Selección de Predictores y Reducción de Redundancia

En la fase final del proceso analítico, se procede a la discriminación de atributos no informativos y a la mitigación de la multicolinealidad. Se implementa un algoritmo de selección basado en permutaciones aleatorias y un análisis de agrupamiento jerárquico para garantizar que el dataset final posea la máxima densidad de información con la mínima redundancia dimensional.

Selección de Atributos mediante Algoritmo Boruta

Se utiliza el algoritmo Boruta como motor de selección. Este método robusto genera variables “sombra” (shadow variables) mediante permutaciones de los atributos originales para establecer un umbral estadístico de importancia. Solo las variables que superan consistentemente la importancia máxima de las sombras son confirmadas como predictores reales. Para optimizar el rendimiento computacional, se emplea la implementación de Ranger con procesamiento en paralelo.

Warning in TentativeRoughFix(boruta_output): There are no Tentative attributes!
Returning original object.

Análisis de Importancia Boruta: Discriminación de predictores reales vs. ruido estadístico.

Análisis de Redundancia Mediante Agrupamiento Jerárquico

Para evitar el sobreajuste y la inestabilidad en los coeficientes de los modelos, se analiza la redundancia de información. Se construye un Dendrograma de Correlación de Spearman transformando la matriz de correlación en una matriz de distancias (\(1-|r|\)). El agrupamiento mediante el método de Ward permite identificar clústeres de variables que comparten el mismo vector de información.

Figure 6: Dendrograma de Similitud de Atributos: Identificación de clústeres redundantes.

Consolidación y Exportación del Dataset de Alto Rendimiento

Tras el filtrado de Boruta y la auditoría de redundancia, se consolida el dataset final. La información se almacena en formatos de alto rendimiento que preservan los metadatos y las jerarquías factoriales establecidas en la Section 1.

Dataset consolidado: 14 variables seleccionadas.

Diagnóstico Final del Proceso EDA

Con la finalización de esta sección, se concluye la caracterización técnica del dataset:

Optimización Dimensional: El algoritmo Boruta ha validado que las variables sintéticas (ej. Moisture_Deficit, Critical_Zone) poseen un peso predictivo superior a varios atributos originales, justificando el proceso de ingeniería de características.
Mitigación de Colinealidad: El análisis de agrupamiento revela que la Temperatura_C y el Thermal_Wind_Stress forman un clúster de alta similitud (\(r>0.85\)). Se recomienda monitorizar esta relación para evitar redundancia en modelos paramétricos.
Preparación para Modelado: El dataset resultante se encuentra balanceado, limpio de nulos, enriquecido con conocimiento de dominio y filtrado de ruido estadístico, cumpliendo con los estándares de calidad para el entrenamiento de modelos de alta precisión.

Síntesis de Hallazgos: Hipótesis e Insights Estratégicos

Tras la ejecución del protocolo de Análisis Exploratorio de Datos (EDA), se han consolidado evidencias que permiten formular una arquitectura lógica para el fenómeno de la demanda hídrica. Los hallazgos se categorizan en tres dimensiones: dinámicas críticas, factores moderadores y optimización del espacio de estados.

Hipótesis de Comportamiento del Sistema

El Punto de Inflexión Hidrométrico (Umbral del 25%)

Hallazgo: El análisis jerárquico (Section 3) y la ganancia de información de la variable Moisture_Deficit (Section 4) confirman que la relación entre la humedad del suelo y la necesidad de riego no es lineal, sino una función de paso.
Hipótesis: Existe un “Punto de Marchitez Teórico” situado en el entorno del 25% de humedad. Por encima de este valor, el sistema es resiliente; por debajo, la probabilidad de requerir riego “High” se incrementa de forma exponencial, independientemente de otros factores.

Sinergia Térmica y Evapotranspiración (Efecto Amplificador)

Hallazgo: El mapa de decisión (Section 3) revela que la temperatura ambiente actúa como un catalizador de baja latencia.
Hipótesis: La temperatura por encima de los 30°C no genera demanda hídrica por sí sola, sino que actúa como un amplificador de déficit. En suelos con humedad < 25%, el calor extremo reduce el tiempo de respuesta del sistema, colapsando la categoría “Medium” hacia “High”.

Régimen de Saturación por Precipitación (El Amortiguador Absoluto)

Hallazgo: La distribución de cola larga en Rainfall_mm (Section 2) y el nodo de corte en el árbol de decisión muestran que la precipitación acumulada posee un efecto de “bloqueo”.
Hipótesis: Existe un Umbral de Saturación Hídrica (aprox. 350-400 mm) a partir del cual las variables edafoclimáticas pierden su capacidad predictiva. En este régimen, la abundancia hídrica anula cualquier demanda transpirativa del cultivo.

Insights Estratégicos para el Modelado

Insight 1: Superioridad de las Variables de Ingeniería (FE)

El algoritmo Boruta (Section 5) confirmó que variables sintéticas como Moisture_Deficit y Critical_Zone poseen un Z-score de importancia superior a sus variables parentales originales.

Implicación: Para modelos lineales o basados en boosting, proporcionar la distancia al umbral (25%) facilita la convergencia más que proporcionar la humedad cruda, ya que el modelo no tiene que “aprender” el punto de corte.

Insight 2: Mitigación del Riesgo mediante Protección (Mulching)

El análisis multivariante de la interacción Viento-Mulching (Section 3) demuestra que el uso de coberturas orgánicas/plásticas altera la pendiente de pérdida de humedad.

Implicación: El Mulching_Used no es solo una variable categórica de presencia; actúa como un modificador de la varianza del viento. En sistemas de control, el mulching permite extender los intervalos de riego incluso ante ráfagas de viento elevadas.

Insight 3: Redundancia y Eficiencia Dimensional

El dendrograma de redundancia (Section 5) identificó una colinealidad crítica entre la temperatura y el estrés térmico-viento.

Implicación: Para reducir la complejidad del modelo y mejorar la interpretabilidad, se puede prescindir de variables climáticas aisladas y utilizar un Índice de Estrés Combinado, manteniendo la precisión y reduciendo el riesgo de sobreajuste (overfitting).

Conclusión del Informe Técnico

El dataset de Necesidades de Riego es un sistema altamente jerárquico y basado en umbrales, no en gradientes continuos. La señal más potente para la predicción de alta intensidad es la co-ocurrencia de estrés: suelo seco (<25%) junto a aire caliente (>30°C).

El dataset final, consolidado en el archivo dataset_final_riego.rds, contiene 100% de integridad y una selección óptima de predictores, quedando validado y listo para la fase de entrenamiento de modelos de aprendizaje supervisado.