| Concepto | Valor |
|---|---|
| Total de Registros (Filas) | 630000 |
| Total de Variables (Columnas) | 21 |
Predicting Irrigation Need
Playground Series / Season 6 Episode 4
Caracterización Estructural y Validación de Integridad
Esta fase inicial establece el marco técnico del dataset. Se valida la consistencia dimensional, la fidelidad de los tipos de datos respecto a su naturaleza física y la robustez de la información capturada por los sensores.
Ingesta y Arquitectura del Dataset
El corpus de datos representa un escenario de agricultura de precisión de alta resolución. La arquitectura del dataset se compone de una matriz de observaciones multivariantes que describen factores edafoclimáticos y fenológicos.
Validación de Calidad e Integridad de los Atributos
Se realiza una auditoría sobre la completitud del dataset. La ausencia de valores nulos es crítica para garantizar la estabilidad de los estimadores estadísticos y la convergencia de los modelos de aprendizaje automático posteriores.
| Atributo | Tipo Técnico | Valores Nulos | Cardinalidad | Tasa de Completitud |
|---|---|---|---|---|
| id | numeric | 0 | 630000 | 100% |
| Soil Type | character | 0 | 4 | 100% |
| Soil pH | numeric | 0 | 341 | 100% |
| Soil Moisture | numeric | 0 | 5223 | 100% |
| Organic Carbon | numeric | 0 | 131 | 100% |
| Electrical Conductivity | numeric | 0 | 341 | 100% |
| Temperature C | numeric | 0 | 2934 | 100% |
| Humidity | numeric | 0 | 6475 | 100% |
| Rainfall mm | numeric | 0 | 19308 | 100% |
| Sunlight Hours | numeric | 0 | 701 | 100% |
| Wind Speed kmh | numeric | 0 | 1935 | 100% |
| Crop Type | character | 0 | 6 | 100% |
| Crop Growth Stage | character | 0 | 4 | 100% |
| Season | character | 0 | 3 | 100% |
| Irrigation Type | character | 0 | 4 | 100% |
| Water Source | character | 0 | 4 | 100% |
| Field Area hectare | numeric | 0 | 1466 | 100% |
| Mulching Used | character | 0 | 2 | 100% |
| Previous Irrigation mm | numeric | 0 | 10110 | 100% |
| Region | character | 0 | 5 | 100% |
| Irrigation Need | character | 0 | 3 | 100% |
Taxonomía de Variables y Definición de Jerarquías
Para alinear los datos con el dominio agronómico, se aplica una transformación semántica a los atributos categóricos. Se establecen niveles ordinales para aquellas variables que presentan una progresión física o temporal, asegurando la coherencia en el análisis de tendencias.
| Variable Categórica | Estructura Jerárquica |
|---|---|
| Crop Growth Stage | Sowing → Vegetative → Flowering → Harvest |
| Season | Zaid → Kharif → Rabi |
| Mulching Used | No → Yes |
| Irrigation Need | Low → Medium → High |
Diagnóstico de la Estructura de Datos
Tras la validación estructural, se concluye:
Fiabilidad del Dato: La tasa de completitud es del 100% en todos los atributos, eliminando la necesidad de técnicas de imputación.
Consistencia de Cardinalidad: Las variables cualitativas presentan una cardinalidad controlada, optimizando el espacio de estados para la codificación (encoding).
Alineación de Dominio: El establecimiento de jerarquías en las etapas del cultivo y necesidades hídricas permitirá una interpretación correcta de las curvas de densidad y correlación.
Análisis de Distribución y Detección de Anomalías
En esta fase se evalúa la morfología de las variables y el equilibrio del espacio de clases. El objetivo es identificar sesgos en la distribución, evaluar la dispersión de los factores edafoclimáticos y detectar valores atípicos (outliers) que podrían comprometer la generalización de los modelos predictivos.
Prevalencia y Equilibrio de la Variable Objetivo
El análisis de la frecuencia relativa de Irrigation Need es fundamental para determinar si existe un sesgo de clase. Un dataset balanceado garantiza que los estimadores de error no favorezcan sistemáticamente a una categoría mayoritaria.
Morfología de las Variables Continuas
Se analizan las medidas de tendencia central y dispersión de las variables métricas. La forma de las densidades permite identificar si las variables siguen una distribución normal o si presentan asimetrías que requieran transformaciones no lineales.
| Atributo | Media | Mediana | Desv_Est | Min | Max | Skewness | NAs |
|---|---|---|---|---|---|---|---|
| Soil pH | 6.48 | 6.44 | 0.92 | 4.80 | 8.20 | 0.07 | 0 |
| Soil Moisture | 37.30 | 37.75 | 16.38 | 8.00 | 64.99 | -0.06 | 0 |
| Organic Carbon | 0.92 | 0.91 | 0.37 | 0.30 | 1.60 | 0.11 | 0 |
| Electrical Conductivity | 1.74 | 1.74 | 0.95 | 0.10 | 3.50 | 0.05 | 0 |
| Temperature C | 27.00 | 26.96 | 8.62 | 12.00 | 42.00 | 0.00 | 0 |
| Humidity | 61.56 | 61.65 | 19.71 | 25.00 | 94.99 | -0.09 | 0 |
| Rainfall mm | 1462.21 | 1467.16 | 612.99 | 0.38 | 2499.69 | -0.12 | 0 |
| Sunlight Hours | 7.51 | 7.58 | 2.00 | 4.00 | 11.00 | -0.03 | 0 |
| Wind Speed kmh | 10.38 | 10.48 | 5.69 | 0.50 | 20.00 | -0.03 | 0 |
| Field Area hectare | 7.52 | 7.38 | 4.22 | 0.30 | 15.00 | 0.05 | 0 |
| Previous Irrigation mm | 62.32 | 61.15 | 34.25 | 0.02 | 119.99 | -0.02 | 0 |
Identificación de Anomalías y Valores Extremos
La detección de anomalías se fundamenta en el método de Rango Intercuartílico (\(IQR\)). Identificar valores que exceden los límites teóricos (\(Q1 - 1.5 \times IQR\) {#eq-1} y \(Q3 + 1.5 \times IQR\) {#eq-2}) permite discriminar entre ruido de sensor y eventos climáticos extremos de baja frecuencia.
Diagnóstico de Distribución y Anomalías
Tras el análisis descriptivo y de dispersión, se determinan los siguientes hallazgos:
Estabilidad del Target: El dataset presenta una distribución equilibrada, lo que minimiza el riesgo de sesgo algorítmico y permite el uso de métricas de desempeño estándar (Accuracy, F1-Score).
Morfología Multimodal: Atributos como
Soil MoistureyTemperature_Cmuestran densidades que sugieren la existencia de umbrales críticos diferenciados según la necesidad de riego, validando su potencial predictivo.Presencia de Outliers en Precipitación: La variable
Rainfall_mmexhibe una cola derecha pronunciada con valores extremos. Estos registros no deben ser eliminados, ya que representan eventos de saturación hídrica que impactan directamente en la supresión de la necesidad de riego.
Análisis de Interacción Multivariante y Jerarquías de Decisión
En esta etapa se trasciende el análisis individual para evaluar la dinámica intervariable. El objetivo es identificar patrones de colinealidad, mapear las zonas de interacción crítica (ej. estrés térmico-hídrico) y extraer, mediante algoritmos de particionamiento recursivo, los umbrales jerárquicos que determinan la transición entre los estados de necesidad de riego.
Estructura de Correlación y Multicolinealidad
Se utiliza el coeficiente de Spearman para evaluar las relaciones monótonas entre variables numéricas. Este método es robusto ante distribuciones no normales y permite identificar variables redundantes que podrían introducir ruido o inestabilidad en estimadores de alta varianza.
Mapa de Decisión: Sinergia Humedad-Temperatura
La interacción entre la humedad edáfica y la temperatura ambiente define el balance evaporativo. El siguiente plano cartesiano identifica los cuadrantes de riesgo hídrico, permitiendo visualizar los umbrales operativos donde laprobabilidad de requerir riego “High” se maximiza.
Descubrimiento de Jerarquías mediante Árboles de Decisión
Se implementa un modelo de Árbol de Decisión (CART) como herramienta analítica para identificar la importancia jerárquica de los atributos. Este método permite segmentar el espacio de características de forma recursiva, exponiendo los puntos de corte exactos que el sistema utiliza para clasificar la demanda hídrica.
Warning: extra=106 but the response has 3 levels (only the 2nd level is
displayed)
Diagnóstico de Interacción y Jerarquía
El análisis multivariante permite establecer las siguientes conclusiones estratégicas:
Variable Dominante: La Humedad del Suelo se identifica como el nodo raíz del sistema de decisión. Un umbral inferior al 25% es la condición necesaria, aunque no siempre suficiente, para activar estados de riego de alta intensidad.
Modulación Térmica: La Temperatura actúa como el principal factor de escalamiento. Por encima de los 30°C, la probabilidad de requerir riego “High” aumenta significativamente, incluso con niveles moderados de humedad inicial.
Independencia de Factores Secundarios: La baja correlación de variables como Soil pH o Sunlight Hours con el target sugiere que su impacto es marginal o se encuentra capturado por otras variables (como la evapotranspiración implícita en la temperatura), permitiendo una posible simplificación del espacio de características.
Ingeniería de Características y Evaluación de Ganancia de Información
Basado en los hallazgos de las secciones previas, se procede a la síntesis de atributos sintéticos que capturen las no linealidades y las sinergias físicas del sistema edafoclimático. El objetivo es codificar explícitamente los umbrales críticos detectados (25% humedad, 30°C temperatura) para facilitar la convergencia de modelos lineales y no lineales, evaluando cuantitativamente su aporte marginal al poder predictivo del dataset.
Síntesis de Atributos Basada en el Dominio (Knowledge-Driven FE)
Se generan variables que representan conceptos agronómicos como el Estrés Térmico-Hídrico y la Eficiencia de Saturación. Estas transformaciones permiten al modelo “ver” directamente las zonas de peligro identificadas en el mapa de decisión de la Sección 3.
Generación Sistemática de Interacciones de Segundo Orden
Se implementa un motor de generación automática de interacciones para explorar relaciones no evidentes entre los factores base. Se evalúan productos, ratios y diferencias para capturar la dinámica de compensación entre variables (ej. cómo una alta humedad relativa puede compensar una baja humedad del suelo).
Evaluación Cuantitativa de Ganancia de Información
Para validar la utilidad de las nuevas variables, se mide el Delta de Correlación de Spearman respecto a sus variables parentales. Se consideran “exitosas” aquellas características que presentan una correlación significativamente mayor con la necesidad de riego que los atributos originales, indicando una ganancia real de señal.
| Atributo | Correlacion | Ganancia |
|---|---|---|
| Sintético: Moisture_Deficit | 0.5546 | 0.1090 |
| Sintético: Critical_Zone | 0.4489 | 0.0034 |
| Original: Soil_Moisture | 0.4455 | 0.0000 |
| Original: Temperature_C | 0.2421 | 0.0000 |
Diagnóstico de Ingeniería de Características
Tras la síntesis y evaluación de atributos, se concluye:
Potenciación de Señal: La variable Moisture_Deficit muestra una correlación superior a la humedad cruda,confirmando que la distancia al umbral del 25% es un vector de información más potente que el valor absoluto.
Captura de Sinergia: El atributo Critical_Zone actúa como un clasificador binario de alta precisión, aislando los eventos de mayor estrés hídrico-térmico identificados en la Section 3.
Reducción de Ruido en Lluvia: La
Effective_Rainfallpresenta una distribución más alineada con la necesidad de riego que la lluvia total, validando la hipótesis de que el impacto de la precipitación está modulado por la humedad ambiental.
Selección de Predictores y Reducción de Redundancia
En la fase final del proceso analítico, se procede a la discriminación de atributos no informativos y a la mitigación de la multicolinealidad. Se implementa un algoritmo de selección basado en permutaciones aleatorias y un análisis de agrupamiento jerárquico para garantizar que el dataset final posea la máxima densidad de información con la mínima redundancia dimensional.
Selección de Atributos mediante Algoritmo Boruta
Se utiliza el algoritmo Boruta como motor de selección. Este método robusto genera variables “sombra” (shadow variables) mediante permutaciones de los atributos originales para establecer un umbral estadístico de importancia. Solo las variables que superan consistentemente la importancia máxima de las sombras son confirmadas como predictores reales. Para optimizar el rendimiento computacional, se emplea la implementación de Ranger con procesamiento en paralelo.
Warning in TentativeRoughFix(boruta_output): There are no Tentative attributes!
Returning original object.
Análisis de Redundancia Mediante Agrupamiento Jerárquico
Para evitar el sobreajuste y la inestabilidad en los coeficientes de los modelos, se analiza la redundancia de información. Se construye un Dendrograma de Correlación de Spearman transformando la matriz de correlación en una matriz de distancias (\(1-|r|\)). El agrupamiento mediante el método de Ward permite identificar clústeres de variables que comparten el mismo vector de información.
Consolidación y Exportación del Dataset de Alto Rendimiento
Tras el filtrado de Boruta y la auditoría de redundancia, se consolida el dataset final. La información se almacena en formatos de alto rendimiento que preservan los metadatos y las jerarquías factoriales establecidas en la Section 1.
Dataset consolidado: 14 variables seleccionadas.
Diagnóstico Final del Proceso EDA
Con la finalización de esta sección, se concluye la caracterización técnica del dataset:
Optimización Dimensional: El algoritmo Boruta ha validado que las variables sintéticas (ej.
Moisture_Deficit,Critical_Zone) poseen un peso predictivo superior a varios atributos originales, justificando el proceso de ingeniería de características.Mitigación de Colinealidad: El análisis de agrupamiento revela que la
Temperatura_Cy elThermal_Wind_Stressforman un clúster de alta similitud (\(r>0.85\)). Se recomienda monitorizar esta relación para evitar redundancia en modelos paramétricos.Preparación para Modelado: El dataset resultante se encuentra balanceado, limpio de nulos, enriquecido con conocimiento de dominio y filtrado de ruido estadístico, cumpliendo con los estándares de calidad para el entrenamiento de modelos de alta precisión.
Síntesis de Hallazgos: Hipótesis e Insights Estratégicos
Tras la ejecución del protocolo de Análisis Exploratorio de Datos (EDA), se han consolidado evidencias que permiten formular una arquitectura lógica para el fenómeno de la demanda hídrica. Los hallazgos se categorizan en tres dimensiones: dinámicas críticas, factores moderadores y optimización del espacio de estados.
Hipótesis de Comportamiento del Sistema
El Punto de Inflexión Hidrométrico (Umbral del 25%)
Hallazgo: El análisis jerárquico (Section 3) y la ganancia de información de la variable
Moisture_Deficit(Section 4) confirman que la relación entre la humedad del suelo y la necesidad de riego no es lineal, sino una función de paso.Hipótesis: Existe un “Punto de Marchitez Teórico” situado en el entorno del 25% de humedad. Por encima de este valor, el sistema es resiliente; por debajo, la probabilidad de requerir riego “High” se incrementa de forma exponencial, independientemente de otros factores.
Sinergia Térmica y Evapotranspiración (Efecto Amplificador)
Hallazgo: El mapa de decisión (Section 3) revela que la temperatura ambiente actúa como un catalizador de baja latencia.
Hipótesis: La temperatura por encima de los 30°C no genera demanda hídrica por sí sola, sino que actúa como un amplificador de déficit. En suelos con humedad < 25%, el calor extremo reduce el tiempo de respuesta del sistema, colapsando la categoría “Medium” hacia “High”.
Régimen de Saturación por Precipitación (El Amortiguador Absoluto)
Hallazgo: La distribución de cola larga en
Rainfall_mm(Section 2) y el nodo de corte en el árbol de decisión muestran que la precipitación acumulada posee un efecto de “bloqueo”.Hipótesis: Existe un Umbral de Saturación Hídrica (aprox. 350-400 mm) a partir del cual las variables edafoclimáticas pierden su capacidad predictiva. En este régimen, la abundancia hídrica anula cualquier demanda transpirativa del cultivo.
Insights Estratégicos para el Modelado
Insight 1: Superioridad de las Variables de Ingeniería (FE)
El algoritmo Boruta (Section 5) confirmó que variables sintéticas como Moisture_Deficit y Critical_Zone poseen un Z-score de importancia superior a sus variables parentales originales.
- Implicación: Para modelos lineales o basados en boosting, proporcionar la distancia al umbral (25%) facilita la convergencia más que proporcionar la humedad cruda, ya que el modelo no tiene que “aprender” el punto de corte.
Insight 2: Mitigación del Riesgo mediante Protección (Mulching)
El análisis multivariante de la interacción Viento-Mulching (Section 3) demuestra que el uso de coberturas orgánicas/plásticas altera la pendiente de pérdida de humedad.
- Implicación: El
Mulching_Usedno es solo una variable categórica de presencia; actúa como un modificador de la varianza del viento. En sistemas de control, el mulching permite extender los intervalos de riego incluso ante ráfagas de viento elevadas.
Insight 3: Redundancia y Eficiencia Dimensional
El dendrograma de redundancia (Section 5) identificó una colinealidad crítica entre la temperatura y el estrés térmico-viento.
- Implicación: Para reducir la complejidad del modelo y mejorar la interpretabilidad, se puede prescindir de variables climáticas aisladas y utilizar un Índice de Estrés Combinado, manteniendo la precisión y reduciendo el riesgo de sobreajuste (overfitting).
Conclusión del Informe Técnico
El dataset de Necesidades de Riego es un sistema altamente jerárquico y basado en umbrales, no en gradientes continuos. La señal más potente para la predicción de alta intensidad es la co-ocurrencia de estrés: suelo seco (<25%) junto a aire caliente (>30°C).
El dataset final, consolidado en el archivo dataset_final_riego.rds, contiene 100% de integridad y una selección óptima de predictores, quedando validado y listo para la fase de entrenamiento de modelos de aprendizaje supervisado.