Actividad 3: Cultivo de Aguacate
CONTEXTO DEL CASO
Considerando la base de datos disponible llamada “Datos_Completos_Aguacate.xlsx”, la cual contiene información sobre las variables climatológicas y de terreno de 4 fincas de cultivo de agucatae en el departamento del Cauca (Colombia), tomando como filtro únicamente el periodo “01/10/2020 10:11:12 a, m,” y usando la variable “Temperature”, se debe realizar el análisis geoestadístico para generar la predicción espacial
Objetivo
- Evaluar autocorrelación espacial con el semivariograma.
- Identificar el mejor modelo teórico.
- Realizar una predicción espacial usando la metodología krigin.
- Generar imagen de la predicción espacial.
Nota: Realice un filtro para realizar el análisis solo en una de las fincas.
Nota 2: Si la variable temperatura no presenta correlación emplear otra variable disponible.
1. ANÁLISIS EXPLORATORIO Y LIMPIEZA
En esta sección se realizará la carga de la base de datos y su análisis respectivo de filtrado y limpieza.
## tibble [20,271 × 21] (S3: tbl_df/tbl/data.frame)
## $ id_arbol : chr [1:20271] "1" "2" ...
## $ Latitude : num [1:20271] 2.38 2.38 ...
## $ Longitude : num [1:20271] -76.6 -76.6 ...
## $ FORMATTED_DATE_TIME : chr [1:20271] "21/08/2019 9:22:57 a, m," "21/08/2019 9:27:13 a, m," ...
## $ Psychro_Wet_Bulb_Temperature : num [1:20271] 14.8 11.6 12.9 14.1 14.3 ...
## $ Station_Pressure : num [1:20271] 805 805 ...
## $ Relative_Humidity : num [1:20271] 33.6 36.8 31.5 33.2 34.3 ...
## $ Crosswind : num [1:20271] 0.2 3.6 0.4 0.6 0.4 ...
## $ Temperature : num [1:20271] 25.7 20.8 23.7 25 25 ...
## $ Barometric_Pressure : num [1:20271] 805 805 ...
## $ Headwind : num [1:20271] 0.7 3.5 0.7 0.7 0.4 ...
## $ Direction_True : num [1:20271] 166 314 332 139 129 ...
## $ Direction_Mag : num [1:20271] 165 313 331 139 128 ...
## $ Wind_Speed : num [1:20271] 0.8 5.1 0.8 0.9 0.6 ...
## $ Heat_Stress_Index : num [1:20271] 24.1 19.5 22 23.2 23.3 ...
## $ Altitude : num [1:20271] 1896 1895 ...
## $ Dew_Point : num [1:20271] 8.6 5.5 5.8 7.7 8.1 ...
## $ Density_Altitude : num [1:20271] 2.74 2.57 ...
## $ Wind_Chill : num [1:20271] 25.7 20.8 23.7 24.9 24.9 ...
## $ Estado_Fenologico_Predominante: num [1:20271] 715 715 715 715 715 ...
## $ Frutos_Afectados : num [1:20271] 0 3 0 0 1 ...
La anterior revisión nos permite reconocer que la base de datos tiene un total de 20271 registros y 21 variables, se realizará la verificación de datos faltantes y posterior se filtrará una finca de las disponibles para su análisis. A continuación se presenta el gráfico de los 4 cultivos registrados en el Cauca.
Datos faltantes
| Variable | Datos Faltantes |
|---|---|
| Latitude | 0 |
| Longitude | 0 |
| FORMATTED_DATE_TIME | 0 |
| Temperature | 0 |
De acuerdo con la tabla 1 se puede apreciar que no existen datos faltantes, por lo tanto, se escogerá una finca y se realizará el estudio enfocado solo en esos datos, ya que no tiene sentido efectuar este análisis para todas las fincas ya que se encuentran en ubicaciones geográficas diferentes.
Filtrado datos
## tibble [534 × 21] (S3: tbl_df/tbl/data.frame)
## $ id_arbol : num [1:534] 1 2 3 4 5 ...
## $ Latitude : num [1:534] 2.39 2.39 ...
## $ Longitude : num [1:534] -76.7 -76.7 ...
## $ FORMATTED_DATE_TIME : chr [1:534] "01/10/2020 10:11:12 a, m," "01/10/2020 10:11:12 a, m," ...
## $ Psychro_Wet_Bulb_Temperature : num [1:534] 22 21.4 21.8 22.8 22.6 ...
## $ Station_Pressure : num [1:534] 825 825 ...
## $ Relative_Humidity : num [1:534] 85.2 84 79.6 77.6 76.5 ...
## $ Crosswind : num [1:534] 0 0 0.2 0.4 0 ...
## $ Temperature : num [1:534] 23.9 23.5 24.5 25.9 26 ...
## $ Barometric_Pressure : num [1:534] 825 825 ...
## $ Headwind : num [1:534] 0 0 0.4 0.2 0 ...
## $ Direction_True : num [1:534] 313 317 338 299 265 ...
## $ Direction_Mag : num [1:534] 312 317 337 299 264 ...
## $ Wind_Speed : num [1:534] 0 0 0.5 0.5 0 ...
## $ Heat_Stress_Index : num [1:534] 25.3 24.8 25.7 28.1 28 ...
## $ Altitude : num [1:534] 1696 1696 ...
## $ Dew_Point : num [1:534] 21.3 20.7 20.8 21.7 21.5 ...
## $ Density_Altitude : num [1:534] 2.5 2.48 ...
## $ Wind_Chill : num [1:534] 23.9 23.5 24.5 25.9 25.9 ...
## $ Estado_Fenologico_Predominante: num [1:534] 717 717 717 717 717 ...
## $ Frutos_Afectados : num [1:534] 0 0 0 0 0 ...
Gráfico ubicación cultivo aguacate
Para esta finca se encuentra que hay un total de 534 registros y 21 variables, los cuales se pueden observar a continuación:
2. ANÁLISIS GEOESTADÍSTICO
Posterior realizamos el análisis de geoestadistica para conocer si visualmente se observan patrones de correlación.
La anterior gráfica confirmar que hay valores de temperatura que entre más cerca se encuentran los arboles varian entre 24 y 26 °C, mientras que los que estan más distanciados tienden a tener temperaturas superiores a 26°, También se logra observar que hay clusters o divisiones de la variable temperatura, lo que indica que hay correlación.
3. SEMIVARIOGRAMA
Para el calculo del semivariograma es importante determinar las estadisticas del punto de estudio, donde es recomendable emplear el tercer cuartil de las distancias entre los puntos a evaluar.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.712e-05 4.051e-04 6.408e-04 6.827e-04 9.178e-04 1.959e-03
Con la gráfica anterior, se puede determinar que existe una correlación
espacial, ya que los puntos entre más cerca tiende a parecerse y a
medida que nos alejamos su valor tienede a ser diferentes, también se
puede observar que la mayoria se encuentran fuera del margen de Monte
Carlo.
4. IDENTIFICACIÓN DEL MODELO
| Modelo | Suma de errores al cuadrado |
|---|---|
| Exponencial | 4857.673 |
| Gaussiano | 14947.769 |
| Esférico | 6583.649 |
De acuerdo con la gráfica anterior se puede observar que el modelo que más se ajusta a los datos disponibles es el exponecnial, y al calcular los errores cuadriticos de cada modelo obtenemos que el exponecial tiene un mejor desempeño respecto al Gaussiano y el EsFérico.
5. PREDICCIÓN ESPACIAL
Para realizar la predicción espacial es muy importante delimitar el área de estudio.
| Línea | Valor |
|---|---|
| Min. Long | -76.711799 |
| Max Long. | -76.710215 |
| Min. Lat | 2.392101 |
| Max. Lat | 2.393634 |
Gráfico grilla del terreno
Gráfico predicción espacial
Ahora se emplea la visualización del terreno para efectuar la predicción espacial de la variable temperatura sobre el terreno:
6. GENERACIÓN DE RASTER
También se puede generar el mapa del error a partir de los datos:
7. VALIDACIÓN DEL MODELO
Para finalizar realizamos la validación del modelo empleado, para nuestro caso fue el exponecnail, donde se realiza la siguiente validación cruzada:
## xvalid: number of data locations = 534
## xvalid: number of validation locations = 534
## xvalid: performing cross-validation at location ... 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 377, 378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453, 454, 455, 456, 457, 458, 459, 460, 461, 462, 463, 464, 465, 466, 467, 468, 469, 470, 471, 472, 473, 474, 475, 476, 477, 478, 479, 480, 481, 482, 483, 484, 485, 486, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 498, 499, 500, 501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515, 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534,
## xvalid: end of cross-validation
## [1] 0.7909316
CONCLUSIONES
A partir de los resultados obtenidos, se destacan las siguientes observaciones:
Patrón espacial no estacionario:El análisis del objeto geodata revela que la temperatura en la zona no sigue un gradiente uniforme, lo que indica variabilidad espacial no explicada por una tendencia simple. Esto sugiere la influencia de factores locales (e.g., microclimas, cobertura vegetal o topografía irregular) en la distribución térmica que se puede observar en los resultados.
Correlación moderada:La baja correlación espacial encontrada (evidenciada por el semivariograma) implica que la temperatura no está fuertemente determinada por la proximidad geográfica. Esto se puede deber a factores topograficos que hacen que las temperaturas cambien drasticamente de acuerdo al piso térmico.
Desempeño del modelo exponencial: El modelo exponencial mostró el mejor ajuste, con un error absoluto medio (MAE) de 0.79°C en validación cruzada. Aunque este error es relativamente bajo para el contexto estudiado, su interpretación debe considerar las demas variables del de la base de datos