Se carga la base de datos que contiene un total de 21 atributos y 20271 variables en total.
A continuación, se describe las variables:
| Concepto | Descripción |
|---|---|
| id_arbol | Identificador único del árbol. |
| Latitude | Latitud geográfica donde se encuentra el árbol. |
| Longitude | Longitud geográfica donde se encuentra el árbol. |
| FORMATTED_DATE_TIME | Fecha y hora en un formato específico. |
| Psychro_Wet_Bulb_Temperature | Temperatura de bulbo húmedo psicrométrico. |
| Station_Pressure | Presión en la estación. |
| Relative_Humidity | Humedad relativa. |
| Crosswind | Viento cruzado. |
| Temperature | Temperatura. |
| Barometric_Pressure | Presión barométrica. |
| Headwind | Viento de frente. |
| Direction_True | Dirección verdadera. |
| Direction_Mag | Dirección magnética. |
| Wind_Speed | Velocidad del viento. |
| Heat_Stress_Index | Índice de estrés por calor. |
| Altitude | Altitud. |
| Dew_Point | Punto de rocío. |
| Density_Altitude | Altitud de densidad. |
| Wind_Chill | Sensación térmica por el viento. |
| Estado_Fenologico_Predominante | Estado fenológico predominante del árbol. |
| Frutos_Afectados | Número de frutos afectados. |
A continuación, se visualiza la tabla que contiene los atributos y registros:
Ahora, como sólo nos piden enfocarnos en el periodo de recolección de los datos de 01/10/2020, se realiza la limpieza y filtro de la columna correspondiente, pasando a tener 534 registros.
En esta parte, se utiliza ggplot2 para crear un gráfico de dispersión que muestra la distribución de los puntos de coordenadas (latitud y longitud) de los árboles en la finca.
También, se crea un mapa interactivo para ver la distribución de los puntos en la finca.
Se utiliza la variable de temperatura como la variable regionalizada, al analizar los gráficos vemos que la temperatura del terreno varia según la ubicación de los árboles, es decir, la variable varía en función de la ubicación geográfica.
Se calcula un resumen de las distancias entre todas las coordenadas geográficas en el conjunto de datos. Esto es útil para comprender la estructura de dispersión de los puntos en el espacio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00001712 0.00040512 0.00064078 0.00068267 0.00091776 0.00195913
Al observar el variograma, podemos inferir la existencia de una correlación significativa entre los puntos, dado que estos se encuentran fuera de la banda establecida. Sin embargo, es importante señalar que esta correlación no parece ser muy fuerte. Esto se evidencia en ciertos puntos donde la línea tiende a estabilizarse dentro de las bandas, indicando una menor variabilidad y, por lo tanto, una menor correlación entre los datos.
## variog: computing omnidirectional variogram
## variog.env: generating 99 simulations by permutating data values
## variog.env: computing the empirical variogram for the 99 simulations
## variog.env: computing the envelops
Acá se implementas 4 modelos teóricos, los cuales son:
• Modelo Exponencial.
• Modelo Esférico.
• Modelo Gaussiano.
• Modelo Matern.
A continuación, se observan los 4 modelos juntos, sin embargo, no se alcanzan a distinguir cual es el más adecuado, por eso se realiza individualmente las graficas para cada modelo. También se realiza el análisis del MSE para determinar de forma estadística cual es el mejor modelo.
## variofit: covariance model used is exponential
## variofit: weights used: npairs
## variofit: minimisation function used: optim
## variofit: searching for best initial value ... selected values:
## sigmasq phi tausq kappa
## initial.value "3.11" "0" "0" "0.5"
## status "est" "est" "est" "fix"
## loss value: 3555.92876863577
## variofit: covariance model used is gaussian
## variofit: weights used: npairs
## variofit: minimisation function used: optim
## variofit: searching for best initial value ... selected values:
## sigmasq phi tausq kappa
## initial.value "3.11" "0" "0" "0.5"
## status "est" "est" "est" "fix"
## loss value: 6633.5155506537
## variofit: covariance model used is spherical
## variofit: weights used: npairs
## variofit: minimisation function used: optim
## variofit: searching for best initial value ... selected values:
## sigmasq phi tausq kappa
## initial.value "3.11" "0" "0" "0.5"
## status "est" "est" "est" "fix"
## loss value: 6005.01775448873
## variofit: covariance model used is matern
## variofit: weights used: npairs
## variofit: minimisation function used: optim
## variofit: searching for best initial value ... selected values:
## sigmasq phi tausq kappa
## initial.value "3.11" "0" "0" "0.5"
## status "est" "est" "est" "fix"
## loss value: 3555.92876863577
## [1] "MSE modelo Exponencial = 3314.17633638709"
## [1] "MSE modelo Gausiano = 6339.97796271843"
## [1] "MSE modelo Esferico = 5837.58927236167"
## [1] "MSE modelo Matern = 3314.17633638709"
Podemos observar tanto graficamente como por el valor de MSE que el modelo exponencial es el que mejor se ajusta a los puntos del semivariograma muestral.
## [1] -76.711799 -76.710215 2.392101 2.393634
Se crea una cuadrícula regular de puntos para los cuales se realizará la interpolación espacial. Luego, se grafica esta cuadrícula junto con las ubicaciones de los árboles (puntos rojos) en el conjunto de datos.
## krige.conv: model with constant mean
## krige.conv: Kriging performed using global neighbourhood
Realizamos la interpolación espacial mediante kriging para cada punto de la cuadrícula especificada. Estos resultados de la interpolación permiten visualizar la distribución espacial estimada de la variable de temperatura en toda el área de la finca. Esto proporciona una comprensión más completa de la variable en cuestión y puede ser útil para la toma de decisiones en estudios relacionados con el análisis espacial, como la agricultura, la climatología, entre otros.
Vemos entonces en la visualización que las áreas más calientes de la finca donde esta el cultivo de aguacate son áreas que tiene entre 26°C a 29°c y las zonas con menor temperatura oscilan entre 23°C a 24C°.
Se crea una imagen raster a partir de las predicciones de kriging.
visualizamos la imagen raster de las predicciones de kriging. Se utiliza el tema de color BuRdTheme para resaltar las variaciones en los valores predichos en el área de la finca.
Creamos un mapa que muestra la desviación estándar de las predicciones de kriging realizadas en una cuadrícula espacial. Esta visualización permite identificar las áreas donde las predicciones son más precisas (baja desviación estándar) y donde hay más incertidumbre en las predicciones (alta desviación estándar).
Como no contamos la silueta del área de la finca donde están sembrados los árboles, generamos un polígono convexo a partir de un conjunto de puntos de coordenadas geográficas. El polígono convexo es una forma geométrica que contiene todos los puntos de entrada en su interior y es “convexo” en el sentido de que cualquier línea que conecta dos puntos dentro del polígono está completamente contenida dentro del polígono. En este caso, se establece en el sistema de coordenadas geográficas WGS84.
Se superpone la imagen raster con la silueta de la finca, la finalidad de superponer la silueta de la finca con la imagen raster de las predicciones de kriging es visualizar cómo se distribuyen las predicciones dentro del contexto geográfico de la finca. Esta superposición permite entender mejor cómo se relacionan las estimaciones de la variable de interés con la forma y la extensión de la finca.
En este caso, las áreas que se muestran de color rojo y amarillo son la zonas donde las temperaturas son mayores (>26°C), seguidamente de las zonas verde y azul donde las temperaturas son un poco más bajas (24°C y 25°C) y las zonas de color blanco es donde se encuentran las temperaturas más bajas de la finca (<23°c).
Finalmente, mostramos el área de la finca con las predicciones hechas de la temperatura.
A la izquierda se presenta el mapa de la finca generado a partir de la predicción por kriging, previamente analizado. A la derecha, se muestra el mapa de la incertidumbre, el cual representa las desviaciones estándar de la temperatura del cultivo de aguacate. Los puntos blancos indican desviaciones estándar bajas o nulas, lo cual se debe a que corresponden a los puntos de muestreo donde se tomó directamente la temperatura. En términos generales, se observa que la desviación estándar en el cultivo de aguacates es muy baja en casi toda la extensión del terreno.
Para este caso, vemos que los lugares de color azul y aguamarina son los lugares con las temperaturas más altas entre el cultivo de aguacate, donde muy pocos árboles se ubican en estas zonas, la mayoría de arboles se ubican en zonas donde la temperatura es de 22°c a 25°c.
En esta sección, se realiza la validación cruzada del modelo de variograma exponencial utilizando. La validación cruzada divide los datos en varios conjuntos de entrenamiento y prueba, y evalúa el rendimiento del modelo en cada conjunto de prueba. Se calcula el error absoluto medio (MAE) como una medida de la precisión del modelo.
## xvalid: number of data locations = 534
## xvalid: number of validation locations = 534
## xvalid: performing cross-validation at location ... 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 377, 378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453, 454, 455, 456, 457, 458, 459, 460, 461, 462, 463, 464, 465, 466, 467, 468, 469, 470, 471, 472, 473, 474, 475, 476, 477, 478, 479, 480, 481, 482, 483, 484, 485, 486, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 498, 499, 500, 501, 502, 503, 504, 505, 506, 507, 508, 509, 510, 511, 512, 513, 514, 515, 516, 517, 518, 519, 520, 521, 522, 523, 524, 525, 526, 527, 528, 529, 530, 531, 532, 533, 534,
## xvalid: end of cross-validation
## [1] 0.7868143
El modelo presenta un error de predicción de acuerdo con la validación cruzada de 0.78 grados.Esta cifra, 0.78 grados, representa una medida de la precisión o la calidad del modelo para predecir los valores de la variable de interés en ubicaciones no muestreadas.Es importante entender el significado de este valor de error. En este contexto, el “error de predicción de 0.78 grados” significa que, en promedio, las predicciones del modelo difieren en aproximadamente 0.78 grados de las observaciones reales. Cuanto menor sea este valor, mejor será la capacidad predictiva del modelo. Por lo tanto, un error de predicción más bajo indica una mayor precisión en las predicciones del modelo.
Nota: El archivo que contiene los códigos se encuentra disponible en el siguiente enlace.