El invierno es feroz, más aún cuando de agricultura se trata. Indiana, estado precioso cuyo mayor costo de producción agrícola se debe al cultivo de maíz.
Motivados por este hecho, se tomó la decisión de investigar cuáles son aquellas zonas en las que se presenta una mayor temperatura y una mayor irradiación por parte de la radiación que emite la luz solar, ya que el maíz es un vegetal que aprovecha mucho ambas características para su crecimiento y desarrollo.
Se miden las variables irradiación solar y temperatura en ubicaciones especificas del estado de indiana en estados unidos múltiples veces (90 en cada punto); dichas mediciones se realizan en ubicaciones igualmente espaciadas.
Teniendo en cuenta que se tienen múltiples mediciones de las variables surge la necesidad de resumir esta información con alguna métrica puesto que en la teoría vista se considera una única realización del proceso estocástico, a continuación se muestran los histogramas de las variables consideradas.
Dada la aparente simetría en los histogramas, simplificar las mediciones de dichas variables con sus respectivos promedios y medianas no es una idea descabellada.
La base de datos definitiva se construye agrupando los datos por la longitud y latitud debido a que, como se mencionó previamente, se tienen múltiples mediciones de las variables en cada ubicación, los cuales corresponden a los primeros tres meses del año. Una vez agrupadas las ubicaciones, se promedia y se toma la mediana de todos los valores medidos en dichas ubicaciones de las variables de interés. La base de datos resultante tiene la siguiente estructura
| Latitud | Longitud | Irradiación media | Irradiación mediana | Temperatura media | Temperatura mediana |
|---|---|---|---|---|---|
| 39.25 | -87.25 | 271.5758 | 271.955 | -0.3102222 | -0.975 |
| 39.25 | -86.75 | 272.1200 | 271.625 | -0.3174444 | -0.885 |
| 39.25 | -86.25 | 272.1200 | 271.625 | -0.3833333 | -0.890 |
| 39.25 | -85.75 | 272.2951 | 271.685 | -0.4791111 | -1.030 |
| 39.25 | -85.25 | 272.2951 | 271.685 | -0.4662222 | -1.050 |
Para finalizar se muestra el mapa de las ubicaciones de muestreo.
A continuación se chequea rapidamente la autocorrelación espacial pues si esta no existiera cualquier tipo de análisis posterior carecería de sentido
En todos los casos se puede observar una tendencia de asosiación entre la distancia geografica y las medidas de disimilitud lo cual sugiere la existencia de autocorrelación espacial para las variables temperatura e irradiación solar
Temperatura promedio
##
## Mantel statistic based on Pearson's product-moment correlation
##
## Call:
## mantel(xdis = geodist, ydis = dist.temp)
##
## Mantel statistic r: 0.7739
## Significance: 0.001
##
## Upper quantiles of permutations (null model):
## 90% 95% 97.5% 99%
## 0.0964 0.1255 0.1573 0.2004
## Permutation: free
## Number of permutations: 999
Irradiación solar promedio
##
## Mantel statistic based on Pearson's product-moment correlation
##
## Call:
## mantel(xdis = geodist, ydis = dist.irra)
##
## Mantel statistic r: 0.6614
## Significance: 0.001
##
## Upper quantiles of permutations (null model):
## 90% 95% 97.5% 99%
## 0.0871 0.1197 0.1514 0.1961
## Permutation: free
## Number of permutations: 999
Temperatura solar mediana
##
## Mantel statistic based on Pearson's product-moment correlation
##
## Call:
## mantel(xdis = geodist, ydis = dist.temp.median)
##
## Mantel statistic r: 0.7368
## Significance: 0.001
##
## Upper quantiles of permutations (null model):
## 90% 95% 97.5% 99%
## 0.0939 0.1282 0.1563 0.1949
## Permutation: free
## Number of permutations: 999
Irradiación solar mediana
##
## Mantel statistic based on Pearson's product-moment correlation
##
## Call:
## mantel(xdis = geodist, ydis = dist.irra.median)
##
## Mantel statistic r: 0.6524
## Significance: 0.001
##
## Upper quantiles of permutations (null model):
## 90% 95% 97.5% 99%
## 0.090 0.128 0.161 0.200
## Permutation: free
## Number of permutations: 999
Para cada caso el valor p de la prueba es muy pequeño (menor a 0.001) con lo que a cualquier nivel de significancia usual se rechaza la hipótesis nula de independencia y se concluye que las variables tienen autocorrelación espacial.
Dada la existencia de autocorrelación espacial, el siguiente paso es encontrar un modelo útil para realizar predicciones espaciales la región de interés, es decir, el estado de indiana.
A continuación se presenta el ajuste de semivariogramas tipo bin para las variables consideradas para 20 puntos usandos modelos gaussiano, exponencial y esférico respectivamente.
En primera instancia se destaca la autocorrelación espacial (que ya se habia verificado previamente) debido a que una considerable cantidad de puntos caen fuera de las bandas de confianza. Se puede apreciar que, en general, los puntos no están acotados lo cual es una señal de que la meseta es no finita y por la tanto se tendría estacionariedad intrínseca, por lo tanto es adecuado considerar modelos que puedan modelar tendencia en la media. Finalmente, se destaca que el modelo de semivarianza que mejor se ajusta es el gaussiano mientras que el esférico y exponencial presentan comportamientos similares.
Se realiza realiza el ajuste de kriging ordinario usando el método de mínimos cuadrados ordinarios. este tipo de kriging es el más sencillo y es usado en primera instancia para observar el comportamiento de las predicciones espaciales con los diferentes modelos de semivarianza.
Se puede observar que entre todos los modelos de kriging ordinario, el que mejor desempeño presenta es aquel donde se asume una estructura de covarianza gaussiana para predecir la temperatura promedio.
| Descripción | RMSE |
|---|---|
| Temperatura promedio Modelo gaussiano | 0.0454395 |
| Temperatura mediana Modelo exponencial | 0.1303144 |
| Temperatura promedio Modelo exponencial | 0.1560117 |
| Temperatura mediana Modelo esférico | 0.1663800 |
| Temperatura promedio Modelo esférico | 0.2038244 |
| Temperatura mediana Modelo gaussiano | 0.6354931 |
| Irradiación promedio Modelo esférico | 1.2315139 |
| Irradiación promedio Modelo exponencial | 1.2315579 |
| Irradiación mediana Modelo exponencial | 1.3100864 |
| Irradiación mediana Modelo esférico | 1.3101428 |
| Irradiación promedio Modelo gaussiano | 1.5492126 |
| Irradiación mediana Modelo gaussiano | 1.5735859 |
Dicho lo anterior y teniendo en cuenta la alta correlación entre las variables repuesta (redundancia) como se puede ver en el gráfico que se muestra inmediatamente abajo, los posteriores análisis se realizarán teniendo a la temperatura promedio como única variable respuesta.
Luego de ajustar todos los modelos y realizar las respectivas predicciones se ve una tendencia clara, los modelos exponencial y esféricos tienen comportamientos muy similares en las predicciones realizadas y no son muy adecuados puesto que los valores de las desviaciones estándar de predicción son muy bajos cerca de los puntos de muestreo pero en ubicaciones un ligeramente distantes de estas dichos valores aumentan sustancialmente, sugiriendo que dichos modelos sobreajustan los datos. Por otro lado, los modelos gaussianos constrastan totalmente con el exponencial y esferico pues las desviaciones estándar se mantienen bajas en la gran mayoría de ventana de predicción sugiriendo una buena capacidad de generalizar la tendencia.
Si bien el kriging ordinario dio muy buenos resultados, hay que notar la tendencia lineal existente entre la coordenada en y de los datos y la respuesta considerada como se puede ver a continuación.
Por tanto se opta por ajustar un modelo de kriging universal con media lineal en aras de observar si dicha consideración mejora el rendimiento del modelo. Este fue el resultado.
Se puede notar que en cuanto a la predicción es distinto al modelo seleccionado previamente, sin embargo el patrón en el mapa de calor de las predicciones se ajusta más a lo que se esperaría en la realidad.
Una vez obtenido el resultado del modelo, este se compara con el modelo ajustado vía kriging ordinario.
| Modelo | RMSE |
|---|---|
| Temperatura promedio kriging ordinario | 0.0454395 |
| Temperatura promedio kriging universal | 0.0341727 |
Si bien presenta una disminución del RMSE que a priori parece no muy grande, es fundamental tener en cuenta que esta métrica es de decrecimiento lento cuando se acerca al cero por lo que dicho decremento realmente es una gran mejora en el modelo. Adicionalmente, el ajuste a través de kriging universal presenta una menor variabilidad en las estimaciones respecto a su similar, por lo que en definitiva es el seleccionado entre todos los candidatos considerados previamente.
Incialmente se tiene una visualización de las unidades de muestreo en el mapa, se cuenta con 25 puntos donde se tomaron mediciones tanto de la irradiación solar como de la temperatura como ya se había descrito anteriormente.
Es importante saber donde se encuentran estas unidades ya que el kriging es un método de interpolación exacto, por lo que el valor de las variables de interés tendrá el mismo valor de predicción que observado y esto es un aspecto a tener en cuenta a la hora de hacer conclusiones.
Adicional a lo enunciado anteriormente, se presenta para información del lector, aquellas ubicaciones geográficas sobre las cuales se realizaron las predicciones usando el modelo seleccionado.
Llegados a este punto, se presenta el mejor modelo de entre todos los ajustados.
De allí se puede observar que el modelo refleja los principios de autocorrelación espacial, puesto que se espera que lugares geográficos cercanos tengan valores similares y lugares lejanos difieran en el valor de la variable regionalizada en cuestión; lo que es una señal de buen ajuste.