Document

¡Hola! Soy Simón

Estudiante de estadística, amante de los datos y de las matemáticas, entusiasta de la programación y de las buenas caminatas.

¡Hola! Soy Juan José

Estudiante de estadística, apasionado por el machine learning, aficionado a los deportes y a los videojuegos.

¡Hola! Soy Germán

Estudiante de estadística, apasionado por la analítica, las series de tiempo y la estadística espacial.

Repositorio de GitHub

Si quieres ver el código con el que fue ajustado el modelo y todo lo que hay detrás de él como la construcción de los datos, mallas de predicción, análisis descriptivo, entre otros, te invitamos a que visites el repositorio del proyecto. Da click al logo para más información y visita la carpeta Geoestadistica.

Contextualización

El invierno es feroz, más aún cuando de agricultura se trata. Indiana, estado precioso cuyo mayor costo de producción agrícola se debe al cultivo de maíz.

Motivados por este hecho, se tomó la decisión de investigar cuáles son aquellas zonas en las que se presenta una mayor temperatura y una mayor irradiación por parte de la radiación que emite la luz solar, ya que el maíz es un vegetal que aprovecha mucho ambas características para su crecimiento y desarrollo.

Temperatura e irradiación solar

Se miden las variables irradiación solar y temperatura en ubicaciones especificas del estado de indiana en estados unidos múltiples veces (90 en cada punto); dichas mediciones se realizan en ubicaciones igualmente espaciadas.

Teniendo en cuenta que se tienen múltiples mediciones de las variables surge la necesidad de resumir esta información con alguna métrica puesto que en la teoría vista se considera una única realización del proceso estocástico, a continuación se muestran los histogramas de las variables consideradas.

Dada la aparente simetría en los histogramas, simplificar las mediciones de dichas variables con sus respectivos promedios y medianas no es una idea descabellada.

Base de datos definitiva

La base de datos definitiva se construye agrupando los datos por la longitud y latitud debido a que, como se mencionó previamente, se tienen múltiples mediciones de las variables en cada ubicación, los cuales corresponden a los primeros tres meses del año. Una vez agrupadas las ubicaciones, se promedia y se toma la mediana de todos los valores medidos en dichas ubicaciones de las variables de interés. La base de datos resultante tiene la siguiente estructura

Presentación de algunos datos
Latitud Longitud Irradiación media Irradiación mediana Temperatura media Temperatura mediana
39.25 -87.25 271.5758 271.955 -0.3102222 -0.975
39.25 -86.75 272.1200 271.625 -0.3174444 -0.885
39.25 -86.25 272.1200 271.625 -0.3833333 -0.890
39.25 -85.75 272.2951 271.685 -0.4791111 -1.030
39.25 -85.25 272.2951 271.685 -0.4662222 -1.050

Para finalizar se muestra el mapa de las ubicaciones de muestreo.

Chequeo de autocorrelación espacial

A continuación se chequea rapidamente la autocorrelación espacial pues si esta no existiera cualquier tipo de análisis posterior carecería de sentido

Argumento gráfico

En todos los casos se puede observar una tendencia de asosiación entre la distancia geografica y las medidas de disimilitud lo cual sugiere la existencia de autocorrelación espacial para las variables temperatura e irradiación solar

Pruebas de mantel para autocorrelación espacial

Temperatura promedio

## 
## Mantel statistic based on Pearson's product-moment correlation 
## 
## Call:
## mantel(xdis = geodist, ydis = dist.temp) 
## 
## Mantel statistic r: 0.7739 
##       Significance: 0.001 
## 
## Upper quantiles of permutations (null model):
##    90%    95%  97.5%    99% 
## 0.0964 0.1255 0.1573 0.2004 
## Permutation: free
## Number of permutations: 999

Irradiación solar promedio

## 
## Mantel statistic based on Pearson's product-moment correlation 
## 
## Call:
## mantel(xdis = geodist, ydis = dist.irra) 
## 
## Mantel statistic r: 0.6614 
##       Significance: 0.001 
## 
## Upper quantiles of permutations (null model):
##    90%    95%  97.5%    99% 
## 0.0871 0.1197 0.1514 0.1961 
## Permutation: free
## Number of permutations: 999

Temperatura solar mediana

## 
## Mantel statistic based on Pearson's product-moment correlation 
## 
## Call:
## mantel(xdis = geodist, ydis = dist.temp.median) 
## 
## Mantel statistic r: 0.7368 
##       Significance: 0.001 
## 
## Upper quantiles of permutations (null model):
##    90%    95%  97.5%    99% 
## 0.0939 0.1282 0.1563 0.1949 
## Permutation: free
## Number of permutations: 999

Irradiación solar mediana

## 
## Mantel statistic based on Pearson's product-moment correlation 
## 
## Call:
## mantel(xdis = geodist, ydis = dist.irra.median) 
## 
## Mantel statistic r: 0.6524 
##       Significance: 0.001 
## 
## Upper quantiles of permutations (null model):
##   90%   95% 97.5%   99% 
## 0.090 0.128 0.161 0.200 
## Permutation: free
## Number of permutations: 999

Para cada caso el valor p de la prueba es muy pequeño (menor a 0.001) con lo que a cualquier nivel de significancia usual se rechaza la hipótesis nula de independencia y se concluye que las variables tienen autocorrelación espacial.

Interpolación espacial

Dada la existencia de autocorrelación espacial, el siguiente paso es encontrar un modelo útil para realizar predicciones espaciales la región de interés, es decir, el estado de indiana.

Semivariograma

A continuación se presenta el ajuste de semivariogramas tipo bin para las variables consideradas para 20 puntos usandos modelos gaussiano, exponencial y esférico respectivamente.

En primera instancia se destaca la autocorrelación espacial (que ya se habia verificado previamente) debido a que una considerable cantidad de puntos caen fuera de las bandas de confianza. Se puede apreciar que, en general, los puntos no están acotados lo cual es una señal de que la meseta es no finita y por la tanto se tendría estacionariedad intrínseca, por lo tanto es adecuado considerar modelos que puedan modelar tendencia en la media. Finalmente, se destaca que el modelo de semivarianza que mejor se ajusta es el gaussiano mientras que el esférico y exponencial presentan comportamientos similares.

Kriging ordinario

Se realiza realiza el ajuste de kriging ordinario usando el método de mínimos cuadrados ordinarios. este tipo de kriging es el más sencillo y es usado en primera instancia para observar el comportamiento de las predicciones espaciales con los diferentes modelos de semivarianza.

Irradiación promedio

Modelo gaussiano

Predicción

Desviación

Modelo exponencial

Predicción

Desviación

Modelo esférico

Predicción

Desviación

Irradiación mediana

Modelo gaussiano

Predicción

Desviación

Modelo exponencial

Predicción

Desviación

Modelo esférico

Predicción

Desviación

Temperatura promedio

Modelo gaussiano

Predicción

Se puede observar que entre todos los modelos de kriging ordinario, el que mejor desempeño presenta es aquel donde se asume una estructura de covarianza gaussiana para predecir la temperatura promedio.

Comparación de ajustes vía kriging ordinario
Descripción RMSE
Temperatura promedio Modelo gaussiano 0.0454395
Temperatura mediana Modelo exponencial 0.1303144
Temperatura promedio Modelo exponencial 0.1560117
Temperatura mediana Modelo esférico 0.1663800
Temperatura promedio Modelo esférico 0.2038244
Temperatura mediana Modelo gaussiano 0.6354931
Irradiación promedio Modelo esférico 1.2315139
Irradiación promedio Modelo exponencial 1.2315579
Irradiación mediana Modelo exponencial 1.3100864
Irradiación mediana Modelo esférico 1.3101428
Irradiación promedio Modelo gaussiano 1.5492126
Irradiación mediana Modelo gaussiano 1.5735859

Dicho lo anterior y teniendo en cuenta la alta correlación entre las variables repuesta (redundancia) como se puede ver en el gráfico que se muestra inmediatamente abajo, los posteriores análisis se realizarán teniendo a la temperatura promedio como única variable respuesta.

Desviación

Modelo exponencial

Predicción

Desviación

Modelo esférico

Predicción

Desviación

Temperatura mediana

Modelo gaussiano

Predicción

Desviación

Modelo exponencial

Predicción

Desviación

Modelo esférico

Predicción

Desviación

Todelete

Luego de ajustar todos los modelos y realizar las respectivas predicciones se ve una tendencia clara, los modelos exponencial y esféricos tienen comportamientos muy similares en las predicciones realizadas y no son muy adecuados puesto que los valores de las desviaciones estándar de predicción son muy bajos cerca de los puntos de muestreo pero en ubicaciones un ligeramente distantes de estas dichos valores aumentan sustancialmente, sugiriendo que dichos modelos sobreajustan los datos. Por otro lado, los modelos gaussianos constrastan totalmente con el exponencial y esferico pues las desviaciones estándar se mantienen bajas en la gran mayoría de ventana de predicción sugiriendo una buena capacidad de generalizar la tendencia.

Kriging universal

Si bien el kriging ordinario dio muy buenos resultados, hay que notar la tendencia lineal existente entre la coordenada en y de los datos y la respuesta considerada como se puede ver a continuación.

Por tanto se opta por ajustar un modelo de kriging universal con media lineal en aras de observar si dicha consideración mejora el rendimiento del modelo. Este fue el resultado.

Se puede notar que en cuanto a la predicción es distinto al modelo seleccionado previamente, sin embargo el patrón en el mapa de calor de las predicciones se ajusta más a lo que se esperaría en la realidad.

Predicción

Desviación

Una vez obtenido el resultado del modelo, este se compara con el modelo ajustado vía kriging ordinario.

Comparación de modelos
Modelo RMSE
Temperatura promedio kriging ordinario 0.0454395
Temperatura promedio kriging universal 0.0341727

Si bien presenta una disminución del RMSE que a priori parece no muy grande, es fundamental tener en cuenta que esta métrica es de decrecimiento lento cuando se acerca al cero por lo que dicho decremento realmente es una gran mejora en el modelo. Adicionalmente, el ajuste a través de kriging universal presenta una menor variabilidad en las estimaciones respecto a su similar, por lo que en definitiva es el seleccionado entre todos los candidatos considerados previamente.

Resultados ubicados geográficamente

Ubicación de los puntos en el mapa

Incialmente se tiene una visualización de las unidades de muestreo en el mapa, se cuenta con 25 puntos donde se tomaron mediciones tanto de la irradiación solar como de la temperatura como ya se había descrito anteriormente.

Es importante saber donde se encuentran estas unidades ya que el kriging es un método de interpolación exacto, por lo que el valor de las variables de interés tendrá el mismo valor de predicción que observado y esto es un aspecto a tener en cuenta a la hora de hacer conclusiones.

Puntos de predicción

Adicional a lo enunciado anteriormente, se presenta para información del lector, aquellas ubicaciones geográficas sobre las cuales se realizaron las predicciones usando el modelo seleccionado.

Presentación del mejor modelo

Llegados a este punto, se presenta el mejor modelo de entre todos los ajustados.

De allí se puede observar que el modelo refleja los principios de autocorrelación espacial, puesto que se espera que lugares geográficos cercanos tengan valores similares y lugares lejanos difieran en el valor de la variable regionalizada en cuestión; lo que es una señal de buen ajuste.

Conclusiones

  • En definitiva los tres primeros meses del año no son ideales para la siembra de maíz, puesto que la temperatura está lejos de ser la requerida y en el mejor de los casos se contará con lugares donde se alcance un máximo de 1 °C.
  • Como es de esperarse, el modelo es fiel a la realidad, pues este refleja que los lugares tendrán menor temperatura entre más se encuentren al norte.
  • A medida que se aleja geográficamente de los puntos de muestreo, se tiene el comportamiento natural de un aumento en la desviación estándar de las predicciones, sin embargo se alcanza una incertidumbre máxima de 0.25 °C en promedio por lo que se obtuvo no solo un buen ajuste, sino que uno muy fiable en lo que al error de las estimaciones respecta.
  • Resulta de gran importancia considerar las tendencias que la respuesta pueda tener con alguna dirección, pues al hacerlo es muy plausible que se pueda obtener mejoría a la hora de analizar resultados en el proceso de modelamiento y predicción.
  • En definitiva el modelo gaussiano fue aquel que presentó mejor ajuste para explicar la estructura de covarianza del proceso estocástico en cuestión.