1 Introducción

En el transcurso del curso de geoestadística se desarrolló un problema de predicción espacial para la Región Metropolitana, el problema de predicción espacial de las temperaturas máximas medias para los meses de enero, abril, julio y octubre. Este objetivo se logró a través de la integración de variables predictoras que complementaron como predictores a la temperatura superficial. La interpolación se realizó con Inverso a la Distancia (IDW), Ordinary Kriging y Regression Kriging y se compararon sus resultados.

2 Área de Estudio

La Región Metropolitana se ubica entre los 32°55’ y 34°19’ latitud sur y entre los 69°47’ y 71°43’ longitud oeste y posee una superficie de 15.400,20 km2. El clima predominante en la región es de tipo mediterráneo. Sin embargo, dentro de la Cuenca de Santiago existen diferencias climáticas locales producidas por la influencia del relieve. La Cordillera de la Costa y el alejamiento del mar, producen características de continentalidad en el clima. La temperatura media anual es de 14,4°C, en tanto enero el mes más cálido alcanza una temperatura media de 21,2°C. Mientras que julio el mes más frío con una temperatura media mínima de 8,2°C. Sobre los 3.000 metros del altura en la Cordillera de los Andes se presenta un clima frío de altura caracterizado por bajas temperaturas y precipitaciones sólidas, permitiendo la acumulación de nieve y campos de hielo permanentes en las cumbres.

A continuación se presenta la Región Metropolitana, correspondiente al área de estudio.

3 Materiales y Métodos

3.1 Datos

  • Temperatura máxima mensual (Tmax) provenientes de las estaciones (agro) meteorológicas de Chile para los meses de enero, abril, julio y octubre del año 2017.

  • Producto satelital MODIS de temperatura superficial del suelo (LST) mensual, producto MOD13C3 para los meses de enero, abril, julio y octubre del año 2017.

  • Imágen Ráster de Distancia de la costa en metros para la Región Metropolitana, creado dentro del taller.

  • Imágen Ráster de Elevación en metros para la Región Metrropolitana, creado dentro del taller.

3.2 Diagrama

A partir de los puntos de temperatura máxima y de la temperatura superficial como predictor se realizó un análisis exploratorio de datos (EDA). Se generó un mapa interactivo del área de estudio utilizando el paquete {tmap}. Se realizó un modelo de regresión lineal entre la temperatura máxima y la temperatura superficial. También se analizaron los datos mediante el inverso a la distancia (IDW).

Luego se realizó la autocorrelación de la temperatura superficial utilizando diversos índices estadísticos, entre ellos el índice de moran. Se evaluó el variograma experimental para la temperatura superficial y posteriormente se ajustó el variograma. Finalmente, se integraron a la variable predictora de temperatura superficial la distancia de la costa y la elevación. Con estas tres variables se generó el modelo de regresión lineal múltiple. Se ajustaron los variograma de los residuos para finalmente aplicar la interpolación Ordinary Kriging y Regression Kriging. Ambas interpolaciones fueron evaluadas mediante validación cruzada.

A continuación se presenta el diagrama de los procesos globales aplicados en este trabajo.

4 Resultados

4.1 Análisis Exploratorio

La distribución del histograma original de la temperatura máxima media para los cuatro meses estudiados presentaba un sesgo negativo, por ende, se normalizó mediante la ecuación (max(x+1)-x), donde x es la temperatura máxima. Resultando los gráficos que se presentan a continuación.

Densidad de probabilidad de los datos filtrados

Densidad de probabilidad Tmax transformada año 2017

Correlación entre los datos

En todos los meses se observa una correlación negativa entre los valores de temperatura máxima observada y la TSS de Modis. La correlación para todos los meses arroja un p-value menor a 0.01, lo que indica que los coeficientes del Modelo de Regresión Lineal Simple son buenos predictores. Los datos tampoco presentan una gran dispersión, lo que se puede interpretar como una distribución homogénea de los datos.

Plot de Residuos

En los gráficos de residuos v/s tmax, en general se observa que los datos de la mayoría de las estaciones, para todos los meses, presentan una distribución que se agrupa entre rangos de temperatura con bajos residuos, a excepción del mes de enero, que muestra residuos cercanos a 2. Cabe destacar, hay 2 estaciones que escapan a esta tendencia en los 4 meses estudiados.

4.2 Modelo de Regresión Lineal

El modelo de regresión lineal múltiple generado, utiliza la temperatura superficial estimada desde el sensor MODIS, para aproximar los valores de temperatura máxima observada desde las estaciones, además de añadir los predictores que contienen la elevación del terreno y la distancia a la línea de costa. En general, los valores R² presentan valores sobre 0.6 y un p-value menor a 0.001 para todos los meses. Esto indica que los modelos generados para cada mes, son un buen estimador de la temperatura máxima.

4.2.1 Modelo utilizado (coeficientes para cada mes)

formula = Tmax ~ TSS + dist + ele, data = dataMes

## $Enero
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Coefficients:
## (Intercept)          TSS         dist          ele  
##  50.3039069    0.2419165   -0.0002412           NA  
## 
## 
## $Abril
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Coefficients:
## (Intercept)          TSS         dist          ele  
##   1.391e+01    6.027e-01   -5.093e-05           NA  
## 
## 
## $Julio
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Coefficients:
## (Intercept)          TSS         dist          ele  
##   5.608e+00    6.282e-01    2.477e-05           NA  
## 
## 
## $Octubre
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Coefficients:
## (Intercept)          TSS         dist          ele  
##   9.253e+00    6.627e-01   -4.619e-05           NA

4.2.2 Resumen de estadísticos (R^2, p-value)

## $Enero
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.3820  -1.8028   0.9529   1.8518   6.4922 
## 
## Coefficients: (1 not defined because of singularities)
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  5.030e+01  1.532e+01   3.284  0.00468 **
## TSS          2.419e-01  2.207e-01   1.096  0.28930   
## dist        -2.412e-04  6.613e-05  -3.648  0.00217 **
## ele                 NA         NA      NA       NA   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.853 on 16 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.6841 
## F-statistic: 20.49 on 2 and 16 DF,  p-value: 3.865e-05
## 
## 
## $Abril
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.5630 -0.7962  0.5506  1.6956  3.5356 
## 
## Coefficients: (1 not defined because of singularities)
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  1.391e+01  1.199e+01   1.160  0.26198   
## TSS          6.027e-01  2.028e-01   2.973  0.00854 **
## dist        -5.093e-05  6.367e-05  -0.800  0.43481   
## ele                 NA         NA      NA       NA   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.823 on 17 degrees of freedom
## Multiple R-squared:  0.7685, Adjusted R-squared:  0.7412 
## F-statistic: 28.21 on 2 and 17 DF,  p-value: 3.972e-06
## 
## 
## $Julio
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8811 -0.8381  0.1814  0.6669  2.8092 
## 
## Coefficients: (1 not defined because of singularities)
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 5.608e+00  6.137e+00   0.914    0.374    
## TSS         6.282e-01  1.118e-01   5.618 3.85e-05 ***
## dist        2.477e-05  4.110e-05   0.603    0.555    
## ele                NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.604 on 16 degrees of freedom
## Multiple R-squared:   0.88,  Adjusted R-squared:  0.865 
## F-statistic: 58.65 on 2 and 16 DF,  p-value: 4.311e-08
## 
## 
## $Octubre
## 
## Call:
## lm(formula = Tmax ~ TSS + dist + ele, data = dataMes)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6371 -0.9580 -0.0503  1.5604  3.9945 
## 
## Coefficients: (1 not defined because of singularities)
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  9.253e+00  1.257e+01   0.736  0.47240   
## TSS          6.627e-01  1.874e-01   3.537  0.00274 **
## dist        -4.619e-05  6.720e-05  -0.687  0.50168   
## ele                 NA         NA      NA       NA   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.387 on 16 degrees of freedom
## Multiple R-squared:  0.8556, Adjusted R-squared:  0.8376 
## F-statistic: 47.42 on 2 and 16 DF,  p-value: 1.886e-07

4.2.3 Resultados aplicación MRLM

Resultados enero

##  [1] 17.59864 16.52603 24.47954 27.84024 25.46394 31.78716 33.07239 23.99539
##  [9] 23.99539 30.16537 28.88522 18.76067 18.90623 25.92489 33.33070 33.40256
## [17] 32.02415 33.40256 33.28892

Resultados abril

##  [1]  9.517644  8.405032 17.456673 19.905778 18.171272 22.525404 23.638435
##  [8] 17.037889 17.037889 24.490527 21.104586 20.798045 13.112753 13.611499
## [15] 19.266122 23.776209 24.532569 22.934211 24.532569 23.751890

Resultados julio

##  [1]  4.824307  3.787068 12.513223 14.155221 13.044124 16.323567 16.864607
##  [8] 11.668942 11.668942 15.208355 15.144176  8.500955  9.560911 14.150241
## [15] 16.913819 17.044784 16.615801 17.044784 16.902173

Resultados octubre

##  [1]  7.623586  5.690764 14.695644 17.956234 15.741423 21.642901 22.577165
##  [8] 15.103309 15.103309 19.929476 19.234861  9.794644 10.109060 17.030048
## [15] 22.767894 23.021825 21.786411 23.021825 22.733621

4.3 Análisis de variogramas

Los variogramas experimentales en su conjunto presentaban una alta dispersión en sus datos, por lo que el ajuste de los variogramas fue complicado de realizar debido a la escasa cantidad de pares de puntos, los ajustes de los cuatro meses se realizaron utilizando el método exponencial, logrando autocorrelaciones aceptables. Por otro lado, el ajuste de los residuos fue un poco más complicado, también se aplicó el método exponencial para los cuatro meses y el mes donde se logró una mejor autocorrelación fue el mes de julio.

Variogramas Enero

Variogramas Abril

Variogramas Julio

Variogramas Octubre

4.4 Prediccion espacial

4.4.1 Mapas

Mapas enero

Mapas abril

Mapas julio

Mapas octubre

4.4.2 Mapas interactivos

Mapas enero

Mapas abril

Mapas julio

Mapas octubre

4.5 Evaluación de la predicción espacial

Al analizar los valores estadísticos de la predicción espacial, se observa que la técnica Regresión-Krigin (RK) presenta valores mayores de R² (~0.6) que las otras técnicas como Ordinary Krigin y IDW (Inverso a la distancia), esto puede deberse a que RK incluye más predictores lo que mejora la predicción espacial. También se observa que los meses donde se obtiene un mejor ajuste de la predicción espacial es en julio y octubre.

Por otro lado, los resultados de RMSE obtenidos entre la temperatura máxima media (real) y la temperatura estimada por el modelo de regresión lineal múltiple (MRLM) indican que para el mes de enero existe una diferencia de 5°C, para el mes de abril 2,4 °C, para el mes de julio 1,5° C y para octubre de un 2°C. Por lo tanto, la mayor diferencia entre los datos reales y los estimados se presenta en el mes de enero y la mínima diferencia para el mes de julio.

5 Discusión

Las interpolaciones estocástica y geoestadísticas que se han generado a lo largo de los talleres para predecir la temperatura máxima al interior de la Región Metropolitana, han presentado una baja correlación en los planes de estimación, pese a los múltiples ajustes realizados en los variogramas. Esta situación se explica principalmente a través de dos causas. La primera causa, tiene que ver con la cantidad reducida de mediciones (datos reales) de temperatura máxima media. Donde, inicialmente se contaba con 33 mediciones, sin embargo, de estas 33 mediciones solo 19 a 20 puntos para los meses estudiados contenían valores no nulos. La segunda causa que se ha detectado y que explica de cierta forma los resultados obtenidos en la predicción espacial, tiene que ver con la distribución de los puntos dentro de la Región Metropolitana. Debido a que estos puntos se encuentran concentrados principalmente en la zona central de la región y parte de la Cordillera de los Andes. Dejando totalmente desprovisto de mediciones de temperaturas máximas toda la zona sur y oeste de la región. Sin embargo, y pese a todo lo expuesto anteriormente, el modelo de predicción espacial presentó una considerable mejora en sus valores finales, al añadir como variables predictoras la distancia de la costa y elevación. Esto permitió al modelo contar con más información referente al posible comportamiento de la temperatura máxima al interior de la región. Para mejorar la estimación resultaría muy conveniente contar con una base de datos más robustas de las mediciones de los datos reales, contar con una muestra ubicada de forma más homogénea al interior de la región, realizar un tratamiento a los valores anómalos (outliers) en el plan de estimación.

6 Conclusión

A través del desarrollo del taller y de las aplicaciones de métodos estadísticos y geoestadísticos se ha logrado definir tres interpolaciones, inverso a la distancia (IDW), Ordinary Kriging y Regression Kriging. Con estos resultados se ha podido determinar que la mejor interpolación de temperatura máxima media para los meses de enero, abril, julio y octubre se ha conseguido utilizando Regression Kriging mejorando hasta en un 30% la predicción respecto de Ordinary Kriging. Y es justamente Regression Kriging la estimación la que incluye a los tres predictores en su conjunto.