ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE CIENCIAS
ESTADÍSTICA
TEMA: VARIOGRAMAS E INTERPOLACIÓN DE KRIGGING
INTRODUCCIÓN
OBJETIVOS
DESARROLLO DE CADA ACTIVIDAD
CONCLUSIONES
REFERENCIAS
Definición teórica
Es un método de interpolación probabilístico, exacto, aplicable tanto de forma global como local, uno de los más utilizado, debido a que se lo considera como un método óptimo y el mejor predictor linealmente insesgado (Olaya, 2009). La aplicación del kriging implica la asunción de una serie de características de los datos:
• Estacionaridad de primer y segundo orden. La media y la varianza son constantes a lo largo del área interpolada, y la covarianza depende únicamente de la distancia entre puntos.
• Normalidad de la variable interpolada.
• Existencia de una autocorrelación significativa.
Definición matemática
\[\hat{z}\left ( x \right )=\sum_{i=1}^{n\left ( x \right )}\lambda_{i}\left ( x \right )\left [ Z \left ( x_{i} \right ) -m\left ( x_{i} \right )\right ]+m\left ( x \right )\]
Donde:
Se define como la media aritmética de todos lo cuadrados, de las diferencias entre pares de valores experimentados, separados una distancia (h) (choque, 2020).
Modelos de Variogramas
• Esférico
• Exponencial
• Gaussiano
• Power Law
Objetivo General
Interpretar y analizar el comportamiento de cada modelo de Variogramas y su interpolación de Krigging, utilizando las técnicas aplicadas en clase.
Objetivos Específicos
• Estudiar el comportamiento de cada variograma mediante un análisis.
• Entender el cálculo e interpretación de los variogramas y su interpolación.
• Realizar un informe de los resultados obtenidos en r-markdown y publicarlo en Rpubs.
A continuación, se explicara los variogramas y la interpolación de kriging mediante un ejemplo práctico:
Los datos que se utilizan son sobre el nivel de concentración de dióxido de nitrógeno NO2 en la ciudad de Buenos Aires con el objetivo de conocer la distribución espacial de las concentraciones del NO2.
Disponemos de una base datos en donde encontramos 132 datos con las variables:
| Variable | Descripción |
|---|---|
| x | Coordenada en x |
| y | Coordenada en y |
| z_Originales1 | Valores medidos de dióxido de carbono |
| z | Valores de Z normalizados |
Tabla 1: Nombre y Descripción de las variables
1.- Comprobación de Normalidad
Para poder estimar los valores del dióxido de nitrógeno a través de la interpolación de Kriging, primero debemos saber si estos datos tienen o se aproximan a una distribución normal. En Excel se obtienen los coeficientes de curtosis y asimetría, si estos dos valores varían entre -3 y 3, decimos que los datos siguen o se aproximan a una distribución normal.
| Coeficiente | Valor |
|---|---|
| Curtosis | 1.4280 |
| Asimetría | 1.6159 |
Tabla 2: Coeficientes de la Variable Z
Observamos que los valores oscilan entre -3 y 3 por lo que podemos afirmar que los datos siguen una distribución normal, una vez comprobada la normalidad procedemos a cargar los archivos en el software QGIS.
2.- Verificación de los datos
Cabe recalcar que para poder estimar o interpolar, es recomendable tener muchos datos por lo que procedemos a observar la cantidad de datos.
Gráfico 1: Mapa de datos muestreados
En el mapa observamos varios datos, lo cual, nos ayuda a la práctica, observamos también el área geográfica, que en este caso es en la ciudad de Buenos Aires, Argentina.
Con ayuda del complemento Smart- Map obtenemos el Índice Global de Moran, que es una herramienta de gran ayuda para constatar la presencia o ausencia de autocorrelación espacial.
Gráfico 2: Índice de Moran
Observamos un valor-p de 0.001 y un I de Moran de 0.901, el cual nos indica que existe una alta correlación espacial positiva, es decir, que hay similitud entre los valores de la variable y los valores de las unidades espaciales vecinas. Mediante la barra de colores podemos observar los valores en los puntos muestreados para el atributo a interpolar.
3.- Estimación de los modelos de variogramas
En esta parte se buscara generar y estudiar el comportamiento de los variograma para buscar el modelo teórico que mejor se ajuste.
Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:
| Parámetros | Valores |
|---|---|
| Distancia máxima (h) | 60000 |
| Efecto Pepita (Co) | 0 |
| Lag (h) | 6313.678 |
| Escala (Co+C) | 0.059 |
| Umbral | 36154.926 |
Tabla 3: Parámetros para el modelo Lineal
Es necesario especificar que al momento de cambiar la distancia, los demás valores se cambian por defecto. A partir de esto se obtuvo el siguiente variograma:
Gráfico 3: Modelo Lineal Variograma
Se tomó el valor máximo de la distancia de este modelo para crear los demás, en este modelo visualmente ya observamos que no es el mejor debido a que, gráficamente no existe una correlación lineal, analíticamente tomamos en cuenta los siguientes valores:
| Parámetros | Valores |
|---|---|
| RMSE | 0.001 |
| R^2 | 0.673 |
Tabla 4: Valores de Interpolación
El objetivo de la interpolación de Kriging es reducir lo más posible a cero el RMSE (Error cuadrático medio) y acercar a uno el R^2 (Coeficiente de correlación). En este caso observamos que el RMSE es casi cercano a 0 pero el R^2 es muy bajo por lo que rectificamos que no es un bueno modelo.
Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:
| Parámetros | Valores |
|---|---|
| Distancia máxima (h) | 60000 |
| Efecto Pepita (Co) | 0 |
| Lag (h) | 6313.678 |
| Escala (Co+C) | 0.070 |
| Umbral | 30836.450 |
Tabla 5: Parámetros para el modelo Lineal to Sill
La distancia máxima, Co, Lag (h) se mantienen con los mismos valores pero los valores de Escala y el Umbral ya cambian aumentando y disminuyendo respectivamente, a partir de estos valores se obtiene el siguiente variograma:
Gráfico 4: Modelo Lineal to Sill Variograma
Visualmente observamos que la dirección supera el valor de la varianza (umbral) y que alcanza la estacionalidad en un punto por arriba de la varianza pero ya existe una mejor correlación.
| Parámetros | Valores |
|---|---|
| RMSE | 0.0000 |
| R^2 | 0.977 |
Tabla 6: Valores de Interpolación Modelo to Sill
El RMSE se mantiene en cero y el coeficiente de correlación aumento a 0.977 por lo que en comparación con el modelo anterior este es mejor.
Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:
| Parámetros | Valores |
|---|---|
| Distancia máxima (h) | 60000 |
| Efecto Pepita (Co) | 0 |
| Lag (h) | 6313.678 |
| Escala (Co+C) | 0.073 |
| Umbral | 55362.963 |
Tabla 7: Parámetros para el modelo Exponencial
Los valores: h, Co, Lag (h) se siguen manteniendo por defecto mientras que el valor de la Escala aumento al igual que el Umbral a diferencia que en el Modelo anterior este disminuyo.
Gráfico 5: Modelo Exponencial Variograma
En la gráfica observamos que de igual forma la dirección supera el valor de la varianza, no parece existir estacionalidad y que también existe una buena correlación.
| Parámetros | Valores |
|---|---|
| RMSE | 0.001 |
| R^2 | 0.851 |
Tabla 8: Valores de Interpolación Modelo Exponencial
En este modelo observamos que el RMSE aumento y el R^2 disminuyo por lo que, comparando con los otros modelos, el Modelo Lineal to Sill es el mejor.
Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:
| Parámetros | Valores |
|---|---|
| Distancia Máxima (h) | 60000 |
| Efecto Pepita (Co) | 0.000 |
| Lag (h) | 6313.678 |
| Escala (Co+C) | 0.070 |
| Umbral | 41167.527 |
Tabla 9: Parámetros para el Modelo Esférico
El valor de la escala y el Umbral disminuyen mientras que los demás se mantienen constantes, el Variograma quedaría de la siguiente manera:
Gráfico 6: Modelo Esférico Variograma
La gráfica presenta una buena correlación al igual que se observa que también en este modelo los datos sobrepasan la varianza y en algún punto alcanza la estacionalidad.
| Parámetros | Valores |
|---|---|
| RMSE | 0.0000 |
| R^2 | 0.951 |
Tabla 10: Interpolación Modelo Esférico
Al observar el Coeficiente de correlación observamos que si existe una buena correlación, al igual que el RMSE es cero, por lo que podemos decir que este es un buen modelo.
Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:
| Parámetros | Valores |
|---|---|
| Distancia Máxima (h) | 60000 |
| Efecto Pepita (Co) | 0.000 |
| Lag (h) | 6313.678 |
| Escala (Co+C) | 0.071 |
| Umbral | 32442.859 |
Tabla 11: Interpolación Modelo Gaussiano
En este modelo podemos observar que el valor de la escala nuevamente aumento y el Umbral disminuye mientras que los demás se mantienen constantes, el Variograma quedaría de la siguiente manera:
Gráfico 7: Modelo Gaussiano Variograma
De la misma manera observamos que la gráfica presenta una buena correlación al igual que, como en todos los modelos se observa que también los datos sobrepasan la varianza y en algún punto alcanza la estacionalidad.
| Parámetros | Valores |
|---|---|
| RMSE | 0.0000 |
| R^2 | 0.978 |
Tabla 12: Interpolación Modelo Esférico
Al observar el Coeficiente de correlación observamos que si existe una buena correlación, ya que esta se aproxima a 1 al igual que el RMSE es cero, por lo que podemos decir que también este es un buen modelo.
4.- Mejor modelo
Al ajustar los modelos con una distancia máxima basada en el modelo lineal podemos escoger el modelo Esférico como que el que mejor se ajusta a nuestros datos, con una suma en el error cuadrático de cero y un coeficiente de correlación cercano a 1 de 0.951.
5.- Validación Cruzada
Gráfico 8: Validación cruzada Lineal
Gráfico 9: Validación cruzada Lineal to Sill
Gráfico 10: Validación cruzada Modelo Exponencial
Gráfico 11: Validación cruzada Modelo Esférico
Gráfico 12: Validación cruzada Modelo Gaussianol
Cuadro Comparativo
| Modelos | RMSE | R^2 |
|---|---|---|
| Modelo Lineal | 0.073 | 0.915 |
| Modelo Lineal to Sill | 0.057 | 0.938 |
| Modelo exponencial | 0.057 | 0.939 |
| Modelo Esférico | 0.057 | 0.938 |
| Modelo Gaussiano | 0.102 | 0.823 |
Tabla 13: Cuadro comparativo de modelos
En la validación cruzada podemos obervar que el modelo Lineal to Sill, el Modelo Exponencial y el modelo Esférico son buenos ya que presentan los mismos valores para la suma del error cuadrático por lo que se podría trabajar con cualquiera de los 3 modelos, se realizara los demás calculos con el modelo escogido anteriormente, donde nuevamente se puede evidenciar que este se ajusta a los datos, con un margen de error cuadrático cercano a 0 y con coeficiente de correlación de 0.938.
| Z observados | Z predichos |
|---|---|
| 0.327 | 0.335 |
| 0.807 | 0.747 |
| 0.128 | 0.118 |
| 0.061 | 0.071 |
| 0.055 | 0.107 |
| : | : |
| : | : |
| 0.147 | 0.208 |
| 0.079 | 0.080 |
| 0.039 | 0.035 |
Tabla 14: Validación cruzada
Mediante la validación cruzada también podemos observar que al escoger el Modelo Esférico este nos presenta valores similares entre los valores de Z observados y los valores de Z predichos, debido a que el modelo presenta un RMSE cercano a 0.
5.- Interpolación
Mediante la gráfica observamos ya la interpolación del dióxido de nitrógeno de la ciudad de Buenos Aires Argentina, visualizando así que en donde se encuentra el color verde es en donde está la mayor concentración del dióxido de carbono, es decir en las ciudades: Vicente López, Morón mientras que a sus alrededores presentados de color naranaja es en donde existe menor concentración del NO2 como San Miguel, Santa María, San Fernando.
1.- Se escogio el modelo Esférico ya que este es uno de los modelos más utilizados en la práctica, es indicativo de fenómenos continuos, en este caso fue seleccionado porque brinda un mejor resultado en la representación de la variable modelizada.
2.- Mediante la interpolación de Kriging se pudo interpretar y analizar el comportamiento de cada modelo de Variogramas y su valores de interpolación.
• OLAYA, Víctor. Sistemas de información geográfica. Cuadernos internacionales de tecnología para el desarrollo humano, 2009, no 8, p. 15.
• LARA, Enrique López; SIMEÓN, Carlos Posada; NAVARRO, Jesús Gabriel Moreno. Los sistemas de informacion geográfica. Geoenseñanza, 2006, vol. 11, p. 16.
• Y. C. Kim, Y. Z. (s.f.). Variograms of in situ coal washability data. SOCIETY FOR MINING, METALLURGY, AND EXPLORATION, INC. TRANSACTIONS