ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO

FACULTAD DE CIENCIAS

ESTADÍSTICA

TEMA: VARIOGRAMAS E INTERPOLACIÓN DE KRIGGING

NOMBRES: Kevin López, Mishel Sañaicela

ÍNDICE DE CONTENIDOS

  1. INTRODUCCIÓN

  2. OBJETIVOS

  3. DESARROLLO DE CADA ACTIVIDAD

  4. CONCLUSIONES

  5. REFERENCIAS

1.- INTRODUCCIÓN

INTERPOLACIÓN DE KRIGING

Definición teórica

Es un método de interpolación probabilístico, exacto, aplicable tanto de forma global como local, uno de los más utilizado, debido a que se lo considera como un método óptimo y el mejor predictor linealmente insesgado (Olaya, 2009). La aplicación del kriging implica la asunción de una serie de características de los datos:

• Estacionaridad de primer y segundo orden. La media y la varianza son constantes a lo largo del área interpolada, y la covarianza depende únicamente de la distancia entre puntos.

• Normalidad de la variable interpolada.

• Existencia de una autocorrelación significativa.

Definición matemática

\[\hat{z}\left ( x \right )=\sum_{i=1}^{n\left ( x \right )}\lambda_{i}\left ( x \right )\left [ Z \left ( x_{i} \right ) -m\left ( x_{i} \right )\right ]+m\left ( x \right )\]

Donde:

VARIOGRAMA

Se define como la media aritmética de todos lo cuadrados, de las diferencias entre pares de valores experimentados, separados una distancia (h) (choque, 2020).

Modelos de Variogramas

• Esférico

• Exponencial

• Gaussiano

• Power Law

2.- OBJETIVOS

Objetivo General

Interpretar y analizar el comportamiento de cada modelo de Variogramas y su interpolación de Krigging, utilizando las técnicas aplicadas en clase.

Objetivos Específicos

• Estudiar el comportamiento de cada variograma mediante un análisis.

• Entender el cálculo e interpretación de los variogramas y su interpolación.

• Realizar un informe de los resultados obtenidos en r-markdown y publicarlo en Rpubs.

3. DESARROLLO

A continuación, se explicara los variogramas y la interpolación de kriging mediante un ejemplo práctico:

Los datos que se utilizan son sobre el nivel de concentración de dióxido de nitrógeno NO2 en la ciudad de Buenos Aires con el objetivo de conocer la distribución espacial de las concentraciones del NO2.

Disponemos de una base datos en donde encontramos 132 datos con las variables:

Variable Descripción
x Coordenada en x
y Coordenada en y
z_Originales1 Valores medidos de dióxido de carbono
z Valores de Z normalizados

Tabla 1: Nombre y Descripción de las variables

1.- Comprobación de Normalidad

Para poder estimar los valores del dióxido de nitrógeno a través de la interpolación de Kriging, primero debemos saber si estos datos tienen o se aproximan a una distribución normal. En Excel se obtienen los coeficientes de curtosis y asimetría, si estos dos valores varían entre -3 y 3, decimos que los datos siguen o se aproximan a una distribución normal.

Coeficiente Valor
Curtosis 1.4280
Asimetría 1.6159

Tabla 2: Coeficientes de la Variable Z

Observamos que los valores oscilan entre -3 y 3 por lo que podemos afirmar que los datos siguen una distribución normal, una vez comprobada la normalidad procedemos a cargar los archivos en el software QGIS.

2.- Verificación de los datos

Cabe recalcar que para poder estimar o interpolar, es recomendable tener muchos datos por lo que procedemos a observar la cantidad de datos.

Gráfico 1: Mapa de datos muestreados

En el mapa observamos varios datos, lo cual, nos ayuda a la práctica, observamos también el área geográfica, que en este caso es en la ciudad de Buenos Aires, Argentina.

ÍNDICE Y GRÁFICO DE MORAN

Con ayuda del complemento Smart- Map obtenemos el Índice Global de Moran, que es una herramienta de gran ayuda para constatar la presencia o ausencia de autocorrelación espacial.

Gráfico 2: Índice de Moran

Observamos un valor-p de 0.001 y un I de Moran de 0.901, el cual nos indica que existe una alta correlación espacial positiva, es decir, que hay similitud entre los valores de la variable y los valores de las unidades espaciales vecinas. Mediante la barra de colores podemos observar los valores en los puntos muestreados para el atributo a interpolar.

3.- Estimación de los modelos de variogramas

En esta parte se buscara generar y estudiar el comportamiento de los variograma para buscar el modelo teórico que mejor se ajuste.

Modelo Lineal

Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:

Parámetros Valores
Distancia máxima (h)    60000
Efecto  Pepita (Co) 0
Lag (h) 6313.678
Escala (Co+C) 0.059
Umbral 36154.926

Tabla 3: Parámetros para el modelo Lineal

Es necesario especificar que al momento de cambiar la distancia, los demás valores se cambian por defecto. A partir de esto se obtuvo el siguiente variograma:

Gráfico 3: Modelo Lineal Variograma

Se tomó el valor máximo de la distancia de este modelo para crear los demás, en este modelo visualmente ya observamos que no es el mejor debido a que, gráficamente no existe una correlación lineal, analíticamente tomamos en cuenta los siguientes valores:

Parámetros Valores
RMSE 0.001
R^2 0.673

Tabla 4: Valores de Interpolación

El objetivo de la interpolación de Kriging es reducir lo más posible a cero el RMSE (Error cuadrático medio) y acercar a uno el R^2 (Coeficiente de correlación). En este caso observamos que el RMSE es casi cercano a 0 pero el R^2 es muy bajo por lo que rectificamos que no es un bueno modelo.

Modelo Lineal to Sill

Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:

Parámetros Valores
Distancia máxima (h)    60000
Efecto  Pepita (Co) 0
Lag (h) 6313.678
Escala (Co+C) 0.070
Umbral 30836.450

Tabla 5: Parámetros para el modelo Lineal to Sill

La distancia máxima, Co, Lag (h) se mantienen con los mismos valores pero los valores de Escala y el Umbral ya cambian aumentando y disminuyendo respectivamente, a partir de estos valores se obtiene el siguiente variograma:

Gráfico 4: Modelo Lineal to Sill Variograma

Visualmente observamos que la dirección supera el valor de la varianza (umbral) y que alcanza la estacionalidad en un punto por arriba de la varianza pero ya existe una mejor correlación.

Parámetros Valores
RMSE 0.0000
R^2 0.977

Tabla 6: Valores de Interpolación Modelo to Sill

El RMSE se mantiene en cero y el coeficiente de correlación aumento a 0.977 por lo que en comparación con el modelo anterior este es mejor.

Exponencial

Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:

Parámetros Valores
Distancia máxima (h)    60000
Efecto  Pepita (Co) 0
Lag (h) 6313.678
Escala (Co+C) 0.073
Umbral 55362.963

Tabla 7: Parámetros para el modelo Exponencial

Los valores: h, Co, Lag (h) se siguen manteniendo por defecto mientras que el valor de la Escala aumento al igual que el Umbral a diferencia que en el Modelo anterior este disminuyo.

Gráfico 5: Modelo Exponencial Variograma

En la gráfica observamos que de igual forma la dirección supera el valor de la varianza, no parece existir estacionalidad y que también existe una buena correlación.

Parámetros Valores
RMSE 0.001
R^2 0.851

Tabla 8: Valores de Interpolación Modelo Exponencial

En este modelo observamos que el RMSE aumento y el R^2 disminuyo por lo que, comparando con los otros modelos, el Modelo Lineal to Sill es el mejor.

Esférico

Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:

Parámetros Valores
Distancia Máxima (h) 60000
Efecto Pepita (Co) 0.000
Lag (h) 6313.678
Escala (Co+C) 0.070
Umbral 41167.527

Tabla 9: Parámetros para el Modelo Esférico

El valor de la escala y el Umbral disminuyen mientras que los demás se mantienen constantes, el Variograma quedaría de la siguiente manera:

Gráfico 6: Modelo Esférico Variograma

La gráfica presenta una buena correlación al igual que se observa que también en este modelo los datos sobrepasan la varianza y en algún punto alcanza la estacionalidad.

Parámetros Valores
RMSE 0.0000
R^2 0.951

Tabla 10: Interpolación Modelo Esférico

Al observar el Coeficiente de correlación observamos que si existe una buena correlación, al igual que el RMSE es cero, por lo que podemos decir que este es un buen modelo.

Gaussiano

Para generar el modelo lineal se tomó en cuenta los siguientes parámetros:

Parámetros Valores
Distancia Máxima (h) 60000
Efecto Pepita (Co) 0.000
Lag (h) 6313.678
Escala (Co+C) 0.071
Umbral 32442.859

Tabla 11: Interpolación Modelo Gaussiano

En este modelo podemos observar que el valor de la escala nuevamente aumento y el Umbral disminuye mientras que los demás se mantienen constantes, el Variograma quedaría de la siguiente manera:

Gráfico 7: Modelo Gaussiano Variograma

De la misma manera observamos que la gráfica presenta una buena correlación al igual que, como en todos los modelos se observa que también los datos sobrepasan la varianza y en algún punto alcanza la estacionalidad.

Parámetros Valores
RMSE 0.0000
R^2 0.978

Tabla 12: Interpolación Modelo Esférico

Al observar el Coeficiente de correlación observamos que si existe una buena correlación, ya que esta se aproxima a 1 al igual que el RMSE es cero, por lo que podemos decir que también este es un buen modelo.

4.- Mejor modelo

Al ajustar los modelos con una distancia máxima basada en el modelo lineal podemos escoger el modelo Esférico como que el que mejor se ajusta a nuestros datos, con una suma en el error cuadrático de cero y un coeficiente de correlación cercano a 1 de 0.951.

5.- Validación Cruzada

Modelo lineal

Gráfico 8: Validación cruzada Lineal

Modelo lineal to Sill

Gráfico 9: Validación cruzada Lineal to Sill

Modelo Exponencial

Gráfico 10: Validación cruzada Modelo Exponencial

Modelo Esférico

Gráfico 11: Validación cruzada Modelo Esférico

Modelo Gaussiano

Gráfico 12: Validación cruzada Modelo Gaussianol

Cuadro Comparativo

Modelos RMSE R^2
Modelo Lineal 0.073 0.915
Modelo Lineal to Sill 0.057 0.938
Modelo exponencial 0.057 0.939
Modelo Esférico 0.057 0.938
Modelo Gaussiano 0.102 0.823

Tabla 13: Cuadro comparativo de modelos

En la validación cruzada podemos obervar que el modelo Lineal to Sill, el Modelo Exponencial y el modelo Esférico son buenos ya que presentan los mismos valores para la suma del error cuadrático por lo que se podría trabajar con cualquiera de los 3 modelos, se realizara los demás calculos con el modelo escogido anteriormente, donde nuevamente se puede evidenciar que este se ajusta a los datos, con un margen de error cuadrático cercano a 0 y con coeficiente de correlación de 0.938.

Z observados Z predichos
0.327 0.335
0.807 0.747
0.128 0.118
0.061 0.071
0.055 0.107
: :
: :
0.147 0.208
0.079 0.080
0.039 0.035

Tabla 14: Validación cruzada

Mediante la validación cruzada también podemos observar que al escoger el Modelo Esférico este nos presenta valores similares entre los valores de Z observados y los valores de Z predichos, debido a que el modelo presenta un RMSE cercano a 0.

5.- Interpolación

Mediante la gráfica observamos ya la interpolación del dióxido de nitrógeno de la ciudad de Buenos Aires Argentina, visualizando así que en donde se encuentra el color verde es en donde está la mayor concentración del dióxido de carbono, es decir en las ciudades: Vicente López, Morón mientras que a sus alrededores presentados de color naranaja es en donde existe menor concentración del NO2 como San Miguel, Santa María, San Fernando.

4.- CONCLUSIONES

1.- Se escogio el modelo Esférico ya que este es uno de los modelos más utilizados en la práctica, es indicativo de fenómenos continuos, en este caso fue seleccionado porque brinda un mejor resultado en la representación de la variable modelizada.

2.- Mediante la interpolación de Kriging se pudo interpretar y analizar el comportamiento de cada modelo de Variogramas y su valores de interpolación.

5.- REFERENCIAS BIBLIOGRÁFICAS

• OLAYA, Víctor. Sistemas de información geográfica. Cuadernos internacionales de tecnología para el desarrollo humano, 2009, no 8, p. 15.

• LARA, Enrique López; SIMEÓN, Carlos Posada; NAVARRO, Jesús Gabriel Moreno. Los sistemas de informacion geográfica. Geoenseñanza, 2006, vol. 11, p. 16.

• Y. C. Kim, Y. Z. (s.f.). Variograms of in situ coal washability data. SOCIETY FOR MINING, METALLURGY, AND EXPLORATION, INC. TRANSACTIONS