El análisis de datos espacial se define según los autores como “el proceso en el que se transforman los datos crudos en información útil” que pueda ser aprovechada por muchos campos, no solo lo asociado a lo geográfico, y de esta forma acceder a una perspectiva que antes no era muy clara a través de contenido de alto valor informativo, permitiendo facilitar la toma de decisiones y el avance científico. Este conjunto de técnicas es una excelente colaboración entre el humano (inteligente) y el computador, usado (entre otras cosas) para revelar el patrón de ocurrencia de cierta enfermedad, como por ejemplo el famoso caso de colera por John Snow, el cual tenía la hipótesis de que la enfermedad se transmitía con mayor frecuencia a través de aguas contaminadas que a través del aire, lo cual fue confirmado por un mapa que mostraba la correlación positiva entre las muertes de colera y la localización de las bombas de agua. El ejemplo anterior aunque es muy útil, no representa lo que se pudo haber analizado con las actuales herramientas de lo sistemas de información geográfica, pues hoy en día se tienen en cuenta más variables que el espacio-tiempo, como en el caso de Openshaw que estudió la leucemia en niños, pues los mecanismos que la causaban eran aun un misterio. Los resultados mostraron un patrón asociado a dos localizaciones donde habían mayores casos reportados de la enfermedad (a través de círculos que aumentaban su tamaño según la relación entre casos positivos y la población total en riesgo); uno de los sitios estaba cerca de una planta nuclear que había tenido fugas de material radioactivo y el otro es Tyneside, donde aun se discute las posibles causas. Lo anterior es una muestra del potencial que tiene este análisis y las ventajas que le trae a la humanidad.
Es importante recalcar que existen varios métodos y formas de analizar los datos, y se debe hacer según el patrón de los mismos. Estos pueden ser análisis basados en locaciones y análisis basados en distancias. Del análisis de locaciones, se desglosan otras técnicas, las cuales son:
Análisis de tablas de atributos: Este es usado para hallar la posible correlación entre dos variables, estadísticamente hablando, a través de análisis de regresión (usualmente) de un set de datos. En este caso los resultados dependen de la unidad de análisis seleccionada.
Uniones espaciales: Permite a través de operaciones báscias la integración vertical o vincular información desigual basada en la ubicación.
La operación “punto en polígono”: Se utiliza para determinar si un punto se encuentra dentro o fuera de un polígono.
Superposición de polígono: este es similar al punto en polígono, pero en este caso los dos objetos a estudiar son polígonos, que combinados generan una nueva tabla de atributos y una nueva unión espacial.
Análisis Ráster: en este caso las celdas en cada capa de datos son geometricamente idénticas, lo cual minimiza las complicaciones que se presentan con los demás métodos, como por ejemplo, no es necesario usar una complicada superposición ya que los atributos están disponibles para el mismo set de características espaciales. Este método es especialmente útil en la agricultura.
Por otro lado, las técnicas que se desglosan del análisis de distancias son:
Medición de distancia y longitud: existen varios métodos para medir distancias entre puntos en el espacio, donde la más usada es la métrica pitagórica (como dice su nombre, basada en el teorema de pitágoras). Para realizar mediciones en la tierra, es necesario usar otra métrica que permita tener en cuenta la curvatura o la forma esférica del planeta, sin embargo, si se desea estimar distancias entre puntos en una superficie no esférica ni plana, se debe recurrir a la suma de las longitudes de cada segmento perteneciente al trayecto total (polilíneas), aunque este método no es completamente exacto, ya que los objetos pueden tener formas que no se adapten completamente a un conjunto de líneas, en otras palabras, se subestima el valor real de la medición.
Buffering: este método permite la creación de nuevos objetos a partir de la identificación de todas las a´reas que están dentro de cierta distancia de los objetos originales . Tiene varios usos, ya sea en sistemas ráster, como en vectoriales.
Detección de clusters (conglomerados): para este caso, el patrón indica que algunos lugares son más propensos que otros y la presencia de un punto puede atraer a otros a su alrededor. Los patrones de los puntos pueden ser dependientes o independientes entre ellos, es decir, que la ocurrencia de uno, afecte la ocurrencia del otro.
Dependencia de la distancia: esta examina las formas en las que se correlacionan las características de ubicaciones cercanas, es decir, si los atributos de cada punto se distribuyen aleatoriamente o muestran patrones anómalos o influenciados por los valores circundantes (dependencia espacial). Se usa el estadístico de Moran para determinar lo anteriormente dicho, es decir, indica las propiedades generales del patrón de atributos.
Estimación de densidad: se usa para medir la influencia que tiene la distancia y a partir de ello hallar una función de densidad, es decir, la relación entre las observaciones y su probabilidad.
Interpolación espacial: provee estimaciones de los valores de campos continuos de localizaciones donde las mediciones no han sido tomadas, es decir, cuando al comparar atributos, los puntos tomados no coinciden espacialmente. A partir de esto el análisis de los datos se puede ir por tres vías: 1) por interpolación del segundo grupo de datos a las localizaciones, 2) por interpolación a la inversa del primer grupo de datos a las localizaciones y 3) por interpolación de ambos grupos de datos hacia una base geométrica común. Por parte de los autores se describen tres métodos de interpolación espacial, estos son: Polígonos Thiessen, Ponderación de distancia inversa y Kriging.
Kriging: La idea básica es hallar algo sobre las propiedades generales de la superficie, según lo revelan los valores medidos, y luego aplicar estas propiedades para estimar los faltantes de la superficie. Este método es uno de los que mejores fundamentos teóricos tiene y por eso es de alto valor analítico, sin embargo, debe usarse de forma correcta según la naturaleza de los datos. Los supuestos para predecir de forma correcta através de kriging son:
Estacionariedad: No varía la distribución de probabilidad en el espacio de estudio.
Isotropía: Uniformidad de los datos en todas las direcciones.