Estadística Espacio Temporal

Introducción




logo

Maestría en Estadística Aplicada

Roberto Trespalacios

Temas

  • Introducción
    • Comentarios generales del curso
      • ¿Qué es la estadística espacio-temporal?
      • ¿Por qué estudiar estadística espacio-temporal?
      • Objetivos, tematica y criterios de evaluación
    • Formato para entregar talleres y trabajos
      • Tutorial de Rstudio y R markdown
      • Instalación de librerías de R necesarias para el curso
  • Datos espaciales y análisis exploratorio
    • Estadística espacial
    • Geoestadística, lattices y patrones espaciales
    • Datos georeferenciados
    • Gráficos exploratorios
    • Aplicaciones

¿Qué es la estadística espacio-temporal?

La estadística espacio-temporal estudia los métodos y herramientas(estadísticos, matemáticos, computacionales) para el análisis de los datos en un contexto espacial y temporal, de forma separada y conjunta (cuando se requiera).

Tendencias en la dinámica espacio-temporal de casos de leishmaniasis visceral por cada 1000 habitantes en un enfoque altamente endémico de Bihar, India.

¿Por qué estudiar estadística espacio-temporal?

  • Manejo de la información.
  • Investigadores de todas las ciencias.
  • Desarrollo de técnicas estadística para el análisis de datos.
  • Crecimiento del interés en el análisis y relación de datos espaciales y temporales.
  • Mejora en las herramienta para analizar los patrones de distribución espacial.
  • Problemas de ecología, médicina, geografía, ingeniería, meteorología, geología, astronomía, etc.
  • Estudio de datos económicos, culturales, politicos y sociales.
  • Grandes datos(Big data).

Ejemplos

Algunos de los ejemplos del tipo de problemas que se pueden presentar son:

  • Los sismólogos analizan datos sobre la distribución regional de los terremotos y su relación en el tiempo.
    • ¿Muestra esta distribución algún patrón o predictibilidad en el espacio y el tiempo?
  • El especialista en salud pública recopila datos sobre la aparición de enfermedades en una ciudad.
    • ¿La distribución de casos de una enfermedad forma un patrón en el espacio?
    • ¿La distribución de casos de la enfermedad tiene una relación o un patrón en el tiempo y el espacio?

Más ejemplos

  • La policía desea investigar si existe algún patrón espacial o temporal para la distribución de ciertos lugares del crimen.
    • ¿La tasa de delincuencia en áreas particulares se correlaciona con las características socioeconómicas del área o los meses del año?
  • Los geólogos desean estimar la extensión de un depósito mineral sobre una región en particular, dados los datos sobre muestras de pozos tomadas de lugares diseminados por el área.
    • ¿Cómo podemos hacer estimaciones sensatas?

Y... más ejemplos

  • Un hidrólogo de aguas subterráneas recolecta datos sobre la concentración de un químico tóxico en muestras recolectadas de una serie de pozos.
    • ¿Podemos usar estas muestras para construir un mapa regional de contaminación probable?
  • Los minoristas desean utilizar datos socioeconómicos, disponibles para áreas pequeñas del censo de población, para evaluar la demanda probable de sus productos si abren o expanden un punto de venta.
    • ¿Cómo vamos a clasificar tales áreas? Los mismos minoristas recopilan información sobre los movimientos de compradores de zonas residenciales a tiendas.
    • ¿Podemos construir modelos de tales flujos?
    • ¿Podemos predecir los cambios en dichos flujos si expandimos un punto de venta o abrimos uno nuevo?

Tipos de problemas en el análisis de datos espaciales y temporales

Básicamente, hay nueve clases de problemas encontrados en el análisis de datos espaciales y temporales:

  • Problemas de datos de punto discretamente espaciales
  • Problemas de datos de punto espacialmente continuos
  • Problemas de datos de área
  • Problemas de los datos con interacción espacial
  • Problemas de los datos de tiempo discreto
  • Problemas de los datos de tiempo continuo
  • Problemas de los datos de intervalos de tiempo
  • Problemas de los datos con interacción temporal
  • Problemas de los datos con interacción temporal-espacial

Problemas en el análisis de datos espaciales

Datos espacialmente discretos

  • La ubicación de los cráteres en un campo volcánico
  • Las ubicaciones de cierto tipo de árbol en un bosque
  • Las ubicaciones de los centros de células biológicas en una sección de tejido
  • Las ubicaciones de cierto tipo de crimen en un vecindario
  • La ubicación de los casos de una determinada enfermedad en un área
  • Las ubicaciones de cierto tipo de cáncer en una parte del país

Datos espacialmente continuos

  • Mediciones de lluvia
  • Temperatura para estaciones meteorológicas
  • Niveles de agua subterránea
  • Niveles de gas radón
  • Datos geoquímicos
  • Medidas climáticas
  • Cantidad de un mineral
  • Propiedades del suelo y la roca

Problemas en el análisis de datos espaciales

Datos de área

  • Tasa de mortalidad infantil
  • Datos socioeconómicos
  • Datos del censo
  • Datos de votación
  • Prevalencia de grupos sanguíneos humanos
  • Emisiones de nitrógeno y amoníaco

Datos de interacción

  • Viajes de negocios realizados por aire dentro de un país
  • Migración para las provincias de un país
  • Pacientes tratados de diferentes distritos en un hospital
  • El atractivo relativo de diferentes centros comerciales como sucursales para un distrito financiero
  • El efecto de abrir una nueva piscina
  • El impacto del distrito de viviendas nuevas en los flujos existentes

Problemas en el análisis de datos espaciales

Datos de tiempo discreto

  • El caudal anual del río Nilo en Aswan
  • Temperatura del aire diaria o mensual
  • Precipitación anual en una región

Datos de tiempo continuo

  • Crecimiento diario de un organismo
  • Población anual de Colombia
  • Precios de cierre diarios en diferentes ciudades

Datos de interacción espacio-tiempo

  • El caudal anual del río Nilo en Aswan
  • Temperatura del aire diaria o mensual
  • Precipitación en un lugar específico por año
  • El rendimiento anual de maíz en Iowa

Geoestadística, lattices y patrones espaciales

La estadística espacial tiene tres áreas:

  • Geoestadística
  • Procesos puntuales espaciales
  • Datos lattice (enrejado)

Definición de Geoestadística

  • Geoestadística: conjunto de técnicas (kriging, función de correlación, proceso de Gauss,etc.) para el análisis y predicción de valores distribuidos en el espacio y/o en el tiempo, dichos valores se asumen correlacionados entre sí.

  • Fechas de floración de trigo por ubicación (ejemplo de datos geoestadísticos punto-referenciados).
  • Observe la analogogía espacial con los datos de series temporales en tiempo continuo.
  • ¿Están correlacionados los datos?

Definición de Procesos puntuales

  • Procesos puntuales espaciales: son modelos estocásticos complejos que describen la localización de eventos de interés y, en ocasiones alguna información relativa a estos eventos.

  • (Izq) Ubicaciones de árboles de pino en un bosque sueco.
  • (Der) Ubicación, diámetro de los pinos de hoja larga (proceso de punto marcado).
  • ¿Están dispersos aleatoriamente o están agrupados?

Definición de Lattice

  • Datos lattice (enrejado): proceso espacial en una cuadrícula regular o irregular para datos agregados de nivel de unidad (clúster o clasificación). A menudo, esto se debe a la agregación de algún tipo como: promedios sobre una celda(rejilla) en una imagen, autocorrelación espacial, etc.
  • (Arr) Clasificación de ciudades por porcentaje debajo de la línea de pobreza de 5 estados del medio-oeste de Estados Unidos, censo de 1990.
  • (Aba) Análogo espacial a datos en tiempo discreto (clasificación en una imagen).
  • ¿Existe segmentación o agrupación espacial de algunas zonas en cada caso?

Datos georeferenciados

  • La georreferenciación es la técnica de posicionamiento espacial de una entidad en una localización geográfica única y bien definida en un sistema de coordenadas (proyección) y datum específicos.
  • Es una operación habitual dentro de los sistema de información geográfica (GIS-SIG) para representar objetos físicos. Son de tipo:
    • Raster: imágenes de mapa de píxeles.
    • Vectores: puntos, líneas y polígonos.

Proyecciones

La proyección cilíndrica NO es la proyección de Mercator.

  • Proyección Cilindrica: La idea es imaginar un cilindro con el globo dentro y una luz proyectada desde el centro a través del globo sobre el cilindro; luego, desenrolle el cilindro.

  • Proyección Mercator: Si desea un modelo físico de la proyección de Mercator, coloque un globo esférico dentro del cilindro, luego inflelo. Este se adhiere al cilindro cuando entra en contacto con él; luego, desenrolle el cilindro.

Trulli
Proyecciónes cilíndrica(izq) y mercator(der).

Proyecciones

Proyección Cilíndrica:

Trulli

Transformaciones:

\[ \begin{align*} x =& \lambda-\lambda_0 \boldsymbol{\Leftrightarrow} \lambda = x + \lambda_0 \\ y =& \tan \phi \boldsymbol{\Leftrightarrow} \phi = \tan^{-1}y \end{align*} \]

Proyección Mercator:

Transformaciones:

\[ \begin{align*} x =& \lambda-\lambda_0 \boldsymbol{\Leftrightarrow} \lambda = x + \lambda_0 \\ y = &\ln(\tan \phi+\sec \phi) \boldsymbol{\Leftrightarrow} \phi = 2\tan^{-1}(e^y)-\frac{1}{2}\pi \end{align*} \]

Datum

  • Un datum es el marco de referencia para medir ubicaciones en la superficie de la tierra.
  • Existen diferentes elipsoides(datum) que se adaptan estrechamente a la superficie de la tierra.
  • Tipos de datum:
    • Datum global, se adapta perfectamente a toda la superficie de la tierra.
    • Datum local, se ajustan a una porción particular de la superficie de la tierra.

  • Para establecer el control vertical usamos datum verticales como Mean Sea Level(MSL), Geoid o Earth Gravitational Model (EGM 96).

  • Los controles horizontales se establecen usando datum horizontal como World Geodetic System: WGS-84 o Geodetic Reference System GRS-80.

Raster y vectores

  • Ráster: en este sistema, los puntos están representados por celdas individuales, líneas por secuencia de celdas vecinas y área por colección de celdas continuas.
  • Vector: en este sistema, los puntos están representados por un solo par de coordenadas (x, y), líneas por una serie de (x, y) pares de coordenadas y áreas por una serie de (x, y) pares de coordenadas donde el primero hasta el último punto son iguales.

Datos georeferenciados (espaciales)

Trulli
Trulli

Datos georeferenciados (espaciales)

Representación básica de datos espaciales

  • Podemos representar datos espaciales básicos con estos tipos de datos. Digamos que tenemos la ubicación (representada por longitud y latitud) de diez estaciones meteorológicas (llamadas de A a J) y su precipitación anual.
ubicacion <- LETTERS[1:10]
longitud <- c(-116.7, -120.4, -116.7, -113.5, -115.5,-120.8, -119.5, -113.7, -113.7, -110.7)
latitud <- c(45.3, 42.6, 38.9, 42.1, 35.7, 38.9, 36.2, 39, 41.6, 36.9)
estaciones <- cbind(longitud, latitud)
# Simulacion de lluvia
set.seed(0)
precipitacion <- (runif(length(latitud))*10)^3

Veamos el gráfico:

psize <- 1 + precipitacion/500
plot(estaciones, cex=psize, cex.lab=2,cex.main=2 ,pch=20, col='red', main='Precipitación')

# agregar nombres a cada estacion
text(estaciones, ubicacion, pos=4)

# legenda
breaks <- c(100, 500, 1000, 2000)
legend("topright", legend=breaks, pch=20, pt.cex=psize, col='red', bg='gray')

Diagrama de puntos y poligonos(abiertos y cerrados)

  • Podemos agregar múltiples conjuntos de puntos a la trama e incluso dibujar líneas y polígonos.
  • Tenga en cuenta que los datos están representados por “longitud, latitud”.
  • No use “latitud, longitud” porque en la mayoría de los mapas se usa latitud (norte/sur) para el eje vertical y la longitud (este/oeste) para el eje horizontal.

Ejemplo

# puntos para el poligono cerrado
lon <- c(-116.8, -114.2, -112.9, -111.9, -114.2, -115.4, -117.7)
lat <- c(41.3, 42.9, 42.4, 39.8, 37.6, 38.3, 37.6)
x <- cbind(lon, lat)

Vamos el gráfico:

plot(estaciones, cex.lab=2,cex.main=2, main='Precipitation')

polygon(x, col='blue', border='light blue')
lines(estaciones, lwd=3, col='red')
points(x, cex=2, pch=20)
points(estaciones, cex=psize, pch=20, col='red', main='Precipitation')

Dataframes

  • Los datos ráster podrían representarse mediante una matriz o matriz de orden superior.
  • Cuando son datos puntuales, un conjunto de datos espaciales que representan puntos y atributos se podría hacer combinando geometría y atributos en un solo dataframe.
wst <- data.frame(longitud, latitud, estaciones, precipitacion)
wst
   longitud latitud longitud.1 latitud.1 precipitacion
1    -116.7    45.3     -116.7      45.3    721.003613
2    -120.4    42.6     -120.4      42.6     18.716993
3    -116.7    38.9     -116.7      38.9     51.530302
4    -113.5    42.1     -113.5      42.1    187.988119
5    -115.5    35.7     -115.5      35.7    749.127376
6    -120.8    38.9     -120.8      38.9      8.203534
7    -119.5    36.2     -119.5      36.2    725.093932
8    -113.7    39.0     -113.7      39.0    843.038944
9    -113.7    41.6     -113.7      41.6    288.539816
10   -110.7    36.9     -110.7      36.9    248.993575
  • wst es un dataframe; luego, R no comprende automáticamente el significado especial de:
    • las dos primeras columnas(lon y lat).
    • el sistema de referencia de coordenadas se refiere (lon/lat, la zona UTM 17S u otros aspectos importantes).

<!– <!– 555555555555555555555555555555555555555555555555555555555555 –> –>

<!– <!– Manipuación de datos tipo raster en R (librería sp) –> –> <!– <!– ============================= –> –>

<!– <!– + En esta parte, veremos aspectos generales del diseño de la librería raster de R y su uso con la libraría sp. Como: –> –> <!– <!– + Estructura de las clases principales y lo que representan. –> –> <!– <!– + El uso de la librería. –> –> <!– <!– + Algunas aplicaciones de las funciones de la librería. –> –>

<!– <!– Cambio de la proyección del raster –> –> <!– <!– ======================================= –> –> <!– <!– class: small-code –> –>