knitr:: opts_chunk$ set (fig.align = "center" ,
warning = FALSE ,
message = FALSE ,
fig.width = 9 )
VIDEO
Bibliotecas
library (rworldxtra)
library (tidyverse)
library (sf)
library (raster)
Datos Solenopsis
datos <- read_csv ("https://raw.githubusercontent.com/Edimer/Spatial-Data-Science/main/SIG_R/data/solenopsis.csv" )
datos
Área de estudio
Área en Colombia
colombia <- raster:: getData (name = "GADM" , country = "COL" , level = 0 )
colombia_sf <- st_as_sf (colombia)
colombia_sf %>%
ggplot () +
geom_sf () +
geom_sf (data = datos_sf)
Área específica
El siguiente mapa corresponde a una región específica de Colombia.
# Mapa del mundo
data ("countriesHigh" )
mapa <- countriesHigh %>%
st_as_sf () %>%
st_crop (datos_sf)
ggplot () +
geom_sf (data = mapa) +
geom_sf (data = datos_sf)
Otros mapas
Gráfico con color por especie y tamaño por abundancia: filtro los NA para que no aparezcan en la leyenda.
ggplot () +
geom_sf (data = mapa) +
geom_sf (data = datos_sf %>% filter (! is.na (Species)),
aes (color = Species, size = Measurement))
Gráfico por especie: filtro los NA para que no aparezcan en la leyenda.
ggplot () +
geom_sf (data = mapa) +
geom_sf (data = datos_sf %>% filter (! is.na (Species)),
aes (color = Species, size = Measurement)) +
facet_wrap (~ Species)
Resumen descriptivo
datos %>%
group_by (Species) %>%
summarise (Total = n (),
AbundanciaPromedio = mean (Measurement),
MáximoAbundancia = max (Measurement),
MínimoAbundancia = min (Measurement))
Modelación
Especie Geminata
Para los ejemplos siguientes sólo uso la especie Geminata . Se observa mayor abundancia en el norte de Colombia.
data_geminata <- datos_sf %>% filter (Species == "geminata" )
ggplot () +
geom_sf (data = mapa) +
geom_sf (data = data_geminata, aes (size = Measurement))
Datos ambientales
Aquí puede encontrar información acerca de las variables bioclimáticas que se descargan con el siguiente código.
Se realiza el corte del área de interés con la función crop() del paquete raster.
Cuando utilizamos formato shape usamos la función st_crop y con formatos raster utilizamos la función crop().
clima <- getData ("worldclim" , var = "bio" , res = 2.5 )
Error in getData("worldclim", var = "bio", res = 2.5) :
unused arguments (var = "bio", res = 2.5)
Número de capas o variables bioclimáticas:
[1] 19
Para el ejemplo sólo uso las capas 1, 7, 12, 15 y 19. La elección la hago de forma aleatoria para el ejemplo.
clima3 <- clima2[[c (1 , 7 , 12 , 15 , 19 )]]
Relaciones
Nota: para esta especie en particular el número de datos es bajo.
Lineales
data_final %>%
as.data.frame () %>%
dplyr:: select (bio1: bio19, Measurement) %>%
gather (key = "key" , value = "value" , - Measurement) %>%
ggplot (aes (x = value, y = Measurement)) +
facet_wrap (~ key, scales = "free" , ncol = 3 ) +
geom_point () +
geom_smooth (method = "lm" , color = "red" , se = FALSE ) +
theme_bw ()
Lineales (Logaritmos de abundancia)
data_final %>%
as.data.frame () %>%
dplyr:: select (bio1: bio19, Measurement) %>%
gather (key = "key" , value = "value" , - Measurement) %>%
ggplot (aes (x = value, y = Measurement)) +
facet_wrap (~ key, scales = "free" , ncol = 3 ) +
geom_point () +
geom_smooth (method = "lm" , color = "red" , se = FALSE ) +
scale_y_log10 () +
theme_bw ()
Modelos
Se prueban tres modelos y basado en el criterio de información de Akaike se elige el mejor.
El primero modelo es una regresión poisson, es decir, un modelo lineal generalizado con distribución de errores Poisson.
El segundo es un modelo de regresión poisson con un polinomio de segundo grado para bio1 y bio15.
El tercero es un modelo aditivo generalizado (GAM).
GLM Poisson
modelo1 <- glm (Measurement ~ bio1 + bio7 + bio12 + bio15 + bio19,
data = data_final, family = "poisson" )
summary (modelo1)
Call:
glm(formula = Measurement ~ bio1 + bio7 + bio12 + bio15 + bio19,
family = "poisson", data = data_final)
Deviance Residuals:
Min 1Q Median 3Q Max
-12.0620 -1.6910 -1.2246 0.5594 5.8436
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 55.808756 23.859812 2.339 0.019334 *
bio1 -0.080275 0.075201 -1.067 0.285763
bio7 -0.326484 0.084470 -3.865 0.000111 ***
bio12 0.008604 0.002602 3.307 0.000942 ***
bio15 0.087892 0.065417 1.344 0.179087
bio19 -0.024663 0.008683 -2.840 0.004506 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1169.74 on 38 degrees of freedom
Residual deviance: 309.68 on 33 degrees of freedom
(13 observations deleted due to missingness)
AIC: 378.12
Number of Fisher Scoring iterations: 6
par (mfrow = c (2 ,2 ))
plot (modelo1)
GLM Poisson + Polinomio 2
modelo2 <- glm (Measurement ~ I (bio1^ 2 ) + bio7 + bio12 + I (bio15^ 2 ) + bio19,
data = data_final, family = "poisson" )
summary (modelo2)
Call:
glm(formula = Measurement ~ I(bio1^2) + bio7 + bio12 + I(bio15^2) +
bio19, family = "poisson", data = data_final)
Deviance Residuals:
Min 1Q Median 3Q Max
-12.0616 -1.7216 -1.3000 0.5815 5.8441
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 43.8725633 15.4543461 2.839 0.004528 **
I(bio1^2) -0.0001434 0.0001564 -0.917 0.358979
bio7 -0.3003849 0.0798584 -3.761 0.000169 ***
bio12 0.0076670 0.0027049 2.834 0.004590 **
I(bio15^2) 0.0008692 0.0007621 1.141 0.254019
bio19 -0.0224261 0.0092793 -2.417 0.015658 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1169.74 on 38 degrees of freedom
Residual deviance: 310.28 on 33 degrees of freedom
(13 observations deleted due to missingness)
AIC: 378.72
Number of Fisher Scoring iterations: 6
par (mfrow = c (2 ,2 ))
plot (modelo2)
GAM
library (mgcv)
modelo3 <- gam (Measurement ~ s (bio1, k = 4 ) + s (bio7, k = 5 ) +
bio12 + bio15 + bio19 + bio1 + bio7,
data = data_final, family = "poisson" )
summary (modelo3)
Family: poisson
Link function: log
Formula:
Measurement ~ s(bio1, k = 4) + s(bio7, k = 5) + bio12 + bio15 +
bio19 + bio1 + bio7
Parametric coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.0000 0.0000 NA NA
bio12 0.2318 1.2777 0.181 0.856
bio15 4.0208 5.0339 0.799 0.424
bio19 -0.6589 4.8372 -0.136 0.892
bio1 -4.5917 23.6431 -0.194 0.846
bio7 7.1399 46.0812 0.155 0.877
Approximate significance of smooth terms:
edf Ref.df Chi.sq p-value
s(bio1) 0.889 1.019 0.534 0.505
s(bio7) 3.963 3.966 2.168 0.667
Rank: 11/13
R-sq.(adj) = 0.495 Deviance explained = 76%
UBRE = 6.6983 Scale est. = 1 n = 39
par (mfrow = c (2 , 2 ))
gam.check (modelo3)
Method: UBRE Optimizer: outer newton
full convergence after 11 iterations.
Gradient range [2.235383e-06,9.044007e-06]
(score 6.698331 & scale 1).
Hessian positive definite, eigenvalue range [9.541386e-06,0.0005525887].
Model rank = 11 / 13
Basis dimension (k) checking results. Low p-value (k-index<1) may
indicate that k is too low, especially if edf is close to k'.
k' edf k-index p-value
s(bio1) 3.000 0.889 0.99 0.49
s(bio7) 4.000 3.963 1.22 0.94
Mejor Modelo
Es mejor el modelo GAM (AIC más bajo). Con este modelo se realizan las predicciones de abundancia.
AIC (modelo1, modelo2, modelo3)
Predicciones
Nota: dado el bajo número de datos (51 registros) para la especie bajo análisis, no se logra construir un modelo que proporcione abundancias predichas correctamente. Cabe mencionar que es posible mejorar el análisis incluyendo más información de la especie o ajustando otros modelos.
prediccion <- predict (clima3, modelo2, type = "response" )
plot (prediccion, colNA = "black" )
prediccion_df <- prediccion %>%
as ("SpatialPixelsDataFrame" ) %>%
as.data.frame () %>%
rename (Abundancia = layer)
ggplot () +
geom_tile (data = prediccion_df, aes (x = x, y = y, fill = Abundancia)) +
geom_sf (data = mapa, alpha = 0 ) +
scale_fill_viridis_c () +
theme_bw ()
Predicciones futuras
Imágenes futuras: las mismas con las cuales se entrenó el modelo.
futuro <- raster:: getData ("CMIP5" , var = "bio" , res = 2.5 , rcp = 85 ,
model = "HD" , year = 70 ) %>%
crop (data_geminata)
futuro <- futuro[[c (1 , 7 , 12 , 15 , 19 )]]
names (futuro) <- c ("bio1" , "bio7" , "bio12" , "bio15" , "bio19" )
plot (futuro)
Mapa de predicción de abundancia:
prediccion_futura <- predict (futuro, modelo2, type = "response" )
prediccion_df_futuro <- prediccion_futura %>%
as ("SpatialPixelsDataFrame" ) %>%
as.data.frame () %>%
rename (Abundancia = layer)
ggplot () +
geom_tile (data = prediccion_df_futuro, aes (x = x, y = y, fill = Abundancia)) +
geom_sf (data = mapa, alpha = 0 ) +
scale_fill_viridis_c () +
theme_bw ()
Anexos
En el ejemplo de clase se trabaja con la especie Bombus affinis (abejorros), sin embargo, obtuve directamente la base de datos de PREDICTS database y voy a trabajar con el género de hormigas Solenopsis , también conocida como hormiga colorada o de fuego..
En este caso filtro información sólo para Colombia.
Se filtran datos sólo de abundancia de especies.
Mantengo sólo las siguientes variables:
Reference: referencia del estudio
Study_common_taxon: taxón
Site_name: nombre de sitio
Sampling_effort
Longitude
Latitude
Species
Measurement: medida de abundancia
Effort_corrected_measurement
# Base de datos total con más de 3 millones de registros
datos_total <- fread ("database.csv" , encoding = "UTF-8" )
# Filtro solenopsis para Colombia: 551 registros de abundancia
datos_colombia <- datos_total %>%
filter (Country == "Colombia" ) %>%
filter (Genus == "Solenopsis" ) %>%
filter (Diversity_metric_type == "Abundance" ) %>%
select (Reference, Study_common_taxon, Site_name, Sampling_effort,
Longitude, Latitude, Species, Measurement,
Effort_corrected_measurement)
# Exportando datos de solenopsis
write.csv (datos_colombia, file = "solenopsis.csv" , row.names = FALSE ,
fileEncoding = "UTF-8" )
