Proyecto:

Objetivos:

Instituciones: Universidad de Costa Rica, CIMAR

 


Sobre el código

Título: Código de creación: Censos visuales, atributos de las especies, sitios y variables ambientales

Objetivo: Estandarizar el formato de los datos de censos visuales subacuáticos (uvc) de cada región para concatenarlas en una única base de datos regional, crear las bases de datos complementarias requeridas para los análisis (i.e. base de datos de los atributos funcionales y taxonómicos de las especies, base de datos de sitios y variables ambientales asociadas a los censos)

Abordaje: Se realizó la totalidad de la manipulación de datos utilizando rstudio. Los datos originales permanecieron tal cual fueron entregados por los colaboradores del proyecto. Se estandarizó el formato de las bases de datos de censos de peces herbívoros de cada país o región y se concatenaron posteriormente. A esta base regional se le corrigieron los nombres de los sitios, de especies y tamaños de individuos. Se generaron las bases de datos complementarias a la base de censos de peces:

  • Una base de datos con los atributos taxonómicos de las especies
  • Una base de datos sobre rasgos funcionales de las especies
  • Una base de datos de sitios con sus coordenadas, ecorregión, nivel de protección y geomorfología costera
  • Variables ambientales biofísicas y de presión antrópica. Las biofísicas constituidas por clorofila y temperatura superficial del mar, que fueron extraídas de bases de datos satelitales. La información global de densidad antrópica, se utilizó para calcular un índice llamado “gravity,” indicador de la presión antrópica en cada sitio

El detalle de los procesos se desglosa a continuación.

Este vínculo dirige al proyecto de GitHub donde se encuentra el repositorio de este proyecto.

 


 

Censos (uvc)

Se aplicó el mismo método con pequeñas adaptaciones para la base de datos de cada país o región. A continuación se detalla las personas que aportaron datos en cada caso y el proceso que se llevó a cabo.

 

Estandarizando los formatos

Costa Rica

Autor de los datos: Juan José Alvarado
Método:

  1. Se llaman las bases de datos y se estandariza el formato
    1. Se cargan los datos de uvc
      Bases de datos usadas:
## [1] "2021-03_gira_culebra_ peces_Andrea_Arriaga.xlsx"
## [2] "culebra_julio2021_peces.xls"                    
## [3] "culebra_marzo2021_peces.xlsx"                   
## [4] "golfodulce_enerofebrero2020_peces.xlsx"         
## [5] "isladelcoco_mayo2021_peces.xlsx"                
## [6] "CocoTEP.csv"                                    
## [7] "CostaRica.csv"

 

    1. Se cambian los datos de formato ancho a largo
    2. Se estandarizan los nombres de las columnas de interés
    3. Se cambian los nombres de filas para hacer referencia a la base de donde proviene
    4. Se generan las columnas que faltan en algunas bases de datos, i.e.
         ID_transect: compuesto por la unión de “locality,” “sites,” “depth_m,” “observer,” “transect”
         date: compuesto por la unión de “day”-“month”-“year”
         area_uvc: 250 (para Costa Rica)
         environment: NA (para los que no la reportaron)
    5. Se seleccionan las columnas de interés
    6. Se quitan las filas con NA en abundancia
    7. Se determina la clase correcta para las columnas
    8. Se define la región
    9. Se corrigen los nombres de los sitios para que coincidan en formato con los datos regionales (i.e. minúsculas, con guión bajo, sin signos diacríticos, sin errores ortográficos)
    10. Se corrigen las profundidades (i.e. a los ámbitos se les asigna el valor promedio, datos no numéricos = NA)
  1. Se unen las bases de datos
    1. Se genera un identificador único para cada transecto
    2. Se corrigen áreas que fueron confundidas con longitud del transecto
    3. Se crea un identificador único para cada sitio
  2. Se guardan los datos intermedios en formato .rda

 

Creación de base regional

Método:

  1. Se eliminan las filas de la base de datos recopilada en Galápagos que coinciden con los datos de las bases por región
    1. Se crea una columna con la combinación sitio_fecha para comparar entre bases de datos
    2. Se elimina de la base de datos de la reunion de Galápagos, los sitio_fecha (fecha con formato año-mes) repetidos con respecto a las bases de datos regionales
  2. Se seleccionan los datos con fecha posterior al 2014, excepto sitios seleccionados de Gorgona (2006 y 2009) y Clipperton (2012)
  3. Se unen las bases de datos
  4. Se eliminan los duplicados de sitios con iguales coordenadas pero distinto nombre
  5. Se determina la clase correcta para las columnas
  6. Se crea un identificador único para cada sitio
  7. Se guarda la base de datos en formato .rda

Cuadro 1. Vista reducida de la base de datos regional de censos visuales

 

Limpieza de datos

 

Nombres de especies

Se modificaron los nombres de las especies, de ser necesario, según el nombre acepatado en WoRMS y se eliminaron filas con reportes que no aportaban información (e.g. juvenil, roncador)

Método:

  1. Se cargan los datos de uvc
  2. Se eliminan especies que no son peces
  3. Se eliminan registros de “especies” que no aportan informacion (e.g. juvenil, roncador)
  4. Se cambia el nombre de las especies según hayan sido aceptadas en WoRMS
  5. Se dejan a genero, las especies que no se encuentran en WoRMS y ese registro sea la única representación del género
  6. Se genera la lista de taxones registrados en los censos
  7. Se guardan los datos intermedios en formato .rda

Cuadro 2. Vista reducida de los nombres de especies incorrectos en la base de datos regional y la versión correcta por la cual se reemplazó.

Cuadro 3. Vista reducida de la base de datos de censos con los nombres correctos de las especies.

 

Tamaños y abundancias

Se realizó un análisis por parte de expertos en censos de peces en la región y se corrigieron los tamaños y abundancias reportados fuera del ámbito posible para las especies en cuestión. Se utilizaron como referencia los tamaños máximos y mínimos reportados en (Froese and Pauly 2019)(https://www.fishbase.de/) y en (Robertson, Allen, and Smithsonian Tropical Research Institute, Balboa 2015)(https://biogeodb.stri.si.edu/sftep/es/pages) como segunda fuente

Método:

  1. Se cargan los datos intermedios de uvc
  2. Se corrigen las abundancias
    1. Se redondean las abundancias para eliminar los decimales
    2. Se corrigen abundancias (según criterio de expertos)
  3. Se corrigen los registros que representan densidades, colocando las abundancias correspondientes
  4. Se corrigen los tamaños fuera de rangos esperables
    1. Se descargan los tamaños máximos y mínimos reportados en (Froese and Pauly 2019)(https://www.fishbase.de/) para la lista de especies de censos (nota: No existen registros para todas las especies)
    2. Se asigan el tamaño máximo reportado a los registros que tienen tamaños mayores
    3. Se asigan el tamaño mínimo reportado a los registros que tienen tamaños menores
    4. Se genera una lista de los tamaños máximos reportados en STRI para la lista de especies que no se encontraban en FishBase
    5. Se asigan el tamaño máximo reportado a los registros que tienen tamaños mayores
    6. Se corrigen casos particulares que, según criterio de expertos, podrían representar errores de digitación
  5. Se corrigen especies posiblemente mal identificadas
  6. Se guardan los datos intermedios “fishes_regional_correct_size_abundance.rds”

 

Cuadro 4. Vista reducida de la tabla usada para la corrección de las abundancias de las especies

 

Cuadro 5. Vista reducida de la tabla usada para la corrección de las tallas de las especies

 

Especies

Se generó una base de datos con atributos de las especies.

 

Taxonomía

Se descargaron de bases de datos en línea aspectos relevantes de taxonomía y rasgos funcionales de cada especie observada en la región. Se utilizó la información de WoRMS sobre la taxonomía de cada especie

Método:

  1. Se cargan los datos intermedios de uvc
  2. Se extrae la informacion el aphiaID (identificador único de cada taxon, ahora llamado wormsid)
  3. Se une la lista de taxones de censos con su wormsid
  4. Se extrae la clasificacion taxonomica de cada taxón de WoRMS
  5. Se agrega una fila por cada género a la base de datos taxonomica
  6. Se genera una columna que diferencia el nivel taxonomico de cada fila
  7. Se genera la columna “taxa,” que contiene el nivel taxonómico menor de cada fila
  8. Se guardan los datos intermedios “fish_taxa” con todos los niveles taxonómicos de los taxones registrados en los censos

Cuadro 6. Base de datos de la clasificación taxonónica de las especies y géneros reportados en los censos visuales

 

 

Sitios

Para la creación de la base regional de sitios se unieron los datos de coordenadas de cada país. La base resultante se vinculó con la base de datos de censos de peces a partir del identificador único de cada sitio que se encuentra en ambas bases de datos.

 

Creación de base regional

Costa Rica

Autor de los datos: Juan José Alvarado
Bases de datos usadas:
  General: 2019-10-10_ArrecifesPacifico.xlsx
  Islas Murciélago: COORDENADAS.xlsx
  Bahía Culebra: sites_coordenates.costa_rica.xlsx

Método:

  1. Se cargan los datos de sitios, se corrigen los nombres (i.e. minúscula, sin caracteres diacríticos) y se verifica su coincidencia con la respectiva base de datos de ucv
  2. Se unifican los sitios a la base de censos una por una, para ver los sitios con coordenadas faltantes
  3. Se unen todas las coordenadas en una misma base de datos
  4. Se guarda el archivo en formato .rda

 

Unificación

Autores de los datos:
Bases de datos usadas:
Regionales:
  fishes_sites.andrea.rda (Proveedor: Franz Smith)
  MetaData.xlsx (Proveedor: Juan Pablo Quimbayo)
Panamá: sites.panama.xlsx (Proveedor: Franz Smith)
Nicaragua: coordenadas Nicaragua.xls (Proveedor: Franz Smith)
Galápagos: sites_galapagos.xlsx" (Proveedor: Franz Smith)
Localidades: fishes_sites_localities.xlsx (Autora: Andrea Arriaga-Madrigal con criterio de expertos)

Método:

  1. Se cargan los datos intermedios (uvc) y se extraen los sitios
  2. Se cargan las bases de datos de sitios regionales y por paises
    1. Se estandariza el formato de los nombres de sitios (i.e. minúsculas, con guión bajo, sin signos diacríticos, sin errores ortográficos)
    2. Se estandariza el formato de las coordenadas a grados decimales y se les agrega la respectiva región
  3. Se vinculan las bases sitios a la base de censos una por una, para ver los sitios con coordenadas faltantes
  4. Se unen todas las coordenadas en una misma base de datos
  5. Se hacen todas las longitudes negativas
  6. Se agregan las localidades generadas manualmente fishes_sites_localities.xlsx
  7. Se coggige el identificador único para los sitios que son duplicados de region y nobre de sitio, agregando la localidad para diferenciarlos
  8. Se corrigen las coordenadas de algunos sitios de forma manual
  9. Se eliminan los puntos con las mismas coordenadas y distinto nombre
  10. Se guarda los datos intermedios en formato .rda, .xlsx y .kml

 

Información de la sesión

## R version 4.1.2 (2021-11-01)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 20.04.4 LTS
## 
## Matrix products: default
## BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
## LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0
## 
## locale:
##  [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=es_CR.UTF-8        LC_COLLATE=en_US.UTF-8    
##  [5] LC_MONETARY=es_CR.UTF-8    LC_MESSAGES=en_US.UTF-8   
##  [7] LC_PAPER=es_CR.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=es_CR.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] grid      stats     graphics  grDevices utils     datasets  methods  
## [8] base     
## 
## other attached packages:
##  [1] ncdf4_1.17         timeperiodsR_0.6.2 maps_3.4.0         warbleR_1.1.27    
##  [5] NatureSounds_1.0.4 knitr_1.36         seewave_2.1.6      tuneR_1.3.3       
##  [9] leaflet_2.0.4.1    htmlwidgets_1.5.3  networkD3_0.4      wdpar_1.0.6       
## [13] taxize_0.9.99      rfishbase_3.1.8    cluster_2.1.2      rgeos_0.5-5       
## [17] sf_1.0-1           rgdal_1.5-23       raster_3.4-13      sp_1.4-5          
## [21] DT_0.18            viridis_0.6.1      viridisLite_0.4.0  RColorBrewer_1.1-2
## [25] extrafont_0.17     gridExtra_2.3      GGally_2.1.2       ggplot2_3.3.5     
## [29] readxl_1.3.1       pbapply_1.4-3      forcats_0.5.1      stringi_1.7.6     
## [33] stringr_1.4.0      lubridate_1.7.10   purrr_0.3.4        magrittr_2.0.1    
## [37] tidyr_1.1.3        dplyr_1.0.7       
## 
## loaded via a namespace (and not attached):
##  [1] colorspace_2.0-2   rjson_0.2.20       ellipsis_0.3.2     class_7.3-20      
##  [5] httpcode_0.3.0     rstudioapi_0.13    proxy_0.4-26       gh_1.3.0          
##  [9] fansi_0.5.0        xml2_1.3.2         codetools_0.2-18   bold_1.2.0        
## [13] cachem_1.0.5       jsonlite_1.7.2     Rttf2pt1_1.3.8     dbplyr_2.1.1      
## [17] readr_1.4.0        compiler_4.1.2     httr_1.4.2         assertthat_0.2.1  
## [21] fastmap_1.1.0      cli_3.1.0          htmltools_0.5.2    prettyunits_1.1.1 
## [25] tools_4.1.2        igraph_1.2.6       gtable_0.3.0       glue_1.5.1        
## [29] Rcpp_1.0.7         cellranger_1.1.0   jquerylib_0.1.4    vctrs_0.3.8       
## [33] crul_1.1.0         ape_5.5            nlme_3.1-153       conditionz_0.1.0  
## [37] extrafontdb_1.0    iterators_1.0.13   crosstalk_1.1.1    xfun_0.28         
## [41] lifecycle_1.0.1    MASS_7.3-55        zoo_1.8-9          scales_1.1.1      
## [45] hms_1.1.1          parallel_4.1.2     yaml_2.2.1         curl_4.3.2        
## [49] memoise_2.0.0      sass_0.4.0         reshape_0.8.8      foreach_1.5.1     
## [53] e1071_1.7-7        rlang_0.4.12       pkgconfig_2.0.3    dtw_1.22-3        
## [57] bitops_1.0-7       evaluate_0.14      lattice_0.20-45    tidyselect_1.1.1  
## [61] plyr_1.8.6         R6_2.5.1           fftw_1.0-6         generics_0.1.0    
## [65] DBI_1.1.1          arkdb_0.0.12       pillar_1.6.1       withr_2.4.3       
## [69] units_0.7-2        RCurl_1.98-1.3     tibble_3.1.2       crayon_1.4.2      
## [73] uuid_0.1-4         KernSmooth_2.23-20 utf8_1.2.1         rmarkdown_2.11    
## [77] progress_1.2.2     data.table_1.14.0  digest_0.6.29      classInt_0.4-3    
## [81] signal_0.7-7       munsell_0.5.0      bslib_0.3.0

Referencias

Froese, R., and D. Pauly. 2019. FishBase.” www.fishbase.org.
Robertson, D R, Gerald R Allen, and Panamá. Smithsonian Tropical Research Institute, Balboa. 2015. Shorefishes of the Tropical Eastern Pacific: online information system. Version 2.0.” https://biogeodb.stri.si.edu/sftep/en/pages.