Introducción
En el ámbito de la investigación científica R se ha convertido en una
herramienta fundamental para la manipulación, exploración y
visualización de información. En este informe se exploraron los
fundamentos de R a traves de un caso de estudio: el análisis de
avistamiento de aves en la cuenca del ríos Usumacinta.
La cuenca del río Usumacinta, con su riqueza en biodiversidad, ofrece
un escenario único para estudiar la diversidad de especies de aves. Se
utilizó una matriz de datos que contiene información detallada sobre las
especies, los departamentos en los que se han avistado, así como las
coordenadas de latitud y longitud. A lo largo de esta práctica, se
pusieron en práctica conceptos clave en R, haciendo uso de la librería
“dplyr” y sus diversas funciones para manipulación y transformación de
datos.
Se exploró cómo cargar y examinar datos, realizar submuestreos para
análisis más manejables, calcular estadísticas descriptivas como la
moda, mediana y media de especies avistadas, así como también se
organizaron los datos en tablas y visualizaciones comprensibles. Se
observó cómo el uso de estructuras condicionales como if y else pueden
ayudarnos a filtrar y manipular datos con precisión.
Discusión y Resultados
Importancia de los comentarios
Las anotaciones realizadas en el código con ayuda de “#” son también
conocidas como comentarios. Dichos comentarios están diseñados para dar
una explicación del código o comandos que se están ejecutando, además de
poder documentar y describir la función de alguna formula (figura 1).
Estos comentarios también pueden ser una guía para rastrear y entender
donde pueden surgir los problemas en el codigo ya que al revisar los
comentarios estos pueden recordar el proposito original del codigo y así
detectar posibles problemas de logica, escritura, etc. Por lo tanto, los
comentarios en R tienen una gran importancia para mejorar la
legibilidad, documentar y facilitar el mantenimiento del código. Estos
al usarse de manera efectiva pueden hacer que el código sea más
comprensible tanto para el autor como para algún externo.
Es importante mencionar que estos comentarios no son ejecutados como
parte del programa.
Figura 1. Comentarios en código de R
Fuente: Datos obtenidos de la práctica
Fundamentos de R elaborada por Pavel García.
Se observa en la figura 1 los comentarios de coloración verde detallando
la funciones de las diferentes funciones matemáticas.
Consulta
Las consultas permiten a los usuarios extraer datos de una matriz
para el análisis en R, lo cual facilita el análisis de los datos (Lugon,
2023).
Para la realización de la consulta se conectó la base de datos de
aves en la cuenca del río Usumacinta. De dicha base de datos se
extrajeron las columnas de “Especies” y de “Departamentos” para
determinar sus medidas de tendencia central, siendo estos los valores de
moda y mediana que se utilizarón para obtener más información sobre la
distribución de los datos. La moda se utilizó para identificar el valor
más común de la distribución en la cuenca del Usumacinta, mientras que
la mediana se utilizó para identificar el valor central de la
distribución en la cuenca del Usumacinta.
La variable de especies presentó como moda el dato de Quiscalus
mexicanus (tabla 1), conocido comúnmente como zanate, lo cual tiene
sentido que sea el ave con mayor registro en la cuenca ya que es un ave
oportunista que se adapta con facilidad a los diferentes hábitats,
además de tener una alimentación muy variada (Monge-Nájera, 2002). Por
otro lado, la mediana para la variable de especie fue Myiarchus
crinitus (tabla 1), conocido comúnmente como copetón viajero, el
cual pudo haber demostrado una distribución de avistamientos más
equilibrada en comparación con otras especies, lo que resulta en una
posición central en la distribución de datos.
La variable de departamentos presentó el dato de Petén tanto en moda
como en mediana (tabla 1). Dicha repetición para los departamentos donde
se avistaron las especies de aves en la cuenca del Usumacinta podría
indicar características favorables de este departamento en relación con
el hábitat y las condiciones que atraen a las aves, además de que el
departamento de Petén es el mayor área de Guatemala abarcada por la
cuenca. Siendo Petén el departamento de mayor área dentro de la cuenca,
sumado con sus características geográficas y climáticas pueden ser
factores que respondan a la concentración de avistamientos (García,
2019). La repetición de “Petén” como moda y mediana enfatiza su papel
vital como refugio y entorno propicio para estas aves en la cuenca del
Usumacinta.
# Calcular la tabla de frecuencias de la columna "Especies"
especies_moda<-table(tabla$Especies)
# Encontrar el valor con la frecuencia más alta (moda) de la columna Especies
moda<-names(especies_moda)[which.max(especies_moda)]
print(paste("Moda:",moda))
[1] "Moda: Quiscalus mexicanus"
# Calcular la mediana de la columna "Especies"
especies_mediana<- median(tabla$Especies)
print(paste("Mediana:",especies_mediana))
[1] "Mediana: Myiarchus crinitus"
# Calcular la tabla de frecuencias de la columna "Especies"
Depas_moda<-table(tabla$Departamento)
# Encontrar el valor con la frecuencia más alta (moda)
modaDep<-names(Depas_moda)[which.max(Depas_moda)]
print(paste("Moda:",modaDep))
[1] "Moda: Petén"
# Calcular la mediana de la columna "Departamentos"
Depas_mediana<- median(tabla$Departamento)
print(paste("Mediana:",Depas_mediana))
[1] "Mediana: Petén"
Tabla 1. Moda y mediana de las variables de especies y
departamentos
En la tabla 1 se resumen los resultados de moda y mediana para
las variables “especies” y “departamentos”. Para la variable de especies
el valor de moda se determinó como Quiscalus mexicanus, siendo
esta la especie más frecuente en los datos analizados, por otro lado, la
mediana correspondiente a la variable de especies es Myiarchus
crinitus, representando el valor central de la distribución de
especies. Para la variable de departamentos, los resultados de moda y
mediana son consistentes, ya que ambos coinciden con el valor de Petén,
por lo cual este departamento destaca como el más común de los datos
bajo análisis, tanto en terminos de moda (valor frecuente) como de
mediana (valor central).
Variables |
Moda |
Mediana |
Especies |
Quiscalus mexicanus |
Myiarchus crinitus |
Departamentos |
Petén |
Petén |
Fuente: Datos obtenidos de GBIF el 20 de agosto del 2023 por Diana
Salguero
Suma
La suma de datos, tanto numericos como de texto, es una operación
fundamental en el análisis de datos (Irizarry, 2021).
Se realizó la suma de los datos de las especies de aves encontradas
en la cuenca del Usumacinta, así como también del total de avistamientos
(tabla 2). Dicha suma dio como resultado 642 especies de aves diferentes
y 1,048,107 avistamientos de aves en la cuenca del Usumacinta. Dicha
cuenca puede ser una región con gran riqueza de aves debido a que la
cuenca cuenta con una gran variedad de hábitats naturales que ofrecen
condiciones adecuadas para la presencia de aves, así como por sus las
áreas protegidas que se encuentran dentro de la cuenca, por ejemplo, el
Parque Nacional Tikal, la Reserva de la Biosfera Maya, Parque Nacional
Laguna del Tigre, entre otros (Pineda-Diez et al., 2020;
Cruz-Paz et al., 2018).
# Obtener la cantidad de especies de aves únicas en la cuenca del Usumacinta
especies_suma<-length(unique(tabla$Especies))
print(paste("Cantidad de especies de aves en la cuenca del Usumacinta:", especies_suma))
[1] "Cantidad de especies de aves en la cuenca del Usumacinta: 642"
# Obtener la cantidad de avistamiento de especies de aves en la cuenca del Usumacinta
avistamientos_suma<- length(tabla$Especies)
print(paste("Cantidad de avistamientos de aves en la cuenca del Usumacinta:", avistamientos_suma))
[1] "Cantidad de avistamientos de aves en la cuenca del Usumacinta: 1048107"
Tabla 2. Cantidad de especies y avistamientos de aves en la
Cuenca del Usumacinta
La tabla 2 presenta una resumen de la suma relacionada con la
riqueza y observación de aves en la cuenca del Usumacinta. La columna de
“especies de aves” muestra el numero total de especies de aves
documentadas en la región, siendo un total de 642 especies. La columna
“avistamiento de aves” destaca la notable cantidad de avistamientos
registrados, alcanzando la cifra de 1,048,107 observaciones. Estos datos
subrayan la riqueza de aves presentes en la cuenca del usumacinta y la
considerable actividad de avistamientos que contribuyen a nuestra
comprensión de la biodiversidad en esta área.
|
Cantidad |
Especies de aves |
642 |
Avistamientos de aves |
1,048,107 |
Fuente: Datos obtenidos en R por Diana Salguero el 22 de agosto del
2023.
Resumen de valores
El resumen de valores es una forma de presentar de manera concisa y
significativa las características clave de un conjunto de datos
numéricos. Este resumen incluye medidas como la media, mediana,
desviación estandar, el mínimo y los cuartiles, entre otros;
proporcionando una comprensión rápida y útil de la distribución y
tendencias del conjunto de datos (Coll & Pérez, s.f.; Mendoza, 2022;
Parker, 2020)
Las coordenadas de latitud y longitus representan als ubicaciones
geográficas exactas donde se han registrado avistamientos de aves (tabla
3). Sugiriendo la mediana de la latitud (16.84) que la mayoría de los
avistamientos ocurren en latitudes cercanas a esta cifra, mientras que
la dispersión de los valores alrededor de la mediana (16.37) podría
indicar una distribución relativamente uniforme de las observaciones a
lo largo de la cuenca del río Usumacinta.
En cuanto a la longitud, el rango desde -91.79 hasta -89.19 refleja
la variabilidad en las ubicaciones longitudinales de los avistamientos.
La presencia de valores en el primer y tercer cuartil (-90.36 y -89.69,
respectivamente) sugiere que existe cierta concentración de
observaciones en ciertos rangos longitudinales.
En conjunto, esta tabla revela que los avistamientos de aves en la
cuenca del río Usumacinta abarcan una gama de coordenadas geográficas.
La distribución de las observaciones a lo largo de diferentes latitudes
y longitudes podría estar influenciada por la diversidad de hábitats,
condiciones climáticas y disponibilidad de recursos en diferentes áreas
de la cuenca. El análisis de estas coordenadas puede ser crucial para
comprender los patrones de migración, los hábitats preferidos y las
interacciones ecológicas de las aves en esta región (Muñoz-Alonso et
al., 2018).
#Resumen estadístico de los datos
resumen<- summary(tabla)
print(resumen)
Especies Departamento
Length:1048107 Length:1048107
Class :character Class :character
Mode :character Mode :character
Latitud Longitud
Min. :14.91 Min. :-91.79
1st Qu.:15.42 1st Qu.:-90.36
Median :16.84 Median :-90.21
Mean :16.37 Mean :-90.10
3rd Qu.:17.22 3rd Qu.:-89.69
Max. :17.80 Max. :-89.19
Tabla 3. Resumen estadístico de las coordenadas de
avistamientos de aves en la Cuenca del Río Usumacinta
La tabla 3 muestra los valores mínimos, máximos, medios y
cuartiles de las coordenadas geográficas en donde se han reportado
avistamientos de aves en la cuenca del río Usumacinta. Las coordenadas
se refieren a la latitud y longitud de los lugares donde dichos
avistamientos han sido reportados. Estos datos ofrecen una visión
resumida de las ubicaciones geográficas donde se concentran los
avistamientos de aves en la cuenca del río Usumacinta
Mínimo |
14.91 |
-91.79 |
primer Cuartil |
15.42 |
-90.36 |
Mediana |
16.84 |
-90.21 |
Media |
16.37 |
-90.10 |
Tercer Cuartil |
17.22 |
-89.69 |
Máximo |
17.80 |
-89.19 |
Fuente: Datos obtenidos en R por Diana Salguero el 22 de agosto del
2023.
Submuestreo de matriz
El submuestreo de una matriz en R se refiere a la creación de una
nueva matriz que contiene un subconjunto de las filas y/o columnas de la
matriz original. Este proceso puede ser útil cuando deseas reducir el
tamaño de una matriz para realizar análisis más rápidos o cuando estás
interesado en trabajar con una muestra representativa de los datos en
lugar de la matriz completa (Coll & Pérez, s.f.; Hernández,
2023)
La matriz de datos se submuestreo de 1,048,107 datos a 50.
#Cargar datos
matriz_datos <- as.matrix(tabla)
# Definir el tamaño del submuestreo
tamaño<- 50
# Realizar el submuestreo
filas<- sample(1:nrow(tabla), size = tamaño, replace= FALSE)
tabla_submuestreada <- tabla[filas, ]
#imprimir matriz submuestreada
print(tabla_submuestreada)
“cheatsheet” del paquete dplyr
Se utilizó el paquete “dplyr” con la función “arrange()” para ordenar
los datos segun la columna de Especies de manera descendente.
install.packages("dplyr")
Error in install.packages : Updating loaded packages
library(dplyr)
# Ordenar los datos por la columna "especies"
datos_ordenados <- tabla_submuestreada%>%arrange(desc(Especies))
# Imprimir los primeros registros de los datos ordenados
head(datos_ordenados)
Comando “if” y “else”
Se utilizó el comando “If” y “else” para filtrar los datos que
correpondían solo al departamnento de Petén. Dicho departamento se
escogió ya que es el que presenta una mayor cantidad de avistamientos de
aves.
#Crear funcion para obtener solo las filas en las que el departamento sea Petén
filtro_peten<-function(tabla){ifelse(tabla$Departamento == "Petén", TRUE, FALSE)}
#Aplicar función filtro"
peten_datos<-tabla%>%filter(filtro_peten(.))
#imprimir
head(peten_datos)
NA
Anexos
Anexo 1. Instalación de paquete para leer archivos de Excel
(.xlsx) en R
install.packages("readxl")
WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:
https://cran.rstudio.com/bin/windows/Rtools/
Installing package into ‘C:/Users/diana/AppData/Local/R/win-library/4.3’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/bin/windows/contrib/4.3/readxl_1.4.3.zip'
Content type 'application/zip' length 1194928 bytes (1.1 MB)
downloaded 1.1 MB
package ‘readxl’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in
C:\Users\diana\AppData\Local\Temp\RtmpKAa0ES\downloaded_packages
Anexo 2. Código para leer y almacenar archivos de Excel
(.xlsx)
library(readxl)
tabla<-read_excel("D:\\Octavo Semestre\\AVES Cuenca GT\\AVES Cuenca.xlsx")
Anexo 3. Tabla de datos de avistamientos de
aves en la Cuenca del Río Usumacinta.
tabla
Referencias
Lugon, A. (2023) Ejecutar Consulta SQL en R (Ejemplo). Estadisticool.
https://estadisticool.com/ejecutar-consulta-sql-en-r-ejemplo/
Monge-Nájera, J. (2002) Biología General. EUNED
García, B. (2019) Observación de aves en Petén (pajarear en Petén).
Segundo, la biodiversidad y pajareando por Tikal, Yaxhá y lago Petén
Itzá. Diversidad y un poco de todo. https://www.diversidadyunpocodetodo.com/observacion-de-aves-en-peten-biodiversidad-y-pajareando/#Comparte_esto
Irizarry, R. (2021) Introducción a la ciencia de datos: análisis de
datos y algoritmos de predicción con R. CRC Press.
Pineda-Diez de Bonilla, E., Velázquez Velázquez, E., &
Mera-Ortiz, G. (2020). Riqueza y composición de la avifauna de tres
humedales del río Grijalva, Chiapas,
México. Huitzil, 21(2).
Cruz-Paz, G., Castillo, M. M., Espinoza-Tenorio, A., Bravo-Peña, L.
C., Valencia Barrera, E., & Mesa-Jurado, M. A. (2018). Áreas
prioritarias de conservación en la cuenca Usumacinta. La aplicación de
un enfoque multicriterio. Investigaciones geográficas,
(97).
Coll, V. & Pérez, P. (s.f.) R para el análisis estadístico de
datos. Universidad de Valencia. https://www.uv.es/vcoll/Temas_AED/2_Introduccion.html
Mendoza, J. (2022) Operaciones matemáticas en R. Estadísticamente. https://estadisticamente.com/operaciones-matematicas-en-r/
Parker, R. (2020) R lecture notes. Johns Hopkins.https://users.phhp.ufl.edu/rlp176/Courses/PHC6089/R_notes/index.html
Muñoz-Alonso, L. A., Rodiles-Hernández, R., López-León, N. P.,
González-Navarro, A., Chau-Cortés, A. M., & Nieblas-Camacho, J. A.
(2018). Diversidad de la herpetofauna en la cuenca del Usumacinta,
México. Revista mexicana de biodiversidad, 89,
79-99.
Hernández, F. & Usuga, O. (2023) Manual de R. https://usermanual.wiki/Pdf/ManualdeR.708910831.pdf
