1. ¿Qué es R?

R es un lenguaje de programación estadística empleado en gran variedad de disciplinas aunque también es el nombre de un software que emplea este mismo lenguaje.

2. Comenzando a escribir

Este cuaderno se desarrolla para la asignatura de Geomática Básica y corresponde a una breve introducción a R y sus funciones básicas. El documento fue realizado por Luisa Fernanda Carrión Ramírez.

3. Paquetes de R

Un paquete es un conjunto de comandos empleados para una función específica; por este motivo, son fundamentales al momento de usar este pograma estadístico. Para instalarlos, se usa el comando install.packages().

En este primer cuaderno, se empleará el paquete “dplyr”:

install.packages("package-name")
install.packages("dplyr")

Para poder emplear el paquete es necesario ejecutarlo con el comando library():

library(dplyr)
library(package-name)

4. Directorio de trabajo

El directorio de trabajo se define como una carpeta que será consultada por el programa para identificarlos datos y documentos que pueden emplearse. La ubicación del directorio de trabajo puede conocerse a traves del comando getwd():

getwd()
[1] "C:/Users/LUISA CARRION/Documents"

En caso de que se quiera cambiar el directorio de trabajo, se usa la funcion setwd()

setwd("C:/Users/LUISA CARRION/Documents")

5. Importar y verificar datos

Para realizar esta práctica es necesario descargar los registros entre 2000-2016 de NBN Gateway que contiene información acerca de las distintas especies de animales, plantas y hongos. Este archivo se guardará como edidiv.csv para posteriormente ser leído mediante el comando read.csv():

edidiv <- read.csv("C:/Users/LUISA CARRION/Downloads/CC-RBasics-master/CC-RBasics-master/edidiv.csv")

Otra opción para ejecutar dicha orden, es a través de las herramientas de la consola.

6. ¿Cómo saber si se han cometido errores en los códigos?

Cometer errores en R es muy frecuente, es por ello que se recomienda ejecutar el código y verificar la salida en la consola. Sin embargo, existen otras herramientas que nos permiten tener una vista previa de unas pocas líneas.

A continuación, se va a usar la función head() que nos permite ver las primeras filas del archivo en cuestión:

head(edidiv)

El comando tail() por otro lado, muestra las últimas filas del archivo:

tail(edidiv)

La opción str() perite conocer que tipo de variable se esta trabajando (continuas, enteras, categóricas o caracteres).

str(edidiv)
'data.frame':   25684 obs. of  5 variables:
 $ organisationName: chr  "Joint Nature Conservation Committee" "Joint Nature Conservation Committee" "Joint Nature Conservation Committee" "British Trust for Ornithology" ...
 $ gridReference   : chr  "NT265775" "NT235775" "NT235775" "NT27" ...
 $ year            : int  2000 2000 2000 2000 2000 2001 2001 2001 2001 2001 ...
 $ taxonName       : chr  "Sterna hirundo" "Sterna hirundo" "Sterna paradisaea" "Branta canadensis" ...
 $ taxonGroup      : chr  "Bird" "Bird" "Bird" "Bird" ...

Para mirar la estructura de los datos se usa el comando str(object.name). Sin embargo, es posible cambiar la estructura de una orma muy sencila que será descrita a continuación:

  1. Se emplea el cógigo head(nombre del archivo$grupo) para ver las primeras filas de la columna en esta clase:
head(edidiv$taxonGroup)
[1] "Bird" "Bird" "Bird" "Bird" "Bird" "Bird"

b.Se usa class(nombre del archivo$grupo) para saber con que tipo de variable se está trabajando:

class(edidiv$taxonGroup)
[1] "character"
  1. Se usa el comando as_factor() para convertir cualquier valor colocado en un factor:
edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)

Existen otros comandos que pueden ser útiles en distintos casos. Por ejemplo, el comando dim() permite ver el número de columnas y filas:

dim(edidiv)
[1] 25684     5

Por otro lado, summary() nos permite obtner un resumen de los datos:

summary(edidiv)
 organisationName   gridReference           year       taxonName        
 Length:25684       Length:25684       Min.   :2000   Length:25684      
 Class :character   Class :character   1st Qu.:2006   Class :character  
 Mode  :character   Mode  :character   Median :2009   Mode  :character  
                                       Mean   :2009                     
                                       3rd Qu.:2011                     
                                       Max.   :2016                     
                                                                        
            taxonGroup  
 Butterfly       :9670  
 Bird            :7366  
 Flowering.Plants:2625  
 Mollusc         :2226  
 Hymenopteran    :1391  
 Mammal          : 960  
 (Other)         :1446  

Por último, el comando summary(-$-) nos permite tener un resumen de una variable en particular:

summary(edidiv$taxonGroup)
          Beetle             Bird        Butterfly        Dragonfly 
             426             7366             9670              421 
Flowering.Plants           Fungus     Hymenopteran           Lichen 
            2625              334             1391              140 
       Liverwort           Mammal          Mollusc 
             125              960             2226 

7. Calcular la riqueza en especies

La riqueza de especies es el número total de especies diferentes en un lugar. Para saber cuántas especies se tienen de mamíferos, aves, plantas, entre otros, se debe dividir la base de datos edidiv en varios grupos utilizando la función filter()

Beetle <- filter(edidiv, taxonGroup == "Beetle")
Bird <- filter(edidiv, taxonGroup == "Bird")
Butterfly <- filter(edidiv, taxonGroup == "Butterfly")
Dragonfly <- filter(edidiv, taxonGroup == "Dragonfly")
Flowering.Plants <- filter(edidiv, taxonGroup == "Flowering.Plants")
Fungus <- filter(edidiv, taxonGroup == "Fungus")
Hymenopteran <- filter(edidiv, taxonGroup == "Hymenopteran")
Lichen <- filter(edidiv, taxonGroup == "Lichen")
Liverwort <- filter(edidiv, taxonGroup == "Liverwort")
Mammal <- filter(edidiv, taxonGroup == "Mammal")
Mollusc <- filter(edidiv, taxonGroup == "Mollusc")

Ahora, se usará la función unique() para identificar las diferentes especies. A su vez, se empleará la función length() para contar las especies:

a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
c <- length(unique(Butterfly$taxonName))
d <- length(unique(Dragonfly$taxonName))
e <- length(unique(Flowering.Plants$taxonName))
f <- length(unique(Fungus$taxonName))
g <- length(unique(Hymenopteran$taxonName))
h <- length(unique(Lichen$taxonName))
i <- length(unique(Liverwort$taxonName))
j <- length(unique(Mammal$taxonName))
k <- length(unique(Mollusc$taxonName))

8. Crear un vector y trazarlo

Un vector almacena valores en una única dimensión. Para crear un vector se emplea la función c()

biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)
#Se están relacionando los valores en el mismo orden en el cual se escribieron anteriormente.
names(biodiv) <- c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")

Ahora, se pueden visualizar la riqueza de especies con la función barplot(). Al ejecutar este código, aparece el gráfico correspondiente, sin embargo, aún falta agregarle nombres a los ejes y pulirlo. Para saber que comandos emplear se utiliza la función help().

help(barplot)
#Para obtener ayuda sólo con la función barplot.
help(par)
#Para tener ayuda con el trazado en general.

Para poder modificar el gráfico se pueden emplear distintos comandos como: -xlab y ylab que permiten nombrar los ejes -cex.names que permite modificar el tamaño de la fuente en el eje x -cex.axis que modifica el tamaño de fuente en el eje y -cex.lab que modifica el tamaño de fuente de los títulos de los ejes.

barplot(biodiv)

barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0)

barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0, col=c("pink","lightblue"))

9. Crear un marco de datos y trazarlo

En esta seccionse crearán una serie de valores con sus respectivas etiquetas. Para ello, se utilizaran objetos del marco de datos. Los marcos de datos son tablas de valores con columnas y filas. Para ello, se creará un objeto que contenga todos los nombres de los taxones y otro con los valores de riqueza de las especies de cada taxón. Luego, se usará la función data.frame()

Para crear un objeto llamado “taxa” con todos los nombres del conjunto:

taxa <- c("Beetle", "Bird", "Butterfly","Dragonfly","Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")

Para convertir el objeto en un factor:

taxa_f <- factor(taxa)

Para combinar todos los valores en el número de especies “richness”

richness <- c(a,b,c,d,e,f,g,h,i,j,k)

Para crear un marco de datos a partir de dos vectores:

biodata <- data.frame(taxa_f, richness)

Para guardar el archivo en el directorio de trabajo:

write.csv(biodata, file ="biodata.csv")

En caso de que se quieran crear y guardar diagramas de barrasempleando sólo el marco de datos, se necesita cambiar un poco el código.

png("barplot2.png", width=1600, height=600)
barplot(biodata$richness, names.arg=c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc"),
xlab="Taxa", ylab="Number of species", ylim=c(0,600))
dev.off()
