1. ¿Qué es R?
R es un lenguaje de programación estadística empleado en gran variedad de disciplinas aunque también es el nombre de un software que emplea este mismo lenguaje.
2. Comenzando a escribir
Este cuaderno se desarrolla para la asignatura de Geomática Básica y corresponde a una breve introducción a R y sus funciones básicas. El documento fue realizado por Luisa Fernanda Carrión Ramírez.
3. Paquetes de R
Un paquete es un conjunto de comandos empleados para una función específica; por este motivo, son fundamentales al momento de usar este pograma estadístico. Para instalarlos, se usa el comando install.packages().
En este primer cuaderno, se empleará el paquete “dplyr”:
install.packages("package-name")
install.packages("dplyr")
Para poder emplear el paquete es necesario ejecutarlo con el comando library():
library(dplyr)
library(package-name)
4. Directorio de trabajo
El directorio de trabajo se define como una carpeta que será consultada por el programa para identificarlos datos y documentos que pueden emplearse. La ubicación del directorio de trabajo puede conocerse a traves del comando getwd():
getwd()
[1] "C:/Users/LUISA CARRION/Documents"
En caso de que se quiera cambiar el directorio de trabajo, se usa la funcion setwd()
setwd("C:/Users/LUISA CARRION/Documents")
5. Importar y verificar datos
Para realizar esta práctica es necesario descargar los registros entre 2000-2016 de NBN Gateway que contiene información acerca de las distintas especies de animales, plantas y hongos. Este archivo se guardará como edidiv.csv para posteriormente ser leído mediante el comando read.csv():
edidiv <- read.csv("C:/Users/LUISA CARRION/Downloads/CC-RBasics-master/CC-RBasics-master/edidiv.csv")
Otra opción para ejecutar dicha orden, es a través de las herramientas de la consola.
6. ¿Cómo saber si se han cometido errores en los códigos?
Cometer errores en R es muy frecuente, es por ello que se recomienda ejecutar el código y verificar la salida en la consola. Sin embargo, existen otras herramientas que nos permiten tener una vista previa de unas pocas líneas.
A continuación, se va a usar la función head() que nos permite ver las primeras filas del archivo en cuestión:
head(edidiv)
El comando tail() por otro lado, muestra las últimas filas del archivo:
tail(edidiv)
La opción str() perite conocer que tipo de variable se esta trabajando (continuas, enteras, categóricas o caracteres).
str(edidiv)
'data.frame': 25684 obs. of 5 variables:
$ organisationName: chr "Joint Nature Conservation Committee" "Joint Nature Conservation Committee" "Joint Nature Conservation Committee" "British Trust for Ornithology" ...
$ gridReference : chr "NT265775" "NT235775" "NT235775" "NT27" ...
$ year : int 2000 2000 2000 2000 2000 2001 2001 2001 2001 2001 ...
$ taxonName : chr "Sterna hirundo" "Sterna hirundo" "Sterna paradisaea" "Branta canadensis" ...
$ taxonGroup : chr "Bird" "Bird" "Bird" "Bird" ...
Para mirar la estructura de los datos se usa el comando str(object.name). Sin embargo, es posible cambiar la estructura de una orma muy sencila que será descrita a continuación:
- Se emplea el cógigo head(nombre del archivo$grupo) para ver las primeras filas de la columna en esta clase:
head(edidiv$taxonGroup)
[1] "Bird" "Bird" "Bird" "Bird" "Bird" "Bird"
b.Se usa class(nombre del archivo$grupo) para saber con que tipo de variable se está trabajando:
class(edidiv$taxonGroup)
[1] "character"
- Se usa el comando as_factor() para convertir cualquier valor colocado en un factor:
edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)
Existen otros comandos que pueden ser útiles en distintos casos. Por ejemplo, el comando dim() permite ver el número de columnas y filas:
dim(edidiv)
[1] 25684 5
Por otro lado, summary() nos permite obtner un resumen de los datos:
summary(edidiv)
organisationName gridReference year taxonName
Length:25684 Length:25684 Min. :2000 Length:25684
Class :character Class :character 1st Qu.:2006 Class :character
Mode :character Mode :character Median :2009 Mode :character
Mean :2009
3rd Qu.:2011
Max. :2016
taxonGroup
Butterfly :9670
Bird :7366
Flowering.Plants:2625
Mollusc :2226
Hymenopteran :1391
Mammal : 960
(Other) :1446
Por último, el comando summary(-$-) nos permite tener un resumen de una variable en particular:
summary(edidiv$taxonGroup)
Beetle Bird Butterfly Dragonfly
426 7366 9670 421
Flowering.Plants Fungus Hymenopteran Lichen
2625 334 1391 140
Liverwort Mammal Mollusc
125 960 2226
7. Calcular la riqueza en especies
La riqueza de especies es el número total de especies diferentes en un lugar. Para saber cuántas especies se tienen de mamíferos, aves, plantas, entre otros, se debe dividir la base de datos edidiv en varios grupos utilizando la función filter()
Beetle <- filter(edidiv, taxonGroup == "Beetle")
Bird <- filter(edidiv, taxonGroup == "Bird")
Butterfly <- filter(edidiv, taxonGroup == "Butterfly")
Dragonfly <- filter(edidiv, taxonGroup == "Dragonfly")
Flowering.Plants <- filter(edidiv, taxonGroup == "Flowering.Plants")
Fungus <- filter(edidiv, taxonGroup == "Fungus")
Hymenopteran <- filter(edidiv, taxonGroup == "Hymenopteran")
Lichen <- filter(edidiv, taxonGroup == "Lichen")
Liverwort <- filter(edidiv, taxonGroup == "Liverwort")
Mammal <- filter(edidiv, taxonGroup == "Mammal")
Mollusc <- filter(edidiv, taxonGroup == "Mollusc")
Ahora, se usará la función unique() para identificar las diferentes especies. A su vez, se empleará la función length() para contar las especies:
a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
c <- length(unique(Butterfly$taxonName))
d <- length(unique(Dragonfly$taxonName))
e <- length(unique(Flowering.Plants$taxonName))
f <- length(unique(Fungus$taxonName))
g <- length(unique(Hymenopteran$taxonName))
h <- length(unique(Lichen$taxonName))
i <- length(unique(Liverwort$taxonName))
j <- length(unique(Mammal$taxonName))
k <- length(unique(Mollusc$taxonName))
8. Crear un vector y trazarlo
Un vector almacena valores en una única dimensión. Para crear un vector se emplea la función c()
biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)
#Se están relacionando los valores en el mismo orden en el cual se escribieron anteriormente.
names(biodiv) <- c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
Ahora, se pueden visualizar la riqueza de especies con la función barplot(). Al ejecutar este código, aparece el gráfico correspondiente, sin embargo, aún falta agregarle nombres a los ejes y pulirlo. Para saber que comandos emplear se utiliza la función help().
help(barplot)
#Para obtener ayuda sólo con la función barplot.
help(par)
#Para tener ayuda con el trazado en general.
Para poder modificar el gráfico se pueden emplear distintos comandos como: -xlab y ylab que permiten nombrar los ejes -cex.names que permite modificar el tamaño de la fuente en el eje x -cex.axis que modifica el tamaño de fuente en el eje y -cex.lab que modifica el tamaño de fuente de los títulos de los ejes.
barplot(biodiv)

barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0)

barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0, col=c("pink","lightblue"))

9. Crear un marco de datos y trazarlo
En esta seccionse crearán una serie de valores con sus respectivas etiquetas. Para ello, se utilizaran objetos del marco de datos. Los marcos de datos son tablas de valores con columnas y filas. Para ello, se creará un objeto que contenga todos los nombres de los taxones y otro con los valores de riqueza de las especies de cada taxón. Luego, se usará la función data.frame()
Para crear un objeto llamado “taxa” con todos los nombres del conjunto:
taxa <- c("Beetle", "Bird", "Butterfly","Dragonfly","Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
Para convertir el objeto en un factor:
taxa_f <- factor(taxa)
Para combinar todos los valores en el número de especies “richness”
richness <- c(a,b,c,d,e,f,g,h,i,j,k)
Para crear un marco de datos a partir de dos vectores:
biodata <- data.frame(taxa_f, richness)
Para guardar el archivo en el directorio de trabajo:
write.csv(biodata, file ="biodata.csv")
En caso de que se quieran crear y guardar diagramas de barrasempleando sólo el marco de datos, se necesita cambiar un poco el código.
png("barplot2.png", width=1600, height=600)
barplot(biodata$richness, names.arg=c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc"),
xlab="Taxa", ylab="Number of species", ylim=c(0,600))
dev.off()
