¿Qué es R?
R es un lenguaje de programación estadística empleado en gran variedad de disciplinas aunque también es el nombre de un software que emplea este mismo lenguaje.
Comenzando a escribir
Este cuaderno se desarrolla para la asignatura de Geomática Básica y corresponde a una breve introducción a R y sus funciones básicas. El documento fue realizado por Luisa Fernanda Carrión Ramírez.
Paquetes de R
Un paquete es un conjunto de comandos empleados para una función específica y se instalan de la siguiente manera:
install.packages("package name")
Para poder emplear el paquete es necesario ejecutarlo con el siguiente código:
library(package-name)
Como ejemplo, se instalará el paquete dplyr
install.packages("dplyr")
library(dplyr)
Directorio de trabajo
Es una carpeta donde el programa buscará los datos y documentos. Para sabe en donde está el directorio de trabajo se realiza lo siguiente:
getwd()
[1] "C:/Users/LUISA CARRION/Documents"
En caso de que se quiera cambiar el directorio de trabajo, se usa la funcion setwd()
setwd("C:/Users/LUISA CARRION/Documents")
Importar y verificar datos
Para realizar esta práctica es necesario descargar los registros entre 2000-2016 de NBN Gateway. Estos registros contienen información acerca de las especies de animales, plantas y hongos. Este archivo se guardará como edidiv.csv. Después de descargar el archivo, se importa con el comando read.csv() o empleando herramientas de la consola.
read.csv()
En el siguiente chunk se puede ver la ruta del archivo en donde se guardaron los datos:
edidiv <- read.csv("C:/Users/LUISA CARRION/Downloads/edidiv.csv")
¿Cómo saber si se han cometido errores en los códigos?
Cometer errores en R es muy frecuente, es por ello que se recomienda ejecutar el código y verificar la salida en la consola. Sin embargo, existen otras herramientas que nos permiten tener una vista previa de unas pocas líneas.
head()
Esta opción nos permite ver las primeras filas:
head(edidiv)
tail()
Este comando muestra las últimas filas.
tail(edidiv)
str()
Esta opción indica si las variables son continuas, enteras, categóricas o caracteres.
str(edidiv)
'data.frame': 25684 obs. of 5 variables:
$ organisationName: Factor w/ 28 levels "BATS & The Millennium Link",..: 14 14 14 8 8 28 28 28 28 28 ...
$ gridReference : Factor w/ 1938 levels "NT200701","NT200712",..: 1314 569 569 1412 1412 1671 1671 1671 1671 1671 ...
$ year : int 2000 2000 2000 2000 2000 2001 2001 2001 2001 2001 ...
$ taxonName : Factor w/ 1275 levels "Acarospora fuscata",..: 1126 1126 1127 192 193 1202 365 977 472 947 ...
$ taxonGroup : Factor w/ 11 levels "Beetle","Bird",..: 2 2 2 2 2 2 2 2 2 2 ...
Para mirar la estructura de los datos se usa el comando str(object.name). Aunque, si se quiere cambiar la estructura, se realizan los siguientes pasos: Se emplea el cógigo head(nombre del archivo$grupo) para ver las primeras filas de la columna en esta clase.
head(edidiv$taxonGroup)
[1] Bird Bird Bird Bird Bird Bird
11 Levels: Beetle Bird Butterfly Dragonfly Flowering.Plants Fungus Hymenopteran Lichen Liverwort ... Mollusc
Se usa class(nombre del archivo$grupo) para saber con que tipo de variable se está trabajando
class(edidiv$taxonGroup)
[1] "factor"
El siguiente comando, convierte cualquier valor colocado en un factor:
edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)
Existen otros comandos que pueden ser utiles en distintos casos. Principalmente se trabajarán:
dim()
Es otro comando que permite ver el número de columnas y filas.
dim(edidiv)
[1] 25684 5
summary
Este comando da un resumen de los datos.
summary(edidiv)
organisationName gridReference year
Biological Records Centre :6744 NT2673 : 2741 Min. :2000
RSPB :5809 NT2773 : 2031 1st Qu.:2006
Butterfly Conservation :3000 NT2873 : 1247 Median :2009
Scottish Wildlife Trust :2070 NT2570 : 1001 Mean :2009
Conchological Society of Great Britain & Ireland:1998 NT27 : 888 3rd Qu.:2011
The Wildlife Information Centre :1860 NT2871 : 767 Max. :2016
(Other) :4203 (Other):17009
taxonName taxonGroup
Maniola jurtina : 1710 Butterfly :9670
Aphantopus hyperantus: 1468 Bird :7366
Turdus merula : 1112 Flowering.Plants:2625
Lycaena phlaeas : 972 Mollusc :2226
Aglais urticae : 959 Hymenopteran :1391
Aglais io : 720 Mammal : 960
(Other) :18743 (Other) :1446
summary(-$-)
Da un breve resumen de una variable en particular.
summary(edidiv$taxonGroup)
Beetle Bird Butterfly Dragonfly Flowering.Plants Fungus
426 7366 9670 421 2625 334
Hymenopteran Lichen Liverwort Mammal Mollusc
1391 140 125 960 2226
Calcular la riqueza en especies
La riqueza de especies es el número total de especies diferentes en un lugar. Para saber cuántas especies se tienen de mamíferos, aves, plantas, entre otros, se debe dividir la base de datos edidiv en varios grupos utilizando la función filter()
Beetle <- filter(edidiv, taxonGroup == "Beetle")
Bird <- filter(edidiv, taxonGroup == "Bird")
Butterfly <- filter(edidiv, taxonGroup == "Butterfly")
Flowering.Plants <- filter(edidiv, taxonGroup == "Flowering.Plants")
Fungus <- filter(edidiv, taxonGroup == "Fungus")
Hymenopteran <- filter(edidiv, taxonGroup == "Hymenopteran")
Lichen <- filter(edidiv, taxonGroup == "Lichen")
Liverwort <- filter(edidiv, taxonGroup == "Liverwort")
Mammal <- filter(edidiv, taxonGroup == "Mammal")
Mollusc <- filter(edidiv, taxonGroup == "Mollusc")
Ahora, se emplearán las funciones unique() que identifica las diferentes especies y length() que las cuenta.
a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
c <- length(unique(Butterfly$taxonName))
d <- length(unique(Flowering.Plants$taxonName))
e <- length(unique(Fungus$taxonName))
f <- length(unique(Hymenopteran$taxonName))
g <- length(unique(Lichen$taxonName))
h <- length(unique(Liverwort$taxonName))
i <- length(unique(Mammal$taxonName))
j <- length(unique(Mollusc$taxonName))
Crear un vector y trazarlo Un vector almacena valores en una única dimensión. Para crear un vector se emplea la función c()
biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)
#Se están relacionando los valores en el mismo orden en el cual se escribieron anteriormente.
names(biodiv) <- c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
Ahora, se pueden visualizar la riqueza de especies con la función barplot(). Al ejecutar este código, aparece el gráfico correspondiente, sin embargo, aún falta agregarle nombres a los ejes y pulirlo. Para saber que comandos emplear se utiliza la función help().
help(barplot)
#Para obtener ayuda sólo con la función barplot.
help(par)
#Para tener ayuda con el trazado en general.
Para poder modificar el gráfico se pueden emplear distintos comandos como: -xlab y ylab que permiten nombrar los ejes -cex.names que permite modificar el tamaño de la fuente en el eje x -cex.axis que modifica el tamaño de fuente en el eje y -cex.lab que modifica el tamaño de fuente de los títulos de los ejes.
barplot(biodiv)
barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0)
Crear un marco de datos y trazarlo
En esta seccionse crearán una serie de valores con sus respectivas etiquetas. Para ello, se utilizaran objetos del marco de datos. Los marcos de datos son tablas de valores con columnas y filas. Para ello, se creará un objeto que contenga todos los nombres de los taxones y otro con los valores de riqueza de las especies de cada taxón. Luego, se usará la función data.frame()
Para crear un objeto llamado “taxa” con todos los nombres del conjunto:
taxa <- c("Beetle", "Bird", "Butterfly","Dragonfly","Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
Para convertir el objeto en un factor:
taxa_f <- factor(taxa)
Para combinar todos los valores en el número de especies “richness”
richness <- c(a,b,c,d,e,f,g,h,i,j,k)
Para crear un marco de datos a partir de dos vectores:
biodata <- data.frame(taxa_f, richness)
Para guardar el archivo en el directorio de trabajo:
write.csv(biodata, file ="biodata.csv")
En caso de que se quieran crear y guardar diagramas de barrasempleando sólo el marco de datos, se necesita cambiar un poco el código.
png("barplot2.png", width=1600, height=600)
barplot(biodata$richness, names.arg=c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc"),
xlab="Taxa", ylab="Number of species", ylim=c(0,600))
dev.off()