¿Qué es R?

R es un lenguaje de programación estadística empleado en gran variedad de disciplinas aunque también es el nombre de un software que emplea este mismo lenguaje.

Comenzando a escribir

Este cuaderno se desarrolla para la asignatura de Geomática Básica y corresponde a una breve introducción a R y sus funciones básicas. El documento fue realizado por Luisa Fernanda Carrión Ramírez.

Paquetes de R

Un paquete es un conjunto de comandos empleados para una función específica y se instalan de la siguiente manera:

install.packages("package name")

Para poder emplear el paquete es necesario ejecutarlo con el siguiente código:

library(package-name)

Como ejemplo, se instalará el paquete dplyr

install.packages("dplyr")
library(dplyr)

Directorio de trabajo

Es una carpeta donde el programa buscará los datos y documentos. Para sabe en donde está el directorio de trabajo se realiza lo siguiente:

getwd()
[1] "C:/Users/LUISA CARRION/Documents"

En caso de que se quiera cambiar el directorio de trabajo, se usa la funcion setwd()

setwd("C:/Users/LUISA CARRION/Documents")

Importar y verificar datos

Para realizar esta práctica es necesario descargar los registros entre 2000-2016 de NBN Gateway. Estos registros contienen información acerca de las especies de animales, plantas y hongos. Este archivo se guardará como edidiv.csv. Después de descargar el archivo, se importa con el comando read.csv() o empleando herramientas de la consola.

read.csv()

En el siguiente chunk se puede ver la ruta del archivo en donde se guardaron los datos:

edidiv <- read.csv("C:/Users/LUISA CARRION/Downloads/edidiv.csv")  

¿Cómo saber si se han cometido errores en los códigos?

Cometer errores en R es muy frecuente, es por ello que se recomienda ejecutar el código y verificar la salida en la consola. Sin embargo, existen otras herramientas que nos permiten tener una vista previa de unas pocas líneas.

head()

Esta opción nos permite ver las primeras filas:

head(edidiv)

tail()

Este comando muestra las últimas filas.

tail(edidiv)

str()

Esta opción indica si las variables son continuas, enteras, categóricas o caracteres.

str(edidiv)
'data.frame':   25684 obs. of  5 variables:
 $ organisationName: Factor w/ 28 levels "BATS & The Millennium Link",..: 14 14 14 8 8 28 28 28 28 28 ...
 $ gridReference   : Factor w/ 1938 levels "NT200701","NT200712",..: 1314 569 569 1412 1412 1671 1671 1671 1671 1671 ...
 $ year            : int  2000 2000 2000 2000 2000 2001 2001 2001 2001 2001 ...
 $ taxonName       : Factor w/ 1275 levels "Acarospora fuscata",..: 1126 1126 1127 192 193 1202 365 977 472 947 ...
 $ taxonGroup      : Factor w/ 11 levels "Beetle","Bird",..: 2 2 2 2 2 2 2 2 2 2 ...

Para mirar la estructura de los datos se usa el comando str(object.name). Aunque, si se quiere cambiar la estructura, se realizan los siguientes pasos: Se emplea el cógigo head(nombre del archivo$grupo) para ver las primeras filas de la columna en esta clase.

head(edidiv$taxonGroup)
[1] Bird Bird Bird Bird Bird Bird
11 Levels: Beetle Bird Butterfly Dragonfly Flowering.Plants Fungus Hymenopteran Lichen Liverwort ... Mollusc

Se usa class(nombre del archivo$grupo) para saber con que tipo de variable se está trabajando

class(edidiv$taxonGroup)
[1] "factor"

El siguiente comando, convierte cualquier valor colocado en un factor:

edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)

Existen otros comandos que pueden ser utiles en distintos casos. Principalmente se trabajarán:

dim()

Es otro comando que permite ver el número de columnas y filas.

dim(edidiv)
[1] 25684     5

summary

Este comando da un resumen de los datos.

summary(edidiv)
                                             organisationName gridReference        year     
 Biological Records Centre                           :6744    NT2673 : 2741   Min.   :2000  
 RSPB                                                :5809    NT2773 : 2031   1st Qu.:2006  
 Butterfly Conservation                              :3000    NT2873 : 1247   Median :2009  
 Scottish Wildlife Trust                             :2070    NT2570 : 1001   Mean   :2009  
 Conchological Society of Great Britain &amp; Ireland:1998    NT27   :  888   3rd Qu.:2011  
 The Wildlife Information Centre                     :1860    NT2871 :  767   Max.   :2016  
 (Other)                                             :4203    (Other):17009                 
                 taxonName                taxonGroup  
 Maniola jurtina      : 1710   Butterfly       :9670  
 Aphantopus hyperantus: 1468   Bird            :7366  
 Turdus merula        : 1112   Flowering.Plants:2625  
 Lycaena phlaeas      :  972   Mollusc         :2226  
 Aglais urticae       :  959   Hymenopteran    :1391  
 Aglais io            :  720   Mammal          : 960  
 (Other)              :18743   (Other)         :1446  

summary(-$-)

Da un breve resumen de una variable en particular.

summary(edidiv$taxonGroup)
          Beetle             Bird        Butterfly        Dragonfly Flowering.Plants           Fungus 
             426             7366             9670              421             2625              334 
    Hymenopteran           Lichen        Liverwort           Mammal          Mollusc 
            1391              140              125              960             2226 

Calcular la riqueza en especies

La riqueza de especies es el número total de especies diferentes en un lugar. Para saber cuántas especies se tienen de mamíferos, aves, plantas, entre otros, se debe dividir la base de datos edidiv en varios grupos utilizando la función filter()

Beetle <- filter(edidiv, taxonGroup == "Beetle")
Bird <- filter(edidiv, taxonGroup == "Bird")
Butterfly <- filter(edidiv, taxonGroup == "Butterfly")
Flowering.Plants <- filter(edidiv, taxonGroup == "Flowering.Plants")
Fungus <- filter(edidiv, taxonGroup == "Fungus")
Hymenopteran <- filter(edidiv, taxonGroup == "Hymenopteran")
Lichen <- filter(edidiv, taxonGroup == "Lichen")
Liverwort <- filter(edidiv, taxonGroup == "Liverwort")
Mammal <- filter(edidiv, taxonGroup == "Mammal")
Mollusc <- filter(edidiv, taxonGroup == "Mollusc")

Ahora, se emplearán las funciones unique() que identifica las diferentes especies y length() que las cuenta.

a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
c <- length(unique(Butterfly$taxonName))
d <- length(unique(Flowering.Plants$taxonName))
e <- length(unique(Fungus$taxonName))
f <- length(unique(Hymenopteran$taxonName))
g <- length(unique(Lichen$taxonName))
h <- length(unique(Liverwort$taxonName))
i <- length(unique(Mammal$taxonName))
j <- length(unique(Mollusc$taxonName))

Crear un vector y trazarlo Un vector almacena valores en una única dimensión. Para crear un vector se emplea la función c()

biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)
#Se están relacionando los valores en el mismo orden en el cual se escribieron anteriormente.
names(biodiv) <- c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")

Ahora, se pueden visualizar la riqueza de especies con la función barplot(). Al ejecutar este código, aparece el gráfico correspondiente, sin embargo, aún falta agregarle nombres a los ejes y pulirlo. Para saber que comandos emplear se utiliza la función help().

help(barplot)
#Para obtener ayuda sólo con la función barplot.
help(par)
#Para tener ayuda con el trazado en general.

Para poder modificar el gráfico se pueden emplear distintos comandos como: -xlab y ylab que permiten nombrar los ejes -cex.names que permite modificar el tamaño de la fuente en el eje x -cex.axis que modifica el tamaño de fuente en el eje y -cex.lab que modifica el tamaño de fuente de los títulos de los ejes.

barplot(biodiv)

barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0)

Crear un marco de datos y trazarlo

En esta seccionse crearán una serie de valores con sus respectivas etiquetas. Para ello, se utilizaran objetos del marco de datos. Los marcos de datos son tablas de valores con columnas y filas. Para ello, se creará un objeto que contenga todos los nombres de los taxones y otro con los valores de riqueza de las especies de cada taxón. Luego, se usará la función data.frame()

Para crear un objeto llamado “taxa” con todos los nombres del conjunto:

taxa <- c("Beetle", "Bird", "Butterfly","Dragonfly","Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")

Para convertir el objeto en un factor:

taxa_f <- factor(taxa)

Para combinar todos los valores en el número de especies “richness”

richness <- c(a,b,c,d,e,f,g,h,i,j,k)

Para crear un marco de datos a partir de dos vectores:

biodata <- data.frame(taxa_f, richness)

Para guardar el archivo en el directorio de trabajo:

write.csv(biodata, file ="biodata.csv")

En caso de que se quieran crear y guardar diagramas de barrasempleando sólo el marco de datos, se necesita cambiar un poco el código.

png("barplot2.png", width=1600, height=600)
barplot(biodata$richness, names.arg=c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc"),
xlab="Taxa", ylab="Number of species", ylim=c(0,600))
dev.off()
---
title: "Introducción a R&RStudio"
output: html_notebook
---

**¿Qué es R?**

R es un lenguaje de programación estadística empleado en gran variedad de disciplinas aunque también es el nombre de un software que emplea este mismo lenguaje.

**Comenzando a escribir**

Este cuaderno se desarrolla para la asignatura de Geomática Básica y corresponde a una breve introducción a R y sus funciones básicas. El documento fue realizado por Luisa Fernanda Carrión Ramírez.

**Paquetes de R**

Un paquete es un conjunto de comandos empleados para una función específica y se instalan de la siguiente manera:
```{r}
install.packages("package name")
```
Para poder emplear el paquete es necesario ejecutarlo con el siguiente código:
```{r}
library(package-name)
```
Como ejemplo, se instalará el paquete dplyr
```{r}
install.packages("dplyr")
library(dplyr)
```
**Directorio de trabajo**

Es una carpeta donde el programa buscará los datos y documentos. Para sabe en donde está el directorio de trabajo se realiza lo siguiente:

```{r}
getwd()
```
En caso de que se quiera cambiar el directorio de trabajo, se usa la funcion setwd()
```{r}
setwd("C:/Users/LUISA CARRION/Documents")
```
**Importar y verificar datos**

Para realizar esta práctica es necesario descargar los registros entre 2000-2016 de NBN Gateway. Estos registros contienen información acerca de las especies de animales, plantas y hongos. Este archivo se guardará como edidiv.csv.
Después de descargar el archivo, se importa con el comando read.csv() o empleando herramientas de la consola.
```{r}
read.csv()
```
En el siguiente chunk se puede ver la ruta del archivo en donde se guardaron los datos:
```{r}
edidiv <- read.csv("C:/Users/LUISA CARRION/Downloads/edidiv.csv")  
```
**¿Cómo saber si se han cometido errores en los códigos?**

Cometer errores en R es muy frecuente, es por ello que se recomienda ejecutar el código y verificar la salida en la consola. Sin embargo, existen otras herramientas que nos permiten tener una vista previa de unas pocas líneas.

*head()*

Esta opción nos permite ver las primeras filas:
```{r}
head(edidiv)
```
*tail()*

Este comando muestra las últimas filas.
```{r}
tail(edidiv)
```
*str()*

Esta opción indica si las variables son continuas, enteras, categóricas o caracteres.
```{r}
str(edidiv)
```
Para mirar la estructura de los datos se usa el comando str(object.name). Aunque, si se quiere cambiar la estructura, se realizan los siguientes pasos:
Se emplea el cógigo head(nombre del archivo$grupo) para ver las primeras filas de la columna en esta clase.
```{r}
head(edidiv$taxonGroup)
```
Se usa class(nombre del archivo$grupo) para saber con que tipo de variable se está trabajando
```{r}
class(edidiv$taxonGroup)
```
El siguiente comando, convierte cualquier valor colocado en un factor:
```{r}
edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)
```
Existen otros comandos que pueden ser utiles en distintos casos. Principalmente se trabajarán:

*dim()*

Es otro comando que permite ver el número de columnas y filas.
```{r}
dim(edidiv)
```
*summary*

Este comando da un resumen de los datos.
```{r}
summary(edidiv)
```
*summary(-$-)*

Da un breve resumen de una variable en particular.
```{r}
summary(edidiv$taxonGroup)
```
**Calcular la riqueza en especies**

La riqueza de especies es el número total de especies diferentes en un lugar. Para saber cuántas especies se tienen de mamíferos, aves, plantas, entre otros, se debe dividir la base de datos edidiv en varios grupos utilizando la función filter()
```{r}
Beetle <- filter(edidiv, taxonGroup == "Beetle")
Bird <- filter(edidiv, taxonGroup == "Bird")
Butterfly <- filter(edidiv, taxonGroup == "Butterfly")
Flowering.Plants <- filter(edidiv, taxonGroup == "Flowering.Plants")
Fungus <- filter(edidiv, taxonGroup == "Fungus")
Hymenopteran <- filter(edidiv, taxonGroup == "Hymenopteran")
Lichen <- filter(edidiv, taxonGroup == "Lichen")
Liverwort <- filter(edidiv, taxonGroup == "Liverwort")
Mammal <- filter(edidiv, taxonGroup == "Mammal")
Mollusc <- filter(edidiv, taxonGroup == "Mollusc")
```
Ahora, se emplearán las funciones unique() que identifica las diferentes especies y length() que las cuenta.
```{r}
a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
c <- length(unique(Butterfly$taxonName))
d <- length(unique(Flowering.Plants$taxonName))
e <- length(unique(Fungus$taxonName))
f <- length(unique(Hymenopteran$taxonName))
g <- length(unique(Lichen$taxonName))
h <- length(unique(Liverwort$taxonName))
i <- length(unique(Mammal$taxonName))
j <- length(unique(Mollusc$taxonName))
```
**Crear un vector y trazarlo**
Un vector almacena valores en una única dimensión. Para crear un vector se emplea la función c() 
```{r}
biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)
#Se están relacionando los valores en el mismo orden en el cual se escribieron anteriormente.
names(biodiv) <- c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
```
Ahora, se pueden visualizar la riqueza de especies con la función barplot().
Al ejecutar este código, aparece el gráfico correspondiente, sin embargo, aún falta agregarle nombres a los ejes y pulirlo. Para saber que comandos emplear se utiliza la función help().
```{r}
help(barplot)
#Para obtener ayuda sólo con la función barplot.
help(par)
#Para tener ayuda con el trazado en general.
```
Para poder modificar el gráfico se pueden emplear distintos comandos como:
        -*xlab* y *ylab* que permiten nombrar los ejes
        -*cex.names* que permite modificar el tamaño de la fuente en el eje x
        -*cex.axis* que modifica el tamaño de fuente en el eje y
        -*cex.lab* que modifica el tamaño de fuente de los títulos de los ejes.
```{r}
barplot(biodiv)
barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 0.45, cex.axis=0.9, cex.lab=1.0)
```

**Crear un marco de datos y trazarlo**

En esta seccionse crearán una serie de valores con sus respectivas etiquetas. Para ello, se utilizaran objetos del marco de datos. Los marcos de datos son tablas de valores con columnas y filas.
Para ello, se creará un objeto que contenga todos los nombres de los taxones y otro con los valores de riqueza de las especies de cada taxón. Luego, se usará la función data.frame()

Para crear un objeto llamado "taxa" con todos los nombres del conjunto:

```{r}
taxa <- c("Beetle", "Bird", "Butterfly","Dragonfly","Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc")
```
Para convertir el objeto en un factor:
```{r}
taxa_f <- factor(taxa)
```
Para combinar todos los valores en el número de especies "richness"
```{r}
richness <- c(a,b,c,d,e,f,g,h,i,j,k)
```
Para crear un marco de datos a partir de dos vectores:
```{r}
biodata <- data.frame(taxa_f, richness)
```
Para guardar el archivo en el directorio de trabajo:
```{r}
write.csv(biodata, file ="biodata.csv")
```
En caso de que se quieran crear y guardar diagramas de barrasempleando sólo el marco de datos, se necesita cambiar un poco el código.
```{r}
png("barplot2.png", width=1600, height=600)
barplot(biodata$richness, names.arg=c("Beetle", "Bird", "Butterfly", "Dragonfly", "Flowering.Plants", "Fungus", "Hymenopteran", "Lichen", "Liverwort", "Mammal", "Mollusc"),
xlab="Taxa", ylab="Number of species", ylim=c(0,600))
dev.off()
```


