Sandra Katteryne Rodríguez Hurtado

Mayo 11 del 2020

El objetivo de este escrito es familiarse con el lenguaje de R y RStudio, dando a conocer algunas de las características y funciones que ambos brindan a quienes lo implementan en sus áreas de trabajo.

¿Qué es R?

Se dice que R es un lenguaje de programación estadística desarrollado por Ross Ihaka y Robert Gentleman, muy usado en diferentes áreas ya que es la implementación de código abierto del lenguaje de programación “S”. R no tiene una interfaz gráfica de usuario, no hay menús desplegables, algo que lo hace fácil de usar ya que no depende de un kit de herramientas para su análisis. Algunas ventajas de trabajar con R son que es gratuito y de código abierto; es un lenguaje de programación y no de una interfaz gráfica, lo que permite a quien lo esté usando guardar pequeños archivos de texto fácilmente; y tiene una comunidad en línea activa y útil.

R no tiene una interfaz gráfica, sin embargo hay personas que trabajan con R a través de plataformas gráficas que brindan funciones adicionales. Se considera a RStudio como interfaz gráfica para R, lo que quiere decir que permite a quien lo esté usando acceder a sus scripts y datos, obteniendo una vista previa de lo que está trabajando (gráficos y salidas).

Una vez descargado RStudio, se podrá apreciar una página dividida en cuatro secciones principales así: Consola, se encuentra situada en la parte inferior izquierda, donde se podrá escribir código directamente; Secuencia de Comandos se encuentra en la parte superior izquierda, donde también se puede escribir código; Ventana del entorno, la cual ofrece una visión general del espacio actual, donde se aprecian los datos que se han registrado, objetos creados, funciones introducidas, entre otros; finalmente se encuentra el último panel que tiene varias pestañas, permitiendo navegar por carpetas, y mirar los paquetes instalados recientemente.

El hecho de escribir un código en script, permite crear un registro, donde se guarda el progreso y se puede volver a acceder a este hasta donde se trabajó, permitiendo hacer cambios. Es posible también agregar comentarios al texto al insertar un un hashtag # frente a la línea de texto, permitiendo generar un texto más organizado. El hecho de introducir un hashtag #, crea un título en el texto; si se desea tener un subtítulo, se deberá introducir dos hashtag ##; si lo que se busca es tener un texto de menor tamaño pero diferente al texto normal se introducen tres hashtag ### frente al texto.

Comenzar a escribir en tu guión

Para elaborar un guión lo ideal es suministrar los datos de quién lo está redactando, tales como título, nombre, fecha y objetivo principal.

# Introducción a la Sociología Rural
# Marzo 2 del 2020
# Álvaro Rivas y Ana María Jiménez

Existe una gran variedad de comandos que permite a la persona que esté trabajando ejecutar funciones adicionales como la edición de datos o la creación de mapas. Para instalar un paquete, se deberá escribir solo una vez el siguiente comando: install.packages(“package-name”), ya que posterior a esto se puede escribir directamente en el cuadro de la consola en vez de volverlo a descargar una y otra vez.

install.packages("package-name")

Una vez se haya instalado el paquete, se carga el paquete usando el comando:

library(package-name)

Se debe también definir el directorio de trabajo. Es muy útil ya que este es una carpeta que permitirá que R busque y guarde información, además optimizar tiempo ya que permite organizar los archivos que se han trabajado por temas.Si se desea saber dónde está el directorio de trabajo, se debe ejecutar el código:

getwd() 

Si se desea cambiar el lugar del directorio se debe ejecutar el código:

setwd()

Vale aclarar que una ruta arrojada pór el computador copiada y pegada tendrá barras invertidas que separan las carpetas ( “C:”), pero la manera adecuada de introducir esto en R será con barras diagonales ( “C:/folder/data”).

Importar y verificar los datos

A manera de ejemplo para la explicación de este punto, se utilizarán unos registros de NBN Gateway, los cuyales se guardarán como edidiv.csv. Primero se debe descargar el archivo, siguiendo el enlace y dando click en “Descargar Zip”, guardarlo y descomprimir la carpeta en algún lugar de la computadora. Lo anterior se puede llevar a cabo por medio de Github.Para importar los datos guardados en la computadora a RStudio, se debe dar click en el botón “Importar conjunto de datos” y navegar hasta donde se encuentra guardado el archivo, o ejercutar el comando read.csv(). Esta es una función útil para saber de dónde proviene el conjunto de datos.

edidiv <- read.csv("C:/Users/user/Desktop/Intro_to_R/edidiv.csv")

R funciona de una mejor manera con archivos .csv (valores separados por comas), lo cual se debe tener presente a la hora de guardar archivos de excel. Si un archivo, al ser guardado por la computadora con separadores de punto y coma ;, se deberá ejecutar el comando read.csv2 en lugasr de read.csv, o también se puede utilizar el argumento de “sep” en la función: r.csv(“your-file-path”, sep = “;”). Cada obejeto es denominado como edidivobjeto. Para verificar si los datos fueron importados sin errores o que se está trabajando con los datos correctos, RStudio ofrece una función que permite obtener una vista previa dando click en el el objeto en el panel de control Entorno, donde se mostrará una página similar a una hoja de cálculo que permite visualizar los datos o la secuencia de comandos de una mejor manera.

head(edidiv) Muestra las primeras filas
tail(edidiv) Muestra las últimas filas
str(edidiv) Indica si las variables son continuas, enteras, categóricas o de caracteres. 

El comando str(object.name) es un comando que muestra la estructura de los datos con los que se está trabajando y hay algunas ocasiones en las que R puede catalogar a un conjunto de datos de un tipo que no es, es por esta razón que es de vital importancia comprobar siempre la estructura de los datos. Si se desea acceder soloa a una columna de un marco de datos se deberá agregar el nombre de la variable al nombre del objeto con un signo de dólar $. Esto permite ver, modificar y/o reasignar esta variable.

head(edidiv$taxonGroup)     Muestra solo las primeras filas de esta columna.    
class(edidiv$taxonGroup)    Indica con qué tipo de variable se está trabajando

edidiv$taxonGroup <- as.factor(edidiv$taxonGroup)      

En la última línea de código en el recuadro anterior, la función as.factor() permite convertir cualquier valor que coloque dentro en un factor.

dim(edidiv)                 Muestra el número de filas y columnas.
summary(edidiv)             Da un resumen de los datos.
summary(edidiv$taxonGroup)  Da un resumen de esa variable particular (columna) en su conjunto de datos. 

Calcular la riqueza de especies

Continuando con el ejemplo del artículo de Getway, el edidivobjeto tiene registros de ocurrencia de varias especies en cierto país y en cierto intervalo de tiempo. Así, para explorar y conocer la biodiversidad de especies en este país, se creará un gráfico en el que se representará cuántas especies se registraron en cada grupo taxonómico. Excel permite calcular la riqueza de especies, sin embargo, cuando es un grupo extenso de datos, no se tiene registro de qué hizo, cómo se clasificaron los datos y qué copió o eliminó, lo que podría generar errores. En contraste con esto, R tiene su script, lo que permite devolverse, ver lo que hizo anteriormente verificar lo que llevó a cabo en su análisis, reduciendo el porcentaje de presentar errores. Para poder saber el total de especies de mamíferos, aves, etc, se debe dividir edidiv en varios objetos, cada uno con filas para un solo grupo taxonómico. Esto se lleva a cabo con la función filter() del dplyr paquete.

Beetle <- filter(edidiv, taxonGroup == "escarabajos") : El primer argumento de la función es el amrco de datos, el segundo es la condición que se desea filtrar. Dado que solo se quieren escarabajos, de introduce: la variable taxonGroup debe ser exactamente (==) Escarabajo: elimine todo lo demás el conjnto de datos. Se debe tener presente la ortografía ya que R tiene la capacidad de distinguir mayúsculas y minúsculas. 

Bird <- filter(edidiv, taxonGroup == "Bird")  

Si se necesita recordar nombres y ortografía, se puede escribir (edidiv$taxonGroup)

Para identificar diferentes especies se utiliza la función unique(), y length() que las puede contar.

a <- length(unique(Beetle$taxonName))
b <- length(unique(Bird$taxonName))
Se puede elegir los nombres que se desee para sus objetos, en este caso reciben el nombre de a y b, donde a estaría representando, en el ejemplo, número de especies distintas de escarabajos en el registro. 

Crear un vector y trazarlo

Siguiendo con el ejemplo, ya que se tiene la riqueza de especies, se pueden combinar esos valores en un vector, este es un objeto ed R que almacena valores. Se diferencia un marco de datos de un vector en que el primero tiene dos dimensiones (filas y columnas), mientras que el segundo solo tiene una. Esto se lleva a cabo mediante la función c() que significa concatenar o encadenar. También es posible añadir etiquetas con la función names().

biodiv <- c(a,b,c,d,e,f,g,h,i,j,k)     Se han encadenado los valores, prestar atención a la organización de estos.
names(biodiv) <- c("Beetle",
                   "Bird",
                   "Butterfly",
                   "Dragonfly",
                   "Flowering.Plants",
                   "Fungus",
                   "Hymenopteran",
                   "Lichen",
                   "Liverwort",
                   "Mammal",
                   "Mollusc")

Se deben aclarar algunas cosas: * Los espaciosdelante y atrás <-y espués de la coma, se agregan para facilitar la lectura del código. * Todas las etiquetas se han dispuesto en una nueva línea, de no ser así, sería difícil leer todo. * Sae debe verificar de hacer coincidir los valores y las etiquetas de los vectores para evitar errores y en caso de tenerlos, devolverse para verificar si la información suministrada y arrojada es la correcta. * Si se resalta un paréntesis, R mostrará el correspondiente en su código, evitando errores. Se puede ver la riqueza de especies por medio de la función barplot(), donde los gráficos aparecerán en la ventana inferior derecha.

barplot(biodiv)

Se puede usar la función help() para ver qué argumentos se necesita agregar.

help(barplot)     Para obtener ayuda con la función barplot
help(par)         Para obtener ayuda con el trazado en general

Para salvar el trabajo realizado, se puede dar click en Exportar en la ventana de gráficos. También es posible guardar el archivo envolviendo el código en las funciones png() y dev.eff().

png("barplot.png", width=1600, height=600)  buscar la ayuda para esta función permite personalizar el tamaño y resolución de la imagen. 
barplot(biodiv, xlab="Taxa", ylab="Number of species", ylim=c(0,600), cex.names= 1.5, cex.axis=1.5, cex.lab=1.5)
dev.off()
 El código cex aumenta el tamaño de fuente cuando es mayor que uno y lo disminuye cuando es menor que uno.

Crear un marco de datos y trazarlo

Los marcos de datos son tablas de valores que tienen una estructura bidimensional compuesta de filas y columnas, donde cada columna puede tener un tipo de datos diferente. La matriz es otro posible formato de datos, la cual también puede tener varias filas de datos pero las variables deben ser todas del mismo tipo. Se utilizará la función data.frame(), pero primero se deberá crear un objeto que contenga todos los nombres de los taxones (columna) y otros con todos los valores de la riqueza de especies de cada taxón (otra columna).

Crear un objeto llamado "taxón" que contenga todos los datos del taxón
taxa <- c("Beetle",
          "Bird",
          "Butterfly",
          "Dragonfly",
          "Flowering.Plants",
          "Fungus",
          "Hymenopteran",
          "Lichen",
          "Liverwort",
          "Mammal",
          "Mollusc")
Convertir ese objeto en un factor, una variable categórica.
taxa_f <- factor(taxa)

Combinando todos los valores p0ara el npumero de especies de un objeto llamado riqueza
richness <- c(a,b,c,d,e,f,g,h,i,j,k)

Crear el marco de datos a partir de los dos vectrores
biodata <- data.frame(taxa_f, richness)

Guardar la fila
write.csv(biodata, file="biodata.csv")  # it will be saved in your working directory

R y RStudio tienen la capacidad de funcionar con unos códigos, entre ello se encuentran: * Ctrl + S : Para guardar el archivo. * <- : Esta flecha en el código anterior indica que se le están asignando objetos a este.

