Modelos Estadísticos. Grado Biotecnología



Introducción


Trabajar y analizar nuestros datos es el objetivo fundamental cuando realizamos cualquier diseño experimental. En R y RStudio hay tres procedimientos:

  • Crear tu banco de datos dentro de RStudio: Este procedimiento sólo sirve para bancos de datos muy pequeños. En la práctica solemos almacenar nuestros datos en hojas de cálculo o bases de datos lo suficientemente grandes como para impedir este procedimiento.
  • Utilizar bancos de datos de librerías: Para ejemplificar los procedimientos que utilizaremos a lo largo del curso resulta muy útil utilizar bancos de datos que se encuentran alojados en diferentes librerías de R. Estos ejemplos aparecen en muchas ocasiones en la literatura y dan se utilizan únicamente como muestra de los análisis estadísticos que iremos realizando.
  • Importar tus datos a R: Esta es la situación más general ya que se trata de cargar los datos recogidos en tu diseño experimental. Lo habitual es que dispongamos de una hoja de cálculo o una base de datos donde hemos ido almacenando toda la información sobre cada uno de los sujetos en todas las variables que hayamos considerado en nuestro experimento.
  • Importar bases de dato de internet: En los últimos años el uso de bancos de datos que se cargan desde repositorios de internet se ha expandido rápidamente. Los centros de almacenamiento en la nube han crecido como la espuma y muchos investigadores optan por esta opción para mantener copias actualizadas de todos sus datos de investigación. En muchas ocasiones este procedimiento es muy similar al del apartado anterior ya que el procedimiento para incorporar los datos en R es el mismo. Nos da igual que sea un fichero en local (almacenado en nuestro ordenador) o en la nube.

A lo largo de esta práctica utilizaremos diferentes ejemplos para mostrar como importar los datos de nuestra investigación utilizando la librería tidyverse.


Antes de empezar


Antes de cargar nuestros datos de trabajo es recomendable realizar siempre los siguientes pasos:

  1. Crear Poyecto de trabajo: Para poder recuperar todo los análisis o cálculos que realizamos durante una sesión de RStudio es necesario crear un proyecto de trabajo. Para ello (una vez abierto RStudio) debemos ir al menú File > New Project... y asignar un nombre al proyecto. En el momento de creación del proyecto podrás crear un directorio (en local) donde se ira almacenando todo tu trabajo. Crea un proyecto de trabajo con nombre P01MODSTAT. RStudio le asignará la extensión Rproj.
  2. Asignar entorno de trabajo: Una vez creado el proyecto debemos indicar a RStudio donde se debe situar el entorno de trabajo, es decir, el fichero que almacenará nuestros análisis para que podamos recuperarlos en sesiones posteriores. Para ello debemos ir al menú Session > Set Working Directory > To Project Directory`. En la ventana inferior derecha de RStudio nos debería aparecer (en la pestaña Files) el proyecto que acabamos de crear.
  3. Crear fichero de sintáxis: Para poder trabajar dentro del entorno de RStudio es necesario crear un fichero de sintaxis que permita ejecutar un conjunto de sentencias de forma conjunta. De esta forma nos evitaremos tendremos que ir escribiendo en la consola de ejecución directamente. Para crear dicho fichero debes seguir el menú File > New File > R Script. Dicho fichero aparecerá sin nombre, de forma que se recomienda guardarlo con un nombre antes de continuar (File > Save As...). Dicho fichero debe aparecer en el directorio de trabajo (ventana inferior derecha de RStudio). Crea un fichero de sintaxis con el nombre Práctica 1. RStudio le asignará la extensión r.

Cuando acabes la sesión se deben guardar todos los documentos (File > Save All) y cerrar el proyecto (File > Close Project). En se momento deberás guardar también el entorno de trabajo. De esta forma podrás recuperar todos tus ficheros y cálculos cuando abras una nueva sesión de RStudio sin más que ir al menú File > Recent Projects, seleccionar el proyecto de trabajo y cargar el entono de trabajo asociado.

Estos pasos son necesarios para asegurar que todo el trabajo que se realiza se almacena de forma adecuada para poder ser recuperado de forma sencilla. Cambia el nombre de tu proyecto y del fichero de sintaxis para cada una de las prácticas que realizaremos.

A lo largo de las sesiones prácticas apareceran recuadros de código que deberás copiar a tu fichero de sintáxis con el objeto de que puedas realizar la práctica. En todos los casos se proporcionará un ejemplo y el estudiante deberá adaptar dicho ejecutable en otras situaciones que se planteen.


Carga de librerías


En muchas ocasiones debemos recurrir a la carga de librerías de R para poder: leer o importar datos, cargar datos de librerías de R, utilizar funciones específicas de R, etc…. Por ese motivo nuestro fichero de sintaxis siempre debe comenzar con las sentencias necesarias para poder cargar todas las librerías que iremos cargando a o largo de la sesión. Como ya se pudo ver en las lecturas recomendadas para poder cargar una librería de R utilizaremos el comando library(nombre de la libreria). En nuestras primeras sesiones prácticas vamos a cargar las librerías siguientes:

library(tidyverse)
library(stringr)
library(forcats)
library(lubridate)
library(magrittr)
library(broom)
library(datasets)

Para cargar las librerías debes seguir los pasos siguientes 1. Copia el código anterior en tu fichero de sintaxis. 2. Una vez copiado se seleccionan todas las lineas y se clica sobre el botón Runque aparece en la barra de menú del fichero de sintaxis.

En la consola de RStudio aparecerán los resultados de la carga de librerías.


Cargando datos


Vamos a probar tres formas de cargar en R los datos de un diseño experimental. Utilizaremos el fichero de sintaxis creado en el punto anterior y diferentes funciones tanto para la lectura como la visualización de los datos cargados.

Creando datos

En primer lugar vamos a ver como crear nuestro propio banco de datos a través de la sintaxis de R. Esta opción es poco habitual ya que supondría transcribir todo nuestro banco de datos, pero puede resultar en experimentos muy pequeños donde tenemos pocos sujetos y variables. Para ejemplificar su uso utilizamos los datos del ejemplo1 (Krzanowski 1998) descritos en el apartado Bancos de datos de ejemplos de este documento.

Para crear el banco de datos nos ayudaremos de las funciones c() para crear cada una de las variables y `data.frame() para combinarlas todas ellas y crear el banco de datos de todos los sujetos.

# Datos de edad
edad <- c(46,57,22,22,28,29,20,25,43,63,49,34,52,28,57,40,52,24,30,36,33,48,58,50)
# Datos del nivel de colesterol
nivel <- c(3.5,4.5,2.2,2.5,2.3,3.3,1.9,3.0,3.8,4.6,4.0,3.2,4.0,2.9,4.1,3.2,4.3,2.5,2.6,3.8,3.0,4.2,3.9,3.3)
# Creación de data.frame
datos <- data.frame(edad = edad, nivel = nivel)
# Para visualizar los datos
datos

Los datos cargados aparecerán en la consola y en la ventana de Evironment (ventana superior derecha del entorno de RStudio). Clicando en esa ventana sobre los datos se abrirá una ventana de visualización de datos.

Hazlo tu mismo: Copia la sintáxis anterior en tu fichero script y ejecuta todas las sentencias. Verifica que puedes acceder a los datos a través de la ventan de Environment.

De librerías de R

Muchas de las librerías de R llevan incorporados bancos de datos para mostrar el uso de sus funciones. De hecho existen librerías que contienen únicamente datos como por ejemplo la librería datasets. El acceso a esos datos se realiza a través de la función data( ), una vez se ha cargado la librería que los contiene. Ejemplificamos su uso con el banco de datos airqualityque se encuentra alojado en la librería datasets

# Cargamos los datos mediante el nombre con que aparece en la librería
data(airquality)
# visualizamos los datos
airquality  

Hazlo tu mismo: Copia la sintáxis anterior y ejecútala en tu fichero script. Modifica la sintáxix anterior para poder cargar los bancos de datos esoph, mpg, diamonds, Puromycin y verifica que se han cargado correctamente. Para la carga de datos se deben respetar las mayúsculas - minúsculas del nombre.

Importando tus datos

Esta es la forma habitual de cargar los datos de nuestro diseño experimental. Aunque se pueden cargar ficheros con diferentes orígenes el más habitual es el formato csv. Este formato es genérico en hojas de cálculo y bases de datos ya que cualquier fichero generado en dichas aplicaciones se puede exportar en formato csv. Antes de cargar los datos debemos revisar el fichero csv para asegurarnos que los formatos numéricos (decimales y miles) corresponden a los utilizados por R. En R los decimales se identifican por punto y con comas como es habitual en muchas hojas de cálculo. Una vez creado el documento csv basta con cambiar las comas por punto para poder ser cargados en R. En este caso utilizaremos ficheros csv ya preparados y alojados en el repositorio GitHhub. Utilizaremos el enlace web del fichero para poder cargar los datos.

Para la carga de ficheros externos en formato csv utilizamos la función read_csv(). Dicha función tiene dos parámetros principales read_csv(file = nombre, col_tipes = tipos de las variables). Los tipos de variables permitidos son i para variables que contienen números enteros, d para variables que contienen números con decimales, y c para variables con texto o etiquetas.

A modo de ejemplo mostramos como cargar el conjunto de datos NCBIRTH800 que presentamos en los contenidos teóricos de esta unidad.

# Se reomienda leer la descripción de este conjunto de datos para asignar los diferentes tipos de varaibles. Recordemos que está compuesto por 14 variables.
NCBIRTH800=read_csv(file = "https://goo.gl/mB9Jcn", col_types = "dcddcccdccddcc")
NCBIRTH800  

Hazlo tu mismo: Copia la sintáxis anterior y ejecútala en tu fichero script. Modifica la sintáxix anterior para poder cargar los bancos de datos que aparecen en la tabla siguiente (enlace web y tipos de varaibles) y verifica que se han cargado correctamente.

Nombre Enlace de los datos Tipos de variables
CHOLEST https://goo.gl/b5ZAb1 id
HEADCIR https://goo.gl/juWJEu idd
PCKDATA https://goo.gl/W8Bfgv idd
LSADATA https://goo.gl/FwMcTu idddd
SERUMCHO https://goo.gl/ghxka2 iddd

Bibliografía


Krzanowski, Wojtek J. 1998. An Introduction to Statistical Modelling. Arnold.


Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.