Modelos Estadísticos. Grado Biotecnología
Abstract
En esta sesión práctica aprenderemos a importar datos desde diferentes fuentes a nuestro proyecto activo.Trabajar y analizar nuestros datos es el objetivo fundamental cuando realizamos cualquier diseño experimental. En R y RStudio hay tres procedimientos:
A lo largo de esta práctica utilizaremos diferentes ejemplos para mostrar como importar los datos de nuestra investigación utilizando la librería tidyverse.
Antes de cargar nuestros datos de trabajo es recomendable realizar siempre los siguientes pasos:
File > New Project...
y asignar un nombre al proyecto. En el momento de creación del proyecto podrás crear un directorio (en local) donde se ira almacenando todo tu trabajo. Crea un proyecto de trabajo con nombre P01MODSTAT
. RStudio le asignará la extensión Rproj
.File > New File > R Script
. Dicho fichero aparecerá sin nombre, de forma que se recomienda guardarlo con un nombre antes de continuar (File > Save As...
). Dicho fichero debe aparecer en el directorio de trabajo (ventana inferior derecha de RStudio). Crea un fichero de sintaxis con el nombre Práctica 1
. RStudio le asignará la extensión r
.Cuando acabes la sesión se deben guardar todos los documentos (File > Save All
) y cerrar el proyecto (File > Close Project
). En se momento deberás guardar también el entorno de trabajo. De esta forma podrás recuperar todos tus ficheros y cálculos cuando abras una nueva sesión de RStudio sin más que ir al menú File > Recent Projects
, seleccionar el proyecto de trabajo y cargar el entono de trabajo asociado.
Estos pasos son necesarios para asegurar que todo el trabajo que se realiza se almacena de forma adecuada para poder ser recuperado de forma sencilla. Cambia el nombre de tu proyecto y del fichero de sintaxis para cada una de las prácticas que realizaremos.
A lo largo de las sesiones prácticas apareceran recuadros de código que deberás copiar a tu fichero de sintáxis con el objeto de que puedas realizar la práctica. En todos los casos se proporcionará un ejemplo y el estudiante deberá adaptar dicho ejecutable en otras situaciones que se planteen.
En muchas ocasiones debemos recurrir a la carga de librerías de R para poder: leer o importar datos, cargar datos de librerías de R, utilizar funciones específicas de R, etc…. Por ese motivo nuestro fichero de sintaxis siempre debe comenzar con las sentencias necesarias para poder cargar todas las librerías que iremos cargando a o largo de la sesión. Como ya se pudo ver en las lecturas recomendadas para poder cargar una librería de R utilizaremos el comando library(nombre de la libreria)
. En nuestras primeras sesiones prácticas vamos a cargar las librerías siguientes:
library(tidyverse)
library(stringr)
library(forcats)
library(lubridate)
library(magrittr)
library(broom)
library(datasets)
Para cargar las librerías debes seguir los pasos siguientes 1. Copia el código anterior en tu fichero de sintaxis. 2. Una vez copiado se seleccionan todas las lineas y se clica sobre el botón Run
que aparece en la barra de menú del fichero de sintaxis.
En la consola de RStudio aparecerán los resultados de la carga de librerías.
Vamos a probar tres formas de cargar en R los datos de un diseño experimental. Utilizaremos el fichero de sintaxis creado en el punto anterior y diferentes funciones tanto para la lectura como la visualización de los datos cargados.
En primer lugar vamos a ver como crear nuestro propio banco de datos a través de la sintaxis de R. Esta opción es poco habitual ya que supondría transcribir todo nuestro banco de datos, pero puede resultar en experimentos muy pequeños donde tenemos pocos sujetos y variables. Para ejemplificar su uso utilizamos los datos del ejemplo1 (Krzanowski 1998) descritos en el apartado Bancos de datos de ejemplos de este documento.
Para crear el banco de datos nos ayudaremos de las funciones c()
para crear cada una de las variables y `data.frame() para combinarlas todas ellas y crear el banco de datos de todos los sujetos.
# Datos de edad
edad <- c(46,57,22,22,28,29,20,25,43,63,49,34,52,28,57,40,52,24,30,36,33,48,58,50)
# Datos del nivel de colesterol
nivel <- c(3.5,4.5,2.2,2.5,2.3,3.3,1.9,3.0,3.8,4.6,4.0,3.2,4.0,2.9,4.1,3.2,4.3,2.5,2.6,3.8,3.0,4.2,3.9,3.3)
# Creación de data.frame
datos <- data.frame(edad = edad, nivel = nivel)
# Para visualizar los datos
datos
Los datos cargados aparecerán en la consola y en la ventana de Evironment (ventana superior derecha del entorno de RStudio). Clicando en esa ventana sobre los datos se abrirá una ventana de visualización de datos.
Hazlo tu mismo: Copia la sintáxis anterior en tu fichero script y ejecuta todas las sentencias. Verifica que puedes acceder a los datos a través de la ventan de Environment.
Muchas de las librerías de R llevan incorporados bancos de datos para mostrar el uso de sus funciones. De hecho existen librerías que contienen únicamente datos como por ejemplo la librería datasets
. El acceso a esos datos se realiza a través de la función data( )
, una vez se ha cargado la librería que los contiene. Ejemplificamos su uso con el banco de datos airquality
que se encuentra alojado en la librería datasets
# Cargamos los datos mediante el nombre con que aparece en la librería
data(airquality)
# visualizamos los datos
airquality
Hazlo tu mismo: Copia la sintáxis anterior y ejecútala en tu fichero script. Modifica la sintáxix anterior para poder cargar los bancos de datos esoph, mpg, diamonds, Puromycin y verifica que se han cargado correctamente. Para la carga de datos se deben respetar las mayúsculas - minúsculas del nombre.
Esta es la forma habitual de cargar los datos de nuestro diseño experimental. Aunque se pueden cargar ficheros con diferentes orígenes el más habitual es el formato csv. Este formato es genérico en hojas de cálculo y bases de datos ya que cualquier fichero generado en dichas aplicaciones se puede exportar en formato csv. Antes de cargar los datos debemos revisar el fichero csv para asegurarnos que los formatos numéricos (decimales y miles) corresponden a los utilizados por R. En R los decimales se identifican por punto y con comas como es habitual en muchas hojas de cálculo. Una vez creado el documento csv basta con cambiar las comas por punto para poder ser cargados en R. En este caso utilizaremos ficheros csv ya preparados y alojados en el repositorio GitHhub. Utilizaremos el enlace web del fichero para poder cargar los datos.
Para la carga de ficheros externos en formato csv utilizamos la función read_csv()
. Dicha función tiene dos parámetros principales read_csv(file = nombre, col_tipes = tipos de las variables)
. Los tipos de variables permitidos son i
para variables que contienen números enteros, d
para variables que contienen números con decimales, y c
para variables con texto o etiquetas.
A modo de ejemplo mostramos como cargar el conjunto de datos NCBIRTH800 que presentamos en los contenidos teóricos de esta unidad.
# Se reomienda leer la descripción de este conjunto de datos para asignar los diferentes tipos de varaibles. Recordemos que está compuesto por 14 variables.
NCBIRTH800=read_csv(file = "https://goo.gl/mB9Jcn", col_types = "dcddcccdccddcc")
NCBIRTH800
Hazlo tu mismo: Copia la sintáxis anterior y ejecútala en tu fichero script. Modifica la sintáxix anterior para poder cargar los bancos de datos que aparecen en la tabla siguiente (enlace web y tipos de varaibles) y verifica que se han cargado correctamente.
Nombre | Enlace de los datos | Tipos de variables |
---|---|---|
CHOLEST | https://goo.gl/b5ZAb1 | id |
HEADCIR | https://goo.gl/juWJEu | idd |
PCKDATA | https://goo.gl/W8Bfgv | idd |
LSADATA | https://goo.gl/FwMcTu | idddd |
SERUMCHO | https://goo.gl/ghxka2 | iddd |
Krzanowski, Wojtek J. 1998. An Introduction to Statistical Modelling. Arnold.
Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.