Sesion 3

28/01/2021

Repaso de escritura con R Markdown

Paso 1: Creamos un nuevo proyecto (dentro de la carpeta “R”)

Menú File > 
  New Proyect > 
  New Directory > 
  New Proyect > 
  Elegir nombre y ubicación > 
  Create project

Paso 2: Creamos un nuevo archivo R Markdown

Menú File > 
  New File > 
  R Markdown > 
  Configurar nombre de autor >
  Ok

Paso 3: Replicar un artículo de la BBC. Sólo hasta llegar al encabezado “Universidades con y sin fines de lucro” .

Paso 4: Hacer Knit al documento con output HTML.

Importación de datos

Recuerda el primer paso

Paso 1: Creamos un nuevo proyecto (dentro de la carpeta “R”)

Menú File > 
  New Proyect > 
  New Directory > 
  New Proyect > 
  Elegir nombre y ubicación > 
  Create project

Material a utilizar

R para ciencia de datos. Capítulo Importación de datos
Importing data with RStudio blog
Different ways of importing data into R blog

La data a importar en la práctica se encuentra en una carpeta de Google Drive para su descarga. No olvides ubicar todos los archivos descargados dentro de la carpeta “data” de tu proyecto.

Descomprimir archivos

Dos de los archivos descargados han sido comprimidos. Para descomprimirlos, puedes hacer uso del siguiente código.

unzip(zipfile = "data/enaho01a_2019_500.zip", exdir = "data")
unzip(zipfile = "data/Enaho01A-2020-500.zip", exdir = "data")

zipfile: Nombre del archivo a descomprimir
exdir: Carpeta en la que se ubicará el contenido descomprimido

Ahora deberías contar con todos estos archivos en tu carpeta “data”.

archivos
diamonds_sample.tsv
enaho01a_2019_500.dta
enaho01a_2019_500.zip
Enaho01A-2020-500.sav
Enaho01A-2020-500.zip
gapminder_skip.xlsx
gapminder.xlsx
iris.csv
mtcars.txt

Paquetes necesarios

Existen paquetes especializados para cada tipo de datos que deseamos descargar. En esta oportunidad, aprenderemos a usar los siguientes.

readr: Para archivos de texto
readxl: Para archivos de Excel
haven: Para archivos de SPSS y Stata

Recuerda

Fuera del mundo de la investigación académica, existen muchos tipos de formatos de almacenamiento de datos que están mejor optimizados para tareas específicas.

Una característica común de todos los paquetes presentados es que al leer los datos en R, se crean como tibbles, un formato de trabajo para datos tabulares que existe sólo en R. Además de ello, sus funciones comparten elementos en su interfaz (API), lo que permite trabajar con distintos tipos de datos realizando cambios mínimos.

Importación de archivos de texto

Cargando readr

Para acceder a las funciones de un paquete, siempre debemos primero cargarlo haciendo uso de library().

library(readr)

Esto nos permitirá tener acceso a las funciones y datos contenidos en el paquete.

En la carpeta “data” contamos contamos con tres tipos de archivos de texto.

mtcars.txt: Texto separado por un delimitador arbitrario.
diamonds_sample.tsv: Texto separado por tabulaciones
iris.csv: Texto separado por comas

La función que nutre el núcleo de readr es read_delim(). Nos permitirá leer prácticamente todo tipo de archivos de texto siempre y cuando le indiquemos el tipo de delimitador.

Exploremos los archivos de texto en nuestra carpeta “data”.