4/30/2021

Ayudantía 3: Introducción a data.table

Contenidos:

  • Introducción al manejo de bases de datos
  • Paquetes
  • Recapitulación tipos de objetos
  • Data frame vs data.table (DT)
  • Sintaxis DT
  • Funciones utilizadas
  • Ayuda en R

Introducción

  • Como comentamos en la primera clase, la estructura de los datos y/o el formato rara vez se encuentra como uno desea

  • Por esto es importante que las personas que trabajan en DS sepan modificar datos de tal forma de dar la estructura deseada para el desafío planteado

  • En este taller se presentarán las nociones básicas para el trabajo de datos

¿Qué es un paquete?

Un paquete de R es una colección de funciones, datos y ejemplos para desarrollar un análisis específico

Revise todos los paquetes que hay!

https://cran.r-project.org

Instalación de paquetes

install.packages(“nombre_paquete”)

  • Los paquetes se instalan una vez y se guardan en su computador local.

  • Hay paquetes que ya vienen pre-instalados

  • Se puede cambiar la ubicación de donde instalar un paquete en el computador

  • A veces, es necesario también instalar los paquetes dependientes

Cargando paquetes

library(nombre_paquete)

  • Los paquetes se cargan cada vez que se inicie una nueva sesión

  • Hay paquetes que ya vienen pre-cargados

El error más común

RECUERDE SIEMPRE EJECTUAR SUS CÓDIGOS

Recapitulando

En la clase pasada mostramos que R permite trabajar diferentes clases de objetos:

    - Vectores
    - Matrices
    - Arrays
    - Data frames
    - Listas

¿Qué diferencia a cada uno de estos tipos de objetos?

Recapitulando

¿Y qué diferenciaría a una lista de los elementos anteriores?

Data frame vs data.table

Por defecto, el objeto definido para guardar bases de datos es del tipo data frame

En este laboratorio trabajaremos con una extensión de este tipo de objeto, que se llamará data.table

Data frame vs data.table

¿Y por qué data.table?

    - Más eficiente en términos de computación

    - Más “versátil”

Sintaxis data.table

Donde:

  • 𝐷𝑇 denota el nombre del objeto tipo data.table

  • 𝑖 denota la indexación por fila(s), dependiendo del valor de alguna columna (subset)

  • 𝑗 denota la indexación por columna(s)/variable(s). Se pueden aplicar funciones sobre estas

  • 𝑏𝑦 denota los condicionamientos por grupo de observación. Estos grupos están construidos por alguna columna/variable de referencia

Trabajando con data.table

Algunas de las funcionalidades que veremos con las bases de datos serán las siguientes:

    - Crear Variables
    - Eliminar Variables
    - Reemplazar valores de variables
    - Unir bases de datos
    - Crear subconjuntos de datos

Trabajando con data.table

Dentro de un objeto data frame/data.table, podemos encontrar los siguientes tipos de variables:

    - Integer: variables que toman valores solamente enteros
    - Numeric: variables que pueden tomar como valores cualquier número real
    - Character: variables que toman como valor texto
    - Factor: variables categóricas
    - Logical: variables que toman como valores “TRUE” o “FALSE”

¿Con que función podemos ver la clase de un objeto?

Funciones utilizadas

  • paste0: une objetos character sin espacios en blanco

  • fread: lee objetos .csv (datos separados por “,”)

  • as.data.table: convierte un objeto en data.table

  • as.character.factor: convierte una variable tipo factor en carácter

  • sum: suma la columna que se indique

  • weighted.mean: calcula la media de una columna contabilizando la importancia del pesos/factores de expansión

  • merge: fusiona dos objetos data.frame o data.table según una variable

Ayuda en R

  • De cero: help.start()

  • Si conoce el nombre de la función: ?x o help(x)

  • Si no se sabe el nombre de la función: ??x o help.search o Google

  • Si se sabe el nombre del paquete, pero no sus contenidos: help(package=“x”)

Ayuda en R

La ayuda de R tiene las siguientes partes:

    - Nombre de la función/datos
    - Descripción breve
    - ¿Cómo se usa?
    - Argumentos de la función
    - Detalles
    - Resultados (Values)
    - Referencias
    - Ejemplos