Contenidos:
- Introducción al manejo de bases de datos
- Paquetes
- Recapitulación tipos de objetos
- Data frame vs data.table (DT)
- Sintaxis DT
- Funciones utilizadas
- Ayuda en R
4/30/2021
Contenidos:
Como comentamos en la primera clase, la estructura de los datos y/o el formato rara vez se encuentra como uno desea
Por esto es importante que las personas que trabajan en DS sepan modificar datos de tal forma de dar la estructura deseada para el desafío planteado
En este taller se presentarán las nociones básicas para el trabajo de datos
Un paquete de R es una colección de funciones, datos y ejemplos para desarrollar un análisis específico
Revise todos los paquetes que hay!
install.packages(“nombre_paquete”)
Los paquetes se instalan una vez y se guardan en su computador local.
Hay paquetes que ya vienen pre-instalados
Se puede cambiar la ubicación de donde instalar un paquete en el computador
A veces, es necesario también instalar los paquetes dependientes
library(nombre_paquete)
Los paquetes se cargan cada vez que se inicie una nueva sesión
Hay paquetes que ya vienen pre-cargados
RECUERDE SIEMPRE EJECTUAR SUS CÓDIGOS
En la clase pasada mostramos que R permite trabajar diferentes clases de objetos:
- Vectores - Matrices - Arrays - Data frames - Listas
¿Qué diferencia a cada uno de estos tipos de objetos?
¿Y qué diferenciaría a una lista de los elementos anteriores?
Por defecto, el objeto definido para guardar bases de datos es del tipo data frame
En este laboratorio trabajaremos con una extensión de este tipo de objeto, que se llamará data.table
¿Y por qué data.table?
- Más eficiente en términos de computación - Más “versátil”
Donde:
𝐷𝑇 denota el nombre del objeto tipo data.table
𝑖 denota la indexación por fila(s), dependiendo del valor de alguna columna (subset)
𝑗 denota la indexación por columna(s)/variable(s). Se pueden aplicar funciones sobre estas
𝑏𝑦 denota los condicionamientos por grupo de observación. Estos grupos están construidos por alguna columna/variable de referencia
Algunas de las funcionalidades que veremos con las bases de datos serán las siguientes:
- Crear Variables - Eliminar Variables - Reemplazar valores de variables - Unir bases de datos - Crear subconjuntos de datos
Dentro de un objeto data frame/data.table, podemos encontrar los siguientes tipos de variables:
- Integer: variables que toman valores solamente enteros - Numeric: variables que pueden tomar como valores cualquier número real - Character: variables que toman como valor texto - Factor: variables categóricas - Logical: variables que toman como valores “TRUE” o “FALSE”
¿Con que función podemos ver la clase de un objeto?
paste0: une objetos character sin espacios en blanco
fread: lee objetos .csv (datos separados por “,”)
as.data.table: convierte un objeto en data.table
as.character.factor: convierte una variable tipo factor en carácter
sum: suma la columna que se indique
weighted.mean: calcula la media de una columna contabilizando la importancia del pesos/factores de expansión
merge: fusiona dos objetos data.frame o data.table según una variable
De cero: help.start()
Si conoce el nombre de la función: ?x o help(x)
Si no se sabe el nombre de la función: ??x o help.search o Google
Si se sabe el nombre del paquete, pero no sus contenidos: help(package=“x”)
La ayuda de R tiene las siguientes partes:
- Nombre de la función/datos - Descripción breve - ¿Cómo se usa? - Argumentos de la función - Detalles - Resultados (Values) - Referencias - Ejemplos