_________________________________________________________________________________________________________________________
La importación de datos es el primer paso en el análisis y la
manipulación de datos en R, ya que permite integrar datos provenientes
de diversas fuentes en el entorno de trabajo. En esta sección, se
revisarán dos paquetes fundamentales en R para la importación de datos:
readr y readxl. Ambos paquetes ofrecen
soluciones efectivas para cargar datos en diferentes formatos y
proporcionan funciones que simplifican el proceso de lectura,
facilitando el análisis y asegurando la precisión de los tipos de datos.
Al trabajar con estos paquetes, se puede optimizar el flujo de trabajo,
mejorando la eficiencia y reduciendo posibles errores durante la carga
de datos.
El paquete readr en R es una
herramienta útil para importar archivos de datos en una variedad de
formatos. Su principal ventaja es que proporciona una interfaz
simplificada y consistente, permitiendo leer archivos en formato “csv”.
Incluye un manejo robusto de los tipos de datos, convirtiendo
automáticamente las columnas al tipo más apropiado en R y facilitando
así el análisis de datos.
El paquete readxl es ampliamente utilizado
en R para importar hojas de cálculo en los formatos “xls” y “xlsx”.
Permite leer archivos de Excel desde rutas locales o de sistemas de
almacenamiento en la nube, y es capaz de gestionar múltiples hojas en un
solo archivo mediante el uso del argumento sheet. Este
paquete es particularmente útil en entornos donde Excel es una fuente
principal de datos, ya que facilita la importación y permite mantener el
formato original del archivo para análisis rápidos y eficientes.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
read_csv()La función read_csv() del paquete readr en
R es una herramienta rápida y eficiente para la importación de archivos
en formato “csv” (Comma-Separated Values o valores separados por comas).
Es especialmente útil en proyectos que requieren una carga ágil de
grandes volúmenes de datos, ya que ofrece mejoras en velocidad y en el
manejo de memoria. Esta función asigna automáticamente tipos de datos a
cada columna, generando objetos tipo tibble, que son una
variante moderna y más versátil de los data.frames
tradicionales.
Una de las ventajas de dicha función es su capacidad para importar
archivos “csv” alojados en la web, incluyendo bases de datos de
Google Sheets. Para esto, basta con publicar el archivo en
Google Sheets y utilizar el enlace público del archivo con el
parámetro ?output=csv al final de la URL. Esto permite que
read_csv lea el archivo como si fuera un archivo “csv” en
línea, facilitando la colaboración y el acceso a datos almacenados en la
nube sin necesidad de descargarlos manualmente.
Veamos un ejemplo…
ALUMNOS_2024 <- read_csv("https://docs.google.com/spreadsheets/d/1Mpkh3xnFmxjQeReY5lEiODOSVA31FcnoyuO-3T0Spzs/pub?output=csv")## Rows: 28 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (4): Marca temporal, PROCEDENCIA, GENERO, NIVEL.DIF.CARR
## dbl (3): EDAD, ALTURA, N.ASIG.APR
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## [1] "Marca temporal" "EDAD" "PROCEDENCIA" "GENERO"
## [5] "NIVEL.DIF.CARR" "ALTURA" "N.ASIG.APR"
read_excel()La función read_excel() del paquete readxl
permite la importación de archivos de Excel en formatos “.xls” y
“.xlsx”. Además, se puede especificar la hoja que se desea leer mediante
el argumento sheet, que acepta tanto el nombre de la hoja
como su número de índice. Esto es útil cuando se trabaja con archivos
que contienen múltiples hojas de datos.
Veamos un ejemplo…
## Rows: 419
## Columns: 8
## $ N <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ GRUPO <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
## $ VARIEDAD <chr> "Clementina", "Clementina", "Clementina", "Clementina", …
## $ N_DE_FRUTO <dbl> 19, 9, 21, 8, 4, 30, 22, 23, 17, 27, 29, 14, 16, 13, 25,…
## $ PESO <dbl> 101, 122, 127, 126, 37, 139, 140, 130, 138, 142, 121, 15…
## $ DIAM_ECUAT <dbl> 64.2, 64.2, 64.7, 64.9, 65.9, 66.4, 67.1, 67.5, 68.2, 68…
## $ NIVEL_DE_DAÑO <dbl> 1, 0, 3, 3, 2, 2, 3, 1, 2, 2, 2, 1, 1, 2, 1, 1, 0, 1, 0,…
## $ COLOR <dbl> 4, 5, 4, 1, 5, 4, 4, 3, 3, 4, 4, 1, 1, 3, 4, 1, 4, 1, 5,…