_________________________________________________________________________________________________________________________


1 Flujo de trabajo: Importación de datos

La importación de datos es el primer paso en el análisis y la manipulación de datos en R, ya que permite integrar datos provenientes de diversas fuentes en el entorno de trabajo. En esta sección, se revisarán dos paquetes fundamentales en R para la importación de datos: readr y readxl. Ambos paquetes ofrecen soluciones efectivas para cargar datos en diferentes formatos y proporcionan funciones que simplifican el proceso de lectura, facilitando el análisis y asegurando la precisión de los tipos de datos. Al trabajar con estos paquetes, se puede optimizar el flujo de trabajo, mejorando la eficiencia y reduciendo posibles errores durante la carga de datos.

2 Paquete reader


JuveYell


El paquete readr en R es una herramienta útil para importar archivos de datos en una variedad de formatos. Su principal ventaja es que proporciona una interfaz simplificada y consistente, permitiendo leer archivos en formato “csv”. Incluye un manejo robusto de los tipos de datos, convirtiendo automáticamente las columnas al tipo más apropiado en R y facilitando así el análisis de datos.

3 Paquete readxl


JuveYell


El paquete readxl es ampliamente utilizado en R para importar hojas de cálculo en los formatos “xls” y “xlsx”. Permite leer archivos de Excel desde rutas locales o de sistemas de almacenamiento en la nube, y es capaz de gestionar múltiples hojas en un solo archivo mediante el uso del argumento sheet. Este paquete es particularmente útil en entornos donde Excel es una fuente principal de datos, ya que facilita la importación y permite mantener el formato original del archivo para análisis rápidos y eficientes.

4 Instalamos y/o cargamos paquetes

library("tidyverse")
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library("readxl")

5 Función read_csv()

La función read_csv() del paquete readr en R es una herramienta rápida y eficiente para la importación de archivos en formato “csv” (Comma-Separated Values o valores separados por comas). Es especialmente útil en proyectos que requieren una carga ágil de grandes volúmenes de datos, ya que ofrece mejoras en velocidad y en el manejo de memoria. Esta función asigna automáticamente tipos de datos a cada columna, generando objetos tipo tibble, que son una variante moderna y más versátil de los data.frames tradicionales.
Una de las ventajas de dicha función es su capacidad para importar archivos “csv” alojados en la web, incluyendo bases de datos de Google Sheets. Para esto, basta con publicar el archivo en Google Sheets y utilizar el enlace público del archivo con el parámetro ?output=csv al final de la URL. Esto permite que read_csv lea el archivo como si fuera un archivo “csv” en línea, facilitando la colaboración y el acceso a datos almacenados en la nube sin necesidad de descargarlos manualmente.
Veamos un ejemplo…

ALUMNOS_2024 <- read_csv("https://docs.google.com/spreadsheets/d/1Mpkh3xnFmxjQeReY5lEiODOSVA31FcnoyuO-3T0Spzs/pub?output=csv")
## Rows: 28 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (4): Marca temporal, PROCEDENCIA, GENERO, NIVEL.DIF.CARR
## dbl (3): EDAD, ALTURA, N.ASIG.APR
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
names(ALUMNOS_2024)
## [1] "Marca temporal" "EDAD"           "PROCEDENCIA"    "GENERO"        
## [5] "NIVEL.DIF.CARR" "ALTURA"         "N.ASIG.APR"

6 Función read_excel()

La función read_excel() del paquete readxl permite la importación de archivos de Excel en formatos “.xls” y “.xlsx”. Además, se puede especificar la hoja que se desea leer mediante el argumento sheet, que acepta tanto el nombre de la hoja como su número de índice. Esto es útil cuando se trabaja con archivos que contienen múltiples hojas de datos.
Veamos un ejemplo…

MANDARINAS <- read_excel("MANDARINAS_2024.xlsx")
glimpse(MANDARINAS)
## Rows: 419
## Columns: 8
## $ N             <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ GRUPO         <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
## $ VARIEDAD      <chr> "Clementina", "Clementina", "Clementina", "Clementina", …
## $ N_DE_FRUTO    <dbl> 19, 9, 21, 8, 4, 30, 22, 23, 17, 27, 29, 14, 16, 13, 25,…
## $ PESO          <dbl> 101, 122, 127, 126, 37, 139, 140, 130, 138, 142, 121, 15…
## $ DIAM_ECUAT    <dbl> 64.2, 64.2, 64.7, 64.9, 65.9, 66.4, 67.1, 67.5, 68.2, 68…
## $ NIVEL_DE_DAÑO <dbl> 1, 0, 3, 3, 2, 2, 3, 1, 2, 2, 2, 1, 1, 2, 1, 1, 0, 1, 0,…
## $ COLOR         <dbl> 4, 5, 4, 1, 5, 4, 4, 3, 3, 4, 4, 1, 1, 3, 4, 1, 4, 1, 5,…

7 Páginas de interés