22/07/25
Abstract
En el documento RPubs :: Enlaces y materiales puede consultarse la teoría mencionada. En Rpubs :: toc se pueden ver otros documentos de posible interés.
La estructura de datos más importante para casi todos los métodos estadísticos es el data frame (básicamente una tabla). En general, es solo un tipo específico de otra estructura de datos (la lista).
Actualmente, es el formato de entrada de nuestros datos más frecuente para los análisis estadísticos (dentro de R, pero también para otros programas estadísticos y, por supuesto, para softwares de hojas de cálculo).
Por esta razón, primero, es importante cargar/importar los datos antes de iniciar nuestro análisis. En los capítulos siguientes de este documento, se explicará cómo hacer esta carga/importación de datos.
Para más detalles relacionados con los data frames, se puede consultar el documento Rpubs :: data frames (generalidades).
Una vez dentro de RStudio (puede consultarse el documento RPubs :: RStudio), la siguiente imagen nos describe lo que regularmente debemos tener en cuenta para inciar nuestro análisis de una base de datos con R.
R contiene datasets que pueden ser utilizados directamente. Se pueden visualizar en haciendo click en este enlace. Otra manera de visualizar estos paquetes es:
paquetes <- library(help = "datasets") #A) El datasets de R
head(paquetes$info[[2]]) #B) Solo una parte del datasets
Si se quiere utilizar, por ejemplo, el datasets AirPassengers, ejecutamos la siguiente línea:
AirPassengers #C) Datasets AirPassengers
Con ?AirPassengers vemos la descripción de los datos y con str(AirPassengers), su estructura:
?AirPassengers #D) Ayuda en R
str(AirPassengers) #E) Estructura de los datos
Este programa posee una pestaña en donde tenemos el Environment o Entorno de trabajo (ubicado en la ventana 3 de la figura de abajo) y un botón (Import Dataset, el No. 11) que nos permite importar nuestros datasets desde diferentes formatos.
Con esta opción, se pueden importar directamente datasets desde un archivo:
Local: From text(base).
CSV: From text(readr).
Excel: From Excel.
SPSS: From SPSS.
SAS: From SAS.
STATA: From STATA.
Para revisar estas opciones con detalles, puede consultarse el documento Importing Data with the RStudio IDE.
Se pueden importar datos a través de archivos de textos (por ejemplo, .csv o .txt). Una forma de leer el archivo es:
read.csv(file = 'nombre_de_archivo.csv')
A veces, algunas computadoras en español utilizan el separador “;” en vez de “,” para archivos .csv. En ese caso, el conjunto de datos se puede leer así:
read.csv(file = 'nombre_de_archivo.csv', sep = ';')
Un archivo separado por tabulaciones (.txt) puede leerse como:
read.table(file = 'nombre_de_archivo.txt', sep = '\t')
Con el paquete haven podemos leer desde SAS usando read_sas(…) o read_spss(…);
read_sas("nombre_de_archivo.sas7bdat", package = "haven")
Con el paquete foreign2, se utiliza la función read.ssd() para leer archivos desde SAS:
library(foreign2)
read.ssd("path del archivo", "nombre_de_archivo.sas7bdat", tmpXport=tempfile(), tmpProgLoc=tempfile(), sascmd="sas")
R puede leer datos directamente de SPSS y STATA con los paquetes foreign y haven, a través de la función read_spss(…).
library(haven)
read.sspss("nombre_de_archivo.sav")
R también puede leer datos en la forma .xls o .xlsx. Existen distintos paquetes o funciones que permiten realizar la tarea. Explicaremos cada uno de ellos.
El paquete readxl contiene la función read_excel(…), entre otras.
El paquete xlsx contiene la función read.xlsx(…), entre otras.
Es una función que copia y pega un archivo en R. Para ejecutarla, debemos seguir los siguientes pasos:
Abrir el archivo de excel.
Copiar (de la manera habitual) el rango de datos que queremos importar (incluyendo los nombres de las variables).
Colocar el cursor en el código de abajo (el A) y hacer click en RUN (botón No. 8, en la esquina superior derecha de la ventana 1 de RStudio) o ejecutar el chunk correspondiente (con el botón No. 10 de esa misma ventana).
datosCompleto <- read.delim('clipboard') #A) Importando la base de datos y asignando un nombre
datosCompleto #B) Todos los datos
En este caso, en el código A, hemos llamado datosCompleto a nuestro conjunto de datos. En el lenguaje de R, datosCompleto es un objeto que representa un data frame. En general, los data frames son estructuras de datos de dos dimensiones (rectangulares). Al ejecutar el código B, visualizaríamos todos los datos. Para más descripciones de un data frame, puede consultarse el documento RPubs :: Examinar data frames.
Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46 variables, las cuales se describen en este enlace (click aquí).
La base de datos es la descrita anteriormente y supongamos que se encuentra en excel (en un archivo llamado Estudiantes.xlsx). Para crear un archivo de extensión Rdata, se carga la librería readxl y se aplica la función read_excel de la siguiente manera (hay que seleccionar la hoja de excel de interés con la opción sheet):
library(readxl)
Estudiantes <- read_excel("Estudiantes.xlsx", sheet = "Base de datos")
save(Estudiantes, file="Estudiantes.Rdata")
El archivo generado queda guardado en la carpeta de trabajo de R. Para visualizar el dataframe correspondiente, se ejecutan los códigos de abajo:
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
La base de datos es la misma que la anterior. Solo que ahora se debe seguir los siguientes pasos: Primero, se debe instalar la librería repmis y, luego, ejecutar los códigos de abajo:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Es posible utilizar una URL para leer datos. Para ello, es necesario conocer la dirección directa al archivo de texto y su extensión. El archivo se lee así: read.delim(url).
Ejemplo
Supongamos que se quiere importar la base de datos mencionada anteriormente (Estudiantes). Para ello, se deben seguir los siguientes pasos:
Abrir el archivo excel en Google drive.
Ir al menú Archivo y dar click en Publicar en la web.
Sale la ventana de diálogo Publicar en la web:
En el botón Todo el documento, escoger la Hoja de excel donde está la base de datos.
En el botón Página web, seleccionar Valores separados por tabuladores (.tsv).
Dar click en Publicar.
Luego copiar y pegar el enlace (como se indica en el código A de abajo). Finalmente, importar y nombrar la base de datos (código B):
url.dat <- "http://bit.ly/Database-Estudiantes" #A) La url desde drive
datosCompleto <- read.delim(url.dat) #B) Objeto que define el data frame
Crear un nuevo documento R Markdown, realizando las siguientes actividades: Descargar datasets de R, crear archivos de excel (o, en otros formatos) y aplicar la teoría explicada arriba.
Consultar el documento RPubs :: Enlace y materiales de ayuda.
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.