hllinas2023

1 Data frame

La estructura de datos más importante para casi todos los métodos estadísticos es el data frame (básicamente una tabla). En general, es solo un tipo específico de otra estructura de datos (la lista).

Actualmente, es el formato de entrada de nuestros datos más frecuente para los análisis estadísticos (dentro de R, pero también para otros programas estadísticos y, por supuesto, para softwares de hojas de cálculo).

Por esta razón, primero, es importante cargar/importar los datos antes de iniciar nuestro análisis. En los capítulos siguientes de este documento, se explicará cómo hacer esta carga/importación de datos.

Para más detalles relacionados con los data frames, se puede consultar el documento Rpubs :: data frames (generalidades).

2 Primeros pasos en R

Una vez dentro de RStudio (puede consultarse el documento RPubs :: RStudio), la siguiente imagen nos describe lo que regularmente debemos tener en cuenta para inciar nuestro análisis de una base de datos con R.

3 El datasets de R

R contiene datasets que pueden ser utilizados directamente. Se pueden visualizar en haciendo click en este enlace. Otra manera de visualizar estos paquetes es:

paquetes <- library(help = "datasets")   #A) El datasets de R
head(paquetes$info[[2]])                 #B) Solo una parte del datasets

Si se quiere utilizar, por ejemplo, el datasets AirPassengers, ejecutamos la siguiente línea:

AirPassengers    #C) Datasets AirPassengers

Con ?AirPassengers vemos la descripción de los datos y con str(AirPassengers), su estructura:

?AirPassengers         #D) Ayuda en R
str(AirPassengers)     #E) Estructura de los datos

4 Importar datos desde Rstudio

Este programa posee una pestaña en donde tenemos el Environment o Entorno de trabajo (ubicado en la ventana 3 de la figura de abajo) y un botón (Import Dataset, el No. 11) que nos permite importar nuestros datasets desde diferentes formatos.

Con esta opción, se pueden importar directamente datasets desde un archivo:

  1. Local: From text(base).

  2. CSV: From text(readr).

  3. Excel: From Excel.

  4. SPSS: From SPSS.

  5. SAS: From SAS.

  6. STATA: From STATA.

Para revisar estas opciones con detalles, puede consultarse el documento Importing Data with the RStudio IDE.

5 Importar a través de archivos .csv o .txt

Se pueden importar datos a través de archivos de textos (por ejemplo, .csv o .txt). Una forma de leer el archivo es:

read.csv(file = 'nombre_de_archivo.csv')

A veces, algunas computadoras en español utilizan el separador “;” en vez de “,” para archivos .csv. En ese caso, el conjunto de datos se puede leer así:

read.csv(file = 'nombre_de_archivo.csv', sep = ';')

Un archivo separado por tabulaciones (.txt) puede leerse como:

read.table(file = 'nombre_de_archivo.txt', sep = '\t')

6 Importar de otros programas estadísticos

6.0.1 A través de SAS con haven

Con el paquete haven podemos leer desde SAS usando read_sas(…) o read_spss(…);

read_sas("nombre_de_archivo.sas7bdat", package = "haven")

6.0.2 A través de SAS con foreign2

Con el paquete foreign2, se utiliza la función read.ssd() para leer archivos desde SAS:

library(foreign2)
read.ssd("path del archivo", "nombre_de_archivo.sas7bdat", tmpXport=tempfile(), tmpProgLoc=tempfile(), sascmd="sas")

6.0.3 A través de SPSS y STATA

R puede leer datos directamente de SPSS y STATA con los paquetes foreign y haven, a través de la función read_spss(…).

library(haven)
read.sspss("nombre_de_archivo.sav")

7 Importar datos desde excel

R también puede leer datos en la forma .xls o .xlsx. Existen distintos paquetes o funciones que permiten realizar la tarea. Explicaremos cada uno de ellos.

7.0.1 A través de read_excel o read.xlsx

  1. El paquete readxl contiene la función read_excel(…), entre otras.

  2. El paquete xlsx contiene la función read.xlsx(…), entre otras.

7.0.2 A través de read.delim(‘clipboard’)

Es una función que copia y pega un archivo en R. Para ejecutarla, debemos seguir los siguientes pasos:

  1. Abrir el archivo de excel.

  2. Copiar (de la manera habitual) el rango de datos que queremos importar (incluyendo los nombres de las variables).

  3. Colocar el cursor en el código de abajo (el A) y hacer click en RUN (botón No. 8, en la esquina superior derecha de la ventana 1 de RStudio) o ejecutar el chunk correspondiente (con el botón No. 10 de esa misma ventana).

datosCompleto <- read.delim('clipboard') #A) Importando la base de datos y asignando un nombre
datosCompleto                            #B) Todos los datos

En este caso, en el código A, hemos llamado datosCompleto a nuestro conjunto de datos. En el lenguaje de R, datosCompleto es un objeto que representa un data frame. En general, los data frames son estructuras de datos de dos dimensiones (rectangulares). Al ejecutar el código B, visualizaríamos todos los datos. Para más descripciones de un data frame, puede consultarse el documento RPubs :: Examinar data frames.

8 Importar datos Rdata

8.0.1 Descripción del conjunto de datos

Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46 variables, las cuales se describen en este enlace (click aquí).

8.0.2 Convertir un archivo excel en Rdata

La base de datos es la descrita anteriormente y supongamos que se encuentra en excel (en un archivo llamado Estudiantes.xlsx). Para crear un archivo de extensión Rdata, se carga la librería readxl y se aplica la función read_excel de la siguiente manera (hay que seleccionar la hoja de excel de interés con la opción sheet):

library(readxl)
Estudiantes <- read_excel("Estudiantes.xlsx",  sheet = "Base de datos")
save(Estudiantes, file="Estudiantes.Rdata")

8.0.3 Cargar el archivo Rdata en R

El archivo generado queda guardado en la carpeta de trabajo de R. Para visualizar el dataframe correspondiente, se ejecutan los códigos de abajo:

load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes

9 Importar datos desde la web (github)

La base de datos es la misma que la anterior. Solo que ahora se debe seguir los siguientes pasos: Primero, se debe instalar la librería repmis y, luego, ejecutar los códigos de abajo:

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes

10 Importar datos desde la web (Google Drive)

Es posible utilizar una URL para leer datos. Para ello, es necesario conocer la dirección directa al archivo de texto y su extensión. El archivo se lee así: read.delim(url).

Ejemplo

Supongamos que se quiere importar la base de datos mencionada anteriormente (Estudiantes). Para ello, se deben seguir los siguientes pasos:

  1. Abrir el archivo excel en Google drive.

  2. Ir al menú Archivo y dar click en Publicar en la web.

  3. Sale la ventana de diálogo Publicar en la web:

    • En el botón Todo el documento, escoger la Hoja de excel donde está la base de datos.

    • En el botón Página web, seleccionar Valores separados por tabuladores (.tsv).

    • Dar click en Publicar.

  4. Luego copiar y pegar el enlace (como se indica en el código A de abajo). Finalmente, importar y nombrar la base de datos (código B):

url.dat <- "http://bit.ly/Database-Estudiantes"    #A) La url desde drive
datosCompleto <- read.delim(url.dat)               #B) Objeto que define el data frame

11 Ejercicios

Crear un nuevo documento R Markdown, realizando las siguientes actividades: Descargar datasets de R, crear archivos de excel (o, en otros formatos) y aplicar la teoría explicada arriba.

Bibliografía

Consultar el documento RPubs :: Enlace y materiales de ayuda.

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.