I.- INTRODUCCION

Cuando inicias tu experiencia de análisis y estudio de datos a través de RStudio, se requiere un conocimiento previo para procesar adecuadamente los datos. En general la información es amplia y a diario en la web de crea material en distintos repositorios, incluyendo interesantes videos en youtube o sitios en Rpubs. Basado en mi experiencia como docente Universitario, considero necesario agrupar algunas de éstas técnicas de manipulación de la información con la finalidad de ahorrar tiempo de búsqueda de éstos y al mismo tiempo repasar algunos conocimientos previos.

II.- MANIPULACION INICIAL DE DATOS EN RStudio

Para manipular adecuadamente los datos es preciso practicar algunas técnicas para obtener los datos (Data Frame) y poder acceder a ellos de forma amigable. Cabe señalar que en RStudio existen múltiples opciones de realizar una misma tarea, por tanto lo que se describe en el presente resumen, sólo muestra una pequeña parte dentro de las alternativas posibles de realizar.

A continuación, revisaremos tres supuestos que podrian ser de mucha utilidad:

2.1.- DATOS DISPONIBLES EN LA WEB

En determinado caso, se requiere acceder a un repositorio de datos sin la necesidad de bajar un archivo, como por ejemplo Github (https://www.youtube.com/watch?v=w3jLJU7DT5E).

Para llevar a cabo este procedimiento, realizaremos la siguiente secuencia:

PASO 1:

Cargamos en R la librería readr. En el evento de que no cuentes con librería en tu equipo, debes utilizar el comando install.packages(“readr”). Luego de ello se procede a llamar a la librería.

library(readr)

PASO 2:

Para acceder a los datos nos conectamos a través del link correspondiente. En este caso en particular, el archivo al cual accederemos tiene una extensión CSV, por tal motivo usamos read_csv. conforme con lo siguiente:

df <- read_csv("https://raw.githubusercontent.com/EMazcunan/basics-r-rstudio/master/data/temperaturas.csv")
df

2.2.- DATOS EN TU EQUIPO O DISCO LOCAL

Un caso común es contar con el o los archivos que deseas estudiar en tu computador o alguna unidad de almacenamiento como un dico duro.

A modo de ejemplo, utilizaré un archivo CSV denominado nba-players.csv. Para leer dicho archivo en RStudio debes realizar el siguiente procedimiento.

df <-read.csv("nba-players.csv")
df

Nota: En este caso el archivo al cual estoy accediendo se encuentra en el mismo directorio que mi sesión de trabajo. Si no sabes como hacerlo, debes revisar la barra superior de RStudio y seleccionar la opción Session y luego Set Working Directory

2.3.- DATOS FORMAN PARTE DE UNA LIBRERIA

Cuando no cuentas con un dataset o base de datos, puedes utilizar los datos precargados en RStudio en la modalidad de librerías, para acceder a ellas y según la versión de Rstudio que dispongas, debes realizar los siguientes pasos:

Paso 1:

Escribe en tu Terminal de RStudio el siguiente comando:

data ()

Se abrirá una ventana emergente que mostrará todas las BD disponibles, para ver una en particular debes escribir su nombre exactamente igual a como aparece en la lista desplegable .

En este caso, practicaremos con la BD denominada USArrests, cuyo contenido corresponde a la “tasa de crimenes violentes en Estados Unidos”.

Paso 2:

Al escribir USArrests en tu terminal podrás visualizar una tabla con datos.

USArrests

Paso 3:

Para acceder a los datos de la base de datos precargada, es preciso darle forma de data frame mediante el siguiente procedimiento:

df <- as.data.frame(USArrests)
                  

df

2.4.- ANALISIS DE LOS DATOS DEL DF

Previo a la revisión o la realización de alguna prueba o test en RStudio, es preciso conocer el contenido de las columnas del Data Frame y tambien el tipo de datos que contiene cada columna.

Importante es señalar que cuando las tablas o data frame no cuenten con el formato adecuado, éstos no se ejecutarán.

Paso1:

Conocer el nombre de las columnas

df <- as.data.frame(USArrests)

names(df)
## [1] "Murder"   "Assault"  "UrbanPop" "Rape"

Paso 2:

Verificar el tipo de datos que contienen las columnas del Data Frame. En este caso en particular consultaremos la BD USArrests

df <-as.data.frame(USArrests)


str(df)
## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...

Paso 2.1: Alternativamente consultaremos la BD Titanic

df <-as.data.frame(Titanic)


str(df)
## 'data.frame':    32 obs. of  5 variables:
##  $ Class   : Factor w/ 4 levels "1st","2nd","3rd",..: 1 2 3 4 1 2 3 4 1 2 ...
##  $ Sex     : Factor w/ 2 levels "Male","Female": 1 1 1 1 2 2 2 2 1 1 ...
##  $ Age     : Factor w/ 2 levels "Child","Adult": 1 1 1 1 1 1 1 1 2 2 ...
##  $ Survived: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Freq    : num  0 0 35 0 0 0 17 0 118 154 ...

III.- RECODIFICAR VARIABLES

Tal como lo comentabamos anteriormemte en RStudio existen distintas estrategias para lograr el resultado que buscamos.

En el siguiente ejemplo Recodificaremos de la variable Sex del Data Frame Titanic. En su cotenido inicial sabemos que contiene dos niveles de información: Male y Female. Nos interesa recodificar dicha columna sin alterar el Data Frame orignal. Por este motivo crearemos una nueva base que nominaremos con df1.

Para lograr la recodificación usaremos la Librería tidyverse. En caso de que no tengas instalada dicha librería debes escribir en el Terminal la siguiente instrucción: install.packages(“tidyverse”)

library(tidyverse)

df = data.frame(Titanic)

df1 <- df %>%
  mutate(Sex = dplyr:: recode(Sex, "Male" = 1, "Female" = 0))

df1

IV.- RENOMBRAR COLUMNAS

Un procedimiento útil cuando estás trabajando con Data Set en Inglés es renombrar las columnas para obtener informes posteriores o gráficos en idioma español.

Para este ejemplo, utilizaremos en Data Set df1 creado a partir de la base Titanic. El procedimiento para renombrar sus columnas es el siguiente:

df1 <- rename(Clase = Class, Sexo = Sex,
                 Edad = Age, Sobrevivientes = Survived, Frecuencia = Freq ,
                .data = df1)
df1