Curso básico de R

Lunes 18 de Octubre

Operaciones básicas sobre dataframes: Tareas 1, 2 y 3

VE-CC

DataIntelligence
date:16-10-2021

1 Introducción para realizar la tarea

Será enviada una tarea 10 am hora de Chile dividida en tres partes la cual se espera sea realizada en la jornada diaria. Se esperan las entregas a las 1 pm, 4 pm, 7 pm hora de Chile para evaluar las respuestas en conjunto en unos 15 minutos.

Al desarrollar la tarea, ante cualquier duda contactarme de inmediato, por favor.

2 Introducción

El RMS Titanic fue un transatlántico británico, el mayor barco de pasajeros del mundo en el momento de su terminación, que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912 durante su viaje inaugural desde Southampton a Nueva York. En el hundimiento del Titanic murieron 1514 personas de las 2223 que iban a bordo, lo que convierte a esta tragedia en uno de los mayores naufragios de la historia ocurridos en tiempo de paz.

2.1 Principales operaciones sobre dataframes con código R

Cuando se trata de análisis de datos, normalmente, éstos no vienen en la forma que deseamos, por lo que saber cómo hacerlo se vuelve esencial. El conocimiento de la manipulación de datos o de poner el conjunto de datos disponible en la forma y formato correctos es tan necesario como el funcionamiento eficaz del análisis mismo.

Los temas de la primera tarea son:

1 Subsetear un dataframe.
2 Aplicar funciones sobre filas y columnas.
3 Agrupar y aplicar funciones agregadas.

3 El contexto

Primero importemos los datos y las bibliotecas necesarias. Usemos el conjunto de datos Titanic incorporado en el paquete de aprendizaje de R.

https://www.kaggle.com/c/titanic/data

library(dplyr)
library(reshape2)

Aquí hemos pasado el parámetro na.string = ”” para que los valores vacíos se lean como valores NA

titanic <- read.csv("titanic/train.csv")
datatable(titanic, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
          options = list(dom = 'Bfrtip',
          buttons = list('colvis', list(extend = 'collection',
          buttons = list(
          list(extend='copy'),
          list(extend='excel',
            filename = 'dataset_subseteado'),
          list(extend='pdf',
            filename= 'dataset_subseteado')),
          text = 'Download')), scrollX = TRUE))

4 La base de datos Titanic

Intentemos comprender los datos (al menos algunas columnas que usaremos). Puede ver el marco de datos ejecutando View (titanic) en R Studio.

El conjunto de datos titanic contiene los datos sobre los pasajeros (nombres, tarifa, etc. y si sobrevivieron o no) que abordaron el famoso barco en 1912. Las diversas columnas en el marco de datos son las siguientes:

PassengerId: considérelo el número de serie de los registros de datos. Cada pasajero recibe esta identificación única en el marco de datos.

Sobrevivido: 0 significa no sobrevivido, 1 significa que el pasajero sobrevivió

Clase P: Clase de pasajero (1ª clase, 2ª clase 2, 3ª clase)

Sexo: género del pasajero

Edad: edad del pasajero

Tarifa: precio del boleto que pagó el pasajero