1 Introducción para realizar la tarea
Será enviada una tarea 10 am hora de Chile dividida en tres partes la cual se espera sea realizada en la jornada diaria. Se esperan las entregas a las 1 pm, 4 pm, 7 pm hora de Chile para evaluar las respuestas en conjunto en unos 15 minutos.
Al desarrollar la tarea, ante cualquier duda contactarme de inmediato, por favor.
2 Introducción
El RMS Titanic fue un transatlántico británico, el mayor barco de pasajeros del mundo en el momento de su terminación, que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912 durante su viaje inaugural desde Southampton a Nueva York. En el hundimiento del Titanic murieron 1514 personas de las 2223 que iban a bordo, lo que convierte a esta tragedia en uno de los mayores naufragios de la historia ocurridos en tiempo de paz.
2.1 Principales operaciones sobre dataframes con código R
Cuando se trata de análisis de datos, normalmente, éstos no vienen en la forma que deseamos, por lo que saber cómo hacerlo se vuelve esencial. El conocimiento de la manipulación de datos o de poner el conjunto de datos disponible en la forma y formato correctos es tan necesario como el funcionamiento eficaz del análisis mismo.
Los temas de la primera tarea son:
1 Subsetear un dataframe.
2 Aplicar funciones sobre filas y columnas.
3 Agrupar y aplicar funciones agregadas.
3 El contexto
Primero importemos los datos y las bibliotecas necesarias. Usemos el conjunto de datos Titanic incorporado en el paquete de aprendizaje de R.
https://www.kaggle.com/c/titanic/data
library(dplyr)
library(reshape2)
Aquí hemos pasado el parámetro na.string = ”” para que los valores vacíos se lean como valores NA
<- read.csv("titanic/train.csv") titanic
datatable(titanic, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
options = list(dom = 'Bfrtip',
buttons = list('colvis', list(extend = 'collection',
buttons = list(
list(extend='copy'),
list(extend='excel',
filename = 'dataset_subseteado'),
list(extend='pdf',
filename= 'dataset_subseteado')),
text = 'Download')), scrollX = TRUE))
4 La base de datos Titanic
Intentemos comprender los datos (al menos algunas columnas que usaremos). Puede ver el marco de datos ejecutando View (titanic) en R Studio.
El conjunto de datos titanic contiene los datos sobre los pasajeros (nombres, tarifa, etc. y si sobrevivieron o no) que abordaron el famoso barco en 1912. Las diversas columnas en el marco de datos son las siguientes:
PassengerId: considérelo el número de serie de los registros de datos. Cada pasajero recibe esta identificación única en el marco de datos.
Sobrevivido: 0 significa no sobrevivido, 1 significa que el pasajero sobrevivió
Clase P: Clase de pasajero (1ª clase, 2ª clase 2, 3ª clase)
Sexo: género del pasajero
Edad: edad del pasajero
Tarifa: precio del boleto que pagó el pasajero