---
title: "Limpieza y Preprocesamiento de Datos del Titanic"
author: "Vicente Nevarez"
date: "2024-05-10"
output: html_document
---
# Introducción
Este informe describe el proceso de limpieza y preprocesamiento de datos para un conjunto de datos del Titanic. Se realizan diversas tareas, como la eliminación de valores NA, la sustitución de etiquetas por valores numéricos, y la conversión de datos a tipos adecuados para su posterior análisis.
# Carga de Datos
```r
# Librerías necesarias
library(readr)
# Leer los datos del Titanic en español
DatosTitanicEsp <- read_csv("C:/R/DatosTitanicEsp.csv")
## Rows: 891 Columns: 12
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (5): Nombre, Sexo, Ticket, Cabina, Puerto
## dbl (7): Numero, Vivio, ClasePasajero, Edad, Familiares, FamiliaDirecta, Costo
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Vista previa de los datos
View(DatosTitanicEsp)
En este bloque, cargamos el paquete readr para leer
datos desde un archivo CSV. Usamos View() para inspeccionar
el contenido del conjunto de datos para entender su estructura y obtener
una visión general.
# Contar valores NA en diferentes columnas
na_edad <- sum(is.na(DatosTitanicEsp$Edad))
na_sexo <- sum(is.na(DatosTitanicEsp$Sexo))
na_clase <- sum(is.na(DatosTitanicEsp$ClasePasajero))
na_vivio <- sum(is.na(DatosTitanicEsp$Vivio))
# Mostrar el recuento de valores NA
cat("Valores NA en Edad:", na_edad, "\n")
## Valores NA en Edad: 177
cat("Valores NA en Sexo:", na_sexo, "\n")
## Valores NA en Sexo: 0
cat("Valores NA en Clase de Pasajero:", na_clase, "\n")
## Valores NA en Clase de Pasajero: 0
cat("Valores NA en Vivio:", na_vivio, "\n")
## Valores NA en Vivio: 0
Aquí contamos el número de valores NA en diferentes
columnas del conjunto de datos para evaluar la cantidad de datos
faltantes. Luego mostramos los resultados para entender dónde se
encuentran las lagunas de información.
# Eliminar filas con valores NA en la columna Edad
DatosTitanicEsp <- DatosTitanicEsp[!is.na(DatosTitanicEsp$Edad), ]
# Comprobar que se eliminaron los valores NA
sum(is.na(DatosTitanicEsp$Edad)) # Debería ser 0
## [1] 0
# Reemplazar valores categóricos por valores binarios
DatosTitanicEsp$Sexo[DatosTitanicEsp$Sexo == "male"] <- 0
DatosTitanicEsp$Sexo[DatosTitanicEsp$Sexo == "female"] <- 1
# Asegurar conversión numérica
DatosTitanicEsp$ClasePasajero <- as.numeric(DatosTitanicEsp$ClasePasajero)
# Comprobar el tipo de datos para Edad
typeof(DatosTitanicEsp$Edad)
## [1] "double"
# Vista previa de los datos después de la limpieza
View(DatosTitanicEsp)
En este bloque, eliminamos las filas donde Edad contiene
valores NA. Luego convertimos las etiquetas categóricas de
Sexo a valores binarios, donde “male” se convierte en
0 y “female” en 1. Además, aseguramos que
ClasePasajero sea numérico, y verificamos el tipo de dato
de la columna Edad. Finalmente, mostramos el conjunto de
datos para confirmar los cambios realizados.
En este informe, llevamos a cabo varias tareas de preprocesamiento
para limpiar y convertir datos del Titanic. Se eliminaron valores
NA, se convirtieron etiquetas a valores numéricos, y se
verificó el tipo de datos para asegurar consistencia. Este proceso es
fundamental para cualquier análisis posterior, como la construcción de
modelos de aprendizaje automático o análisis estadísticos. ```