---
title: "Limpieza y Preprocesamiento de Datos del Titanic"
author: "Vicente Nevarez"
date: "2024-05-10"
output: html_document
---

# Introducción
Este informe describe el proceso de limpieza y preprocesamiento de datos para un conjunto de datos del Titanic. Se realizan diversas tareas, como la eliminación de valores NA, la sustitución de etiquetas por valores numéricos, y la conversión de datos a tipos adecuados para su posterior análisis.

# Carga de Datos

```r
# Librerías necesarias
library(readr)

# Leer los datos del Titanic en español
DatosTitanicEsp <- read_csv("C:/R/DatosTitanicEsp.csv")

## Rows: 891 Columns: 12
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (5): Nombre, Sexo, Ticket, Cabina, Puerto
## dbl (7): Numero, Vivio, ClasePasajero, Edad, Familiares, FamiliaDirecta, Costo
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

# Vista previa de los datos
View(DatosTitanicEsp)

En este bloque, cargamos el paquete readr para leer datos desde un archivo CSV. Usamos View() para inspeccionar el contenido del conjunto de datos para entender su estructura y obtener una visión general.

Identificación de Valores NA

# Contar valores NA en diferentes columnas
na_edad <- sum(is.na(DatosTitanicEsp$Edad))
na_sexo <- sum(is.na(DatosTitanicEsp$Sexo))
na_clase <- sum(is.na(DatosTitanicEsp$ClasePasajero))
na_vivio <- sum(is.na(DatosTitanicEsp$Vivio))

# Mostrar el recuento de valores NA
cat("Valores NA en Edad:", na_edad, "\n")

## Valores NA en Edad: 177

cat("Valores NA en Sexo:", na_sexo, "\n")

## Valores NA en Sexo: 0

cat("Valores NA en Clase de Pasajero:", na_clase, "\n")

## Valores NA en Clase de Pasajero: 0

cat("Valores NA en Vivio:", na_vivio, "\n")

## Valores NA en Vivio: 0

Aquí contamos el número de valores NA en diferentes columnas del conjunto de datos para evaluar la cantidad de datos faltantes. Luego mostramos los resultados para entender dónde se encuentran las lagunas de información.

Eliminación de Valores NA y Conversión de Datos

# Eliminar filas con valores NA en la columna Edad
DatosTitanicEsp <- DatosTitanicEsp[!is.na(DatosTitanicEsp$Edad), ]

# Comprobar que se eliminaron los valores NA
sum(is.na(DatosTitanicEsp$Edad))  # Debería ser 0

## [1] 0

# Reemplazar valores categóricos por valores binarios
DatosTitanicEsp$Sexo[DatosTitanicEsp$Sexo == "male"] <- 0
DatosTitanicEsp$Sexo[DatosTitanicEsp$Sexo == "female"] <- 1

# Asegurar conversión numérica
DatosTitanicEsp$ClasePasajero <- as.numeric(DatosTitanicEsp$ClasePasajero)

# Comprobar el tipo de datos para Edad
typeof(DatosTitanicEsp$Edad)

## [1] "double"

# Vista previa de los datos después de la limpieza
View(DatosTitanicEsp)

En este bloque, eliminamos las filas donde Edad contiene valores NA. Luego convertimos las etiquetas categóricas de Sexo a valores binarios, donde “male” se convierte en 0 y “female” en 1. Además, aseguramos que ClasePasajero sea numérico, y verificamos el tipo de dato de la columna Edad. Finalmente, mostramos el conjunto de datos para confirmar los cambios realizados.

Conclusión

En este informe, llevamos a cabo varias tareas de preprocesamiento para limpiar y convertir datos del Titanic. Se eliminaron valores NA, se convirtieron etiquetas a valores numéricos, y se verificó el tipo de datos para asegurar consistencia. Este proceso es fundamental para cualquier análisis posterior, como la construcción de modelos de aprendizaje automático o análisis estadísticos. ```