En esta sección, instalamos el paquete sqldf y cargamos los datos del archivo titanic.csv.

Cargar Paquetes y Datos

install.packages("sqldf")
install.packages("readr")
library(sqldf)
library(readr)
my_data <- read_csv("/cloud/project/titanic.csv")
head(my_data)

Muestra todos los pasajeros que son mayores de edad

# Consulta SQL para obtener pasajeros mayores de edad
consulta_1 <- sqldf("SELECT * FROM my_data WHERE Age >= 18")
head(consulta_1)

Muestra todos los pasajeros que son hombres y mayores de 30 años

# Consulta SQL para obtener hombres mayores de 30 años
consulta_2 <- sqldf("SELECT * FROM my_data WHERE Sex = 'male' AND Age > 30")
head(consulta_2)

Muestra el nombre y el número de ticket de cada uno de los pasajeros

consulta_3 <- sqldf("SELECT Name, Ticket FROM my_data")
head(consulta_3)

Ordena los nombres de los usuarios en orden alfabético

consulta_4 <- sqldf("SELECT Name FROM my_data ORDER BY Name")
head(consulta_4)

Busca quién era el pasajero con la mayor y menor edad

consulta_5 <- sqldf("SELECT Name, Age FROM my_data WHERE Age = (SELECT MAX(Age) FROM my_data) OR Age = (SELECT MIN(Age) FROM my_data)")
head(consulta_5)

¿Existe algún campo que tenga valores “Null”?

consulta_6 <- sqldf("SELECT * FROM my_data WHERE Age IS NULL OR Cabin IS NULL OR Embarked IS NULL")
head(consulta_6)

Conclusión

Este análisis nos sirvió para aprender a realizar consultas SQL dentro del entorno en la nube de R mediante el paquete sqldf que fue indispensable para obtener información específica sobre los pasajeros del Titanic. Las consultas nos permitieron filtrar, ordenar y verificar la integridad de los datos de manera eficiente.