En esta sección, instalamos el paquete sqldf
y cargamos
los datos del archivo titanic.csv
.
install.packages("sqldf")
install.packages("readr")
library(sqldf)
library(readr)
my_data <- read_csv("/cloud/project/titanic.csv")
head(my_data)
# Consulta SQL para obtener pasajeros mayores de edad
consulta_1 <- sqldf("SELECT * FROM my_data WHERE Age >= 18")
head(consulta_1)
# Consulta SQL para obtener hombres mayores de 30 años
consulta_2 <- sqldf("SELECT * FROM my_data WHERE Sex = 'male' AND Age > 30")
head(consulta_2)
consulta_5 <- sqldf("SELECT Name, Age FROM my_data WHERE Age = (SELECT MAX(Age) FROM my_data) OR Age = (SELECT MIN(Age) FROM my_data)")
head(consulta_5)
consulta_6 <- sqldf("SELECT * FROM my_data WHERE Age IS NULL OR Cabin IS NULL OR Embarked IS NULL")
head(consulta_6)
Este análisis nos sirvió para aprender a realizar consultas SQL
dentro del entorno en la nube de R mediante el paquete
sqldf
que fue indispensable para obtener información
específica sobre los pasajeros del Titanic. Las consultas nos
permitieron filtrar, ordenar y verificar la integridad de los datos de
manera eficiente.