1.- Estudiar la base de datos TITANIC
2.- Obtener informacion util de la base de datos TITANIC
## Warning: package 'titanic' was built under R version 4.0.2
## Warning: package 'corrplot' was built under R version 4.0.2
## corrplot 0.84 loaded
## Warning: package 'ggplot2' was built under R version 4.0.2
## Warning: package 'modeest' was built under R version 4.0.2
##
## Attaching package: 'moments'
## The following object is masked from 'package:modeest':
##
## skewness
## Warning: package 'knitr' was built under R version 4.0.2
#Breve explicaciĂ³n de los parĂ¡metros
——————– VARIABLES CUANTITATIVA ————————————
age (Edad): v.cualitativa: Edad del pasajero
Fare(tarifa): v.cuantitativa: cantidad de dinero abonada por el pasajero
SibSp(Hrm/Cys_A_bordo): v. cuantitativa: numero de hermanos o conyuges a bordo
Parch(Parientes_A_bordo): v.cuantitativa: numero de familiares o hijos a bordo
——————– VARIABLES CUALITATIVAS ————————————
sex(Sexo): v. cualitativa: sexo del pasajero
Pclass (Pasajero_Clase): v. cualitativa: indica la clase del pasajero 1 para alta, 2 media y 3 baja
Survived (sobrevivio): v. cualitativa: indica si un pasajero sobrevivio
#VARIABLE CUANTITATIVA "EDAD"
datos <- na.omit(data$Age)
#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Age, col = colors)
boxplot(data$Age, col = 'green', horizontal = TRUE)
#DATOS ESTADISTICOS
dataFrame1 = data.frame(
"Media" = c(mean(datos)),
"Mediana" = c(median(datos)),
"Moda" = mfv(datos)
)
dataFrame2 = data.frame(
"Desv.s" = sd(datos),
"Varianza" = var(datos),
"Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
"Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
"1er cuartil" = quantile(datos)[2],
"2do cuartil" = quantile(datos)[3],
"3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
"Kurtosis" = kurtosis(datos),
"Sesgo" = skewness(datos)
)
dataFrame1
## Media Mediana Moda
## 1 29.69912 28 24
dataFrame2
## Desv.s Varianza Rango.Est. Coef.de.Var
## 1 14.5265 211.0191 79.58 0.4891222
dataFrame3
## X1er.cuartil X2do.cuartil X3er.cuartil
## 25% 20.125 28 38
dataFrame4
## Kurtosis Sesgo
## 1 3.168637 0.3882899
#VARIABLE CUANTITATIVA "TARIFA"
datos <- na.omit(data$Fare)
#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Fare, col = colors)
boxplot(data$Fare, col = 'green', horizontal = TRUE)
#DATOS ESTADISTICOS
dataFrame1 = data.frame(
"Media" = c(mean(datos)),
"Mediana" = c(median(datos)),
"Moda" = mfv(datos)
)
dataFrame2 = data.frame(
"Desv.s" = sd(datos),
"Varianza" = var(datos),
"Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
"Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
"1er cuartil" = quantile(datos)[2],
"2do cuartil" = quantile(datos)[3],
"3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
"Kurtosis" = kurtosis(datos),
"Sesgo" = skewness(datos)
)
dataFrame1
## Media Mediana Moda
## 1 32.20421 14.4542 8.05
dataFrame2
## Desv.s Varianza Rango.Est. Coef.de.Var
## 1 49.69343 2469.437 512.3292 1.543073
dataFrame3
## X1er.cuartil X2do.cuartil X3er.cuartil
## 25% 7.9104 14.4542 31
dataFrame4
## Kurtosis Sesgo
## 1 36.20429 4.779253
#VARIABLE CUANTITATIVA "HERMANOS Y CONYUGES A BORDO"
datos <- na.omit(data$SibSp)
#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$SibSp, col = colors)
boxplot(data$SibSp, col = 'green', horizontal = TRUE)
#DATOS ESTADISTICOS
dataFrame1 = data.frame(
"Media" = c(mean(datos)),
"Mediana" = c(median(datos)),
"Moda" = mfv(datos)
)
dataFrame2 = data.frame(
"Desv.s" = sd(datos),
"Varianza" = var(datos),
"Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
"Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
"1er cuartil" = quantile(datos)[2],
"2do cuartil" = quantile(datos)[3],
"3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
"Kurtosis" = kurtosis(datos),
"Sesgo" = skewness(datos)
)
dataFrame1
## Media Mediana Moda
## 1 0.5230079 0 0
dataFrame2
## Desv.s Varianza Rango.Est. Coef.de.Var
## 1 1.102743 1.216043 8 2.108464
dataFrame3
## X1er.cuartil X2do.cuartil X3er.cuartil
## 25% 0 0 1
dataFrame4
## Kurtosis Sesgo
## 1 20.77351 3.689128
#VARIABLE CUANTITATIVA "PARIENTES A BORDO"
datos <- na.omit(data$Parch)
#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Parch, col = colors)
boxplot(data$Parch, col = 'green', horizontal = TRUE)
#DATOS ESTADISTICOS
dataFrame1 = data.frame(
"Media" = c(mean(datos)),
"Mediana" = c(median(datos)),
"Moda" = mfv(datos)
)
dataFrame2 = data.frame(
"Desv.s" = sd(datos),
"Varianza" = var(datos),
"Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
"Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
"1er cuartil" = quantile(datos)[2],
"2do cuartil" = quantile(datos)[3],
"3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
"Kurtosis" = kurtosis(datos),
"Sesgo" = skewness(datos)
)
dataFrame1
## Media Mediana Moda
## 1 0.3815937 0 0
dataFrame2
## Desv.s Varianza Rango.Est. Coef.de.Var
## 1 0.8060572 0.6497282 6 2.112344
dataFrame3
## X1er.cuartil X2do.cuartil X3er.cuartil
## 25% 0 0 0
dataFrame4
## Kurtosis Sesgo
## 1 12.71661 2.744487
#VARIABLE CUANTITATIVA "SEXO"
#TABLAS
frecuencias <- factor(data$Sex)
levels(frecuencias) <- c("Mujer", "Hombre")
tabla_FrecAbs <-table(frecuencias)
tabla_FrecRel <- prop.table(table(frecuencias))
tablaProcentual_FrecRel <- tabla_FrecRel*100
marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Sexo", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Sexo", "F.Relativa")
tabla_frecuencias <- merge(marco1, marco2, by="Sexo")
tabla_frecuencias
## Sexo F.Absoluta F.Relativa
## 1 Hombre 577 0.647587
## 2 Mujer 314 0.352413
redondeo <- round(as.vector(tablaProcentual_FrecRel), 2)
#GRAFICOS
label <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grĂ¡fica de los sexos de los pasajeros")
#VARIABLE CUANTITATIVA "CLASE DEL PASAJERO"
#TABLAS
frecuencias <- factor(data$Pclass)
levels(frecuencias) <- c("primera", "segunda", "tercera")
tabla_FrecAbs <-table(frecuencias)
tabla_FrecRel <- prop.table(table(frecuencias))
tablaProcentual_FrecRel <- tabla_FrecRel*100
marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Clase", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Clase", "F.Relativa")
tabla_frecuencias <- merge(marco1, marco2, by="Clase")
tabla_frecuencias
## Clase F.Absoluta F.Relativa
## 1 primera 216 0.2424242
## 2 segunda 184 0.2065095
## 3 tercera 491 0.5510662
#GRAFICOS
redondeo <- round(as.vector(tablaProcentual_FrecRel))
label <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grafica de las Clases sociales de los pasajeros")
#VARIABLE CUANTITATIVA "SOBREVIVIO"
#TABLAS
frecuencias <- factor(data$Survived)
levels(frecuencias) <- c("no Sobrevivio", "Sobrevivio")
tabla_FrecAbs <-table(frecuencias)
tabla_FrecRel <- prop.table(table(frecuencias))
tablaProcentual_FrecRel <- tabla_FrecRel*100
marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Estado", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Estado", "F.Relativa")
tabla_frecuencias <- merge(marco1, marco2, by="Estado")
tabla_frecuencias
## Estado F.Absoluta F.Relativa
## 1 no Sobrevivio 549 0.6161616
## 2 Sobrevivio 342 0.3838384
#GRAFICOS
redondeo <- round(as.vector(tablaProcentual_FrecRel), 2)
label <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grafica de los sobrevivientes")
#MATRIZ DE CORRELACION
datos <- data.frame(data$Age, data$SibSp, data$Parch, data$Fare)
matriz <- cor(datos, use="pairwise.complete.obs")
matriz
## data.Age data.SibSp data.Parch data.Fare
## data.Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## data.SibSp -0.30824676 1.0000000 0.4148377 0.15965104
## data.Parch -0.18911926 0.4148377 1.0000000 0.21622494
## data.Fare 0.09606669 0.1596510 0.2162249 1.00000000
corrplot(matriz, method = "color")
corrplot.mixed(matriz , upper = "color", lower.col = "black")
#MATRIZ DE VARIANZA-COVARIANZA
datos <- data.frame(data$Age, data$SibSp, data$Parch, data$Fare)
matriz <- cor(datos, use="pairwise.complete.obs")
matriz
## data.Age data.SibSp data.Parch data.Fare
## data.Age 1.00000000 -0.3082468 -0.1891193 0.09606669
## data.SibSp -0.30824676 1.0000000 0.4148377 0.15965104
## data.Parch -0.18911926 0.4148377 1.0000000 0.21622494
## data.Fare 0.09606669 0.1596510 0.2162249 1.00000000
corrplot(matriz, method = "color")
corrplot.mixed(matriz , upper = "color", lower.col = "black")
#MATRIZ DE DIAGRAMA DE DISPERSION
datos = titanic_train
matrik <- pairs(Age ~ SibSp + Parch + Fare, data=datos, main="GrĂ¡fico")
#analaisis variables cualitativas
datos = titanic_train
boxplot(Age ~ Pclass, data =datos, col = 'green', main= 'Edad por clase social')
boxplot(SibSp ~ Sex, data =datos, col = 'green', main= 'SibSp por sexo')
boxplot(Parch ~ Pclass, data =datos, col = 'green', main= 'Parch por clase social')
boxplot(Fare ~ Pclass, data =datos, col = 'green', main= 'Tarifa por clase social')
boxplot(Survived ~ Sex, data =datos, col = 'green', main= 'sobrevivientes por sexo')