#************************Base de datos****************************
library(titanic)
## Warning: package 'titanic' was built under R version 4.0.3
library(modeest)
library(fdth)
##
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
##
## Attaching package: 'agricolae'
## The following object is masked from 'package:modeest':
##
## skewness
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(moments)
## Warning: package 'moments' was built under R version 4.0.3
##
## Attaching package: 'moments'
## The following objects are masked from 'package:agricolae':
##
## kurtosis, skewness
## The following object is masked from 'package:modeest':
##
## skewness
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.0.3
## corrplot 0.84 loaded
t<-data.frame(titanic_test)
t2<-data.frame(titanic_gender_model)
#***************************Variables Cualitativas****************************
clase <- t$Pclass
sexo <- t$Sex
sobrev <- t2$Survived
#***************************Variables Cuantitativas****************************
edad<-t$Age
tarifa<-t$Fare
heres<-t$SibSp
padhij<-t$Parch
#**********************Estadistica descriptiva univariante********************** #Para variables cuantitativas: #Histogramas
hist(edad,main="Histograma:Edades de pasajeros",xlab="Edades de pasajeros",ylab="Frecuencia")
hist(tarifa,main="Histograma:Tarifa pagada por pasajeros",xlab="Tarifa",ylab="Frecuencia")
hist(heres,main="Histograma:Hermanos/Parejas abordo",xlab="Hermanos/Parejas",ylab="Frecuencia")
hist(padhij,main="Histograma:Padres/hijos abordo",xlab="Padres/hijos",ylab="Frecuencia")
#Diagramas de Cajas
boxplot(edad,main="Diagrama de Caja:Edades de pasajeros",horizontal = T)
boxplot(tarifa,main="Diagrama de Caja:Tarifa pagada por pasajeros",horizontal = T)
boxplot(heres,main="Diagrama de Caja: Hermanos/Parejas abordo",horizontal = T)
boxplot(padhij,main="Diagrama de Caja:Padres/hijos abordo",horizontal = T)
#Medidas Estadisticas
#Edad
edad2<-na.omit(edad)
summary(edad2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.17 21.00 27.00 30.27 39.00 76.00
sd(edad2)
## [1] 14.18121
kurtosis(edad2)
## [1] 3.064509
skewness(edad2)
## [1] 0.4552923
#Tarifa
tar2<-na.omit(tarifa)
summary(tar2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 7.896 14.454 35.627 31.500 512.329
sd(tar2)
## [1] 55.90758
kurtosis(tar2)
## [1] 20.69307
skewness(tar2)
## [1] 3.673937
#Hermanos/Parejas abordo
summary(heres)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.4474 1.0000 8.0000
sd(heres)
## [1] 0.8967596
kurtosis(heres)
## [1] 29.16848
skewness(heres)
## [1] 4.153363
#Padres/hijos abordo
summary(padhij)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.3923 0.0000 9.0000
sd(padhij)
## [1] 0.9814289
kurtosis(padhij)
## [1] 34.0237
skewness(padhij)
## [1] 4.637742
#Tablas de datos agrupados
t_edad<-fdt(edad2,breaks = "Sturges")
t_edad
## Class limits f rf rf(%) cf cf(%)
## [0.1683,7.8275) 16 0.05 4.82 16 4.82
## [7.8275,15.487) 16 0.05 4.82 32 9.64
## [15.487,23.146) 82 0.25 24.70 114 34.34
## [23.146,30.805) 86 0.26 25.90 200 60.24
## [30.805,38.464) 43 0.13 12.95 243 73.19
## [38.464,46.123) 40 0.12 12.05 283 85.24
## [46.123,53.782) 22 0.07 6.63 305 91.87
## [53.782,61.442) 19 0.06 5.72 324 97.59
## [61.442,69.101) 7 0.02 2.11 331 99.70
## [69.101,76.76) 1 0.00 0.30 332 100.00
t_tarifa<-fdt(tar2,breaks = "Sturges")
t_tarifa
## Class limits f rf rf(%) cf cf(%)
## [0,51.7452) 339 0.81 81.29 339 81.29
## [51.7452,103.49) 47 0.11 11.27 386 92.57
## [103.49,155.236) 11 0.03 2.64 397 95.20
## [155.236,206.981) 2 0.00 0.48 399 95.68
## [206.981,258.726) 10 0.02 2.40 409 98.08
## [258.726,310.471) 7 0.02 1.68 416 99.76
## [310.471,362.217) 0 0.00 0.00 416 99.76
## [362.217,413.962) 0 0.00 0.00 416 99.76
## [413.962,465.707) 0 0.00 0.00 416 99.76
## [465.707,517.452) 1 0.00 0.24 417 100.00
t_hpar<-fdt(heres,breaks = "Sturges")
t_hpar
## Class limits f rf rf(%) cf cf(%)
## [0,0.808) 283 0.68 67.70 283 67.70
## [0.808,1.616) 110 0.26 26.32 393 94.02
## [1.616,2.424) 14 0.03 3.35 407 97.37
## [2.424,3.232) 4 0.01 0.96 411 98.33
## [3.232,4.04) 4 0.01 0.96 415 99.28
## [4.04,4.848) 0 0.00 0.00 415 99.28
## [4.848,5.656) 1 0.00 0.24 416 99.52
## [5.656,6.464) 0 0.00 0.00 416 99.52
## [6.464,7.272) 0 0.00 0.00 416 99.52
## [7.272,8.08) 2 0.00 0.48 418 100.00
t_padh<-fdt(padhij,breaks = "Sturges")
t_padh
## Class limits f rf rf(%) cf cf(%)
## [0,0.909) 324 0.78 77.51 324 77.51
## [0.909,1.818) 52 0.12 12.44 376 89.95
## [1.818,2.727) 33 0.08 7.89 409 97.85
## [2.727,3.636) 3 0.01 0.72 412 98.56
## [3.636,4.545) 2 0.00 0.48 414 99.04
## [4.545,5.454) 1 0.00 0.24 415 99.28
## [5.454,6.363) 1 0.00 0.24 416 99.52
## [6.363,7.272) 0 0.00 0.00 416 99.52
## [7.272,8.181) 0 0.00 0.00 416 99.52
## [8.181,9.09) 2 0.00 0.48 418 100.00
#Diagramas de barras
fre_rel_clase <- prop.table(table(clase))
barplot(fre_rel_clase,main = "Clase del pasajero",ylab = "Frecuencia")
fre_rel_sexo <- prop.table(table(sexo))
barplot(fre_rel_sexo,main = "Sexo del pasajero",ylab = "Frecuencia")
fre_rel_sobrev <- prop.table(table(sobrev))
barplot(fre_rel_sobrev,main = "Pasajeros Sobrevivientes",xlab="0=NO 1=SI",ylab = "Frecuencia")
#Diagramas circulares
pie(fre_rel_clase,main = "Clase del pasajero")
pie(fre_rel_sexo,main = "Sexo del pasajero")
porcentaje <- as.numeric(round((fre_rel_sobrev*100),2))
etiq <- c("NO", "SI")
etiq <- paste(etiq, porcentaje)
etiq <- paste(etiq, "%", sep = "")
pie(fre_rel_sobrev,etiq,main = "Pasajeros Sobrevivientes")
#**********************Estadistica descriptiva Bivariante********************** #Para las variables cualitativas #Diagramas de cajas segmentados
boxplot(edad~sobrev,main="Diagrama de Cajas:Edad por Supervivencia",xlab="Edades",ylab="Sobrevivientes 0=NO 1=SI ",horizontal = T)
boxplot(edad~sexo,main="Diagrama de Cajas:Edad por Sexo",xlab="Edades",ylab="Sexo ",horizontal = T)
boxplot(tarifa~clase,main="Diagrama de Cajas:Tarifa cancelada por clase",xlab="Tarifa",ylab="Clase",horizontal = T)
boxplot(heres~clase,main="Diagrama de Cajas:Hermanos/Parejas abordo por clase",xlab="Hermanos/Parejas abordo ",ylab="Clase",horizontal = T)
boxplot(padhij~clase,main="Diagrama de Cajas:Padres/Hijos abordo por clase",xlab="Padres/Hijos abordo",ylab="Clase",horizontal = T)
#Para las variables cuantitativas #Matriz de correlacion y matriz de covarianza
t <- t %>% mutate(Age = replace(Age, which(is.na(Age)), 0))
t<-t %>% mutate(Fare = replace(Fare, which(is.na(Fare)), 0))
cor(t[,c(5,6,7,9)])
## Age SibSp Parch Fare
## Age 1.000000000 -0.004320741 -0.02503746 0.3621901
## SibSp -0.004320741 1.000000000 0.30689462 0.1721673
## Parch -0.025037460 0.306894615 1.00000000 0.2305008
## Fare 0.362190102 0.172167285 0.23050080 1.0000000
cov(t[,c(5,6,7,9)])
## Age SibSp Parch Fare
## Age 309.7462034 -0.0681926 -0.4324661 356.12318
## SibSp -0.0681926 0.8041777 0.2700997 8.62556
## Parch -0.4324661 0.2700997 0.9632026 12.63840
## Fare 356.1231774 8.6255603 12.6383952 3121.19809
#Matriz gráfica de correlación
data=cor(t[,c(5,6,7,9)])
corrplot.mixed(cor(data),lower = "circle",upper = "number")
#Matriz de diagramas de dispersión
plot(t[,c(5,6,7,9)])
#Analisis
#Descubrimientos o hallazgos encontrados #-La mediana de la edad de sobrevivientes del titanic esta entre 20 y 30 años,de igual forma para los que no sobrevivieron.
#-Tanto para hombres como mujeres de la tripulacion la mediana de edad,asi como la distribucion de edades que es muy similar,esto segun el diagrama de cajas de edades por sexo.
#-La clase baja posee la menor distribucion del valor de tarifa,sin superar los $100,pero con un gran numero de valores que superan el maximo,en cambio para la clase alta,la tarifa si llega aproximadamente a los $300,pero con menos valores superiores al maximo,asi en el diagrama de cajas de tarifa por clase social,se observa como las tarifas aumentan segun aumenta la clase,recordando que 1 es para clase alta,2 es para clase media, y 3 para clase baja.
#-Menos de la mitad de pasajeros sobrevivieron al naufragio del Titanic,segun el diagrama circular y el diagram de barras.