#************************Base de datos****************************

library(titanic)
## Warning: package 'titanic' was built under R version 4.0.3
library(modeest)
library(fdth)
## 
## Attaching package: 'fdth'
## The following object is masked from 'package:modeest':
## 
##     mfv
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
## 
## Attaching package: 'agricolae'
## The following object is masked from 'package:modeest':
## 
##     skewness
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(moments)
## Warning: package 'moments' was built under R version 4.0.3
## 
## Attaching package: 'moments'
## The following objects are masked from 'package:agricolae':
## 
##     kurtosis, skewness
## The following object is masked from 'package:modeest':
## 
##     skewness
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.0.3
## corrplot 0.84 loaded
t<-data.frame(titanic_test)
t2<-data.frame(titanic_gender_model)

#***************************Variables Cualitativas****************************

clase <- t$Pclass
sexo <- t$Sex
sobrev <- t2$Survived

#***************************Variables Cuantitativas****************************

edad<-t$Age
tarifa<-t$Fare
heres<-t$SibSp
padhij<-t$Parch

#**********************Estadistica descriptiva univariante********************** #Para variables cuantitativas: #Histogramas

hist(edad,main="Histograma:Edades de pasajeros",xlab="Edades de pasajeros",ylab="Frecuencia")

hist(tarifa,main="Histograma:Tarifa pagada por pasajeros",xlab="Tarifa",ylab="Frecuencia")

hist(heres,main="Histograma:Hermanos/Parejas abordo",xlab="Hermanos/Parejas",ylab="Frecuencia")

hist(padhij,main="Histograma:Padres/hijos  abordo",xlab="Padres/hijos",ylab="Frecuencia")

#Diagramas de Cajas

boxplot(edad,main="Diagrama de Caja:Edades de pasajeros",horizontal = T)

boxplot(tarifa,main="Diagrama de Caja:Tarifa pagada por pasajeros",horizontal = T)

boxplot(heres,main="Diagrama de Caja: Hermanos/Parejas abordo",horizontal = T)

boxplot(padhij,main="Diagrama de Caja:Padres/hijos  abordo",horizontal = T)

#Medidas Estadisticas

#Edad
edad2<-na.omit(edad)
summary(edad2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.17   21.00   27.00   30.27   39.00   76.00
sd(edad2)
## [1] 14.18121
kurtosis(edad2)
## [1] 3.064509
skewness(edad2)
## [1] 0.4552923
#Tarifa
tar2<-na.omit(tarifa)
summary(tar2)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   7.896  14.454  35.627  31.500 512.329
sd(tar2)
## [1] 55.90758
kurtosis(tar2)
## [1] 20.69307
skewness(tar2)
## [1] 3.673937
#Hermanos/Parejas abordo
summary(heres)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.4474  1.0000  8.0000
sd(heres)
## [1] 0.8967596
kurtosis(heres)
## [1] 29.16848
skewness(heres)
## [1] 4.153363
#Padres/hijos  abordo
summary(padhij)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.3923  0.0000  9.0000
sd(padhij)
## [1] 0.9814289
kurtosis(padhij)
## [1] 34.0237
skewness(padhij)
## [1] 4.637742

#Tablas de datos agrupados

t_edad<-fdt(edad2,breaks = "Sturges")
t_edad
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [0.1683,7.8275) 16 0.05  4.82  16   4.82
##  [7.8275,15.487) 16 0.05  4.82  32   9.64
##  [15.487,23.146) 82 0.25 24.70 114  34.34
##  [23.146,30.805) 86 0.26 25.90 200  60.24
##  [30.805,38.464) 43 0.13 12.95 243  73.19
##  [38.464,46.123) 40 0.12 12.05 283  85.24
##  [46.123,53.782) 22 0.07  6.63 305  91.87
##  [53.782,61.442) 19 0.06  5.72 324  97.59
##  [61.442,69.101)  7 0.02  2.11 331  99.70
##   [69.101,76.76)  1 0.00  0.30 332 100.00
t_tarifa<-fdt(tar2,breaks = "Sturges")
t_tarifa
##       Class limits   f   rf rf(%)  cf  cf(%)
##        [0,51.7452) 339 0.81 81.29 339  81.29
##   [51.7452,103.49)  47 0.11 11.27 386  92.57
##   [103.49,155.236)  11 0.03  2.64 397  95.20
##  [155.236,206.981)   2 0.00  0.48 399  95.68
##  [206.981,258.726)  10 0.02  2.40 409  98.08
##  [258.726,310.471)   7 0.02  1.68 416  99.76
##  [310.471,362.217)   0 0.00  0.00 416  99.76
##  [362.217,413.962)   0 0.00  0.00 416  99.76
##  [413.962,465.707)   0 0.00  0.00 416  99.76
##  [465.707,517.452)   1 0.00  0.24 417 100.00
t_hpar<-fdt(heres,breaks = "Sturges")
t_hpar
##   Class limits   f   rf rf(%)  cf  cf(%)
##      [0,0.808) 283 0.68 67.70 283  67.70
##  [0.808,1.616) 110 0.26 26.32 393  94.02
##  [1.616,2.424)  14 0.03  3.35 407  97.37
##  [2.424,3.232)   4 0.01  0.96 411  98.33
##   [3.232,4.04)   4 0.01  0.96 415  99.28
##   [4.04,4.848)   0 0.00  0.00 415  99.28
##  [4.848,5.656)   1 0.00  0.24 416  99.52
##  [5.656,6.464)   0 0.00  0.00 416  99.52
##  [6.464,7.272)   0 0.00  0.00 416  99.52
##   [7.272,8.08)   2 0.00  0.48 418 100.00
t_padh<-fdt(padhij,breaks = "Sturges")
t_padh
##   Class limits   f   rf rf(%)  cf  cf(%)
##      [0,0.909) 324 0.78 77.51 324  77.51
##  [0.909,1.818)  52 0.12 12.44 376  89.95
##  [1.818,2.727)  33 0.08  7.89 409  97.85
##  [2.727,3.636)   3 0.01  0.72 412  98.56
##  [3.636,4.545)   2 0.00  0.48 414  99.04
##  [4.545,5.454)   1 0.00  0.24 415  99.28
##  [5.454,6.363)   1 0.00  0.24 416  99.52
##  [6.363,7.272)   0 0.00  0.00 416  99.52
##  [7.272,8.181)   0 0.00  0.00 416  99.52
##   [8.181,9.09)   2 0.00  0.48 418 100.00

Para las variables cualitativas

#Diagramas de barras

fre_rel_clase <- prop.table(table(clase))
barplot(fre_rel_clase,main = "Clase del pasajero",ylab = "Frecuencia")

fre_rel_sexo <- prop.table(table(sexo))
barplot(fre_rel_sexo,main = "Sexo del pasajero",ylab = "Frecuencia")

fre_rel_sobrev <- prop.table(table(sobrev))
barplot(fre_rel_sobrev,main = "Pasajeros Sobrevivientes",xlab="0=NO 1=SI",ylab = "Frecuencia")

#Diagramas circulares

pie(fre_rel_clase,main = "Clase del pasajero")

pie(fre_rel_sexo,main = "Sexo del pasajero")

porcentaje <- as.numeric(round((fre_rel_sobrev*100),2))
etiq <- c("NO", "SI")
etiq <- paste(etiq, porcentaje)
etiq <- paste(etiq, "%", sep = "")
pie(fre_rel_sobrev,etiq,main = "Pasajeros Sobrevivientes")

#**********************Estadistica descriptiva Bivariante********************** #Para las variables cualitativas #Diagramas de cajas segmentados

boxplot(edad~sobrev,main="Diagrama de Cajas:Edad por Supervivencia",xlab="Edades",ylab="Sobrevivientes 0=NO 1=SI ",horizontal = T)

boxplot(edad~sexo,main="Diagrama de Cajas:Edad por Sexo",xlab="Edades",ylab="Sexo ",horizontal = T)

boxplot(tarifa~clase,main="Diagrama de Cajas:Tarifa cancelada por clase",xlab="Tarifa",ylab="Clase",horizontal = T)

boxplot(heres~clase,main="Diagrama de Cajas:Hermanos/Parejas abordo por clase",xlab="Hermanos/Parejas abordo ",ylab="Clase",horizontal = T)

boxplot(padhij~clase,main="Diagrama de Cajas:Padres/Hijos abordo por clase",xlab="Padres/Hijos abordo",ylab="Clase",horizontal = T)

#Para las variables cuantitativas #Matriz de correlacion y matriz de covarianza

t <- t %>% mutate(Age = replace(Age, which(is.na(Age)), 0))
t<-t %>% mutate(Fare = replace(Fare, which(is.na(Fare)), 0))
cor(t[,c(5,6,7,9)])
##                Age        SibSp       Parch      Fare
## Age    1.000000000 -0.004320741 -0.02503746 0.3621901
## SibSp -0.004320741  1.000000000  0.30689462 0.1721673
## Parch -0.025037460  0.306894615  1.00000000 0.2305008
## Fare   0.362190102  0.172167285  0.23050080 1.0000000
cov(t[,c(5,6,7,9)])
##               Age      SibSp      Parch       Fare
## Age   309.7462034 -0.0681926 -0.4324661  356.12318
## SibSp  -0.0681926  0.8041777  0.2700997    8.62556
## Parch  -0.4324661  0.2700997  0.9632026   12.63840
## Fare  356.1231774  8.6255603 12.6383952 3121.19809

#Matriz gráfica de correlación

data=cor(t[,c(5,6,7,9)])
corrplot.mixed(cor(data),lower = "circle",upper = "number")

#Matriz de diagramas de dispersión

plot(t[,c(5,6,7,9)])

#Analisis

#Descubrimientos o hallazgos encontrados #-La mediana de la edad de sobrevivientes del titanic esta entre 20 y 30 años,de igual forma para los que no sobrevivieron.

#-Tanto para hombres como mujeres de la tripulacion la mediana de edad,asi como la distribucion de edades que es muy similar,esto segun el diagrama de cajas de edades por sexo.

#-La clase baja posee la menor distribucion del valor de tarifa,sin superar los $100,pero con un gran numero de valores que superan el maximo,en cambio para la clase alta,la tarifa si llega aproximadamente a los $300,pero con menos valores superiores al maximo,asi en el diagrama de cajas de tarifa por clase social,se observa como las tarifas aumentan segun aumenta la clase,recordando que 1 es para clase alta,2 es para clase media, y 3 para clase baja.

#-Menos de la mitad de pasajeros sobrevivieron al naufragio del Titanic,segun el diagrama circular y el diagram de barras.