objetivos del proyecto

1.- Estudiar la base de datos TITANIC
2.- Obtener informacion util de la base de datos TITANIC

ObtenciĂ³n de los datos

## Warning: package 'titanic' was built under R version 4.0.2
## Warning: package 'corrplot' was built under R version 4.0.2
## corrplot 0.84 loaded
## Warning: package 'ggplot2' was built under R version 4.0.2
## Warning: package 'modeest' was built under R version 4.0.2
## 
## Attaching package: 'moments'
## The following object is masked from 'package:modeest':
## 
##     skewness
## Warning: package 'knitr' was built under R version 4.0.2

#Breve explicaciĂ³n de los parĂ¡metros

——————– VARIABLES CUANTITATIVA ————————————

age (Edad): v.cualitativa: Edad del pasajero

Fare(tarifa): v.cuantitativa: cantidad de dinero abonada por el pasajero

SibSp(Hrm/Cys_A_bordo): v. cuantitativa: numero de hermanos o conyuges a bordo

Parch(Parientes_A_bordo): v.cuantitativa: numero de familiares o hijos a bordo

——————– VARIABLES CUALITATIVAS ————————————

sex(Sexo): v. cualitativa: sexo del pasajero

Pclass (Pasajero_Clase): v. cualitativa: indica la clase del pasajero 1 para alta, 2 media y 3 baja

Survived (sobrevivio): v. cualitativa: indica si un pasajero sobrevivio

<<< PARAMETRO : age (Edad) >>>

#VARIABLE CUANTITATIVA "EDAD"
datos <- na.omit(data$Age)

#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Age, col = colors)

boxplot(data$Age, col = 'green', horizontal = TRUE)

#DATOS ESTADISTICOS
dataFrame1 = data.frame(
  "Media" = c(mean(datos)), 
  "Mediana" = c(median(datos)),
  "Moda" = mfv(datos)
)
dataFrame2 = data.frame(
  "Desv.s" = sd(datos),
  "Varianza" = var(datos),
  "Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
  "Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
  "1er cuartil" = quantile(datos)[2],
  "2do cuartil" = quantile(datos)[3],
  "3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
  "Kurtosis" = kurtosis(datos),
  "Sesgo" = skewness(datos)
)
dataFrame1
##      Media Mediana Moda
## 1 29.69912      28   24
dataFrame2
##    Desv.s Varianza Rango.Est. Coef.de.Var
## 1 14.5265 211.0191      79.58   0.4891222
dataFrame3
##     X1er.cuartil X2do.cuartil X3er.cuartil
## 25%       20.125           28           38
dataFrame4
##   Kurtosis     Sesgo
## 1 3.168637 0.3882899

<<< PARAMETRO : Fare(tarifa) >>>

#VARIABLE CUANTITATIVA "TARIFA"
datos <- na.omit(data$Fare)

#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Fare, col = colors)

boxplot(data$Fare, col = 'green', horizontal = TRUE)

#DATOS ESTADISTICOS
dataFrame1 = data.frame(
  "Media" = c(mean(datos)), 
  "Mediana" = c(median(datos)),
  "Moda" = mfv(datos)
)
dataFrame2 = data.frame(
  "Desv.s" = sd(datos),
  "Varianza" = var(datos),
  "Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
  "Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
  "1er cuartil" = quantile(datos)[2],
  "2do cuartil" = quantile(datos)[3],
  "3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
  "Kurtosis" = kurtosis(datos),
  "Sesgo" = skewness(datos)
)
dataFrame1
##      Media Mediana Moda
## 1 32.20421 14.4542 8.05
dataFrame2
##     Desv.s Varianza Rango.Est. Coef.de.Var
## 1 49.69343 2469.437   512.3292    1.543073
dataFrame3
##     X1er.cuartil X2do.cuartil X3er.cuartil
## 25%       7.9104      14.4542           31
dataFrame4
##   Kurtosis    Sesgo
## 1 36.20429 4.779253

<<< PARAMETRO : SibSp(Hrm/Cys_A_bordo) >>>

#VARIABLE CUANTITATIVA "HERMANOS Y CONYUGES A BORDO"
datos <- na.omit(data$SibSp)

#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$SibSp, col = colors)

boxplot(data$SibSp, col = 'green', horizontal = TRUE)

#DATOS ESTADISTICOS
dataFrame1 = data.frame(
  "Media" = c(mean(datos)), 
  "Mediana" = c(median(datos)),
  "Moda" = mfv(datos)
)
dataFrame2 = data.frame(
  "Desv.s" = sd(datos),
  "Varianza" = var(datos),
  "Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
  "Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
  "1er cuartil" = quantile(datos)[2],
  "2do cuartil" = quantile(datos)[3],
  "3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
  "Kurtosis" = kurtosis(datos),
  "Sesgo" = skewness(datos)
)
dataFrame1
##       Media Mediana Moda
## 1 0.5230079       0    0
dataFrame2
##     Desv.s Varianza Rango.Est. Coef.de.Var
## 1 1.102743 1.216043          8    2.108464
dataFrame3
##     X1er.cuartil X2do.cuartil X3er.cuartil
## 25%            0            0            1
dataFrame4
##   Kurtosis    Sesgo
## 1 20.77351 3.689128

<<< PARAMETRO : Parch(Parientes_A_bordo) >>>

#VARIABLE CUANTITATIVA "PARIENTES A BORDO"
datos <- na.omit(data$Parch)

#GRAFICOS
colors = c("red", "yellow", "green", "violet", "orange", "blue", "pink", "cyan")
hist(data$Parch, col = colors)

boxplot(data$Parch, col = 'green', horizontal = TRUE)

#DATOS ESTADISTICOS
dataFrame1 = data.frame(
  "Media" = c(mean(datos)), 
  "Mediana" = c(median(datos)),
  "Moda" = mfv(datos)
)
dataFrame2 = data.frame(
  "Desv.s" = sd(datos),
  "Varianza" = var(datos),
  "Rango Est." = max(datos, na.rm = TRUE) - min(datos, na.rm = TRUE),
  "Coef de Var" = sd(datos)/mean(datos)
)
dataFrame3 = data.frame(
  "1er cuartil" = quantile(datos)[2],
  "2do cuartil" = quantile(datos)[3],
  "3er cuartil" = quantile(datos)[4]
)
dataFrame4 = data.frame(
  "Kurtosis" = kurtosis(datos),
  "Sesgo" = skewness(datos)
)
dataFrame1
##       Media Mediana Moda
## 1 0.3815937       0    0
dataFrame2
##      Desv.s  Varianza Rango.Est. Coef.de.Var
## 1 0.8060572 0.6497282          6    2.112344
dataFrame3
##     X1er.cuartil X2do.cuartil X3er.cuartil
## 25%            0            0            0
dataFrame4
##   Kurtosis    Sesgo
## 1 12.71661 2.744487

<<< PARAMETRO : sex(Sexo) >>>

#VARIABLE CUANTITATIVA "SEXO"

#TABLAS
frecuencias <- factor(data$Sex)
levels(frecuencias) <- c("Mujer", "Hombre")

tabla_FrecAbs <-table(frecuencias)

tabla_FrecRel <- prop.table(table(frecuencias))

tablaProcentual_FrecRel <- tabla_FrecRel*100

marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Sexo", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Sexo", "F.Relativa")


tabla_frecuencias <- merge(marco1, marco2, by="Sexo")
tabla_frecuencias
##     Sexo F.Absoluta F.Relativa
## 1 Hombre        577   0.647587
## 2  Mujer        314   0.352413
redondeo <- round(as.vector(tablaProcentual_FrecRel), 2)

#GRAFICOS
label  <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grĂ¡fica de los sexos de los pasajeros")

<<< PARAMETRO : Pclass (Pasajero_Clase) >>>

#VARIABLE CUANTITATIVA "CLASE DEL PASAJERO"

#TABLAS

frecuencias <- factor(data$Pclass)
levels(frecuencias) <- c("primera", "segunda", "tercera")

tabla_FrecAbs <-table(frecuencias)

tabla_FrecRel <- prop.table(table(frecuencias))

tablaProcentual_FrecRel <- tabla_FrecRel*100

marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Clase", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Clase", "F.Relativa")


tabla_frecuencias <- merge(marco1, marco2, by="Clase")
tabla_frecuencias
##     Clase F.Absoluta F.Relativa
## 1 primera        216  0.2424242
## 2 segunda        184  0.2065095
## 3 tercera        491  0.5510662
#GRAFICOS
redondeo <- round(as.vector(tablaProcentual_FrecRel))
label  <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grafica de las Clases sociales de los pasajeros")

<<< PARAMETRO : Survived (sobrevivio) >>>

#VARIABLE CUANTITATIVA "SOBREVIVIO"

#TABLAS
frecuencias <- factor(data$Survived)
levels(frecuencias) <- c("no Sobrevivio", "Sobrevivio")

tabla_FrecAbs <-table(frecuencias)

tabla_FrecRel <- prop.table(table(frecuencias))

tablaProcentual_FrecRel <- tabla_FrecRel*100

marco1 <- data.frame(tabla_FrecAbs)
names(marco1) <-c("Estado", "F.Absoluta")
marco2 <- data.frame(tabla_FrecRel)
names(marco2) <-c("Estado", "F.Relativa")


tabla_frecuencias <- merge(marco1, marco2, by="Estado")
tabla_frecuencias
##          Estado F.Absoluta F.Relativa
## 1 no Sobrevivio        549  0.6161616
## 2    Sobrevivio        342  0.3838384
#GRAFICOS
redondeo <- round(as.vector(tablaProcentual_FrecRel), 2)

label  <- paste(redondeo, "%", sep=" ")
pie(redondeo, labels = label, clockwise = TRUE, main = "grafica de los sobrevivientes")

<<< MATRIZ DE CORRELACION >>>

#MATRIZ DE CORRELACION
datos <- data.frame(data$Age, data$SibSp, data$Parch, data$Fare)
matriz <- cor(datos, use="pairwise.complete.obs")

matriz
##               data.Age data.SibSp data.Parch  data.Fare
## data.Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## data.SibSp -0.30824676  1.0000000  0.4148377 0.15965104
## data.Parch -0.18911926  0.4148377  1.0000000 0.21622494
## data.Fare   0.09606669  0.1596510  0.2162249 1.00000000
corrplot(matriz, method = "color")

corrplot.mixed(matriz , upper = "color", lower.col = "black")

<<< MATRIZ DE VARIANZA-COVARIANZA >>>

#MATRIZ DE VARIANZA-COVARIANZA
datos <- data.frame(data$Age, data$SibSp, data$Parch, data$Fare)
matriz <- cor(datos, use="pairwise.complete.obs")
matriz
##               data.Age data.SibSp data.Parch  data.Fare
## data.Age    1.00000000 -0.3082468 -0.1891193 0.09606669
## data.SibSp -0.30824676  1.0000000  0.4148377 0.15965104
## data.Parch -0.18911926  0.4148377  1.0000000 0.21622494
## data.Fare   0.09606669  0.1596510  0.2162249 1.00000000
corrplot(matriz, method = "color")

corrplot.mixed(matriz , upper = "color", lower.col = "black")

<<< MATRIZ DE DIAGRAMA DE DISPERSION >>>

#MATRIZ DE DIAGRAMA DE DISPERSION
datos = titanic_train
matrik <- pairs(Age ~ SibSp + Parch + Fare, data=datos, main="GrĂ¡fico")

<<< BOXPLOT SEGMENTADOS >>>

#analaisis variables cualitativas
datos = titanic_train

boxplot(Age ~ Pclass, data =datos, col = 'green', main= 'Edad por clase social')

boxplot(SibSp ~ Sex, data =datos, col = 'green', main= 'SibSp por sexo')

boxplot(Parch ~ Pclass, data =datos, col = 'green', main= 'Parch por clase social')

boxplot(Fare ~ Pclass, data =datos, col = 'green', main= 'Tarifa por clase social')

boxplot(Survived ~ Sex, data =datos, col = 'green', main= 'sobrevivientes por sexo')