INTRODUCCION

Nuestra muestra son todos los pasajeros del fatal viaje inaugural del transatlántico “Titanic”. La muestra objetivo es N= 891. En nuestro caso, excluimos los datos en los que el usuario no respondió a las preguntas en algunas variables y causó la pérdida de datos. Eliminamos aquellas observaciones que eran datos perdidos, dejando una muestra de N= 714. Utilizaremos R Studio para el proceso de cálculos como medidas de tendencia central, dispersión, posiciones, tablas y gráficos. Finalmente, se realizará un análisis de los resultados más relevantes del análisis.

.

OBJETIVO GENERAL

Aplicar las técnicas estadísticas de descriptiva a la base de datos de Titanic, usando la asistencia del programa R Studio

DATOS

Este conjunto de datos proporciona información sobre el destino de los pasajeros en el “Titanic”. Sus variables son: situación económica (clase), sexo, edad, supervivencia, tarifa edad, numero de parientes hombre y mujer.

library(tidyverse)
## -- Attaching packages ---------------------------------------------------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.2     v dplyr   1.0.0
## v tidyr   1.1.0     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0
## -- Conflicts ------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(moments)
library(titanic)
## Warning: package 'titanic' was built under R version 4.0.3
library(agricolae)
## 
## Attaching package: 'agricolae'
## The following objects are masked from 'package:moments':
## 
##     kurtosis, skewness
library(reshape2)
## 
## Attaching package: 'reshape2'
## The following object is masked from 'package:tidyr':
## 
##     smiths
library(gridExtra)
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine
data=titanic_train
str(data)
## 'data.frame':    891 obs. of  12 variables:
##  $ PassengerId: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Survived   : int  0 1 1 1 0 0 0 0 1 1 ...
##  $ Pclass     : int  3 1 3 1 3 3 1 3 3 2 ...
##  $ Name       : chr  "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
##  $ Sex        : chr  "male" "female" "female" "female" ...
##  $ Age        : num  22 38 26 35 35 NA 54 2 27 14 ...
##  $ SibSp      : int  1 1 0 1 0 0 0 3 0 1 ...
##  $ Parch      : int  0 0 0 0 0 0 0 1 2 0 ...
##  $ Ticket     : chr  "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
##  $ Fare       : num  7.25 71.28 7.92 53.1 8.05 ...
##  $ Cabin      : chr  "" "C85" "" "C123" ...
##  $ Embarked   : chr  "S" "C" "S" "S" ...
data<-na.omit(data)

Separamos la data en variables cualitativas y cuantitativas. La cual la renombramos con el nombre num y chr.

#-------------- seleccion de muestra --------
names(data)
##  [1] "PassengerId" "Survived"    "Pclass"      "Name"        "Sex"        
##  [6] "Age"         "SibSp"       "Parch"       "Ticket"      "Fare"       
## [11] "Cabin"       "Embarked"
#variables cuantitativa
num<-data[,c(3,6,7,8,10)]

#variables cualitativa
chr<-data[,c(2,5,12)]

#renombrar variables 
colnames(num)<-c("Clase_Pasajero","Edad","Pariente_Masculino","Pariente_Femenino","Tarifa_Pasaje")
names(num)
## [1] "Clase_Pasajero"     "Edad"               "Pariente_Masculino"
## [4] "Pariente_Femenino"  "Tarifa_Pasaje"
colnames(chr)<-c("Sobreviviente","Sexo","Puerto_Embarcadero")
names(chr)
## [1] "Sobreviviente"      "Sexo"               "Puerto_Embarcadero"
#-------------- renombrar en chr ------------
chr[chr$Sobreviviente==0,"Sobreviviente"]<-"Muerto"
chr[chr$Sobreviviente==1,"Sobreviviente"]<-"Vivo"
chr[chr$Sexo=="female","Sexo"]<-"Mujer"
chr[chr$Sexo=="male","Sexo"]<-"Hombre"
chr[chr$Puerto_Embarcadero=="C","Puerto_Embarcadero"]<-"Cherbourg"
chr[chr$Puerto_Embarcadero=="Q","Puerto_Embarcadero"]<-"Queenston"
chr[chr$Puerto_Embarcadero=="S","Puerto_Embarcadero"]<-"Southapmtpon"
chr[chr$Puerto_Embarcadero=="","Puerto_Embarcadero"]<-"Southapmtpon"

#----------- estadistica descriptiva cualitativa-----------
resumen1<-function(x){
  round(cbind(frecuencia =table(x),relativo=prop.table(table(x))),3)}
#sobreviviente 
df1<-data.frame(resumen1(chr$Sobreviviente))
df1
##        frecuencia relativo
## Muerto        424    0.594
## Vivo          290    0.406
ggplot(chr,aes(Sobreviviente)) +geom_bar( fill="#0099ff" )+
  labs(title="Diagrama de barra", y="Frecuencia", x="Sobreviviente") + theme_classic(base_size=15)

ggplot(df1,aes(x="",y=relativo, fill=rownames(df1)))+geom_bar(stat = "identity",color="white")+
  theme_void(base_size=15)+coord_polar(theta="y")+labs(title="Diagrama de barra Sobreviviente")+
  scale_fill_manual(values = c("#0099ff","#66ff99"))+
  geom_text(aes(label=paste(relativo*100,"%")),position=position_stack(vjust=0.5),color="white",size=6)

Se tiene la variable sobreviviente donde de los 714 personas el 59.4% fallecio en el accidente y solo 40.6% lograron sobrevivir.

#sexo
df2<-data.frame(resumen1(chr$Sexo))
df2
##        frecuencia relativo
## Hombre        453    0.634
## Mujer         261    0.366
ggplot(chr,aes(Sexo)) +geom_bar( fill="#0099ff" )+
  labs(title="Diagrama de barra", y="Frecuencia", x="Sexo") + theme_classic(base_size=15)

ggplot(df2,aes(x="",y=relativo, fill=rownames(df2)))+geom_bar(stat = "identity",color="white")+
  theme_void(base_size=15)+coord_polar(theta="y")+labs(title="Diagrama de barra Sexo")+
  scale_fill_manual(values = c("#0099ff","#66ff99"))+
  geom_text(aes(label=paste(relativo*100,"%")),position=position_stack(vjust=0.5),color="white",size=6)

La variable sexo los 714 personas corresponde el 63,4% son hombre y el 36.6% son mujeres.

#puerto embarquero
df3<-data.frame(resumen1(chr$Puerto_Embarcadero))
df3
##              frecuencia relativo
## Cherbourg           130    0.182
## Queenston            28    0.039
## Southapmtpon        556    0.779
ggplot(chr,aes(Puerto_Embarcadero)) +geom_bar( fill="#0099ff" )+
  labs(title="Diagrama de barra", y="Frecuencia", x="Puerto_Embarcadero") + theme_classic(base_size=15)

ggplot(df3,aes(x="",y=relativo, fill=rownames(df3)))+geom_bar(stat = "identity",color="white")+
  theme_void(base_size=15)+coord_polar(theta="y")+labs(title="Diagrama de barra Puerto Embarcadero")+
  scale_fill_manual(values = c("#ff0066","#66ff99","#0099ff"))+
  geom_text(aes(label=paste(relativo*100,"%")),position=position_stack(vjust=0.5),color="white",size=6)

De los 714 pasajeros, se realize la parada en los puerto embarcadero Southapmtpon en el 77.9%, 18.2% Cherbourg y por ultimo con 3.9% Queenston.

#----------- estadistica descriptiva cuantitativa -----------
resumen2<-function(y){
  q<-quantile(y, prob=c(0.25,0.5,0.75))
  nombre<-c("min","cuart 1","media","cuart 2","cuart 3","max","sd","asimetria","kurtorsi")
  valor<-round(c(min(y),q[1],mean(y),q[2],q[3],max(y),sd(y),skewness(y),kurtosis(y)),3)
  data.frame(nombre,valor)}

tabla<-function(x){
  r<-range(x)  
  amp<-(r[2]-r[1])/nclass.Sturges(x)  
  tab<-table.freq(hist(x, breaks=seq(r[1],r[2],amp) ,include.lowest=TRUE, right=FALSE, plot=F))
  tab
}


#clase de pasajero
resumen2(num$Clase_Pasajero)
##      nombre  valor
## 1       min  1.000
## 2   cuart 1  1.000
## 3     media  2.237
## 4   cuart 2  2.000
## 5   cuart 3  3.000
## 6       max  3.000
## 7        sd  0.838
## 8 asimetria -0.469
## 9  kurtorsi -1.420
resumen1(num$Clase_Pasajero)
##   frecuencia relativo
## 1        186    0.261
## 2        173    0.242
## 3        355    0.497
ggplot(num,aes(Clase_Pasajero)) +geom_bar( fill="#0099ff" )+
  labs(title="histograma Clase_Pasajero", y="Frecuencia", x="Clase_Pasajero") + theme_classic(base_size=15)

ggplot(num, aes(factor(0),y=Clase_Pasajero)) + 
  geom_boxplot()+ scale_x_discrete(breaks = NULL)+
  labs(title="Diagrama de caja para Clase_Pasajero", y="Frecuencia", x="Clase_Pasajero",color=NULL)  +
  coord_flip()+theme_classic(base_size=15)

La media de los boletos de clase para los pasajeros es un poco más de segunda clase 2.24 con una desviación de 0.838. Su mediana es de segunda clase 2. La tabla de frecuencias la concentración más alta la tuvo la clase 3 que tiene 355, con el 49.7%. Seguido por la primera clase con el 26.1% con 186 pasajeros. El histograma muestra una asimetría es -0.469 que refleja en la distribución un ligero sesgo hacia la derecha. El diagrama de caja no muestra valores atípicos, entonces no hay aberrancias en los datos.

#edad
resumen2(num$Edad)
##      nombre  valor
## 1       min  0.420
## 2   cuart 1 20.125
## 3     media 29.699
## 4   cuart 2 28.000
## 5   cuart 3 38.000
## 6       max 80.000
## 7        sd 14.526
## 8 asimetria  0.389
## 9  kurtorsi  0.178
tabla(num$Edad)
##        Lower     Upper      Main Frequency Percentage  CF   CPF
## 1   0.420000  7.654545  4.037273        50        7.0  50   7.0
## 2   7.654545 14.889091 11.271818        28        3.9  78  10.9
## 3  14.889091 22.123636 18.506364       153       21.4 231  32.4
## 4  22.123636 29.358182 25.740909       153       21.4 384  53.8
## 5  29.358182 36.592727 32.975455       136       19.0 520  72.8
## 6  36.592727 43.827273 40.210000        70        9.8 590  82.6
## 7  43.827273 51.061818 47.444545        67        9.4 657  92.0
## 8  51.061818 58.296364 54.679091        29        4.1 686  96.1
## 9  58.296364 65.530909 61.913636        20        2.8 706  98.9
## 10 65.530909 72.765455 69.148182         6        0.8 712  99.7
## 11 72.765455 80.000000 76.382727         2        0.3 714 100.0
ggplot(num,aes(Edad))+geom_histogram( binwidth=9, fill="#1571EA", color="#104385", alpha=0.9) +
  labs(title="Histograma de Edad", y="Frecuencia", x="Edad",color=NULL) +
  geom_vline(xintercept = mean(num$Edad), color="#3EFB3F",size=1.5)+  
  theme_classic(base_size=15) 

ggplot(num, aes(factor(0),y=Edad)) + 
  geom_boxplot()+ scale_x_discrete(breaks = NULL)+
  labs(title="Diagrama de caja para Edad", y="Frecuencia", x="Edad",color=NULL)  +
  coord_flip()+theme_classic(base_size=15)

La edad media de los pasajeros a bordo era de 29.7 años y una desviación de 14.5 años. Su mediana es de 28 años. La tabla de frecuencias muestra la concentración más alta entre 14 a 22 años, y 22 a 29 años, ambos con la misma proporción de 21,4%. Después con el 19,0% entre los 29-36 años. El histograma muestra la distribución con un sesgo hacia la izquierda, donde el valor de la asimetría es 0.389 que nos indica la ligera concentración de lado izquierdo de los datos. El diagrama de caja muestra valores atípicos debido al sesgo de la izquierda de la distribución, donde las aberrancias aparecen pasado los 60 años.

#pariente masculino
resumen2(num$Pariente_Masculino)
##      nombre valor
## 1       min 0.000
## 2   cuart 1 0.000
## 3     media 0.513
## 4   cuart 2 0.000
## 5   cuart 3 1.000
## 6       max 5.000
## 7        sd 0.930
## 8 asimetria 2.520
## 9  kurtorsi 7.045
resumen1(num$Pariente_Masculino)
##   frecuencia relativo
## 0        471    0.660
## 1        183    0.256
## 2         25    0.035
## 3         12    0.017
## 4         18    0.025
## 5          5    0.007
ggplot(num,aes(Pariente_Masculino)) +geom_bar( fill="#0099ff" )+
  labs(title="histograma Pariente_Masculino", y="Frecuencia", x="Pariente_Masculino") + theme_classic(base_size=15)

ggplot(num, aes(factor(0),y=Pariente_Masculino)) + 
  geom_boxplot()+ scale_x_discrete(breaks = NULL)+
  labs(title="Diagrama de caja para Pariente_Masculino", y="Frecuencia", x="Pariente_Masculino",color=NULL)  +
  coord_flip()+theme_classic(base_size=15)

La media del número de parientes masculinos que eran pasajeros es 0.51 con una desviación de 0.93. Su mediana es de segunda clase 0. La tabla de frecuencias la concentración más alta la tuvo con cero parientes masculino que era 471, con el 66.0%. Seguido de un pariente masculino con el 25.6% de 183 pasajeros. El histograma muestra una asimetría es 2.52 que refleja en la distribución tiene un gran sesgo hacia la izquierda. El diagrama de caja muestra valores atípicos, pasado los 2 familiares masculino

#pariente femenino
resumen2(num$Pariente_Femenino)
##      nombre valor
## 1       min 0.000
## 2   cuart 1 0.000
## 3     media 0.431
## 4   cuart 2 0.000
## 5   cuart 3 1.000
## 6       max 6.000
## 7        sd 0.853
## 8 asimetria 2.619
## 9  kurtorsi 8.853
resumen1(num$Pariente_Femenino)
##   frecuencia relativo
## 0        521    0.730
## 1        110    0.154
## 2         68    0.095
## 3          5    0.007
## 4          4    0.006
## 5          5    0.007
## 6          1    0.001
ggplot(num,aes(Pariente_Femenino)) +geom_bar( fill="#0099ff" )+
  labs(title="histograma Pariente_Femenino", y="Frecuencia", x="Pariente_Femenino") + theme_classic(base_size=15)

ggplot(num, aes(factor(0),y=Pariente_Femenino)) + 
  geom_boxplot()+ scale_x_discrete(breaks = NULL)+
  labs(title="Diagrama de caja para Pariente_Femenino", y="Frecuencia", x="Pariente_Femenino",color=NULL)  +
  coord_flip()+theme_classic(base_size=15)

desviación de 0.85. Su mediana es de segunda clase 0. La tabla de frecuencias la concentración más alta la tuvo con cero parientes femeninos que era 521, con el 73.0%. Seguido de un pariente femeninos con el 15.4% de 110 pasajeros. El histograma muestra una asimetría es 2.62 que refleja en la distribución tiene un gran sesgo hacia la izquierda. El diagrama de caja muestra valores atípicos, pasado los 2 familiares masculino

#tarifa de pasaje
resumen2(num$Tarifa_Pasaje)
##      nombre   valor
## 1       min   0.000
## 2   cuart 1   8.050
## 3     media  34.695
## 4   cuart 2  15.742
## 5   cuart 3  33.375
## 6       max 512.329
## 7        sd  52.919
## 8 asimetria   4.654
## 9  kurtorsi  30.924
tabla(num$Tarifa_Pasaje)
##        Lower     Upper      Main Frequency Percentage  CF   CPF
## 1    0.00000  46.57538  23.28769       566       79.3 566  79.3
## 2   46.57538  93.15076  69.86307        98       13.7 664  93.0
## 3   93.15076 139.72615 116.43845        22        3.1 686  96.1
## 4  139.72615 186.30153 163.01384        10        1.4 696  97.5
## 5  186.30153 232.87691 209.58922         7        1.0 703  98.5
## 6  232.87691 279.45229 256.16460         8        1.1 711  99.6
## 7  279.45229 326.02767 302.73998         0        0.0 711  99.6
## 8  326.02767 372.60305 349.31536         0        0.0 711  99.6
## 9  372.60305 419.17844 395.89075         0        0.0 711  99.6
## 10 419.17844 465.75382 442.46613         0        0.0 711  99.6
## 11 465.75382 512.32920 489.04151         3        0.4 714 100.0
ggplot(num,aes(Tarifa_Pasaje))+geom_histogram( binwidth=50, fill="#1571EA", color="#104385", alpha=0.9) +
  labs(title="Histograma de Tarifa_Pasaje", y="Frecuencia", x="Tarifa_Pasaje",color=NULL) +
  geom_vline(xintercept = mean(num$Tarifa_Pasaje), color="#3EFB3F",size=1.5)+  
  theme_classic(base_size=15) 

ggplot(num, aes(factor(0),y=Tarifa_Pasaje)) + 
  geom_boxplot()+ scale_x_discrete(breaks = NULL)+
  labs(title="Diagrama de caja para Tarifa_Pasaje", y="Frecuencia", x="Tarifa_Pasaje")  +
  coord_flip()+theme_classic(base_size=15)

La tarifa media de los precios es de 34.7 con una desviación de 52.9. Su mediana es de 15.7. La tabla de frecuencias muestra la concentración más alta entre 0 a 46.6, y con un 79,3%. Después con el 13,7% entre los 47 a 93. El histograma muestra la distribución con un sesgo hacia la izquierda, donde el valor de la asimetría es 4.654 que nos indica una gran concentración de lado izquierdo de los datos. El diagrama de caja muestra valores atípicos debido al sesgo de la izquierda de la distribución, donde las aberrancias aparecen pasado los 80.

#------------- estadistica multivariante----------
dt<-cbind(num[,c(2,5)],chr)
dt1<- melt(dt, measure.vars=1:2)
names(dt1)
## [1] "Sobreviviente"      "Sexo"               "Puerto_Embarcadero"
## [4] "variable"           "value"
ggplot(dt1, aes(x=factor(Sexo), y=value,colour=Sexo)) + 
  geom_boxplot(aes(fill=factor(variable)))+scale_color_manual(values=c("#1571EA", "#F24237"))+
  labs(title="Diagrama de caja", y="", x="Sexo",color=NULL) + 
  theme_classic()

e tiene las variables edad y tarifa, separada tanto por hombre y mujer. Donde observamos que en edad la mediana de la edad de los hombres es mayor que de mujeres, donde en los hombres se encuentra que hay valores atípicos y en mujeres no. Para las tarifas en hombres y mujeres se tiene que la mediana de los precios para mujeres es mayor al de los hombres. Donde los hombres tienen mayores aberrancias que las mujeres. También se puede observar que el diagrama de caja de las mujeres tienen un bigote superior mas grande debido que un gran número de ellas paga tarifas han comprado boletos mas caros.

ggplot(dt1, aes(x=factor(Sobreviviente), y=value,colour=Sobreviviente)) + 
  geom_boxplot(aes(fill=factor(variable)))+scale_color_manual(values=c("#1571EA", "#F24237"))+
  labs(title="Diagrama de caja", y="", x="Sobreviviente",color=NULL) + 
  theme_classic()

Se tiene las variables edad y tarifa, separada tanto por estado vivo o muerto. Donde observamos que la mediana de la edad de personas muertas es ligeramente mayor en hombres que en mujeres. Para las tarifa de los precios de las personas vivas o muertas, se puede ver que hay mas personas que han vivido comparado las personas muertas, donde en al grafica anterior se había observado que la mayores personas en los precios eran las mujeres con respecto al hombre.

dt<-cbind(num[,c(1,3,4)],chr)
dt1<- melt(dt, measure.vars=1:3)

ggplot(dt1, aes(x=factor(Sexo), y=value,colour=Sexo)) + 
  geom_boxplot(aes(fill=factor(variable)))+scale_color_manual(values=c("#1571EA", "#F24237"))+
  labs(title="Diagrama de caja", y="", x="Sexo",color=NULL) + 
  theme_classic()

Separamos por hombre y mujer, los tipos de clases de pasajeros parientes masculinos y parientes femeninos. Para los tipos de clases de pasajeros se observa que la mediana de hombres son de la clase más baja que es tercera clase, mientras que en mujeres su mediana son de clase media que es segunda clase. Para los parientes masculinos que observa que tanto hombres y mujeres tiene una similitud con una mediana de cero en ambos casos. Para los parientes femeninos también se observa que su mediana en ambos casos es igual a cero, pero con la diferencia que en mujeres su cuartil 3 ha llevado un pariente femenino.

ggplot(dt1, aes(x=factor(Sobreviviente), y=value,colour=Sobreviviente)) + 
  geom_boxplot(aes(fill=factor(variable)))+scale_color_manual(values=c("#1571EA", "#F24237"))+
  labs(title="Diagrama de caja", y="", x="Sobreviviente",color=NULL) + 
  theme_classic()

Separamos por vivo o muerto los tipos de clases de pasajeros parientes masculinos y parientes femeninos. Para los tipos de clases de pasajeros se observa que la mediana de personas muertas son de la clase más baja que es tercera clase, mientras que en estado vivo su mediana son de clase media que es segunda clase, donde se recuerda que había una concentración de mujeres vivas. Para los parientes masculinos que observa que tanto en vivo y muerto tiene una similitud con una mediana de cero en ambos casos. Para los parientes femeninos también se observa que su mediana en ambos casos es igual a cero, pero con la diferencia que en vivo su cuartil 3 ha llevado un pariente femenino.

#------------ estadistica de correlacion ---------------------------
#matriz de correlacion y covarianza
covar<-round(var(num),2)
covar
##                    Clase_Pasajero   Edad Pariente_Masculino Pariente_Femenino
## Clase_Pasajero               0.70  -4.50               0.05              0.02
## Edad                        -4.50 211.02              -4.16             -2.34
## Pariente_Masculino           0.05  -4.16               0.86              0.30
## Pariente_Femenino            0.02  -2.34               0.30              0.73
## Tarifa_Pasaje              -24.58  73.85               6.81              9.26
##                    Tarifa_Pasaje
## Clase_Pasajero            -24.58
## Edad                       73.85
## Pariente_Masculino          6.81
## Pariente_Femenino           9.26
## Tarifa_Pasaje            2800.41
corr<-round(cor(num),2)
corr
##                    Clase_Pasajero  Edad Pariente_Masculino Pariente_Femenino
## Clase_Pasajero               1.00 -0.37               0.07              0.03
## Edad                        -0.37  1.00              -0.31             -0.19
## Pariente_Masculino           0.07 -0.31               1.00              0.38
## Pariente_Femenino            0.03 -0.19               0.38              1.00
## Tarifa_Pasaje               -0.55  0.10               0.14              0.21
##                    Tarifa_Pasaje
## Clase_Pasajero             -0.55
## Edad                        0.10
## Pariente_Masculino          0.14
## Pariente_Femenino           0.21
## Tarifa_Pasaje               1.00

Observando los diferentes cruces entre las variables cuantitativas se observa que ninguna variable tiene correlaciones fuertes superior a 0.7. Donde la correlación más alta es el precio de la tarifa y el nivel de clase de pasajero con un -0.55, que representa una ligera correlación inversa fuerte, es decir, entre mayor sea la clase (primera clase) mayor es la tarifa y mientras menor sea la clase (tercera clase) menor será la tarifa. Las demás variables tienen una correlación muy débil el cual se podría decir que son independiente entre sí.

library(psych) 
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
pairs.panels(num, pch=21,main="Gráfico 01.6: Matriz de Dispersión, Histograma y Correlación")

Plot1 <- ggplot(num, aes(Edad,Clase_Pasajero)) +geom_point()+
  labs(title="Grafico de dispersion", y="Clase pasajero", x="Edad",color=NULL) +
  theme_classic(base_size=15)
Plot2 <- ggplot(num, aes(Edad,Pariente_Masculino)) +geom_point()+
  labs(title="Grafico de dispersion", y="Pariente masculino", x="Edad",color=NULL) +
  theme_classic(base_size=15)
Plot3 <- ggplot(num, aes(Edad,Pariente_Femenino)) +geom_point()+
  labs(title="Grafico de dispersion", y="Pariente Femenino", x="Edad",color=NULL) +
  theme_classic(base_size=15)
Plot4 <- ggplot(num, aes(Edad,Tarifa_Pasaje)) +geom_point()+
  labs(title="Grafico de dispersion", y="Tarifa_Pasaje", x="Edad",color=NULL) +
  theme_classic(base_size=15)
Plot5 <- ggplot(num, aes(Tarifa_Pasaje,Clase_Pasajero)) +geom_point()+
  labs(title="Grafico de dispersion", y="Clase_Pasajero", x="Tarifa_Pasaje",color=NULL) +
  theme_classic(base_size=15)
Plot6 <- ggplot(num, aes(Tarifa_Pasaje,Pariente_Masculino)) +geom_point()+
  labs(title="Grafico de dispersion", y="Pariente_Masculino", x="Tarifa_Pasaje",color=NULL) +
  theme_classic(base_size=15)
Plot7 <- ggplot(num, aes(Tarifa_Pasaje,Pariente_Femenino)) +geom_point()+
  labs(title="Grafico de dispersion", y="Pariente_Femenino", x="Tarifa_Pasaje",color=NULL) +
  theme_classic(base_size=15)
Plot8 <- ggplot(num, aes(Pariente_Masculino,Pariente_Femenino)) +geom_point()+
  labs(title="Grafico de dispersion", y="Pariente_Femenino", x="Pariente_Masculino",color=NULL) +
  theme_classic(base_size=15)


grid.arrange(Plot1, Plot2, Plot3, Plot4, Plot5,Plot6, Plot7,Plot8, ncol = 3)

Para el grafico de dispersión se observa que en ninguna de las distribuciones se encuentra alguna relacion que diga que hay dependencia entre ambas variables. Donde en al única que podría decirse que hay cierta tendencia a un patron es en clase de pasajero y tarifa del pasajero.

CONCLUSIONES

• se obtuvieron los siguientes resultados que el 60% de los tripulantes murieron. Había más hombre que mujeres a bordo, donde había un 63% de hombre. la media de los pasajeros era de segunda clase. Y la media de la edad eran de alrededor de los 29 años. • Con respecto a la tarifa están tienen un gran sesgo, donde su media y mediana son de 34 y 16, el cual es resultado de las grandes aberrancias que había debido a los precios. • El número de parientes hombres y mujeres son casi similares con una media y mediana igual a cero. • En el estudio bivariado se encuentra que la mayoría de los vivos fueron las mujeres. • No existieron correlaciones o dependencia entre variables, donde la única que tenia la una ligera correlación fuerte es tarifa del precio y nivel de clase de pasajero.