TITANIC -DataDomain
El RMS Titanic fue un transatlántico británico, el mayor barco de pasajeros del mundo en el momento de su terminación, que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912 durante su viaje inaugural desde Southampton a Nueva York. En el hundimiento del Titanic murieron 1514 personas de las 2223 que iban a bordo, lo que convierte a esta tragedia en uno de los mayores naufragios de la historia ocurridos en tiempo de paz. El dataset en donde se analizarán diferentes interpretaciones estadísticas son basadas en un conjunto de datos que describen a los pasajeros que estuvieron en ese viaje del transatlántico.
A continuación se muestra la estructura y 10 datos de lo que compone el dataset.
head(titanic$PassengerId)
## [1] 1 2 3 4 5 6
head(titanic$Survived)
## [1] 0 1 1 1 0 0
head(titanic$Pclass)
## [1] 3 1 3 1 3 3
head(titanic$Name)
## [1] Braund, Mr. Owen Harris
## [2] Cumings, Mrs. John Bradley (Florence Briggs Thayer)
## [3] Heikkinen, Miss. Laina
## [4] Futrelle, Mrs. Jacques Heath (Lily May Peel)
## [5] Allen, Mr. William Henry
## [6] Moran, Mr. James
## 891 Levels: Abbing, Mr. Anthony ... Zimmerman, Mr. Leo
head(titanic$Sex)
## [1] male female female female male male
## Levels: female male
head(titanic$Age)
## [1] 22 38 26 35 35 NA
head(titanic$SibSp)
## [1] 1 1 0 1 0 0
head(titanic$Parch)
## [1] 0 0 0 0 0 0
head(titanic$Ticket)
## [1] A/5 21171 PC 17599 STON/O2. 3101282 113803
## [5] 373450 330877
## 681 Levels: 110152 110413 110465 110564 110813 111240 111320 ... WE/P 5735
head(titanic$Fare)
## [1] 7.2500 71.2833 7.9250 53.1000 8.0500 8.4583
head(titanic$Cabin)
## [1] C85 C123
## 148 Levels: A10 A14 A16 A19 A20 A23 A24 A26 A31 A32 A34 A36 A5 A6 ... T
head(titanic$Embarked)
## [1] S C S S S Q
## Levels: C Q S
Se describen los nombres de las columnas del dataset.
PassengerId -> Muestra el id del Pasajero (solamente es un indicador.) Survived -> Se encuentra en 2 valores 0 si murió en la trajedia y 1 si sobrevivió Pclass -> Determina la clase del pasajero, 1ra, 2da o 3era clase. Name -> Nombre de los Pasajeros Sex -> Sexo de los Pasajeros Age -> Edad de los Pasajeros SibSp -> Número de parientes como Hermano, Hermana, Hermanastra, Hermanastro, Esposo o Esposa. Parch -> Número de parientes como Madre, Padre, Hijo, Hija, Hijastro, Hijastra Ticket -> Número del ticket o boleto. Fare -> Tarifa del pasaje. Cabin -> Número de cabina del pasajero. Embarked -> Muestra los datos del puerto de embarcaquedero. (C = Cherbourg, Q = Queenston, S = Southapmtpon)
names(titanic)
## [1] "PassengerId" "Survived" "Pclass" "Name" "Sex"
## [6] "Age" "SibSp" "Parch" "Ticket" "Fare"
## [11] "Cabin" "Embarked"
En algunas de las interpretaciones usamos na.omit para omitir los valores nulos, también algunos de los valores nulos se convirtieron en 0, todo esto para generar una limpieza más general de los datos. También se mutó el dataset como factor para establecer y agrupar más los datos.
Se realiza un summary estadístico (Mínimos, Máximos, Promedios, Medias) del dataset, se utilizó la librería dplyr para mutar el dataset y agregar age group para clasificar mejor las edades. También asigne grupos entre sexo y edades.
library(dplyr)
## Warning: package 'dplyr' was built under R version 3.2.5
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
titanic <- titanic %>% mutate(Pclass.factor = as.factor(Pclass),
Survived.factor = as.factor(Survived),
age.group = cut(Age, breaks=seq(0,90,10))
)
summary(titanic)
## PassengerId Survived Pclass
## Min. : 1.0 Min. :0.0000 Min. :1.000
## 1st Qu.:223.5 1st Qu.:0.0000 1st Qu.:2.000
## Median :446.0 Median :0.0000 Median :3.000
## Mean :446.0 Mean :0.3838 Mean :2.309
## 3rd Qu.:668.5 3rd Qu.:1.0000 3rd Qu.:3.000
## Max. :891.0 Max. :1.0000 Max. :3.000
##
## Name Sex Age
## Abbing, Mr. Anthony : 1 female:314 Min. : 0.42
## Abbott, Mr. Rossmore Edward : 1 male :577 1st Qu.:20.12
## Abbott, Mrs. Stanton (Rosa Hunt) : 1 Median :28.00
## Abelson, Mr. Samuel : 1 Mean :29.70
## Abelson, Mrs. Samuel (Hannah Wizosky): 1 3rd Qu.:38.00
## Adahl, Mr. Mauritz Nils Martin : 1 Max. :80.00
## (Other) :885 NA's :177
## SibSp Parch Ticket Fare
## Min. :0.000 Min. :0.0000 1601 : 7 Min. : 0.00
## 1st Qu.:0.000 1st Qu.:0.0000 347082 : 7 1st Qu.: 7.91
## Median :0.000 Median :0.0000 CA. 2343: 7 Median : 14.45
## Mean :0.523 Mean :0.3816 3101295 : 6 Mean : 32.20
## 3rd Qu.:1.000 3rd Qu.:0.0000 347088 : 6 3rd Qu.: 31.00
## Max. :8.000 Max. :6.0000 CA 2144 : 6 Max. :512.33
## (Other) :852
## Cabin Embarked Pclass.factor Survived.factor age.group
## :687 : 2 1:216 0:549 (20,30]:230
## B96 B98 : 4 C:168 2:184 1:342 (30,40]:155
## C23 C25 C27: 4 Q: 77 3:491 (10,20]:115
## G6 : 4 S:644 (40,50]: 86
## C22 C26 : 3 (0,10] : 64
## D : 3 (Other): 64
## (Other) :186 NA's :177
En este bloxplot se muestra la edad promedio de los pasageros que se encontraban en el titanic, mostrando la media está dentro de una edad de 30 años
boxplot(titanic$Age,
main = "Boxplot of Age Passengers",
yLab = "Age")
La asimetría esta definida como:
y es a medida de la simetría, las reglas son las siguientes si el resultado es negativo indica que el promedio de los valores son menores que la media, si es positiva es que son mayores.
Dentro de los resultados de Edad y Costo de pasaje resultaron postivos así que la distribución de los valores son mayores a la media.
library(e1071)
## Warning: package 'e1071' was built under R version 3.2.5
skewness(na.omit(titanic$Age))
## [1] 0.3874744
skewness(titanic$Fare)
## [1] 4.77121
En estadástica, un histograma es una representcación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua.
En el histograma se muestra la distribución de edad de los pasajeros del Titanic. Se puede observar que la distribución de pasajeros no es simetrica; posee una cola hacia la derecha, lo que quiere decir que la en su mayoría los pasajeros eran gente joven.
También se observa que el grupo más grande de pasajeros se ubica entre los 20 y 29 años de edad. Siendo la edad más frencuente entre los pasajeros del Titanic. Se puede observar que este grupo es mucho más grande que el los grupos de pasajeros mayores de 40 años en conjunto y también más grande que los grupos menores de 20 años en conjunto.
En este histograma se observa la distribución del costo del boleto que tuvo para los pasajeros; como es posible observar para la mayoría de los pasajeros el boleto tuvo un valor menor a los 100 dolares. Es una distribución no simetrica con una cola hacia la derecha.
Es posible deducir que la gran mayorÃa de los pasajeros a bordo era gente de la clase media que podía costear el costo del boleto; y en su minoría gente con un nivel socioeconómico mayor debido al costo elevado que tuvo su boleto.
En el siguiente histograma se ilustra la que menos de la mitad de los pasajeros a bordo del Titanic, perecieron durante la tragedia del fatidico accidente.
En el siguiente histograma una vez más se puede observar la relación de la minoría de gente acaudalada, en contraste con la mayoría de la gente siendo clase media con boletos de Tercera Clase
Los cuartiles son los tres valores que dividen un conjunto de datos ordenados en cuatro partes porcentualmente iguales.
*Para el cálculo del los cuartiles se omiten los valores NA en el conjunto.
En estadástica descriptiva, se le llama rango intercuartálico o rango intercuartil, a la diferencia entre el tercer y el primer cuartil de una distribución.
Muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media.
*Para el cálculo del rango intercuartil se omiten los valores NA en el conjunto.
Se pueden observar gracias a los cuartiles que el 50% los pasajeros del Titanic se encuentra en un rango de edad de 20 añs a 38 años. Haciendo que las edades máximas sean considerados casos atípicos de la distribución.
## [1] "Cuartiles"
## 0% 25% 50% 75% 100%
## 0.420 20.125 28.000 38.000 80.000
## [1] "Rango intercuartil: 17.875000"
Se pueden observar gracias a los cuartiles que el 50% los pasajeros del Titanic pagó por un boleto de alrededor de 8 dolares a 31 dolares. Haciendo una vez más que las costos máximos sean considerados casos atípicos de la distribución.
## [1] "Cuartiles"
## 0% 25% 50% 75% 100%
## 0.0000 7.9104 14.4542 31.0000 512.3292
## [1] "Rango intercuartil: 23.089600"
La correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadásticas.
Se esperaba obtener una relación más fuerte entre la edad y la supervivencia de los pasajeros. Sin embargo, debido al coeficiente de correlación cercano a 0 ese no parece ser el caso.
## [1] "Coeficiente de Correlación: -0.077221"
Como son datos numericos se intentó hacer una comparación de la edad y el costo del boleto; sin embargo, como se esperaba el coeficiente de correlación no es relevante en lo absoluto.
## [1] "Coeficiente de Correlación: 0.096067"
Como son datos numericos se intentó hacer una comparación de la edad y el costo del boleto; como se esperaba el coeficiente de correlación no refleja algo importante, sin embargo es más alto de lo que se pensó.
## [1] "Coeficiente de Correlación: -0.369226"
El costo del boleto debería de reflejar la clase en la que viaja el pasajero; no obstante, el coeficiente de correlación nos indica lo contrario. Pero no es lo suficientemente alto como para que sea considerado importante.
## [1] "Coeficiente de Correlación: -0.549500"
Una gráfica de esparcimiento ayuda a visualizar las agrupaciones generadas por dos valores estadísticos.
Se puede observar una tendencÃa sobre la gente mayor viajando en una clase mejor a la de los jovenees en el barco. Debido a que se observar una gran cantidad de menores de 40 años de edad aglomerados en segunda y tercera clase. Mientras que los mayores de 40 años de edad se les observa más espacidos, pero con un número superior en primera clase.
Como se puede observar, no exite alguna influencia del costo del boleto con las probabilidades de supervivencia.
Se observa una gran cantidad de pasajeros de distintas edades que compraron su boleto por menos de 100 dolares. También se observan escasos pasajeros que compraran su boleto por encima de los 100 dolares.