DataSet TITANIC

February 21, 2017

Introducción

El Titanic fue un transatlántico británico, el mayor barco de pasajeros del mundo en el momento de su terminación, que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912 durante su viaje inaugural desde Southampton a Nueva York. En el hundimiento del Titanic murieron 1514 personas de las 2223 que iban a bordo, lo que convierte a esta tragedia en uno de los mayores naufragios de la historia ocurridos en tiempo de paz.

Para este proyecto se llevo acabo un Análisis Exploratorio de Datos el cual consiste en un conjunto de técnicas para comprender de manera rápida la naturaleza de una colección de datos(DataSet).

Titanic

Descripción del DataSet

Este DataSet proporciona información sobre el destino de los pasajeros en el viaje inaugural fatal del revestimiento marino "Titanic". Resumido en 891 observaciones de pasajeros del titanic y dividido en 12 atributos que son

Núm de PasajeroIndica el numero del pasajero.
Sobrevivió: Se indica con un 0 si no sobrevivió y con un 1 si el pasajero logro sobrevivir.
Clase del Pasajero: Indica el estado socio-económico al que pertenece el pasajero.
Nombre: Nombre del Pasajero.
Edad:Edad del Pasajero.
Sexo: Sexo del Pasajero.
Hermanos/Hermanas,Esposo/Esposa: Esta variable indica si el pasajero tenia hermanos, hermanas, esposo o esposa abordo de la embarcación.
Madre/Padre, Hijos/Hijas: Indica si el pasajero tenia madre, padre, hijos o hijas abordo de la embarcación.
Boleto:Indica el numero de boleto.
Tarifa: Costo del Boleto.
Cabina: Numero de Cabina en la que se encontraba el pasajero.
Embarcado: Lugar donde abordo el pasajero.

Pre-Procesamineto

Para este Análisis se descartaron algunos de los atributos como el Num de Pasajero, Numero de Boleto,Numero de Cabina ya que no generan mucha relevancia. Así mismo no se tomo en cuenta si tenia familiares abordo del Titanic. Descartando estos atributos se puede analizar de una manera mas rápida el DataSet.

Descargando el DataSet

Podemos descargar el DataSet de la siguiente dirección -> https://www.kaggle.com/c/titanic/data

Cargando DataSet "TITANIC"

Con setwd() establecemos el directorio donde descargamos el DataSet Con el comando read.csv(cargamos el DataSet)

setwd("C:/Users/luisoftgb28/Documents/8Semestre/MineriaDatos/DataSets")
survival_titanic <- read.csv("train.csv")

Estadísticas de Resumen

Las Estadísticas de Resumen son valores que explican propiedades de los datos. Algunas de estas propiedades incluyen: frecuencias, medidas de tendencia central y dispersión.

Tendencia Central

Media

La media es la medida mas común de tendencia central para una variable numérica. Si tenemos m observaciones se calcula como la media aritmética o promedio.

\[\\mean{(x)}=\bar{x}=\frac{1}{m}\sum_{i=1}^{m} x_i\]

mean(survival_titanic$Age,na.rm = TRUE)

## [1] 29.69912

Como se puede observar el promedio de la edad es de 30 anios.

Mediana

La mediana de un conjunto con un número impar de datos es, una vez ordenados los datos, el dato que ocupa el lugar central, si es par la mediana serán los dos datos centrales. Intuitivamente, consiste el valor donde para una mitad de las observaciones todos los valores son mayores que esta y para la otra son menores. La formula para la mediana es \[\\Me=L_{i-1}+\frac{\frac{N}{2}-N_{i-1}}{n_i}{a_i}\]

median(survival_titanic$Age,na.rm = TRUE)

## [1] 28

Para este caso la mediana de la Edad es 28

median(survival_titanic$Fare,na.rm = TRUE)

## [1] 14.4542

La mediana de la Tarifa es 14.45

Frecuencia

Se utiliza la frecuencia para analizar normalmente variables categóricas. La frecuencia es el porcentaje de veces que un atributo es observado, para ello usamos el comando table. \[\sum_{i=1}^{i=n} f_i=N\]

embarked_table <- table(survival_titanic$Embarked)
embarked <- prop.table(embarked_table)*100
round(embarked,digits = 1)

## 
##         C    Q    S 
##  0.2 18.9  8.6 72.3

Como se puede observar la mayoria de los pasajeros embarco en Southampton y podemos deducir que es correcto ya que es el lugar de donde zarpa el Titanic.

Percentiles o Cuartiles

Los cuartiles corresponden a los valores que tiene una variable y que cumplen con la función de dividir los datos ordenados en cuartos o cuatro partes con igual valor porcentual. Se distinguen en principio tres cuartiles, que se denotan regularmente con la letra Q: Q1, Q2 y Q3.

Q1: también llamado primer cuartil, representa un valor por debajo del cual quedan un cuarto o 25% de los valores de sucesión, previamente ordenados
Q2: llamado segundo cuartil y considerado la mediana.
Q3: finalmente, el tercer cuartil representa a su vez el valor por debajo del que queda el 75% de todos los datos.

Con la función quantile() obtenemos el mínimo, máximo y los 3 quartiles del atributo.

quantile(survival_titanic$Age,na.rm = TRUE)

##     0%    25%    50%    75%   100% 
##  0.420 20.125 28.000 38.000 80.000

quantile(survival_titanic$Fare,na.rm = TRUE)

##       0%      25%      50%      75%     100% 
##   0.0000   7.9104  14.4542  31.0000 512.3292

Resumiendo DataSet

Con el comando summary() podemos obtener un resumen del DataSet, para las variables numéricas obtiene el mínimo, los cuartiles, la media y el máximo. En las categóricas regresa la tabla de frecuencias.

summary(survival_titanic)

##   PassengerId       Survived          Pclass     
##  Min.   :  1.0   Min.   :0.0000   Min.   :1.000  
##  1st Qu.:223.5   1st Qu.:0.0000   1st Qu.:2.000  
##  Median :446.0   Median :0.0000   Median :3.000  
##  Mean   :446.0   Mean   :0.3838   Mean   :2.309  
##  3rd Qu.:668.5   3rd Qu.:1.0000   3rd Qu.:3.000  
##  Max.   :891.0   Max.   :1.0000   Max.   :3.000  
##                                                  
##                                     Name         Sex           Age       
##  Abbing, Mr. Anthony                  :  1   female:314   Min.   : 0.42  
##  Abbott, Mr. Rossmore Edward          :  1   male  :577   1st Qu.:20.12  
##  Abbott, Mrs. Stanton (Rosa Hunt)     :  1                Median :28.00  
##  Abelson, Mr. Samuel                  :  1                Mean   :29.70  
##  Abelson, Mrs. Samuel (Hannah Wizosky):  1                3rd Qu.:38.00  
##  Adahl, Mr. Mauritz Nils Martin       :  1                Max.   :80.00  
##  (Other)                              :885                NA's   :177    
##      SibSp           Parch             Ticket         Fare       
##  Min.   :0.000   Min.   :0.0000   1601    :  7   Min.   :  0.00  
##  1st Qu.:0.000   1st Qu.:0.0000   347082  :  7   1st Qu.:  7.91  
##  Median :0.000   Median :0.0000   CA. 2343:  7   Median : 14.45  
##  Mean   :0.523   Mean   :0.3816   3101295 :  6   Mean   : 32.20  
##  3rd Qu.:1.000   3rd Qu.:0.0000   347088  :  6   3rd Qu.: 31.00  
##  Max.   :8.000   Max.   :6.0000   CA 2144 :  6   Max.   :512.33  
##                                   (Other) :852                   
##          Cabin     Embarked
##             :687    :  2   
##  B96 B98    :  4   C:168   
##  C23 C25 C27:  4   Q: 77   
##  G6         :  4   S:644   
##  C22 C26    :  3           
##  D          :  3           
##  (Other)    :186

Medidas de Dispersion

Estas medidas nos dicen que tan distintas o similares tienden a ser las observaciones respecto a un valor particular.

Rango

El rango es la diferencia entre el valor máximo y mínimo de un atributo.

max(survival_titanic$Age, na.rm = TRUE)-min(survival_titanic$Age,na.rm = TRUE)

## [1] 79.58

Observamos que el Rango en la Edad es muy grande lo que indica que los datos están muy dispersos.

Varianza

Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central. \[\\var{(x)}=\frac{1}{m-1}\sum_{i=1}^{m} (x_i-\bar{x})^2\]

var(survival_titanic$Fare,na.rm = TRUE)

## [1] 2469.437

Desviacion Estandar

Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. \[\\sd{(x)}=\sqrt{var(x)}\]

sd(survival_titanic$Age,na.rm = TRUE)

## [1] 14.5265

Correlacion Lineal

El término "correlación" literalmente significa relación mutua; de este modo, el análisis de correlación mide e indica el grado en el que los valores de una variable se relacionan con los valores de otra.

cor(survival_titanic$Fare,survival_titanic$Pclass)

## [1] -0.5494996

IQR(Inter Quartil)

El Rango ínter cuartil es la diferencia entre el tercer y primer cuartil.

IQR(survival_titanic$Fare,na.rm = TRUE)

## [1] 23.0896

Dado que el IQR no es muy cercano a la media podemos concluir que los datos están dispersos.

Visualizacion de los Datos

library("ggplot2")
plot(survival_titanic)

BoxPlot Edad

boxplot(survival_titanic$Age)

ScatterPlot Edad vs Clase

plot(x = survival_titanic$Pclass, y = survival_titanic$Age,main =   
       "Scattenplot of Age vs Pclass",xlab = "Clase", ylab = "Edad")

ScatterPlot Clase vs Tarifa

plot(x = survival_titanic$Pclass, y = survival_titanic$Fare,
     main = "Scatterplot of Pclass vs Fare",
     xlab = "Clase", ylab = "Tarifa")

GGPLOT Sexo del Pasajero por clase

ggplot(survival_titanic ,aes(x=factor(Pclass),fill=factor(Sex)))+
  geom_bar(position="dodge")+xlab("Clase")+ylab("Cantidad de Pasajeros")+
  labs(fill = "Sexo")

GGPLOT Sobrevivientes por Clase

ggplot(survival_titanic ,aes(x = Pclass, fill = factor(Survived)))+geom_histogram(bins = 6)+
  xlab("Clase")+ylab("Cantidad de Pasajeros")+labs(fill = "Sobrevivientes")

GGPLOT Sobrevivientes por Genero

ggplot(survival_titanic,aes(x = (Pclass),fill=factor(Sex)))+geom_bar(position="dodge")+
  facet_grid(". ~ Survived")+xlab("Clase")+ylab("Cantidad de Pasajeros")+
  labs(fill = "Sobrevivientes")

Histograma de la Edad de los pasajeros

  hist(survival_titanic$Age, col = "blue", border = "white", prob = TRUE,
  main = "edades", xlab = "años", ylab = "# de pasajeros")