22 de febrero de 2017

Decripción del Dominio

El Titanic fue un transatlántico británico, el mayor barco de pasajeros del mundo en el momento de su terminación. A las 23:40 del 14 de abril , cuatro días después de partir a unos 600 km al sur de terranova, el Titanic chocó contra un Iceberg.

En el incidente ocurrido el 14 de abril de 1912, murieron 1514 personas de las 2223 que abordaron. Muchos de las víctimas fueron provocadas por el estricto protocolo de salvamento que se utilizó el cual seguía el principio "Mujeres y niñas primero"

Descarga del Dataset

  setwd("C:/Users/liel/Desktop/Mineriadatos")
  • Cargar el dataset en la variable titanic.
  titanic <- read.csv("train.csv", stringsAsFactors = FALSE)

Preprocesamiento

Resumen de los atributos contenidos

  str(titanic)
## 'data.frame':    891 obs. of  12 variables:
##  $ PassengerId: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Survived   : int  0 1 1 1 0 0 0 0 1 1 ...
##  $ Pclass     : int  3 1 3 1 3 3 1 3 3 2 ...
##  $ Name       : chr  "Braund, Mr. Owen Harris" "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" "Heikkinen, Miss. Laina" "Futrelle, Mrs. Jacques Heath (Lily May Peel)" ...
##  $ Sex        : chr  "male" "female" "female" "female" ...
##  $ Age        : num  22 38 26 35 35 NA 54 2 27 14 ...
##  $ SibSp      : int  1 1 0 1 0 0 0 3 0 1 ...
##  $ Parch      : int  0 0 0 0 0 0 0 1 2 0 ...
##  $ Ticket     : chr  "A/5 21171" "PC 17599" "STON/O2. 3101282" "113803" ...
##  $ Fare       : num  7.25 71.28 7.92 53.1 8.05 ...
##  $ Cabin      : chr  "" "C85" "" "C123" ...
##  $ Embarked   : chr  "S" "C" "S" "S" ...

Variables numericas [1]

  summary(titanic$Survived)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.3838  1.0000  1.0000
  summary(titanic$Pclass)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   2.309   3.000   3.000
  summary(titanic$Age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.42   20.12   28.00   29.70   38.00   80.00     177

Variables numericas [2]

  summary(titanic$SibSp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   0.523   1.000   8.000
  summary(titanic$Parch)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.3816  0.0000  6.0000
  summary(titanic$Fare)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    7.91   14.45   32.20   31.00  512.30

Información de supervivencia

  • Personas que sobrevivieron:
  sum(titanic$Survived==0)
## [1] 549
  • Personas que murieron:
  sum(titanic$Survived==1)
## [1] 342

Datos de edad de los pasajeros [1]

Estadisticas básicas de las edades de los supervivientes

  mean(edades_sobrev, na.rm = TRUE) 
## [1] 28.34369
  median(edades_sobrev, na.rm = TRUE)
## [1] 28

Datos de edad de los pasajeros [2]

  quantile(edades_sobrev, na.rm = TRUE)
##    0%   25%   50%   75%  100% 
##  0.42 19.00 28.00 36.00 80.00
  IQR(edades_sobrev, na.rm = TRUE)
## [1] 17

Datos de edad de los pasajeros [3]

Estadisticas básicas de las personas que murieron.

  mean(edades_desces, na.rm = TRUE) 
## [1] 30.62618
  median(edades_desces, na.rm = TRUE)
## [1] 28

Datos de edad de los pasajeros [4]

  quantile(edades_desces, na.rm = TRUE)
##   0%  25%  50%  75% 100% 
##    1   21   28   39   74
  IQR(edades_desces, na.rm = TRUE)
## [1] 18

Visualizar Variables

Boxplot Edades de los supervivientes

  boxplot(edades_sobrev,
        main ="Boxplot Edades Sobrevivientes",
        ylab ="Edades (años)")

Visualizar Variables [2]

Boxplot edades de las personas que murieron

knitr::opts_chunk$set(echo = TRUE)
  boxplot(edades_desces,
        main ="Boxplot Edades Decesos",
        ylab ="Edades (años)")

Visualizar Variables [3]

Histogramas

  hist(edades_sobrev,
        main ="Histograma Edades Sobrevivientes",
        xlab ="Edades (años)")

Visualizar Variables [4]

  hist(edades_desces,
        main ="Histograma Edades Decesos",
        xlab ="Edades (años)")

Skew of the data

Alt text

Correlación Supervivencia - Edad

  cor(titanic$Survived, titanic$Age, use="pairwise.complete.obs")
## [1] -0.07722109

Superviviencia vs Edad

  plot(x = titanic$Age, y = titanic$Survived,
     main = "Age vs Survived",
     xlab = "Age", ylab = "Survival")

Supervivientes segun su sexo

Total hombres y mujeres

  table(titanic$Sex)
## 
## female   male 
##    314    577

Sobrevivientes

  table(titanic[which(titanic$Survived==1),"Sex"])
## 
## female   male 
##    233    109

Supervivientes segun su sexo [2]

Muertes

  table(titanic[which(titanic$Survived==0),"Sex"])
## 
## female   male 
##     81    468

Estadisticas de las tarifas pagadas[1]

Media

  mean(titanic$Fare, na.rm=TRUE)
## [1] 32.20421

Mediana

  median(titanic$Fare, na.rm=TRUE)
## [1] 14.4542

Tarifa minima registrada

  min(titanic$Fare, na.rm=TRUE)
## [1] 0

Estadisticas de las tarifas pagadas[2]

La tarifa mas alta es de 512.3292.

  max(titanic$Fare, na.rm=TRUE)
## [1] 512.3292

Rango de datos

  range(titanic$Fare, na.rm=TRUE)
## [1]   0.0000 512.3292

Estadisticas de las tarifas pagadas[3]

Cuartiles

  quantile(titanic$Fare, na.rm=TRUE)
##       0%      25%      50%      75%     100% 
##   0.0000   7.9104  14.4542  31.0000 512.3292

Inter Quartile Range (IQR) Q3 - Q1 = 17.85

  IQR(titanic$Fare, na.rm=TRUE)
## [1] 23.0896

Varianza y Desviación Estandar

\[\sigma^{2} = \frac{\sum_{i=1}^{n} \left(x_{i} - \bar{x}\right)^{2}} {n-1}\]

  var(titanic$Fare)
## [1] 2469.437

\[\sigma = \sqrt{\frac{\sum\limits_{i=1}^{n} \left(x_{i} - \bar{x}\right)^{2}} {n-1}}\]

  sd(titanic$Fare)
## [1] 49.69343

Boxplot

  boxplot(titanic$Fare,
        main ="Boxplot Tarifas Pagadas",
        ylab ="Fare")

Histograma

  hist(titanic$Fare, main = "Histograma Tarifas", xlab = "Fare")

Correlación tarifa -clase

  cor(titanic$Fare, titanic$Pclass)
## [1] -0.5494996

Tarifa vs Clase

  plot(x = titanic$Fare, y = titanic$Pclass,
     main = "Fare vs Pclass",
     xlab = "Fare", ylab = "Pclass")