JuveYell

Importar la base de datos

file.choose()
## [1] "C:\\Users\\Migue\\OneDrive\\Documentos\\R\\Primer bloque\\titanic\\Titanic.Rmd"
bd<-read.csv("C:\\Users\\Migue\\OneDrive\\Documentos\\R\\Primer bloque\\titanic\\titanic.csv")

Entender la base de datos

summary(bd)
##      pclass         survived         name               sex           
##  Min.   :1.000   Min.   :0.000   Length:1310        Length:1310       
##  1st Qu.:2.000   1st Qu.:0.000   Class :character   Class :character  
##  Median :3.000   Median :0.000   Mode  :character   Mode  :character  
##  Mean   :2.295   Mean   :0.382                                        
##  3rd Qu.:3.000   3rd Qu.:1.000                                        
##  Max.   :3.000   Max.   :1.000                                        
##  NA's   :1       NA's   :1                                            
##       age              sibsp            parch          ticket         
##  Min.   : 0.1667   Min.   :0.0000   Min.   :0.000   Length:1310       
##  1st Qu.:21.0000   1st Qu.:0.0000   1st Qu.:0.000   Class :character  
##  Median :28.0000   Median :0.0000   Median :0.000   Mode  :character  
##  Mean   :29.8811   Mean   :0.4989   Mean   :0.385                     
##  3rd Qu.:39.0000   3rd Qu.:1.0000   3rd Qu.:0.000                     
##  Max.   :80.0000   Max.   :8.0000   Max.   :9.000                     
##  NA's   :264       NA's   :1        NA's   :1                         
##       fare            cabin             embarked             boat          
##  Min.   :  0.000   Length:1310        Length:1310        Length:1310       
##  1st Qu.:  7.896   Class :character   Class :character   Class :character  
##  Median : 14.454   Mode  :character   Mode  :character   Mode  :character  
##  Mean   : 33.295                                                           
##  3rd Qu.: 31.275                                                           
##  Max.   :512.329                                                           
##  NA's   :2                                                                 
##       body        home.dest        
##  Min.   :  1.0   Length:1310       
##  1st Qu.: 72.0   Class :character  
##  Median :155.0   Mode  :character  
##  Mean   :160.8                     
##  3rd Qu.:256.0                     
##  Max.   :328.0                     
##  NA's   :1189

Filtrar la base de datos

Titanic <- bd[,c("pclass", "age", "sex","survived")]

Titanic$survived<- as.factor (ifelse(Titanic$survived==0, "Murió", "Sobrevivió"))
Titanic$pclass<- as.factor(Titanic$pclass)
Titanic$sex<- as.factor(Titanic$sex)
str(Titanic)
## 'data.frame':    1310 obs. of  4 variables:
##  $ pclass  : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
##  $ age     : num  29 0.917 2 30 25 ...
##  $ sex     : Factor w/ 3 levels "","female","male": 2 3 2 3 2 3 2 3 2 3 ...
##  $ survived: Factor w/ 2 levels "Murió","Sobrevivió": 2 2 1 1 1 2 2 1 2 1 ...
sum(is.na(Titanic))
## [1] 266
Titanic<- na.omit(Titanic)

Crear el árbol de decisión

#install.packages("rpart.plot")
library(rpart.plot)
## Loading required package: rpart
arbol<- rpart(formula = survived ~ ., data=Titanic)
arbol
## n= 1046 
## 
## node), split, n, loss, yval, (yprob)
##       * denotes terminal node
## 
##  1) root 1046 427 Murió (0.59177820 0.40822180)  
##    2) sex=male 658 135 Murió (0.79483283 0.20516717)  
##      4) age>=9.5 615 110 Murió (0.82113821 0.17886179) *
##      5) age< 9.5 43  18 Sobrevivió (0.41860465 0.58139535)  
##       10) pclass=3 29  11 Murió (0.62068966 0.37931034) *
##       11) pclass=1,2 14   0 Sobrevivió (0.00000000 1.00000000) *
##    3) sex=female 388  96 Sobrevivió (0.24742268 0.75257732)  
##      6) pclass=3 152  72 Murió (0.52631579 0.47368421)  
##       12) age>=1.5 145  66 Murió (0.54482759 0.45517241) *
##       13) age< 1.5 7   1 Sobrevivió (0.14285714 0.85714286) *
##      7) pclass=1,2 236  16 Sobrevivió (0.06779661 0.93220339) *
#install.packages("rpart.plot")
library(rpart.plot)

rpart.plot(arbol)

prp(arbol,extra=7,prefix="fracción\n")

Conclusiones

Los árboles de decisiones le permiten al analista tener un mejor entendimiento de la información y llevar una mejor toma de decisiones y predicciones para el negocio. En el caso del ejercicio, se tienen los datos de aquellos pasajeros que presenciaron el accidente de “el barco que no podía hundirse”, el Titanic. En este se ve aquellas personas que sobrevivieron y las que no de acuerdo a sexo, edad y clase social.

En la primera gráfica se muestra que aquellos que tenían mayor posibilidad de supervivencia eran de sexo masculino, clase social alta e igual o mayor a 9.5 años, es decir, que los niños de esta clase social tenían mayor posibilidad de sobrevivir debido a la preferencia por edad y género a la hora de subir a los botes, mientras que aquellos que tenían menor probabilidad eran los de género femenino, edad igual o mayor a 1.5 años y de una clase social distinta a la alta.

En conclusión, las gráficas anteriores reafirman la importancia de los árboles de decisiones y cómo es que estos representan las probabilidades o estadísticas de acuerdo a los datos planteados, en este caso, nos reafirmó que aquellos que eran de sexo masculino, de una edad igual o mayor a 9.5 años y de la clase social 3 alta tenían una fracción de 1.00 de probabilidades de supervivencia, a diferencia de aquellos que no.

LS0tDQp0aXRsZTogPHNwYW4gc3R5bGU9IkNvbG9yOk9yYW5nZSI+ICJUaXRhbmljIg0KYXV0aG9yOiAiSmltZW5hIE1pZ3VlbCAtIEEwMTM2NTgxOSINCmRhdGU6ICIyMDIyLTA5LTA2Ig0Kb3V0cHV0Og0KIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogdHJ1ZQ0KLS0tDQoNCjxkaXY+DQo8cCBzdHlsZSA9ICd0ZXh0LWFsaWduOmNlbnRlcjsnPg0KPGltZyBzcmM9Imh0dHA6Ly9zdGF0aWMudGllbXBvLmNvbS5teC91cGxvYWRzL2ltYWdlbi9pbWFnZW4vNTEzMTc4L3ByaW5jaXBhbF9tdWx0aW1lZGlhbm9ybWFsOGRiZGFmYjIyNGI4OTBhZDc0Njk3NDYxNmU2OTYzNWY2ZTZmNzI2ZDYxNmMyZTc3NjU2MjcwLmpwZw0KIiBhbHQ9Ikp1dmVZZWxsIiB3aWR0aD0iMzAwcHgiPg0KPC9wPg0KPC9kaXY+DQoNCiMjIEltcG9ydGFyIGxhIGJhc2UgZGUgZGF0b3MNCg0KYGBge3J9DQpmaWxlLmNob29zZSgpDQpiZDwtcmVhZC5jc3YoIkM6XFxVc2Vyc1xcTWlndWVcXE9uZURyaXZlXFxEb2N1bWVudG9zXFxSXFxQcmltZXIgYmxvcXVlXFx0aXRhbmljXFx0aXRhbmljLmNzdiIpDQpgYGANCg0KIyMgRW50ZW5kZXIgbGEgYmFzZSBkZSBkYXRvcw0KDQpgYGB7cn0NCg0Kc3VtbWFyeShiZCkNCmBgYA0KDQojIyBGaWx0cmFyIGxhIGJhc2UgZGUgZGF0b3MNCg0KYGBge3J9DQoNClRpdGFuaWMgPC0gYmRbLGMoInBjbGFzcyIsICJhZ2UiLCAic2V4Iiwic3Vydml2ZWQiKV0NCg0KVGl0YW5pYyRzdXJ2aXZlZDwtIGFzLmZhY3RvciAoaWZlbHNlKFRpdGFuaWMkc3Vydml2ZWQ9PTAsICJNdXJpw7MiLCAiU29icmV2aXZpw7MiKSkNClRpdGFuaWMkcGNsYXNzPC0gYXMuZmFjdG9yKFRpdGFuaWMkcGNsYXNzKQ0KVGl0YW5pYyRzZXg8LSBhcy5mYWN0b3IoVGl0YW5pYyRzZXgpDQpzdHIoVGl0YW5pYykNCg0Kc3VtKGlzLm5hKFRpdGFuaWMpKQ0KDQpUaXRhbmljPC0gbmEub21pdChUaXRhbmljKQ0KYGBgDQoNCiMjIENyZWFyIGVsIMOhcmJvbCBkZSBkZWNpc2nDs24NCg0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygicnBhcnQucGxvdCIpDQpsaWJyYXJ5KHJwYXJ0LnBsb3QpDQphcmJvbDwtIHJwYXJ0KGZvcm11bGEgPSBzdXJ2aXZlZCB+IC4sIGRhdGE9VGl0YW5pYykNCmFyYm9sDQojaW5zdGFsbC5wYWNrYWdlcygicnBhcnQucGxvdCIpDQpsaWJyYXJ5KHJwYXJ0LnBsb3QpDQoNCnJwYXJ0LnBsb3QoYXJib2wpDQoNCnBycChhcmJvbCxleHRyYT03LHByZWZpeD0iZnJhY2Npw7NuXG4iKQ0KYGBgDQoNCiMjIENvbmNsdXNpb25lcw0KTG9zIF9fw6FyYm9sZXMgZGUgZGVjaXNpb25lc19fIGxlIHBlcm1pdGVuIGFsIGFuYWxpc3RhIHRlbmVyIHVuIG1lam9yIGVudGVuZGltaWVudG8gZGUgbGEgaW5mb3JtYWNpw7NuIHkgbGxldmFyIHVuYSBtZWpvciB0b21hIGRlIGRlY2lzaW9uZXMgeSBwcmVkaWNjaW9uZXMgcGFyYSBlbCBuZWdvY2lvLiBFbiBlbCBjYXNvIGRlbCBlamVyY2ljaW8sIHNlIHRpZW5lbiBsb3MgZGF0b3MgZGUgYXF1ZWxsb3MgcGFzYWplcm9zIHF1ZSBwcmVzZW5jaWFyb24gZWwgYWNjaWRlbnRlIGRlIF9fImVsIGJhcmNvIHF1ZSBubyBwb2TDrWEgaHVuZGlyc2UiX18sIGVsIF9UaXRhbmljXy4gRW4gZXN0ZSBzZSB2ZSBhcXVlbGxhcyBwZXJzb25hcyBxdWUgc29icmV2aXZpZXJvbiB5IGxhcyBxdWUgbm8gZGUgYWN1ZXJkbyBhIHNleG8sIGVkYWQgeSBjbGFzZSBzb2NpYWwuDQoNCkVuIGxhIHByaW1lcmEgZ3LDoWZpY2Egc2UgbXVlc3RyYSBxdWUgYXF1ZWxsb3MgcXVlIHRlbsOtYW4gbWF5b3IgcG9zaWJpbGlkYWQgZGUgc3VwZXJ2aXZlbmNpYSBlcmFuIGRlIHNleG8gbWFzY3VsaW5vLCBjbGFzZSBzb2NpYWwgYWx0YSBlIGlndWFsIG8gbWF5b3IgYSA5LjUgYcOxb3MsIGVzIGRlY2lyLCBxdWUgbG9zIG5pw7FvcyBkZSBlc3RhIGNsYXNlIHNvY2lhbCB0ZW7DrWFuIG1heW9yIHBvc2liaWxpZGFkIGRlIHNvYnJldml2aXIgZGViaWRvIGEgbGEgcHJlZmVyZW5jaWEgcG9yIGVkYWQgeSBnw6luZXJvIGEgbGEgaG9yYSBkZSBzdWJpciBhIGxvcyBib3RlcywgbWllbnRyYXMgcXVlIGFxdWVsbG9zIHF1ZSB0ZW7DrWFuIG1lbm9yIHByb2JhYmlsaWRhZCBlcmFuIGxvcyBkZSBnw6luZXJvIGZlbWVuaW5vLCBlZGFkIGlndWFsIG8gbWF5b3IgYSAxLjUgYcOxb3MgeSBkZSB1bmEgY2xhc2Ugc29jaWFsIGRpc3RpbnRhIGEgbGEgYWx0YS4NCg0KRW4gY29uY2x1c2nDs24sIGxhcyBncsOhZmljYXMgYW50ZXJpb3JlcyByZWFmaXJtYW4gbGEgaW1wb3J0YW5jaWEgZGUgbG9zIMOhcmJvbGVzIGRlIGRlY2lzaW9uZXMgeSBjw7NtbyBlcyBxdWUgZXN0b3MgcmVwcmVzZW50YW4gbGFzIHByb2JhYmlsaWRhZGVzIG8gZXN0YWTDrXN0aWNhcyBkZSBhY3VlcmRvIGEgbG9zIGRhdG9zIHBsYW50ZWFkb3MsIGVuIGVzdGUgY2Fzbywgbm9zIHJlYWZpcm3DsyBxdWUgYXF1ZWxsb3MgcXVlIGVyYW4gZGUgc2V4byBtYXNjdWxpbm8sIGRlIHVuYSBlZGFkIGlndWFsIG8gbWF5b3IgYSA5LjUgYcOxb3MgeSBkZSBsYSBjbGFzZSBzb2NpYWwgMw0KYWx0YSB0ZW7DrWFuIHVuYSBmcmFjY2nDs24gZGUgMS4wMCBkZSBwcm9iYWJpbGlkYWRlcyBkZSBzdXBlcnZpdmVuY2lhLCBhIGRpZmVyZW5jaWEgZGUgYXF1ZWxsb3MgcXVlIG5vLg==