file.choose()
## [1] "C:\\Users\\Migue\\OneDrive\\Documentos\\R\\Primer bloque\\titanic\\Titanic.Rmd"
bd<-read.csv("C:\\Users\\Migue\\OneDrive\\Documentos\\R\\Primer bloque\\titanic\\titanic.csv")
summary(bd)
## pclass survived name sex
## Min. :1.000 Min. :0.000 Length:1310 Length:1310
## 1st Qu.:2.000 1st Qu.:0.000 Class :character Class :character
## Median :3.000 Median :0.000 Mode :character Mode :character
## Mean :2.295 Mean :0.382
## 3rd Qu.:3.000 3rd Qu.:1.000
## Max. :3.000 Max. :1.000
## NA's :1 NA's :1
## age sibsp parch ticket
## Min. : 0.1667 Min. :0.0000 Min. :0.000 Length:1310
## 1st Qu.:21.0000 1st Qu.:0.0000 1st Qu.:0.000 Class :character
## Median :28.0000 Median :0.0000 Median :0.000 Mode :character
## Mean :29.8811 Mean :0.4989 Mean :0.385
## 3rd Qu.:39.0000 3rd Qu.:1.0000 3rd Qu.:0.000
## Max. :80.0000 Max. :8.0000 Max. :9.000
## NA's :264 NA's :1 NA's :1
## fare cabin embarked boat
## Min. : 0.000 Length:1310 Length:1310 Length:1310
## 1st Qu.: 7.896 Class :character Class :character Class :character
## Median : 14.454 Mode :character Mode :character Mode :character
## Mean : 33.295
## 3rd Qu.: 31.275
## Max. :512.329
## NA's :2
## body home.dest
## Min. : 1.0 Length:1310
## 1st Qu.: 72.0 Class :character
## Median :155.0 Mode :character
## Mean :160.8
## 3rd Qu.:256.0
## Max. :328.0
## NA's :1189
Titanic <- bd[,c("pclass", "age", "sex","survived")]
Titanic$survived<- as.factor (ifelse(Titanic$survived==0, "Murió", "Sobrevivió"))
Titanic$pclass<- as.factor(Titanic$pclass)
Titanic$sex<- as.factor(Titanic$sex)
str(Titanic)
## 'data.frame': 1310 obs. of 4 variables:
## $ pclass : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## $ age : num 29 0.917 2 30 25 ...
## $ sex : Factor w/ 3 levels "","female","male": 2 3 2 3 2 3 2 3 2 3 ...
## $ survived: Factor w/ 2 levels "Murió","Sobrevivió": 2 2 1 1 1 2 2 1 2 1 ...
sum(is.na(Titanic))
## [1] 266
Titanic<- na.omit(Titanic)
#install.packages("rpart.plot")
library(rpart.plot)
## Loading required package: rpart
arbol<- rpart(formula = survived ~ ., data=Titanic)
arbol
## n= 1046
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 1046 427 Murió (0.59177820 0.40822180)
## 2) sex=male 658 135 Murió (0.79483283 0.20516717)
## 4) age>=9.5 615 110 Murió (0.82113821 0.17886179) *
## 5) age< 9.5 43 18 Sobrevivió (0.41860465 0.58139535)
## 10) pclass=3 29 11 Murió (0.62068966 0.37931034) *
## 11) pclass=1,2 14 0 Sobrevivió (0.00000000 1.00000000) *
## 3) sex=female 388 96 Sobrevivió (0.24742268 0.75257732)
## 6) pclass=3 152 72 Murió (0.52631579 0.47368421)
## 12) age>=1.5 145 66 Murió (0.54482759 0.45517241) *
## 13) age< 1.5 7 1 Sobrevivió (0.14285714 0.85714286) *
## 7) pclass=1,2 236 16 Sobrevivió (0.06779661 0.93220339) *
#install.packages("rpart.plot")
library(rpart.plot)
rpart.plot(arbol)
prp(arbol,extra=7,prefix="fracción\n")
Los árboles de decisiones le permiten al analista tener un mejor entendimiento de la información y llevar una mejor toma de decisiones y predicciones para el negocio. En el caso del ejercicio, se tienen los datos de aquellos pasajeros que presenciaron el accidente de “el barco que no podía hundirse”, el Titanic. En este se ve aquellas personas que sobrevivieron y las que no de acuerdo a sexo, edad y clase social.
En la primera gráfica se muestra que aquellos que tenían mayor posibilidad de supervivencia eran de sexo masculino, clase social alta e igual o mayor a 9.5 años, es decir, que los niños de esta clase social tenían mayor posibilidad de sobrevivir debido a la preferencia por edad y género a la hora de subir a los botes, mientras que aquellos que tenían menor probabilidad eran los de género femenino, edad igual o mayor a 1.5 años y de una clase social distinta a la alta.
En conclusión, las gráficas anteriores reafirman la importancia de los árboles de decisiones y cómo es que estos representan las probabilidades o estadísticas de acuerdo a los datos planteados, en este caso, nos reafirmó que aquellos que eran de sexo masculino, de una edad igual o mayor a 9.5 años y de la clase social 3 alta tenían una fracción de 1.00 de probabilidades de supervivencia, a diferencia de aquellos que no.