#file.choose()
bd <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/CSV/titanic (1).csv")resumen<-summary(bd)
resumen## pclass survived name sex
## Min. :1.000 Min. :0.000 Length:1309 Length:1309
## 1st Qu.:2.000 1st Qu.:0.000 Class :character Class :character
## Median :3.000 Median :0.000 Mode :character Mode :character
## Mean :2.295 Mean :0.382
## 3rd Qu.:3.000 3rd Qu.:1.000
## Max. :3.000 Max. :1.000
##
## age sibsp parch ticket
## Min. : 0.1667 Min. :0.0000 Min. :0.000 Length:1309
## 1st Qu.:21.0000 1st Qu.:0.0000 1st Qu.:0.000 Class :character
## Median :28.0000 Median :0.0000 Median :0.000 Mode :character
## Mean :29.8811 Mean :0.4989 Mean :0.385
## 3rd Qu.:39.0000 3rd Qu.:1.0000 3rd Qu.:0.000
## Max. :80.0000 Max. :8.0000 Max. :9.000
## NA's :263
## fare cabin embarked boat
## Min. : 0.000 Length:1309 Length:1309 Length:1309
## 1st Qu.: 7.896 Class :character Class :character Class :character
## Median : 14.454 Mode :character Mode :character Mode :character
## Mean : 33.295
## 3rd Qu.: 31.275
## Max. :512.329
## NA's :1
## body home.dest
## Min. : 1.0 Length:1309
## 1st Qu.: 72.0 Class :character
## Median :155.0 Mode :character
## Mean :160.8
## 3rd Qu.:256.0
## Max. :328.0
## NA's :1188
Titanic <- bd[,c("pclass", "age", "sex","survived")]
Titanic$survived<- as.factor (ifelse(Titanic$survived==0, "Muri?", "Sobrevivi?"))
Titanic$pclass<- as.factor(Titanic$pclass)
Titanic$sex<- as.factor(Titanic$sex)
str(Titanic)## 'data.frame': 1309 obs. of 4 variables:
## $ pclass : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## $ age : num 29 0.917 2 30 25 ...
## $ sex : Factor w/ 2 levels "female","male": 1 2 1 2 1 2 1 2 1 2 ...
## $ survived: Factor w/ 2 levels "Muri?","Sobrevivi?": 2 2 1 1 1 2 2 1 2 1 ...
sum(is.na(Titanic))## [1] 263
Titanic<- na.omit(Titanic)#install.packages("rpart.plot")
library(rpart.plot)## Loading required package: rpart
arbol<- rpart(formula = survived ~ ., data=Titanic)
arbol## n= 1046
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 1046 427 Muri? (0.59177820 0.40822180)
## 2) sex=male 658 135 Muri? (0.79483283 0.20516717)
## 4) age>=9.5 615 110 Muri? (0.82113821 0.17886179) *
## 5) age< 9.5 43 18 Sobrevivi? (0.41860465 0.58139535)
## 10) pclass=3 29 11 Muri? (0.62068966 0.37931034) *
## 11) pclass=1,2 14 0 Sobrevivi? (0.00000000 1.00000000) *
## 3) sex=female 388 96 Sobrevivi? (0.24742268 0.75257732)
## 6) pclass=3 152 72 Muri? (0.52631579 0.47368421)
## 12) age>=1.5 145 66 Muri? (0.54482759 0.45517241) *
## 13) age< 1.5 7 1 Sobrevivi? (0.14285714 0.85714286) *
## 7) pclass=1,2 236 16 Sobrevivi? (0.06779661 0.93220339) *
#install.packages("rpart.plot")
library(rpart.plot)
rpart.plot(arbol)prp(arbol,extra=7,prefix="fraccion/n")table(bd$survived)##
## 0 1
## 809 500
barplot(table(bd$survived), main = "Influencia de la edad sobre la probabilidad de Sobrevivencia", xlab = "Sobreviviente", ylab = "Edad" )library(shiny)
library(tidyverse)## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.3.6 ✔ purrr 0.3.4
## ✔ tibble 3.1.8 ✔ dplyr 1.0.10
## ✔ tidyr 1.2.0 ✔ stringr 1.4.1
## ✔ readr 2.1.2 ✔ forcats 0.5.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
#selectInput(“type”, “Tipo de Grafica”, choices = c(“p”,“l”, “b”), selected = “l”)
#renderPlot({plot(Titanic\(survived,Titanic\)pclass, type= input$type)})
En esta actividad se trabajo con “La creación de un Arbol de Decisiones”.Me di cuenta de la importancia que tiene esta herramienta ya que de una base de datos extrae la información de una manera que te permite visualizar de manera más sencilla los caminos que se pueden tomar dependiendo de distintas vaqriables y en este caso de Titanic las diferentes características de una persona.
En este arbol de decisión podemos analizar y darnos cuenta que el genero era un factor de extrema importancia para la probabilidad de sobrevivir o no del Titanic. De el 100% de los hombres el 63% murieron y el 37% sobrevivieron, con está estadística podemos analizar y determinar que un punto decisivo en las autoridades del Titanic era que sobrevivan las mujeres primero. Continuamos con las edades, este arbol de decisiones nos indica que niños menores de los 9 años tenían mayor oportunidad de sobrevivir. De ese 63% de los hombres fallecidos el 59% eran mayorees de 9.5 años. Y el último factor decisivo era la clase en el cual la probabilidad de sobrevivencia era mayor siendo de clase alta.