datac <- read.csv("/Users/lishdz/Desktop/R/cancer_de_mama.csv")
library(rpart)
arbol <- rpart(formula = diagnosis ~., data = datac)
arbol
## n= 569
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 569 212 B (0.62741652 0.37258348)
## 2) radius_worst< 16.795 379 33 B (0.91292876 0.08707124)
## 4) concave.points_worst< 0.1358 333 5 B (0.98498498 0.01501502) *
## 5) concave.points_worst>=0.1358 46 18 M (0.39130435 0.60869565)
## 10) texture_worst< 25.67 19 4 B (0.78947368 0.21052632) *
## 11) texture_worst>=25.67 27 3 M (0.11111111 0.88888889) *
## 3) radius_worst>=16.795 190 11 M (0.05789474 0.94210526) *
library(rpart.plot)
rpart.plot(arbol)
prp(arbol, extra=7, prefix = "fracción\n")
library(ggplot2)
ggplot(data=datac, mapping=aes(radius_worst, concave.points_worst))+
geom_point(aes(color=diagnosis)) +
theme_bw()
Este árbol de decisiones analizó múltiples variables presentadas en
un estudio de cáncer de mama para determinar las probabilidades de que
un tumor sea maligno.
Primeramente con el árbol de decisiones podemos identificar que una
mujer con un tumor inicia con el 37% de que sea maligno, sin embargo
esta probabilidad aumenta hasta el 94% si el radio del tumor es más de
17, en las unidades de medición utilizadas para el estudio. Por el
contrario, si el radio es menor a las 17 unidades, entonces la
probabilidad disminuye al 9%. Desde aquí, si el peor punto cóncavo es
menor a 0.14 unidades la probabilidad de que sea maligno cae a 2%. En
cambio si es mayor a 0.14 la probabilidad aumenta al 61%, la cual
aumentaría a 89% de ser maligno si la peor textura es mayor a 26 de las
unidades de medición, pero si es menor a 26 entonces la probabilidad
disminuye a 21%.