datac <- read.csv("/Users/lishdz/Desktop/R/cancer_de_mama.csv")

Árbol de Decisiones

library(rpart)
arbol <- rpart(formula = diagnosis ~., data = datac)
arbol
## n= 569 
## 
## node), split, n, loss, yval, (yprob)
##       * denotes terminal node
## 
##  1) root 569 212 B (0.62741652 0.37258348)  
##    2) radius_worst< 16.795 379  33 B (0.91292876 0.08707124)  
##      4) concave.points_worst< 0.1358 333   5 B (0.98498498 0.01501502) *
##      5) concave.points_worst>=0.1358 46  18 M (0.39130435 0.60869565)  
##       10) texture_worst< 25.67 19   4 B (0.78947368 0.21052632) *
##       11) texture_worst>=25.67 27   3 M (0.11111111 0.88888889) *
##    3) radius_worst>=16.795 190  11 M (0.05789474 0.94210526) *
library(rpart.plot)
rpart.plot(arbol)

prp(arbol, extra=7, prefix = "fracción\n")

Gráfica

library(ggplot2)
ggplot(data=datac, mapping=aes(radius_worst, concave.points_worst))+
  geom_point(aes(color=diagnosis)) + 
  theme_bw()

Conclusión

Este árbol de decisiones analizó múltiples variables presentadas en un estudio de cáncer de mama para determinar las probabilidades de que un tumor sea maligno.
Primeramente con el árbol de decisiones podemos identificar que una mujer con un tumor inicia con el 37% de que sea maligno, sin embargo esta probabilidad aumenta hasta el 94% si el radio del tumor es más de 17, en las unidades de medición utilizadas para el estudio. Por el contrario, si el radio es menor a las 17 unidades, entonces la probabilidad disminuye al 9%. Desde aquí, si el peor punto cóncavo es menor a 0.14 unidades la probabilidad de que sea maligno cae a 2%. En cambio si es mayor a 0.14 la probabilidad aumenta al 61%, la cual aumentaría a 89% de ser maligno si la peor textura es mayor a 26 de las unidades de medición, pero si es menor a 26 entonces la probabilidad disminuye a 21%.