Importar base de datos

# file.choose()
base_de_datos <- read.csv("/Users/mayracampoyramos/Documents/Semana 18 /Analisis/4 Semestre /5to Semetre/Analisis de Datos Concentracion/cancer_de_mama.csv")

Entender y nombrar base de datos

Cancer_de_mama <- base_de_datos
resumen<- summary(base_de_datos)

Crear árbol de decisión

# install.packages("rpart")
library(rpart)
arbol <- rpart(formula =  diagnosis  ~ ., data=Cancer_de_mama )
arbol
## n= 569 
## 
## node), split, n, loss, yval, (yprob)
##       * denotes terminal node
## 
##  1) root 569 212 B (0.62741652 0.37258348)  
##    2) radius_worst< 16.795 379  33 B (0.91292876 0.08707124)  
##      4) concave.points_worst< 0.1358 333   5 B (0.98498498 0.01501502) *
##      5) concave.points_worst>=0.1358 46  18 M (0.39130435 0.60869565)  
##       10) texture_worst< 25.67 19   4 B (0.78947368 0.21052632) *
##       11) texture_worst>=25.67 27   3 M (0.11111111 0.88888889) *
##    3) radius_worst>=16.795 190  11 M (0.05789474 0.94210526) *

Instalar paquetes

# install.packages("rpart.plot")
library(rpart.plot)

rpart.plot(arbol)

prp(arbol, extra =7, prefix = "fraccion\n")

?ggplot
## No documentation for 'ggplot' in specified packages and libraries:
## you could try '??ggplot'
# install.packages("ggplot")
library("ggplot2")

library("tidyverse")
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ tibble  3.1.8      ✔ dplyr   1.0.10
## ✔ tidyr   1.2.0      ✔ stringr 1.4.1 
## ✔ readr   2.1.2      ✔ forcats 0.5.2 
## ✔ purrr   0.3.4      
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
ggplot(data = Cancer_de_mama, mapping= aes(radius_worst,concave.points_worst)) + geom_point(aes(color=diagnosis )) + theme_bw()

Conclusiones

El árbol de decisión es un método que se usa para realizar análisis que consisten en encontrar de una forma gráfica las posibles relaciones que se denominan de manera de consecuencia.

En este caso se buscaba encontrar en qué consiste si el diagnóstico del tumor cáncer de mama era maligno o benigno. Primero, con la generación del árbol de decisión en el cual las variables que se utilizaban era si el radio del tumor supera de los 17 milimetros es un 94% problable que el tumor sea maligno, si no se pasaba a la variable textura.

Finalizando, el gráfico que arroja nuestro código demuestra la correlación que tienen en la eje de la “x” pero radio del tumor con el eje de las “y” que representa los peores puntos cóncavos. Entre más mayor sea la concavidad y el radio es más probable que sea maligno el tumor. Por la misma manera, entre menor sea el radio y en punto cóncavo los tumores son benignos. Si existen unos 3 casos que no llevan la misma estructura que la representación anterior, pero esto es solo una predicción.

LS0tCnRpdGxlOiA8c3BhbiBzdHlsZSA9ICJjb2xvcjpwaW5rIj4gIkPDoW5jZXIgZGUgTWFtYSIKYXV0aG9yOiAiTWF5cmEgQ2FtcG95LUEwMDIyNjkxNCIKZGF0ZTogIjIwMjItMDktMDYiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogdHJ1ZQogICAgdG9jX2Zsb2F0OiB0cnVlCiAgICBjb2RlX2Rvd25sb2FkOiB0cnVlCi0tLQoKPGltZyBzcmM9ICIvVXNlcnMvbWF5cmFjYW1wb3lyYW1vcy9Eb3dubG9hZHMvcXVlLWVzLWVsLWNhbmNlci1kZS1tYW1hLmpwZyI+CgojIyAqSW1wb3J0YXIgYmFzZSBkZSBkYXRvcyoKYGBge3J9CiMgZmlsZS5jaG9vc2UoKQpiYXNlX2RlX2RhdG9zIDwtIHJlYWQuY3N2KCIvVXNlcnMvbWF5cmFjYW1wb3lyYW1vcy9Eb2N1bWVudHMvU2VtYW5hIDE4IC9BbmFsaXNpcy80IFNlbWVzdHJlIC81dG8gU2VtZXRyZS9BbmFsaXNpcyBkZSBEYXRvcyBDb25jZW50cmFjaW9uL2NhbmNlcl9kZV9tYW1hLmNzdiIpCmBgYAoKIyMgKkVudGVuZGVyIHkgbm9tYnJhciBiYXNlIGRlIGRhdG9zKgoKYGBge3J9CkNhbmNlcl9kZV9tYW1hIDwtIGJhc2VfZGVfZGF0b3MKcmVzdW1lbjwtIHN1bW1hcnkoYmFzZV9kZV9kYXRvcykKYGBgCgojIyAqKkNyZWFyIMOhcmJvbCBkZSBkZWNpc2nDs24qKgpgYGB7cn0KIyBpbnN0YWxsLnBhY2thZ2VzKCJycGFydCIpCmxpYnJhcnkocnBhcnQpCmFyYm9sIDwtIHJwYXJ0KGZvcm11bGEgPSAgZGlhZ25vc2lzICB+IC4sIGRhdGE9Q2FuY2VyX2RlX21hbWEgKQphcmJvbApgYGAKCiMjICpJbnN0YWxhciBwYXF1ZXRlcyoKYGBge3J9CiMgaW5zdGFsbC5wYWNrYWdlcygicnBhcnQucGxvdCIpCmxpYnJhcnkocnBhcnQucGxvdCkKCnJwYXJ0LnBsb3QoYXJib2wpCnBycChhcmJvbCwgZXh0cmEgPTcsIHByZWZpeCA9ICJmcmFjY2lvblxuIikKCj9nZ3Bsb3QKIyBpbnN0YWxsLnBhY2thZ2VzKCJnZ3Bsb3QiKQpsaWJyYXJ5KCJnZ3Bsb3QyIikKbGlicmFyeSgidGlkeXZlcnNlIikKCmdncGxvdChkYXRhID0gQ2FuY2VyX2RlX21hbWEsIG1hcHBpbmc9IGFlcyhyYWRpdXNfd29yc3QsY29uY2F2ZS5wb2ludHNfd29yc3QpKSArIGdlb21fcG9pbnQoYWVzKGNvbG9yPWRpYWdub3NpcyApKSArIHRoZW1lX2J3KCkKICAKYGBgCgojIyAqQ29uY2x1c2lvbmVzKgoKRWwgw6FyYm9sIGRlIGRlY2lzacOzbiBlcyB1biBtw6l0b2RvIHF1ZSBzZSB1c2EgcGFyYSByZWFsaXphciBhbsOhbGlzaXMgcXVlIGNvbnNpc3RlbiBlbiBlbmNvbnRyYXIgZGUgdW5hIGZvcm1hIGdyw6FmaWNhIGxhcyBwb3NpYmxlcyByZWxhY2lvbmVzIHF1ZSBzZSBkZW5vbWluYW4gZGUgbWFuZXJhIGRlIGNvbnNlY3VlbmNpYS4KCkVuIGVzdGUgY2FzbyBzZSBidXNjYWJhIGVuY29udHJhciBlbiBxdcOpIGNvbnNpc3RlIHNpIGVsIGRpYWduw7NzdGljbyBkZWwgdHVtb3IgY8OhbmNlciBkZSBtYW1hIGVyYSBtYWxpZ25vIG8gYmVuaWduby4gUHJpbWVybywgY29uIGxhIGdlbmVyYWNpw7NuIGRlbCDDoXJib2wgZGUgZGVjaXNpw7NuIGVuIGVsIGN1YWwgbGFzIHZhcmlhYmxlcyBxdWUgc2UgdXRpbGl6YWJhbiBlcmEgc2kgZWwgcmFkaW8gZGVsIHR1bW9yICBzdXBlcmEgZGUgbG9zIDE3IG1pbGltZXRyb3MgZXMgdW4gOTQlIHByb2JsYWJsZSBxdWUgZWwgdHVtb3Igc2VhIG1hbGlnbm8sIHNpIG5vIHNlIHBhc2FiYSBhIGxhIHZhcmlhYmxlIHRleHR1cmEuCgpGaW5hbGl6YW5kbywgZWwgZ3LDoWZpY28gcXVlIGFycm9qYSBudWVzdHJvIGPDs2RpZ28gZGVtdWVzdHJhIGxhIGNvcnJlbGFjacOzbiBxdWUgdGllbmVuIGVuIGxhIGVqZSBkZSBsYSDigJx44oCdIHBlcm8gcmFkaW8gZGVsIHR1bW9yIGNvbiBlbCBlamUgZGUgbGFzIOKAnHnigJ0gcXVlIHJlcHJlc2VudGEgbG9zIHBlb3JlcyBwdW50b3MgY8OzbmNhdm9zLiBFbnRyZSBtw6FzIG1heW9yIHNlYSBsYSBjb25jYXZpZGFkIHkgZWwgcmFkaW8gZXMgbcOhcyBwcm9iYWJsZSBxdWUgc2VhIG1hbGlnbm8gZWwgdHVtb3IuIFBvciBsYSBtaXNtYSBtYW5lcmEsIGVudHJlIG1lbm9yIHNlYSBlbCByYWRpbyB5IGVuIHB1bnRvIGPDs25jYXZvIGxvcyB0dW1vcmVzIHNvbiBiZW5pZ25vcy4gU2kgZXhpc3RlbiB1bm9zIDMgY2Fzb3MgcXVlIG5vIGxsZXZhbiBsYSBtaXNtYSBlc3RydWN0dXJhIHF1ZSBsYSByZXByZXNlbnRhY2nDs24gYW50ZXJpb3IsIHBlcm8gZXN0byBlcyBzb2xvIHVuYSBwcmVkaWNjacOzbi4gCgo=