
Importar base de datos
# file.choose()
base_de_datos <- read.csv("/Users/mayracampoyramos/Documents/Semana 18 /Analisis/4 Semestre /5to Semetre/Analisis de Datos Concentracion/cancer_de_mama.csv")
Entender y nombrar base de datos
Cancer_de_mama <- base_de_datos
resumen<- summary(base_de_datos)
Crear árbol de decisión
# install.packages("rpart")
library(rpart)
arbol <- rpart(formula = diagnosis ~ ., data=Cancer_de_mama )
arbol
## n= 569
##
## node), split, n, loss, yval, (yprob)
## * denotes terminal node
##
## 1) root 569 212 B (0.62741652 0.37258348)
## 2) radius_worst< 16.795 379 33 B (0.91292876 0.08707124)
## 4) concave.points_worst< 0.1358 333 5 B (0.98498498 0.01501502) *
## 5) concave.points_worst>=0.1358 46 18 M (0.39130435 0.60869565)
## 10) texture_worst< 25.67 19 4 B (0.78947368 0.21052632) *
## 11) texture_worst>=25.67 27 3 M (0.11111111 0.88888889) *
## 3) radius_worst>=16.795 190 11 M (0.05789474 0.94210526) *
Instalar paquetes
# install.packages("rpart.plot")
library(rpart.plot)
rpart.plot(arbol)

prp(arbol, extra =7, prefix = "fraccion\n")
?ggplot
## No documentation for 'ggplot' in specified packages and libraries:
## you could try '??ggplot'
# install.packages("ggplot")
library("ggplot2")

library("tidyverse")
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ tibble 3.1.8 ✔ dplyr 1.0.10
## ✔ tidyr 1.2.0 ✔ stringr 1.4.1
## ✔ readr 2.1.2 ✔ forcats 0.5.2
## ✔ purrr 0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
ggplot(data = Cancer_de_mama, mapping= aes(radius_worst,concave.points_worst)) + geom_point(aes(color=diagnosis )) + theme_bw()

Conclusiones
El árbol de decisión es un método que se usa para realizar análisis
que consisten en encontrar de una forma gráfica las posibles relaciones
que se denominan de manera de consecuencia.
En este caso se buscaba encontrar en qué consiste si el diagnóstico
del tumor cáncer de mama era maligno o benigno. Primero, con la
generación del árbol de decisión en el cual las variables que se
utilizaban era si el radio del tumor supera de los 17 milimetros es un
94% problable que el tumor sea maligno, si no se pasaba a la variable
textura.
Finalizando, el gráfico que arroja nuestro código demuestra la
correlación que tienen en la eje de la “x” pero radio del tumor con el
eje de las “y” que representa los peores puntos cóncavos. Entre más
mayor sea la concavidad y el radio es más probable que sea maligno el
tumor. Por la misma manera, entre menor sea el radio y en punto cóncavo
los tumores son benignos. Si existen unos 3 casos que no llevan la misma
estructura que la representación anterior, pero esto es solo una
predicción.
LS0tCnRpdGxlOiA8c3BhbiBzdHlsZSA9ICJjb2xvcjpwaW5rIj4gIkPDoW5jZXIgZGUgTWFtYSIKYXV0aG9yOiAiTWF5cmEgQ2FtcG95LUEwMDIyNjkxNCIKZGF0ZTogIjIwMjItMDktMDYiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogdHJ1ZQogICAgdG9jX2Zsb2F0OiB0cnVlCiAgICBjb2RlX2Rvd25sb2FkOiB0cnVlCi0tLQoKPGltZyBzcmM9ICIvVXNlcnMvbWF5cmFjYW1wb3lyYW1vcy9Eb3dubG9hZHMvcXVlLWVzLWVsLWNhbmNlci1kZS1tYW1hLmpwZyI+CgojIyAqSW1wb3J0YXIgYmFzZSBkZSBkYXRvcyoKYGBge3J9CiMgZmlsZS5jaG9vc2UoKQpiYXNlX2RlX2RhdG9zIDwtIHJlYWQuY3N2KCIvVXNlcnMvbWF5cmFjYW1wb3lyYW1vcy9Eb2N1bWVudHMvU2VtYW5hIDE4IC9BbmFsaXNpcy80IFNlbWVzdHJlIC81dG8gU2VtZXRyZS9BbmFsaXNpcyBkZSBEYXRvcyBDb25jZW50cmFjaW9uL2NhbmNlcl9kZV9tYW1hLmNzdiIpCmBgYAoKIyMgKkVudGVuZGVyIHkgbm9tYnJhciBiYXNlIGRlIGRhdG9zKgoKYGBge3J9CkNhbmNlcl9kZV9tYW1hIDwtIGJhc2VfZGVfZGF0b3MKcmVzdW1lbjwtIHN1bW1hcnkoYmFzZV9kZV9kYXRvcykKYGBgCgojIyAqKkNyZWFyIMOhcmJvbCBkZSBkZWNpc2nDs24qKgpgYGB7cn0KIyBpbnN0YWxsLnBhY2thZ2VzKCJycGFydCIpCmxpYnJhcnkocnBhcnQpCmFyYm9sIDwtIHJwYXJ0KGZvcm11bGEgPSAgZGlhZ25vc2lzICB+IC4sIGRhdGE9Q2FuY2VyX2RlX21hbWEgKQphcmJvbApgYGAKCiMjICpJbnN0YWxhciBwYXF1ZXRlcyoKYGBge3J9CiMgaW5zdGFsbC5wYWNrYWdlcygicnBhcnQucGxvdCIpCmxpYnJhcnkocnBhcnQucGxvdCkKCnJwYXJ0LnBsb3QoYXJib2wpCnBycChhcmJvbCwgZXh0cmEgPTcsIHByZWZpeCA9ICJmcmFjY2lvblxuIikKCj9nZ3Bsb3QKIyBpbnN0YWxsLnBhY2thZ2VzKCJnZ3Bsb3QiKQpsaWJyYXJ5KCJnZ3Bsb3QyIikKbGlicmFyeSgidGlkeXZlcnNlIikKCmdncGxvdChkYXRhID0gQ2FuY2VyX2RlX21hbWEsIG1hcHBpbmc9IGFlcyhyYWRpdXNfd29yc3QsY29uY2F2ZS5wb2ludHNfd29yc3QpKSArIGdlb21fcG9pbnQoYWVzKGNvbG9yPWRpYWdub3NpcyApKSArIHRoZW1lX2J3KCkKICAKYGBgCgojIyAqQ29uY2x1c2lvbmVzKgoKRWwgw6FyYm9sIGRlIGRlY2lzacOzbiBlcyB1biBtw6l0b2RvIHF1ZSBzZSB1c2EgcGFyYSByZWFsaXphciBhbsOhbGlzaXMgcXVlIGNvbnNpc3RlbiBlbiBlbmNvbnRyYXIgZGUgdW5hIGZvcm1hIGdyw6FmaWNhIGxhcyBwb3NpYmxlcyByZWxhY2lvbmVzIHF1ZSBzZSBkZW5vbWluYW4gZGUgbWFuZXJhIGRlIGNvbnNlY3VlbmNpYS4KCkVuIGVzdGUgY2FzbyBzZSBidXNjYWJhIGVuY29udHJhciBlbiBxdcOpIGNvbnNpc3RlIHNpIGVsIGRpYWduw7NzdGljbyBkZWwgdHVtb3IgY8OhbmNlciBkZSBtYW1hIGVyYSBtYWxpZ25vIG8gYmVuaWduby4gUHJpbWVybywgY29uIGxhIGdlbmVyYWNpw7NuIGRlbCDDoXJib2wgZGUgZGVjaXNpw7NuIGVuIGVsIGN1YWwgbGFzIHZhcmlhYmxlcyBxdWUgc2UgdXRpbGl6YWJhbiBlcmEgc2kgZWwgcmFkaW8gZGVsIHR1bW9yICBzdXBlcmEgZGUgbG9zIDE3IG1pbGltZXRyb3MgZXMgdW4gOTQlIHByb2JsYWJsZSBxdWUgZWwgdHVtb3Igc2VhIG1hbGlnbm8sIHNpIG5vIHNlIHBhc2FiYSBhIGxhIHZhcmlhYmxlIHRleHR1cmEuCgpGaW5hbGl6YW5kbywgZWwgZ3LDoWZpY28gcXVlIGFycm9qYSBudWVzdHJvIGPDs2RpZ28gZGVtdWVzdHJhIGxhIGNvcnJlbGFjacOzbiBxdWUgdGllbmVuIGVuIGxhIGVqZSBkZSBsYSDigJx44oCdIHBlcm8gcmFkaW8gZGVsIHR1bW9yIGNvbiBlbCBlamUgZGUgbGFzIOKAnHnigJ0gcXVlIHJlcHJlc2VudGEgbG9zIHBlb3JlcyBwdW50b3MgY8OzbmNhdm9zLiBFbnRyZSBtw6FzIG1heW9yIHNlYSBsYSBjb25jYXZpZGFkIHkgZWwgcmFkaW8gZXMgbcOhcyBwcm9iYWJsZSBxdWUgc2VhIG1hbGlnbm8gZWwgdHVtb3IuIFBvciBsYSBtaXNtYSBtYW5lcmEsIGVudHJlIG1lbm9yIHNlYSBlbCByYWRpbyB5IGVuIHB1bnRvIGPDs25jYXZvIGxvcyB0dW1vcmVzIHNvbiBiZW5pZ25vcy4gU2kgZXhpc3RlbiB1bm9zIDMgY2Fzb3MgcXVlIG5vIGxsZXZhbiBsYSBtaXNtYSBlc3RydWN0dXJhIHF1ZSBsYSByZXByZXNlbnRhY2nDs24gYW50ZXJpb3IsIHBlcm8gZXN0byBlcyBzb2xvIHVuYSBwcmVkaWNjacOzbi4gCgo=