Comparación de Algoritmos de Clasificación para la predicción de diagnóstico general de cáncer de mama

Árboles[Random-Forest]

Paso 1: Entendimiento del negocio

Este paso se detalla en el primer documento: https://rpubs.com/Moki-chan/rpart-parcial-breast-mama

Paso 2: Entendimiento de la data

2.1. Información inicial de la data

Carga de datos formato csv.

data <- read.csv("https://raw.githubusercontent.com/cnahuina/data-mineria/master/breast-cancer.csv")

Verificamos la carga, visualizando la estructura inical de las variables de manera general.

De acuerdo a ello se visualiza lo siguiente:

Se tiene 569 datos de 33 variables.

En el cual se rescatar que el identificador es de tipo int, el cual debe cambiar a factor, por lo mismo que es un identificador, también se puede rescatar la columna “X” con valores de “NA”

str(data)

## 'data.frame':    569 obs. of  33 variables:
##  $ id                     : int  842302 842517 84300903 84348301 84358402 843786 844359 84458202 844981 84501001 ...
##  $ diagnosis              : Factor w/ 2 levels "B","M": 2 2 2 2 2 2 2 2 2 2 ...
##  $ radius_mean            : num  18 20.6 19.7 11.4 20.3 ...
##  $ texture_mean           : num  10.4 17.8 21.2 20.4 14.3 ...
##  $ perimeter_mean         : num  122.8 132.9 130 77.6 135.1 ...
##  $ area_mean              : num  1001 1326 1203 386 1297 ...
##  $ smoothness_mean        : num  0.1184 0.0847 0.1096 0.1425 0.1003 ...
##  $ compactness_mean       : num  0.2776 0.0786 0.1599 0.2839 0.1328 ...
##  $ concavity_mean         : num  0.3001 0.0869 0.1974 0.2414 0.198 ...
##  $ concave.points_mean    : num  0.1471 0.0702 0.1279 0.1052 0.1043 ...
##  $ symmetry_mean          : num  0.242 0.181 0.207 0.26 0.181 ...
##  $ fractal_dimension_mean : num  0.0787 0.0567 0.06 0.0974 0.0588 ...
##  $ radius_se              : num  1.095 0.543 0.746 0.496 0.757 ...
##  $ texture_se             : num  0.905 0.734 0.787 1.156 0.781 ...
##  $ perimeter_se           : num  8.59 3.4 4.58 3.44 5.44 ...
##  $ area_se                : num  153.4 74.1 94 27.2 94.4 ...
##  $ smoothness_se          : num  0.0064 0.00522 0.00615 0.00911 0.01149 ...
##  $ compactness_se         : num  0.049 0.0131 0.0401 0.0746 0.0246 ...
##  $ concavity_se           : num  0.0537 0.0186 0.0383 0.0566 0.0569 ...
##  $ concave.points_se      : num  0.0159 0.0134 0.0206 0.0187 0.0188 ...
##  $ symmetry_se            : num  0.03 0.0139 0.0225 0.0596 0.0176 ...
##  $ fractal_dimension_se   : num  0.00619 0.00353 0.00457 0.00921 0.00511 ...
##  $ radius_worst           : num  25.4 25 23.6 14.9 22.5 ...
##  $ texture_worst          : num  17.3 23.4 25.5 26.5 16.7 ...
##  $ perimeter_worst        : num  184.6 158.8 152.5 98.9 152.2 ...
##  $ area_worst             : num  2019 1956 1709 568 1575 ...
##  $ smoothness_worst       : num  0.162 0.124 0.144 0.21 0.137 ...
##  $ compactness_worst      : num  0.666 0.187 0.424 0.866 0.205 ...
##  $ concavity_worst        : num  0.712 0.242 0.45 0.687 0.4 ...
##  $ concave.points_worst   : num  0.265 0.186 0.243 0.258 0.163 ...
##  $ symmetry_worst         : num  0.46 0.275 0.361 0.664 0.236 ...
##  $ fractal_dimension_worst: num  0.1189 0.089 0.0876 0.173 0.0768 ...
##  $ X                      : logi  NA NA NA NA NA NA ...

Cambio de la variable id como factor

data$id <- as.factor(data$id)

2.2. Información inicial de la data

Realizamos el resumen de la data total, de la siguente manera:

En el cual podemos visualizar lo siguiente:

Variables:

Esto se visualiza en el primer documento: https://rpubs.com/Moki-chan/rpart-parcial-breast-mama

summary(data)

##        id      diagnosis  radius_mean      texture_mean   perimeter_mean  
##  8670   :  1   B:357     Min.   : 6.981   Min.   : 9.71   Min.   : 43.79  
##  8913   :  1   M:212     1st Qu.:11.700   1st Qu.:16.17   1st Qu.: 75.17  
##  8915   :  1             Median :13.370   Median :18.84   Median : 86.24  
##  9047   :  1             Mean   :14.127   Mean   :19.29   Mean   : 91.97  
##  85715  :  1             3rd Qu.:15.780   3rd Qu.:21.80   3rd Qu.:104.10  
##  86208  :  1             Max.   :28.110   Max.   :39.28   Max.   :188.50  
##  (Other):563                                                              
##    area_mean      smoothness_mean   compactness_mean  concavity_mean   
##  Min.   : 143.5   Min.   :0.05263   Min.   :0.01938   Min.   :0.00000  
##  1st Qu.: 420.3   1st Qu.:0.08637   1st Qu.:0.06492   1st Qu.:0.02956  
##  Median : 551.1   Median :0.09587   Median :0.09263   Median :0.06154  
##  Mean   : 654.9   Mean   :0.09636   Mean   :0.10434   Mean   :0.08880  
##  3rd Qu.: 782.7   3rd Qu.:0.10530   3rd Qu.:0.13040   3rd Qu.:0.13070  
##  Max.   :2501.0   Max.   :0.16340   Max.   :0.34540   Max.   :0.42680  
##                                                                        
##  concave.points_mean symmetry_mean    fractal_dimension_mean   radius_se     
##  Min.   :0.00000     Min.   :0.1060   Min.   :0.04996        Min.   :0.1115  
##  1st Qu.:0.02031     1st Qu.:0.1619   1st Qu.:0.05770        1st Qu.:0.2324  
##  Median :0.03350     Median :0.1792   Median :0.06154        Median :0.3242  
##  Mean   :0.04892     Mean   :0.1812   Mean   :0.06280        Mean   :0.4052  
##  3rd Qu.:0.07400     3rd Qu.:0.1957   3rd Qu.:0.06612        3rd Qu.:0.4789  
##  Max.   :0.20120     Max.   :0.3040   Max.   :0.09744        Max.   :2.8730  
##                                                                              
##    texture_se      perimeter_se       area_se        smoothness_se     
##  Min.   :0.3602   Min.   : 0.757   Min.   :  6.802   Min.   :0.001713  
##  1st Qu.:0.8339   1st Qu.: 1.606   1st Qu.: 17.850   1st Qu.:0.005169  
##  Median :1.1080   Median : 2.287   Median : 24.530   Median :0.006380  
##  Mean   :1.2169   Mean   : 2.866   Mean   : 40.337   Mean   :0.007041  
##  3rd Qu.:1.4740   3rd Qu.: 3.357   3rd Qu.: 45.190   3rd Qu.:0.008146  
##  Max.   :4.8850   Max.   :21.980   Max.   :542.200   Max.   :0.031130  
##                                                                        
##  compactness_se      concavity_se     concave.points_se   symmetry_se      
##  Min.   :0.002252   Min.   :0.00000   Min.   :0.000000   Min.   :0.007882  
##  1st Qu.:0.013080   1st Qu.:0.01509   1st Qu.:0.007638   1st Qu.:0.015160  
##  Median :0.020450   Median :0.02589   Median :0.010930   Median :0.018730  
##  Mean   :0.025478   Mean   :0.03189   Mean   :0.011796   Mean   :0.020542  
##  3rd Qu.:0.032450   3rd Qu.:0.04205   3rd Qu.:0.014710   3rd Qu.:0.023480  
##  Max.   :0.135400   Max.   :0.39600   Max.   :0.052790   Max.   :0.078950  
##                                                                            
##  fractal_dimension_se  radius_worst   texture_worst   perimeter_worst 
##  Min.   :0.0008948    Min.   : 7.93   Min.   :12.02   Min.   : 50.41  
##  1st Qu.:0.0022480    1st Qu.:13.01   1st Qu.:21.08   1st Qu.: 84.11  
##  Median :0.0031870    Median :14.97   Median :25.41   Median : 97.66  
##  Mean   :0.0037949    Mean   :16.27   Mean   :25.68   Mean   :107.26  
##  3rd Qu.:0.0045580    3rd Qu.:18.79   3rd Qu.:29.72   3rd Qu.:125.40  
##  Max.   :0.0298400    Max.   :36.04   Max.   :49.54   Max.   :251.20  
##                                                                       
##    area_worst     smoothness_worst  compactness_worst concavity_worst 
##  Min.   : 185.2   Min.   :0.07117   Min.   :0.02729   Min.   :0.0000  
##  1st Qu.: 515.3   1st Qu.:0.11660   1st Qu.:0.14720   1st Qu.:0.1145  
##  Median : 686.5   Median :0.13130   Median :0.21190   Median :0.2267  
##  Mean   : 880.6   Mean   :0.13237   Mean   :0.25427   Mean   :0.2722  
##  3rd Qu.:1084.0   3rd Qu.:0.14600   3rd Qu.:0.33910   3rd Qu.:0.3829  
##  Max.   :4254.0   Max.   :0.22260   Max.   :1.05800   Max.   :1.2520  
##                                                                       
##  concave.points_worst symmetry_worst   fractal_dimension_worst    X          
##  Min.   :0.00000      Min.   :0.1565   Min.   :0.05504         Mode:logical  
##  1st Qu.:0.06493      1st Qu.:0.2504   1st Qu.:0.07146         NA's:569      
##  Median :0.09993      Median :0.2822   Median :0.08004                       
##  Mean   :0.11461      Mean   :0.2901   Mean   :0.08395                       
##  3rd Qu.:0.16140      3rd Qu.:0.3179   3rd Qu.:0.09208                       
##  Max.   :0.29100      Max.   :0.6638   Max.   :0.20750                       
##

2.3. Exploración de la data

Se analizan los valores outliers de la data en general.
1. Se realiza un boxplot para la visualización de outliers

Se refleja los outliers en la mayoría de las variables.

boxplot(data)

2.4 Verificación de la calidad de la data

Se analizan los NA’S de la data en general

Se realiza un gráfico en el cual nos permita visualizar el patrón de comportamiento de los NA’s

#install.packages("VIM")
library(VIM)

## Warning: package 'VIM' was built under R version 3.6.3

## Loading required package: colorspace

## Loading required package: grid

## Loading required package: data.table

## VIM is ready to use. 
##  Since version 4.0.0 the GUI is in its own package VIMGUI.
## 
##           Please use the package to use the new (and old) GUI.

## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues

## 
## Attaching package: 'VIM'

## The following object is masked from 'package:datasets':
## 
##     sleep

miss <- aggr(data, col=c('green', 'red'),
     ylab = c("Histograma de NAs", "Patrón"))

En el cuadro de proporcion de missings podemos observar que la variable X pasa del 5% , en consecuencia podría no tomarse en cuenta como variable de uso.

summary(miss)

## 
##  Missings per variable: 
##                 Variable Count
##                       id     0
##                diagnosis     0
##              radius_mean     0
##             texture_mean     0
##           perimeter_mean     0
##                area_mean     0
##          smoothness_mean     0
##         compactness_mean     0
##           concavity_mean     0
##      concave.points_mean     0
##            symmetry_mean     0
##   fractal_dimension_mean     0
##                radius_se     0
##               texture_se     0
##             perimeter_se     0
##                  area_se     0
##            smoothness_se     0
##           compactness_se     0
##             concavity_se     0
##        concave.points_se     0
##              symmetry_se     0
##     fractal_dimension_se     0
##             radius_worst     0
##            texture_worst     0
##          perimeter_worst     0
##               area_worst     0
##         smoothness_worst     0
##        compactness_worst     0
##          concavity_worst     0
##     concave.points_worst     0
##           symmetry_worst     0
##  fractal_dimension_worst     0
##                        X   569
## 
##  Missings in combinations of variables: 
##                                                       Combinations Count
##  0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:1   569
##  Percent
##      100

Paso 3: Preparación de la data

3.1. Seleccionar la data

Como se mostró anteriormente, la última columna no se toma en cuenta y la otra variable a no tomar en cuenta es el identificador.

data <- data[,2:32]

3.2. Limpiar la data

Se hace uso de una función en este caso denominada replace_outliers para eliminar los valores outliers de la data.

Capar los valores extremos, es decir, localizar todo lo que cayera fuera del bigote más arriba o más abajo de 1,5 veces de el rango intercuartilico. Y decidir capar dichas obsevaciones sustituyendolas con el percentil número 5. En el caso de los que están debajo del bigote inferior y con el percentil 95 con los que están por encima del bigote superior.

replace_outliers <- function(x, removeNA = TRUE){
  qrts <- quantile(x, probs = c(0.25, 0.75), na.rm = removeNA)
  caps <- quantile(x, probs = c(.05, 0.95), na.rm = removeNA)
  iqr <- qrts[2]-qrts[1]
  h <- 1.5*iqr
  x[x<qrts[1]-h] <- caps[1]
  x[x>qrts[2]+h] <- caps[2]
  x
}

Hacemos uso de la función en las variables presentadas, en el boxplot realizado con anterioridad.

data$radius_mean <- replace_outliers(data$radius_mean)
data$texture_mean  <- replace_outliers(data$texture_mean)
data$perimeter_mean  <- replace_outliers(data$perimeter_mean)
data$area_mean  <- replace_outliers(data$area_mean)
data$smoothness_mean  <- replace_outliers(data$smoothness_mean )
data$compactness_mean  <- replace_outliers(data$compactness_mean)
data$concavity_mean  <- replace_outliers(data$concavity_mean)
data$concave.points_mean  <- replace_outliers(data$concave.points_mean)
data$symmetry_mean <- replace_outliers(data$symmetry_mean)
data$fractal_dimension_mean  <- replace_outliers(data$fractal_dimension_mean)
data$radius_se <- replace_outliers(data$radius_se)
data$texture_se  <- replace_outliers(data$texture_se )
data$perimeter_se  <- replace_outliers(data$perimeter_se)
data$area_se <- replace_outliers(data$area_se)
data$smoothness_se  <- replace_outliers(data$smoothness_se)
data$compactness_se  <- replace_outliers(data$compactness_se)
data$concavity_se <- replace_outliers(data$concavity_se)
data$concave.points_se <- replace_outliers(data$concave.points_se)
data$symmetry_se <- replace_outliers(data$symmetry_se)
data$fractal_dimension_se <- replace_outliers(data$fractal_dimension_s)
data$radius_worst <- replace_outliers(data$radius_worst)
data$texture_worst <- replace_outliers(data$texture_worst )
data$perimeter_worst  <- replace_outliers(data$perimeter_worst)
data$area_worst  <- replace_outliers(data$area_worst)
data$smoothness_worst <- replace_outliers(data$smoothness_worst)
data$compactness_worst <- replace_outliers(data$compactness_worst)
data$concavity_worst <- replace_outliers(data$concavity_worst)
data$concave.points_worst <- replace_outliers(data$concave.points_worst)
data$symmetry_worst <- replace_outliers(data$symmetry_worst)

Para la comprabación del reemplazo de los outliers

boxplot.stats(data$texture_mean)

## $stats
## [1]  9.71 16.17 18.84 21.80 29.97
## 
## $n
## [1] 569
## 
## $conf
## [1] 18.46709 19.21291
## 
## $out
## numeric(0)

Para la comprabación del reemplazo de los outliers

boxplot.stats(data$texture_mean)

## $stats
## [1]  9.71 16.17 18.84 21.80 29.97
## 
## $n
## [1] 569
## 
## $conf
## [1] 18.46709 19.21291
## 
## $out
## numeric(0)

3.3. Construir data

Detallamos las librerías que haremos uso

# install.packages("caret")
library(caret)

## Warning: package 'caret' was built under R version 3.6.3

## Loading required package: lattice

## Loading required package: ggplot2

# install.packages("randomForest")
library(randomForest)

## Warning: package 'randomForest' was built under R version 3.6.3

## randomForest 4.6-14

## Type rfNews() to see new features/changes/bug fixes.

## 
## Attaching package: 'randomForest'

## The following object is masked from 'package:ggplot2':
## 
##     margin

# install.packages("ROCR")
library(ROCR)

## Warning: package 'ROCR' was built under R version 3.6.3

## Loading required package: gplots

## 
## Attaching package: 'gplots'

## The following object is masked from 'package:stats':
## 
##     lowess

Establecemos una semilla

set.seed(2018)

Hacemos las particiones respectivas para hacer uso de la función.

training.ids <- createDataPartition(data$diagnosis,
                                    p = 0.7, list = FALSE)

3.4. Integración de data

3.5. Formato de data

Paso 4: Modelamiento

mod <- randomForest(x = data[training.ids,2:31],
                    y = data[training.ids, 1],
                    ntree = 500,
                    keep.forest = TRUE)

Paso 5: Evaluación

pred <- predict(mod, data[-training.ids,], type = "class")

table <- table(data[-training.ids,"diagnosis"], pred, dnn=c("Actual", "Predicho"))

Hacemos uso de la función “confusionMatrix”, la cual es una herramienta que permite la visualización del desempeño del modelo que se ha empleado con anterioridad.

medida <- confusionMatrix(pred, data[-training.ids,]$diagnosis)
medida

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   B   M
##          B 103   2
##          M   4  61
##                                           
##                Accuracy : 0.9647          
##                  95% CI : (0.9248, 0.9869)
##     No Information Rate : 0.6294          
##     P-Value [Acc > NIR] : <2e-16          
##                                           
##                   Kappa : 0.9248          
##                                           
##  Mcnemar's Test P-Value : 0.6831          
##                                           
##             Sensitivity : 0.9626          
##             Specificity : 0.9683          
##          Pos Pred Value : 0.9810          
##          Neg Pred Value : 0.9385          
##              Prevalence : 0.6294          
##          Detection Rate : 0.6059          
##    Detection Prevalence : 0.6176          
##       Balanced Accuracy : 0.9654          
##                                           
##        'Positive' Class : B               
##

Evaluamos que tan bueno es el modelo. En el caso de que el árbol no haya sido podado.
1. Hallamos el accuracy.

acc <- (103+61)/170
acc

## [1] 0.9647059

Hallamos el error del modelo.

error_rate <- 1 - acc
error_rate

## [1] 0.03529412

Tenemos entonces una precisión de predicción del 93.84% y un error de predicción del 3.52%.

Evaluamos mediante la curva ROC

probs <- predict(mod, data[-training.ids,], type ="prob")

pred <- prediction(probs[,2], data[-training.ids,"diagnosis"])

perf <- performance(pred, "tpr","fpr")

plot(perf, main="Curva ROC algoritmo RandomForest")
lines(par()$usr[1:2],par()$usr[3:4])

[1] Árboles-rpart: https://rpubs.com/Moki-chan/rpart-parcial-breast-mama
[2] Knn: https://rpubs.com/Moki-chan/knn-parcial-parcial-cancer-breast
[3] neuronal-network: https://rpubs.com/Moki-chan/neuronal-network-parcial-breast-mama
[4] naive-bayes: https://rpubs.com/Moki-chan/naive-bayes-parcial-breast-mama
[5] Regresión Logística: https://rpubs.com/Moki-chan/log-reg-parcial-breast-mama