Índice

1. La matriz de confusión.

2. Análisis de componentes principales

3. Diagramas ROC

4. Los árboles de clasificación.

5. Bosques aleatorios.

6. Máquinas de soporte vectorial

7. Clasificador bayesiano ingenuo (Bayes Naive)

8. K Nearest Neighbors

9. Redes neuronales para clasificar

10. Análisis del discriminante lineal

11. La regresión logística




1 La matriz de confusión.


A veces tenemos un modelo que predice y sobre el que podemos comparar nuevos datos para evaluar su precision. Una clasificación que ha hecho el modelo.

Una matriz de confusión es un caso especial de tabla de contingencia.

1 Observemos nuestra bded:

SAT GPA Projects Community Income Perf Pred
1380 2.53 1 0 41800 Low Low
1100 3.18 1 5 37600 Low Low
1110 2.73 2 10 34800 Medium Medium
1180 2.49 3 0 24100 Low High
1240 2.89 3 5 56000 Medium Medium

2 Despleguemos una matriz de confusion para darle un sentido a los valores que hemos obtenido.

Low Medium High
Low 1150 84 98
Medium 166 1801 170
High 35 38 458

Si un adulto tiene discapacidad media, el modelo lo ha predicho alto en 170 casos.

obtengamos probabilidades totales

Low Medium High
Low 0.28750 0.02100 0.0245
Medium 0.04150 0.45025 0.0425
High 0.00875 0.00950 0.1145

obtengamos probabilidades totales por filas pones en entredicho al modelo, porque,

Low Medium High
Low 86.34 6.31 7.36
Medium 7.77 84.28 7.96
High 6.59 7.16 86.25

obtengamos probabilidades totales por columnas

Low Medium High
Low 85.12 4.37 13.50
Medium 12.29 93.66 23.42
High 2.59 1.98 63.09

summary(table) 
## Number of cases in table: 4000 
## Number of factors: 2 
## Test for independence of all factors:
##  Chisq = 4449, df = 4, p-value = 0



2 Análisis de componentes principales.


##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7
##     Murder    Assault   UrbanPop       Rape 
##   18.97047 6945.16571  209.51878   87.72916
## Standard deviations (1, .., p=4):
## [1] 1.5748783 0.9948694 0.5971291 0.4164494
## 
## Rotation (n x k) = (4 x 4):
##                 PC1        PC2        PC3         PC4
## Murder   -0.5358995  0.4181809 -0.3412327  0.64922780
## Assault  -0.5831836  0.1879856 -0.2681484 -0.74340748
## UrbanPop -0.2781909 -0.8728062 -0.3780158  0.13387773
## Rape     -0.5434321 -0.1673186  0.8177779  0.08902432

## Importance of components:
##                           PC1    PC2     PC3     PC4
## Standard deviation     1.5749 0.9949 0.59713 0.41645
## Proportion of Variance 0.6201 0.2474 0.08914 0.04336
## Cumulative Proportion  0.6201 0.8675 0.95664 1.00000



3. Diagramas ROC.


##         cut fpr        tpr
## 1       Inf   0 0.00000000
## 2 0.9917340   0 0.01851852
## 3 0.9768288   0 0.03703704
## 4 0.9763148   0 0.05555556
## 5 0.9601505   0 0.07407407
## 6 0.9351574   0 0.09259259
##            cut       fpr tpr
## 96  0.10426897 0.8913043   1
## 97  0.07292866 0.9130435   1
## 98  0.07154785 0.9347826   1
## 99  0.04703280 0.9565217   1
## 100 0.04652589 0.9782609   1
## 101 0.00112760 1.0000000   1
##            cut       fpr       tpr
## 55  0.49815058 0.2173913 0.8148148
## 56  0.49616956 0.2173913 0.8333333
## 57  0.47840739 0.2391304 0.8333333
## 58  0.47754679 0.2608696 0.8333333
## 59  0.46323419 0.2826087 0.8333333
## 60  0.45227354 0.2826087 0.8518519
## 61  0.44950615 0.3043478 0.8518519
## 62  0.43443516 0.3260870 0.8518519
## 63  0.43274841 0.3478261 0.8518519
## 64  0.42845777 0.3695652 0.8518519
## 65  0.40701592 0.3695652 0.8703704
## 66  0.40272660 0.3695652 0.8888889
## 67  0.40248242 0.3913043 0.8888889
## 68  0.40140505 0.3913043 0.9074074
## 69  0.37646732 0.4130435 0.9074074
## 70  0.36254324 0.4347826 0.9074074
## 71  0.35547851 0.4565217 0.9074074
## 72  0.34872470 0.4782609 0.9074074
## 73  0.33814262 0.5000000 0.9074074
## 74  0.33528819 0.5217391 0.9074074
## 75  0.33041954 0.5434783 0.9074074
## 76  0.31878806 0.5652174 0.9074074
## 77  0.31438300 0.5869565 0.9074074
## 78  0.31164060 0.6086957 0.9074074
## 79  0.30761685 0.6086957 0.9259259
## 80  0.23584000 0.6304348 0.9259259
## 81  0.23310990 0.6304348 0.9444444
## 82  0.22243908 0.6521739 0.9444444
## 83  0.20977357 0.6739130 0.9444444
## 84  0.19511299 0.6739130 0.9629630
## 85  0.18730064 0.6739130 0.9814815
## 86  0.18210618 0.6956522 0.9814815
## 87  0.17060700 0.7173913 0.9814815
## 88  0.15536249 0.7391304 0.9814815
## 89  0.14907332 0.7391304 1.0000000
## 90  0.14288827 0.7608696 1.0000000
## 91  0.13868194 0.7826087 1.0000000
## 92  0.13090790 0.8043478 1.0000000
## 93  0.12741177 0.8260870 1.0000000
## 94  0.12676979 0.8478261 1.0000000
## 95  0.11107864 0.8695652 1.0000000
## 96  0.10426897 0.8913043 1.0000000
## 97  0.07292866 0.9130435 1.0000000
## 98  0.07154785 0.9347826 1.0000000
## 99  0.04703280 0.9565217 1.0000000
## 100 0.04652589 0.9782609 1.0000000
## 101 0.00112760 1.0000000 1.0000000