Clustering ETC

Selección y reescalamiento de variables

MEN_icfes_exe1 <- MEN_icfes_exe %>% 
  dplyr::select(
    Evaluados, REPROBACIƓN_TRANSICIƓN, POBLACIƓN_5_16, DESERCIƓN_MEDIA, REPITENCIA_MEDIA, VICTIMAS.MATRICULA, COBERTURA_NETA_MEDIA, PS_PercĆ”pita, BIENES_TIC_OFICIAL, Region)
                
MEN_icfes_exe1[,1:9] <- scale(MEN_icfes_exe1[,1:9])

Propuesta 1: Clustering mixto

Metodología de agrupación que involucra el uso de variables numéricas y categóricas

GrƔfico de ancho de la silueta de los clusters (semejanza interna)

1.1 Algoritmo de PAM clustering (Partition Around Medoids)

## # A tibble: 7 x 9
##   cluster total_ETC aprob    CB   Des   Rep    PG  Inse  cp21
##     <int>     <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1       1         7  82.6  93.3  7.29  8     229.  44.9  85.4
## 2       2        20  86.6 104.   4.8   5.2   257.  51    56.9
## 3       3         2  88   122.   5.5   4     222.  48.5  86.9
## 4       4         6  86.2 101.   4.33  7.17  247.  49.3  72.3
## 5       5        23  90.5 107.   2.30  4.61  232.  48.3  79.0
## 6       6        21  86.6 108.   3.43  5     270.  55.7  37.7
## 7       7        17  88.4  99.2  3.65  5.65  242.  49.4  70.1

Visualización en 2 dimensiones

Visualización en 3 dimensiones

## Loading required namespace: mgcv

1.2 Clustering jerarquico

##   clust_jer  n
## 1         1  6
## 2         2 42
## 3         3 19
## 4         4 23
## 5         5  1
## 6         6  4
## 7         7  1

##   clust_jer1  n
## 1          1  6
## 2          2 42
## 3          3  6
## 4          4 23
## 5          5  1
## 6          6 13
## 7          7  4
## 8          8  1

1.3 Clustering de k-prototipos

## Numeric predictors: 9 
## Categorical predictors: 1 
## Lambda: 1.425743 
## 
## Number of Clusters: 7 
## Cluster sizes: 1 47 27 7 3 7 4 
## Within cluster error: 0 173.8433 107.6658 30.85614 10.6452 65.30554 60.73178 
## 
## Cluster prototypes:
##     Evaluados REPROBACIƓN_TRANSICIƓN POBLACIƓN_5_16 DESERCIƓN_MEDIA
## 1 -0.57042765             7.09734165     -0.5890315       3.9225665
## 2 -0.14794619             0.02108079     -0.1450682      -0.5051457
## 3 -0.06378215            -0.33176346     -0.1075658       0.1824195
## 4 -0.37351483            -0.48239970     -0.3225296       1.7653656
## 5  0.13250435             2.35230032     -0.0207902      -1.1109023
## 6 -0.34352338            -0.20509209     -0.2633069       0.9564152
## 7  3.46694278            -0.34374589      3.6186842      -0.2064509
##   REPITENCIA_MEDIA VICTIMAS.MATRICULA COBERTURA_NETA_MEDIA PS_PercƔpita
## 1       2.90143951         0.19546425          -2.99008654    2.4282927
## 2      -0.28536840        -0.24222780           0.07660598   -0.3248901
## 3      -0.03771263        -0.12886162           0.37386679    0.3495141
## 4       0.19864303         2.87611680          -0.69965288    0.8044019
## 5      -0.42700431        -0.68484881           1.18772646   -0.8989112
## 6       1.77527431        -0.47966306          -1.53676569    0.5130182
## 7      -0.25182305        -0.01303095           0.34673813   -0.7801364
##   BIENES_TIC_OFICIAL           Region
## 1         0.19645511 Región Amazónica
## 2        -0.56770257    Región Caribe
## 3         1.25332667    Región Andina
## 4        -0.54153279 Región Amazónica
## 5        -0.13153951    Región Andina
## 6        -0.42439185  Región Pacífica
## 7        -0.04954085    Región Andina

Conteo de ETC - k-prototipos

##   kmodos  n
## 1      1  1
## 2      2 47
## 3      3 27
## 4      4  7
## 5      5  3
## 6      6  7
## 7      7  4

Propuesta 2: K medias

2.1 k means estricto

Visualización con 6 clusters

Visualización con 2 clusters

2.1 k means basado en siluetas (PAM)

Visualización con 2

Visualización con 3

Propuesta 3: Clustering Gaussiano

##      Met clust      bic1
## init EII     8 -2245.581
## X    VII     3 -2210.793
## X.2  VEI     6 -2154.738
## X.1  EEI     8 -2075.717
## X.9  EEV     2 -2041.202
## X.5  EEE     8 -2026.435
## X.4  VVI     3 -2025.384
## X.11 EVV     2 -2019.653
## X.10 VEV     2 -2012.804
## X.3  EVI     5 -2002.367
## X.12 VVV     2 -1998.460
## X.6  VEE     3 -1960.968
## X.7  EVE     4 -1949.480
## X.8  VVE     3 -1936.923
##   Clust_GMM  n
## 1         1  4
## 2         2  4
## 3         3  7
## 4         4 42
## 5         5 23
## 6         6  1
## 7         7 14
## 8         8  1

## # A tibble: 8 x 11
##   Clust_GMM total_ETC aprob    CB   Des   Rep    PG  Inse    spg_c   spg_p  cp21
##       <dbl>     <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl>   <dbl> <dbl>
## 1         1         4  85.5  80.8  4.25  9.5   214.  43.8  3.59e 9 7.39e10  95.0
## 2         2         4  88.2 102.   4.25  5.5   252.  51.8  4.24e10 8.22e11  62.6
## 3         3         7  84.4 105    7     5.86  229.  47.3  8.63e 9 1.57e11  85.2
## 4         4        42  87.2 107.   3.64  5.60  260.  53.1  4.50e 9 9.26e10  51.5
## 5         5        23  89.7 105.   2.65  4.35  238.  49.4  1.55e10 2.80e11  72  
## 6         6         1  88   103    1     3     270   57    7.89e10 2.06e12  27.9
## 7         7        14  88   102.   4.57  4.93  246.  47.7  1.88e10 3.92e11  70.4
## 8         8         1  72    93    9    10     213   40    1.21e 9 5.48e10  83.3