Selección y reescalamiento de variables
MEN_icfes_exe1 <- MEN_icfes_exe %>%
dplyr::select(
Evaluados, REPROBACIĆN_TRANSICIĆN, POBLACIĆN_5_16, DESERCIĆN_MEDIA, REPITENCIA_MEDIA, VICTIMAS.MATRICULA, COBERTURA_NETA_MEDIA, PS_PercĆ”pita, BIENES_TIC_OFICIAL, Region)
MEN_icfes_exe1[,1:9] <- scale(MEN_icfes_exe1[,1:9])
Propuesta 1: Clustering mixto
MetodologĆa de agrupación que involucra el uso de variables numĆ©ricas y categóricas
GrƔfico de ancho de la silueta de los clusters (semejanza interna)

1.1 Algoritmo de PAM clustering (Partition Around Medoids)
## # A tibble: 7 x 9
## cluster total_ETC aprob CB Des Rep PG Inse cp21
## <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 7 82.6 93.3 7.29 8 229. 44.9 85.4
## 2 2 20 86.6 104. 4.8 5.2 257. 51 56.9
## 3 3 2 88 122. 5.5 4 222. 48.5 86.9
## 4 4 6 86.2 101. 4.33 7.17 247. 49.3 72.3
## 5 5 23 90.5 107. 2.30 4.61 232. 48.3 79.0
## 6 6 21 86.6 108. 3.43 5 270. 55.7 37.7
## 7 7 17 88.4 99.2 3.65 5.65 242. 49.4 70.1
Visualización en 2 dimensiones

Visualización en 3 dimensiones
## Loading required namespace: mgcv
1.2 Clustering jerarquico

## clust_jer n
## 1 1 6
## 2 2 42
## 3 3 19
## 4 4 23
## 5 5 1
## 6 6 4
## 7 7 1


## clust_jer1 n
## 1 1 6
## 2 2 42
## 3 3 6
## 4 4 23
## 5 5 1
## 6 6 13
## 7 7 4
## 8 8 1
1.3 Clustering de k-prototipos

## Numeric predictors: 9
## Categorical predictors: 1
## Lambda: 1.425743
##
## Number of Clusters: 7
## Cluster sizes: 1 47 27 7 3 7 4
## Within cluster error: 0 173.8433 107.6658 30.85614 10.6452 65.30554 60.73178
##
## Cluster prototypes:
## Evaluados REPROBACIĆN_TRANSICIĆN POBLACIĆN_5_16 DESERCIĆN_MEDIA
## 1 -0.57042765 7.09734165 -0.5890315 3.9225665
## 2 -0.14794619 0.02108079 -0.1450682 -0.5051457
## 3 -0.06378215 -0.33176346 -0.1075658 0.1824195
## 4 -0.37351483 -0.48239970 -0.3225296 1.7653656
## 5 0.13250435 2.35230032 -0.0207902 -1.1109023
## 6 -0.34352338 -0.20509209 -0.2633069 0.9564152
## 7 3.46694278 -0.34374589 3.6186842 -0.2064509
## REPITENCIA_MEDIA VICTIMAS.MATRICULA COBERTURA_NETA_MEDIA PS_PercƔpita
## 1 2.90143951 0.19546425 -2.99008654 2.4282927
## 2 -0.28536840 -0.24222780 0.07660598 -0.3248901
## 3 -0.03771263 -0.12886162 0.37386679 0.3495141
## 4 0.19864303 2.87611680 -0.69965288 0.8044019
## 5 -0.42700431 -0.68484881 1.18772646 -0.8989112
## 6 1.77527431 -0.47966306 -1.53676569 0.5130182
## 7 -0.25182305 -0.01303095 0.34673813 -0.7801364
## BIENES_TIC_OFICIAL Region
## 1 0.19645511 Región Amazónica
## 2 -0.56770257 Región Caribe
## 3 1.25332667 Región Andina
## 4 -0.54153279 Región Amazónica
## 5 -0.13153951 Región Andina
## 6 -0.42439185 Región PacĆfica
## 7 -0.04954085 Región Andina
Conteo de ETC - k-prototipos
## kmodos n
## 1 1 1
## 2 2 47
## 3 3 27
## 4 4 7
## 5 5 3
## 6 6 7
## 7 7 4
Propuesta 3: Clustering Gaussiano
## Met clust bic1
## init EII 8 -2245.581
## X VII 3 -2210.793
## X.2 VEI 6 -2154.738
## X.1 EEI 8 -2075.717
## X.9 EEV 2 -2041.202
## X.5 EEE 8 -2026.435
## X.4 VVI 3 -2025.384
## X.11 EVV 2 -2019.653
## X.10 VEV 2 -2012.804
## X.3 EVI 5 -2002.367
## X.12 VVV 2 -1998.460
## X.6 VEE 3 -1960.968
## X.7 EVE 4 -1949.480
## X.8 VVE 3 -1936.923
## Clust_GMM n
## 1 1 4
## 2 2 4
## 3 3 7
## 4 4 42
## 5 5 23
## 6 6 1
## 7 7 14
## 8 8 1

## # A tibble: 8 x 11
## Clust_GMM total_ETC aprob CB Des Rep PG Inse spg_c spg_p cp21
## <dbl> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 4 85.5 80.8 4.25 9.5 214. 43.8 3.59e 9 7.39e10 95.0
## 2 2 4 88.2 102. 4.25 5.5 252. 51.8 4.24e10 8.22e11 62.6
## 3 3 7 84.4 105 7 5.86 229. 47.3 8.63e 9 1.57e11 85.2
## 4 4 42 87.2 107. 3.64 5.60 260. 53.1 4.50e 9 9.26e10 51.5
## 5 5 23 89.7 105. 2.65 4.35 238. 49.4 1.55e10 2.80e11 72
## 6 6 1 88 103 1 3 270 57 7.89e10 2.06e12 27.9
## 7 7 14 88 102. 4.57 4.93 246. 47.7 1.88e10 3.92e11 70.4
## 8 8 1 72 93 9 10 213 40 1.21e 9 5.48e10 83.3