## Pob_2010 Pob_2022
## [1,] -0.5227021 -0.50868616
## [2,] -0.1073876 -0.07910698
## [3,] 0.2435122 0.27447357
## [4,] -0.3531467 -0.38623186
## [5,] -0.4041279 -0.36412356
## [6,] -0.3420229 -0.35388462
Calculamos el número óptimo de clúster.
## 1 2 3 4 5
## 2 0.598
## 3 1.096 0.498
## 4 0.209 0.393 0.890
## 5 0.187 0.411 0.910 0.056
## 6 0.238 0.361 0.859 0.034 0.063
Después de aplicar el análisis de clúster jerárquico a la base de datos ‘Poblacion2010_2022’, se determinó que el número óptimo de clústeres es 2. Este resultado se basó en la aplicación de tres métodos diferentes para determinar el número adecuado de clústeres: el método de la silueta, el método del codo y el método de la estadística de brecha. Cada uno de estos métodos convergió en la misma conclusión de que dividir los municipios de Puerto Rico en dos clústeres sería la mejor manera de agruparlos en función de la población en los años 2010 y 2022.
Los dendrogramas generados mostraron que los municipios se agruparon naturalmente en cuatro grupos distintos. Uno de estos grupos contiene más de la mitad de los municipios, lo que indica una diferencia significativa en la población o alguna otra característica clave en comparación con los otros grupos. Las tres visualizaciones (dendrograma estándar, tipo filogenético y tipo circular) mostraron resultados similares, reforzando la idea de que los municipios de Puerto Rico pueden ser agrupados en cuatro clusters distintos en función de la población en los años 2010 y 2022.
## grupos
## 1 2 3 4
## 67 6 4 1
## Municipios Pob_2010 Pob_2022 grupos
## 1 Adjuntas 19483 17905 1
## 2 Aguada 41959 37666 1
## 3 Aguadilla 60949 53931 1
## 4 Aguas Buenas 28659 23538 1
## 5 Aibonito 25900 24555 1
## 6 Añasco 29261 25026 1
## 7 Arecibo 96440 86090 2
## 8 Arroyo 19575 15289 1
## 9 Barceloneta 24816 22416 1
## 10 Barranquitas 30318 28944 1
## 11 Bayamón 208116 181577 3
## 12 Cabo Rojo 50917 46718 1
## 13 Caguas 142893 125136 3
## 14 Camuy 35159 32620 1
## 15 Canóvanas 47648 41637 1
## 16 Carolina 176762 151571 3
## 17 Cataño 28140 22364 1
## 18 Cayey 48119 40782 1
## 19 Ceiba 13631 10931 1
## 20 Ciales 18782 16742 1
## 21 Cidra 43480 39515 1
## 22 Coamo 40512 33887 1
## 23 Comerío 20778 18619 1
## 24 Corozal 37142 34322 1
## 25 Culebra 1818 1769 1
## 26 Dorado 38165 35663 1
## 27 Fajardo 36993 31375 1
## 28 Florida 12680 11538 1
## 29 Guánica 19427 12800 1
## 30 Guayama 45362 35262 1
## 31 Guayanilla 21581 17064 1
## 32 Guaynabo 97924 89057 2
## 33 Gurabo 45369 40061 1
## 34 Hatillo 41953 38021 1
## 35 Hormigueros 17250 15413 1
## 36 Humacao 58466 49924 1
## 37 Isabela 45631 42754 1
## 38 Jayuya 16642 14495 1
## 39 Juana Díaz 50747 45923 1
## 40 Juncos 40290 36672 1
## 41 Lajas 25753 22936 1
## 42 Lares 30753 27774 1
## 43 Las Marías 9881 8705 1
## 44 Las Piedras 38675 34814 1
## 45 Loíza 30060 22657 1
## 46 Luquillo 20068 17449 1
## 47 Manatí 44113 38751 1
## 48 Maricao 6276 4575 1
## 49 Maunabo 12225 10368 1
## 50 Mayagüez 89080 70609 2
## 51 Moca 40109 37279 1
## 52 Morovis 32610 28277 1
## 53 Naguabo 26720 22964 1
## 54 Naranjito 30720 29208 1
## 55 Orocovis 23423 21229 1
## 56 Patillas 19277 15524 1
## 57 Peñuelas 24282 19763 1
## 58 Ponce 166327 132138 3
## 59 Quebradillas 25919 23332 1
## 60 Rincón 15200 15316 1
## 61 Río Grande 54304 45840 1
## 62 Sabana Grande 25265 22351 1
## 63 Salinas 31078 25000 1
## 64 San Germán 35527 31174 1
## 65 San Juan 395326 334776 4
## 66 San Lorenzo 41058 37260 1
## 67 San Sebastián 42430 38969 1
## 68 Santa Isabel 23274 19822 1
## 69 Toa Alta 74066 66041 2
## 70 Toa Baja 89609 72783 2
## 71 Trujillo Alto 74842 66810 2
## 72 Utuado 33149 27535 1
## 73 Vega Alta 39951 34786 1
## 74 Vega Baja 59662 53684 1
## 75 Vieques 9301 8043 1
## 76 Villalba 26073 21466 1
## 77 Yabucoa 37941 29305 1
## 78 Yauco 42043 32904 1
Los resultados muestran que los municipios de Puerto Rico se han agrupado en cuatro grupos distintos, con la mayoría de los municipios (67) en el grupo 1, seguido por 6 municipios en el grupo 2, 4 municipios en el grupo 3, y 1 municipio en el grupo 4.
Este análisis indica que la población de los municipios de Puerto Rico en los años 2010 y 2022 ha dado lugar a una clara división en cuatro grupos, posiblemente reflejando diferencias significativas en tamaño de la población y/o tendencias de crecimiento entre estos grupos. Los municipios en el grupo 1, que es el más grande, pueden tener características demográficas y socioeconómicas similares, mientras que los municipios en los grupos más pequeños pueden tener características distintivas que los diferencian de los otros grupos.
Esta información puede ser útil para comprender mejor la distribución de la población en Puerto Rico y para informar decisiones políticas y de planificación en relación con el desarrollo económico y social de los municipios.
## species sex basilar.length occipitonasal.length palate.length palate.width
## 1 giganteus Male 1312 1445 882 NA
## 2 giganteus Male 1439 1503 985 230
## 3 giganteus Male 1378 1464 934 NA
## 4 giganteus Male 1315 1367 895 230
## 5 giganteus Male 1413 1500 969 NA
## 6 giganteus Male 1090 1195 740 NA
## nasal.length nasal.width squamosal.depth lacrymal.width zygomatic.width
## 1 609 241 180 394 782
## 2 629 222 150 416 824
## 3 620 233 135 403 778
## 4 564 207 158 394 801
## 5 645 247 161 426 823
## 6 493 189 122 350 673
## orbital.width .rostral.width occipital.depth crest.width foramina.length
## 1 249 227 531 153 88
## 2 233 248 632 141 100
## 3 244 240 575 144 107
## 4 224 242 568 116 79
## 5 241 252 607 120 99
## 6 234 185 462 188 90
## mandible.length mandible.width mandible.depth ramus.height
## 1 1086 131 179 591
## 2 1158 148 181 643
## 3 1131 116 169 610
## 4 1090 132 189 594
## 5 1175 131 197 654
## 6 901 101 138 476
## K-means clustering with 3 clusters of sizes 43, 31, 62
##
## Cluster means:
## mandible.length mandible.width mandible.depth
## 1 1412.116 149.9070 215.3488
## 2 1060.387 123.5484 169.8387
## 3 1226.016 137.2258 193.6452
##
## Clustering vector:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21
## 2 3 2 2 3 2 2 3 2 3 1 3 3 1 1 1 1 3 3 1
## 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
## 1 1 1 2 2 3 2 3 3 3 3 3 3 1 3 1 3 1 3 3
## 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 59 60 61 62 63
## 3 3 1 1 1 1 1 3 3 2 2 2 2 2 2 2 1 3 3 3
## 64 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
## 3 1 1 3 1 1 1 1 1 2 3 2 2 2 2 2 3 3 2 3
## 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104
## 3 3 3 3 3 3 3 3 3 3 3 1 1 1 3 3 3 3 1 3
## 108 109 110 111 113 114 117 118 119 120 122 123 124 125 126 127 128 129 130 131
## 1 1 3 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
## 132 133 134 135 136 138 139 140 141 142 143 144 145 146 147 148
## 3 3 3 3 3 3 3 3 3 3 3 3 3 1 1 1
##
## Within cluster sum of squares by cluster:
## [1] 245369.8 203301.2 160802.0
## (between_SS / total_SS = 79.3 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Al cargar la base de datos kanga de la librería faraway, debemos realizar algunos cambios. Por ejemplo, debemos seleccionar las 3 columnas las cuales tienen la información que se nos está solicitando. (Columnas 17 a 19) Tambien se deben omitir todas las filas que contengan valores NA ya que no van a funcionar para poder completar el ejercicio. Hacemos un muestreo aleatorio y determinamos el número de k para asi poder calcular el kmeans. Este resultado nos muestra las medias para los 3 clusters.
Métodos de Particionamiento
Al aplicar el método de la silueta, llegamos a la conclusión que el valor óptimo de k es 2.
Al aplicar el método del codo, llegamos a la conclusión que el valor óptimo de k es 2.
Finalmente, al aplicar el método de brecha, nos indica que se debe tener 1 solo cluster.
K-medias
Con este método se calcula la distancia media entre los centroides. Al interpretar la gráfica podemos notar que los grupos están divididos de manera bastante equitativa ya que cada centroide marca el centro aproximado de un grupo. Hay algunos valores en la gráfica los cuales estan fuera de estos grupos pero aun así pueden ser considerados parte de los grupos más cercanos.
k-mediana
Este método es una variación del modelo anterior, la única diferencia es que en este método el valor medio fue sustituido por la mediana. Igual que en la gráfica anterior podemos apreciar los diferentes grupos. Los centroides están un poco más desplazados a la derecha en comparación con la gráfica anterior.
k-mediodes (pam)
En esta gráfica podemos apreciar los diferentes grupos. Los mediodes estan graficados con la data actual del modelo. Vemos que ya no están alineados.
k-mediodes (clara)
En la gráfica podemos apreciar los diferentes grupos. Los mediodes están un poco más alineados, en comparación con la gráfica anterior.
Número optimo de particiones
## *** : The Hubert index is a graphical method of determining the number of clusters.
## In the plot of Hubert index, we seek a significant knee that corresponds to a
## significant increase of the value of the measure i.e the significant peak in Hubert
## index second differences plot.
##
## *** : The D index is a graphical method of determining the number of clusters.
## In the plot of D index, we seek a significant knee (the significant peak in Dindex
## second differences plot) that corresponds to a significant increase of the value of
## the measure.
##
## *******************************************************************
## * Among all indices:
## * 3 proposed 2 as the best number of clusters
## * 4 proposed 3 as the best number of clusters
## * 3 proposed 4 as the best number of clusters
## * 6 proposed 5 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 3 proposed 9 as the best number of clusters
## * 3 proposed 10 as the best number of clusters
##
## ***** Conclusion *****
##
## * According to the majority rule, the best number of clusters is 5
##
##
## *******************************************************************
##
## Clustering Methods:
## hierarchical kmeans diana fanny pam clara agnes
##
## Cluster sizes:
## 2 3 4 5
##
## Validation Measures:
## 2 3 4 5
##
## hierarchical Connectivity 4.2282 7.8683 9.7290 15.9583
## Dunn 0.2225 0.0469 0.0577 0.0828
## Silhouette 0.5514 0.5545 0.5008 0.5315
## kmeans Connectivity 9.2750 7.8683 15.6230 17.2171
## Dunn 0.0228 0.0469 0.0660 0.0700
## Silhouette 0.5413 0.5545 0.5248 0.5317
## diana Connectivity 3.4357 7.6639 9.5246 17.2171
## Dunn 0.0442 0.0625 0.0831 0.0700
## Silhouette 0.5501 0.5538 0.5044 0.5317
## fanny Connectivity 9.2750 15.1111 18.1849 27.3893
## Dunn 0.0228 0.0345 0.0406 0.0309
## Silhouette 0.5413 0.4624 0.4954 0.4501
## pam Connectivity 9.2750 17.2865 17.1361 19.8988
## Dunn 0.0228 0.0237 0.0247 0.0801
## Silhouette 0.5413 0.4780 0.4988 0.5263
## clara Connectivity 9.2750 17.5425 27.5214 19.7635
## Dunn 0.0228 0.0247 0.0254 0.0687
## Silhouette 0.5413 0.4818 0.4718 0.5200
## agnes Connectivity 4.2282 7.8683 9.7290 15.9583
## Dunn 0.2225 0.0469 0.0577 0.0828
## Silhouette 0.5514 0.5545 0.5008 0.5315
##
## Optimal Scores:
##
## Score Method Clusters
## Connectivity 3.4357 diana 2
## Dunn 0.2225 hierarchical 2
## Silhouette 0.5545 hierarchical 3
La conclusión nos corrobora que el número óptimo de clústeres es de 5. En el dendograma se puede apreciar los datos con los resultados óptimos obtenidos en la prueba anterior.