1. Aplique lo aprendido sobre Clúster jerárquico a la base de datos denominada Poblacion2010_2022. Esta base de datos contiene la población por municipios en Puerto Rico para los años 2010 y 2022.
##        Pob_2010    Pob_2022
## [1,] -0.5227021 -0.50868616
## [2,] -0.1073876 -0.07910698
## [3,]  0.2435122  0.27447357
## [4,] -0.3531467 -0.38623186
## [5,] -0.4041279 -0.36412356
## [6,] -0.3420229 -0.35388462

Calculamos el número óptimo de clúster.

##       1     2     3     4     5
## 2 0.598                        
## 3 1.096 0.498                  
## 4 0.209 0.393 0.890            
## 5 0.187 0.411 0.910 0.056      
## 6 0.238 0.361 0.859 0.034 0.063

Después de aplicar el análisis de clúster jerárquico a la base de datos ‘Poblacion2010_2022’, se determinó que el número óptimo de clústeres es 2. Este resultado se basó en la aplicación de tres métodos diferentes para determinar el número adecuado de clústeres: el método de la silueta, el método del codo y el método de la estadística de brecha. Cada uno de estos métodos convergió en la misma conclusión de que dividir los municipios de Puerto Rico en dos clústeres sería la mejor manera de agruparlos en función de la población en los años 2010 y 2022.

Los dendrogramas generados mostraron que los municipios se agruparon naturalmente en cuatro grupos distintos. Uno de estos grupos contiene más de la mitad de los municipios, lo que indica una diferencia significativa en la población o alguna otra característica clave en comparación con los otros grupos. Las tres visualizaciones (dendrograma estándar, tipo filogenético y tipo circular) mostraron resultados similares, reforzando la idea de que los municipios de Puerto Rico pueden ser agrupados en cuatro clusters distintos en función de la población en los años 2010 y 2022.

## grupos
##  1  2  3  4 
## 67  6  4  1
##       Municipios Pob_2010 Pob_2022 grupos
## 1       Adjuntas    19483    17905      1
## 2         Aguada    41959    37666      1
## 3      Aguadilla    60949    53931      1
## 4   Aguas Buenas    28659    23538      1
## 5       Aibonito    25900    24555      1
## 6         Añasco    29261    25026      1
## 7        Arecibo    96440    86090      2
## 8         Arroyo    19575    15289      1
## 9    Barceloneta    24816    22416      1
## 10  Barranquitas    30318    28944      1
## 11       Bayamón   208116   181577      3
## 12     Cabo Rojo    50917    46718      1
## 13        Caguas   142893   125136      3
## 14         Camuy    35159    32620      1
## 15     Canóvanas    47648    41637      1
## 16      Carolina   176762   151571      3
## 17        Cataño    28140    22364      1
## 18         Cayey    48119    40782      1
## 19         Ceiba    13631    10931      1
## 20        Ciales    18782    16742      1
## 21         Cidra    43480    39515      1
## 22         Coamo    40512    33887      1
## 23       Comerío    20778    18619      1
## 24       Corozal    37142    34322      1
## 25       Culebra     1818     1769      1
## 26        Dorado    38165    35663      1
## 27       Fajardo    36993    31375      1
## 28       Florida    12680    11538      1
## 29       Guánica    19427    12800      1
## 30       Guayama    45362    35262      1
## 31    Guayanilla    21581    17064      1
## 32      Guaynabo    97924    89057      2
## 33        Gurabo    45369    40061      1
## 34       Hatillo    41953    38021      1
## 35   Hormigueros    17250    15413      1
## 36       Humacao    58466    49924      1
## 37       Isabela    45631    42754      1
## 38        Jayuya    16642    14495      1
## 39    Juana Díaz    50747    45923      1
## 40        Juncos    40290    36672      1
## 41         Lajas    25753    22936      1
## 42         Lares    30753    27774      1
## 43    Las Marías     9881     8705      1
## 44   Las Piedras    38675    34814      1
## 45         Loíza    30060    22657      1
## 46      Luquillo    20068    17449      1
## 47        Manatí    44113    38751      1
## 48       Maricao     6276     4575      1
## 49       Maunabo    12225    10368      1
## 50      Mayagüez    89080    70609      2
## 51          Moca    40109    37279      1
## 52       Morovis    32610    28277      1
## 53       Naguabo    26720    22964      1
## 54     Naranjito    30720    29208      1
## 55      Orocovis    23423    21229      1
## 56      Patillas    19277    15524      1
## 57      Peñuelas    24282    19763      1
## 58         Ponce   166327   132138      3
## 59  Quebradillas    25919    23332      1
## 60        Rincón    15200    15316      1
## 61    Río Grande    54304    45840      1
## 62 Sabana Grande    25265    22351      1
## 63       Salinas    31078    25000      1
## 64    San Germán    35527    31174      1
## 65      San Juan   395326   334776      4
## 66   San Lorenzo    41058    37260      1
## 67 San Sebastián    42430    38969      1
## 68  Santa Isabel    23274    19822      1
## 69      Toa Alta    74066    66041      2
## 70      Toa Baja    89609    72783      2
## 71 Trujillo Alto    74842    66810      2
## 72        Utuado    33149    27535      1
## 73     Vega Alta    39951    34786      1
## 74     Vega Baja    59662    53684      1
## 75       Vieques     9301     8043      1
## 76      Villalba    26073    21466      1
## 77       Yabucoa    37941    29305      1
## 78         Yauco    42043    32904      1

Los resultados muestran que los municipios de Puerto Rico se han agrupado en cuatro grupos distintos, con la mayoría de los municipios (67) en el grupo 1, seguido por 6 municipios en el grupo 2, 4 municipios en el grupo 3, y 1 municipio en el grupo 4.

Este análisis indica que la población de los municipios de Puerto Rico en los años 2010 y 2022 ha dado lugar a una clara división en cuatro grupos, posiblemente reflejando diferencias significativas en tamaño de la población y/o tendencias de crecimiento entre estos grupos. Los municipios en el grupo 1, que es el más grande, pueden tener características demográficas y socioeconómicas similares, mientras que los municipios en los grupos más pequeños pueden tener características distintivas que los diferencian de los otros grupos.

Esta información puede ser útil para comprender mejor la distribución de la población en Puerto Rico y para informar decisiones políticas y de planificación en relación con el desarrollo económico y social de los municipios.

  1. Aplique lo aprendido sobre métodos de particionamiento a la base de datos Kanga, de la librería Faraway. Esta base de datos contiene diferentes medidas de los cráneos de 148 ejemplares de canguros de 3 especies. Considera solo las medidas asociadas a su mandíbula (columnas 17 a 19), y como hay valores NA en estas variables, usa solo las filas que no contengan ningún NA.
##     species  sex basilar.length occipitonasal.length palate.length palate.width
## 1 giganteus Male           1312                 1445           882           NA
## 2 giganteus Male           1439                 1503           985          230
## 3 giganteus Male           1378                 1464           934           NA
## 4 giganteus Male           1315                 1367           895          230
## 5 giganteus Male           1413                 1500           969           NA
## 6 giganteus Male           1090                 1195           740           NA
##   nasal.length nasal.width squamosal.depth lacrymal.width zygomatic.width
## 1          609         241             180            394             782
## 2          629         222             150            416             824
## 3          620         233             135            403             778
## 4          564         207             158            394             801
## 5          645         247             161            426             823
## 6          493         189             122            350             673
##   orbital.width .rostral.width occipital.depth crest.width foramina.length
## 1           249            227             531         153              88
## 2           233            248             632         141             100
## 3           244            240             575         144             107
## 4           224            242             568         116              79
## 5           241            252             607         120              99
## 6           234            185             462         188              90
##   mandible.length mandible.width mandible.depth ramus.height
## 1            1086            131            179          591
## 2            1158            148            181          643
## 3            1131            116            169          610
## 4            1090            132            189          594
## 5            1175            131            197          654
## 6             901            101            138          476
## K-means clustering with 3 clusters of sizes 43, 31, 62
## 
## Cluster means:
##   mandible.length mandible.width mandible.depth
## 1        1412.116       149.9070       215.3488
## 2        1060.387       123.5484       169.8387
## 3        1226.016       137.2258       193.6452
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  21 
##   2   3   2   2   3   2   2   3   2   3   1   3   3   1   1   1   1   3   3   1 
##  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42 
##   1   1   1   2   2   3   2   3   3   3   3   3   3   1   3   1   3   1   3   3 
##  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  59  60  61  62  63 
##   3   3   1   1   1   1   1   3   3   2   2   2   2   2   2   2   1   3   3   3 
##  64  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84 
##   3   1   1   3   1   1   1   1   1   2   3   2   2   2   2   2   3   3   2   3 
##  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 
##   3   3   3   3   3   3   3   3   3   3   3   1   1   1   3   3   3   3   1   3 
## 108 109 110 111 113 114 117 118 119 120 122 123 124 125 126 127 128 129 130 131 
##   1   1   3   1   1   1   1   1   1   1   1   1   2   2   2   2   2   2   2   2 
## 132 133 134 135 136 138 139 140 141 142 143 144 145 146 147 148 
##   3   3   3   3   3   3   3   3   3   3   3   3   3   1   1   1 
## 
## Within cluster sum of squares by cluster:
## [1] 245369.8 203301.2 160802.0
##  (between_SS / total_SS =  79.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Al cargar la base de datos kanga de la librería faraway, debemos realizar algunos cambios. Por ejemplo, debemos seleccionar las 3 columnas las cuales tienen la información que se nos está solicitando. (Columnas 17 a 19) Tambien se deben omitir todas las filas que contengan valores NA ya que no van a funcionar para poder completar el ejercicio. Hacemos un muestreo aleatorio y determinamos el número de k para asi poder calcular el kmeans. Este resultado nos muestra las medias para los 3 clusters.

Métodos de Particionamiento

  1. Método de silueta

Al aplicar el método de la silueta, llegamos a la conclusión que el valor óptimo de k es 2.

  1. Método del Codo

Al aplicar el método del codo, llegamos a la conclusión que el valor óptimo de k es 2.

  1. Método de brecha

Finalmente, al aplicar el método de brecha, nos indica que se debe tener 1 solo cluster.

K-medias

Con este método se calcula la distancia media entre los centroides. Al interpretar la gráfica podemos notar que los grupos están divididos de manera bastante equitativa ya que cada centroide marca el centro aproximado de un grupo. Hay algunos valores en la gráfica los cuales estan fuera de estos grupos pero aun así pueden ser considerados parte de los grupos más cercanos.

k-mediana

Este método es una variación del modelo anterior, la única diferencia es que en este método el valor medio fue sustituido por la mediana. Igual que en la gráfica anterior podemos apreciar los diferentes grupos. Los centroides están un poco más desplazados a la derecha en comparación con la gráfica anterior.

k-mediodes (pam)

En esta gráfica podemos apreciar los diferentes grupos. Los mediodes estan graficados con la data actual del modelo. Vemos que ya no están alineados.

k-mediodes (clara)

En la gráfica podemos apreciar los diferentes grupos. Los mediodes están un poco más alineados, en comparación con la gráfica anterior.

Número optimo de particiones

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
## 

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 3 proposed 2 as the best number of clusters 
## * 4 proposed 3 as the best number of clusters 
## * 3 proposed 4 as the best number of clusters 
## * 6 proposed 5 as the best number of clusters 
## * 1 proposed 8 as the best number of clusters 
## * 3 proposed 9 as the best number of clusters 
## * 3 proposed 10 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  5 
##  
##  
## *******************************************************************
## 
## Clustering Methods:
##  hierarchical kmeans diana fanny pam clara agnes 
## 
## Cluster sizes:
##  2 3 4 5 
## 
## Validation Measures:
##                                  2       3       4       5
##                                                           
## hierarchical Connectivity   4.2282  7.8683  9.7290 15.9583
##              Dunn           0.2225  0.0469  0.0577  0.0828
##              Silhouette     0.5514  0.5545  0.5008  0.5315
## kmeans       Connectivity   9.2750  7.8683 15.6230 17.2171
##              Dunn           0.0228  0.0469  0.0660  0.0700
##              Silhouette     0.5413  0.5545  0.5248  0.5317
## diana        Connectivity   3.4357  7.6639  9.5246 17.2171
##              Dunn           0.0442  0.0625  0.0831  0.0700
##              Silhouette     0.5501  0.5538  0.5044  0.5317
## fanny        Connectivity   9.2750 15.1111 18.1849 27.3893
##              Dunn           0.0228  0.0345  0.0406  0.0309
##              Silhouette     0.5413  0.4624  0.4954  0.4501
## pam          Connectivity   9.2750 17.2865 17.1361 19.8988
##              Dunn           0.0228  0.0237  0.0247  0.0801
##              Silhouette     0.5413  0.4780  0.4988  0.5263
## clara        Connectivity   9.2750 17.5425 27.5214 19.7635
##              Dunn           0.0228  0.0247  0.0254  0.0687
##              Silhouette     0.5413  0.4818  0.4718  0.5200
## agnes        Connectivity   4.2282  7.8683  9.7290 15.9583
##              Dunn           0.2225  0.0469  0.0577  0.0828
##              Silhouette     0.5514  0.5545  0.5008  0.5315
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 3.4357 diana        2       
## Dunn         0.2225 hierarchical 2       
## Silhouette   0.5545 hierarchical 3

La conclusión nos corrobora que el número óptimo de clústeres es de 5. En el dendograma se puede apreciar los datos con los resultados óptimos obtenidos en la prueba anterior.