Portada

ASIGNATURA: METODOS PARA EL ANALISIS ECONOMICO

LABORATORIO 2

INTEGRANTES

NOMBRES CARNET
Gloria Abigail Rivera Cúa RC14054
Jacqueline Patricia Monico Rogel MR15093
——————————– ————-

GT:02

Ciclo: II-2021

Fecha: 21 de Noviembre de 2021

Ciudad Universitaria, San Salvador, El Salvador

Analisis de Cluster (Conglomerados)

Punto 1

Explique en que consiste el analisis de conglomerados.

El Analisis de conglomerados al que tambien se le denomina comunmente analisis cluster, es una tecnica diseñada para clasificar distintas observaciones en grupos, de tal forma que:

  • Cada grupo (conglomerado o cluster) sea homogeneo respecto a las variables utilizadas para caracterizarlo, es decir que cada observación contenida en el sea parecida a todas las que esten incluidas en ese grupo.

  • Que los grupos sean lo mas distinto posible unos de otros respecto a las variables consideradas.

Punto 2

Elabore un cuadro comparativo, que incluya los siguientes elementos: (Lo indicado en rojo corresponde a los elementos a redactar, en la versión a ser entregada debe aparecer el texto negro normal.)

library(kableExtra)
created_var <- data.frame (
`Analisis_de_cluster` = c ('Jerarquico: Es una alternativa y enfoque nativo para la creación de particiones en clusters para agrupar objetos basados en su similitud y no requiere una pre-especificación del número de clusters que se producirán.','No jerarquico: Se categorizan los elementos según un número de clúster dado y se necesita que el número de particiones esté fijado a priori.'),
`Tecnicas disponibles` = c('Aglomerativas,Agrupación en clústeres dividida',
'k-medias,K-medoides,CLARA'),
Ventajas = c ('El número óptimo de clusters se puede obtener por el mismo modelo, a través de su muy útil dendrograma. No es necesario especificar el número de clústeres necesarios para el algoritmo y es fácil de implementar.','Asume un conocimiento previo de los datos y requiere que el analista elija el número apropiado de clúster (k) por adelantado, los resultados finales obtenidos son sensibles a la selección aleatoria inicial del clúster.'),
Desventajas = c('No es conveniente para grandes conjuntos de datos, y un algoritmo nunca puede deshacer ninguna de los pasos anteriores, Si por ejemplo, el algoritmo agrupa 2 puntos y más tarde vemos que la conexión no era buena el programa no puede deshacer ese paso.','Para cada ejecución diferente del algoritmo en el mismo conjunto de datos, puede elegir un conjunto diferente de centros iniciales, y esto puede conducir a diferentes resultados de agrupamiento en diferentes ejecuciones del algoritmo, y es sensible a los valores atípicos también al cambiar el orden de los datos se obtiene una solución diferente.')
)

kbl(created_var) %>%
  kable_paper(full_width = F) %>%
  column_spec(1, bold = T, border_right = T, background = "pink") %>%
  column_spec(2, bold = T, border_right = T, background = "yellow") %>%
  column_spec(3, bold = T, border_right = T, background = " pink") %>%
  column_spec(4, bold = T, border_right = T, background = "orange") %>%
  add_footnote(label="Fuente: Elaboración propia en base al libro Multivariate Analysis I, Alboukadel Kassambara(2017), Análisis Multivariante Joaquin aldas(2017).",
               notation="symbol") %>%  kable_styling()
Analisis_de_cluster Tecnicas.disponibles Ventajas Desventajas
Jerarquico: Es una alternativa y enfoque nativo para la creación de particiones en clusters para agrupar objetos basados en su similitud y no requiere una pre-especificación del número de clusters que se producirán. Aglomerativas,Agrupación en clústeres dividida El número óptimo de clusters se puede obtener por el mismo modelo, a través de su muy útil dendrograma. No es necesario especificar el número de clústeres necesarios para el algoritmo y es fácil de implementar. No es conveniente para grandes conjuntos de datos, y un algoritmo nunca puede deshacer ninguna de los pasos anteriores, Si por ejemplo, el algoritmo agrupa 2 puntos y más tarde vemos que la conexión no era buena el programa no puede deshacer ese paso.
No jerarquico: Se categorizan los elementos según un número de clúster dado y se necesita que el número de particiones esté fijado a priori. k-medias,K-medoides,CLARA Asume un conocimiento previo de los datos y requiere que el analista elija el número apropiado de clúster (k) por adelantado, los resultados finales obtenidos son sensibles a la selección aleatoria inicial del clúster. Para cada ejecución diferente del algoritmo en el mismo conjunto de datos, puede elegir un conjunto diferente de centros iniciales, y esto puede conducir a diferentes resultados de agrupamiento en diferentes ejecuciones del algoritmo, y es sensible a los valores atípicos también al cambiar el orden de los datos se obtiene una solución diferente.
* Fuente: Elaboración propia en base al libro Multivariate Analysis I, Alboukadel Kassambara(2017), Análisis Multivariante Joaquin aldas(2017).

Punto 3

Describa las tecnicas disponibles para realizar el analisis de cluster, tanto jerarquicas como no jerarquicas, presentadas en el cuadro anterior, incluya una explicación de la libreria y sintaxis para implementarla en R.

Técnicas Jerarquicas

1- Aglomerativa: Agrupación aglomerativa en la que, cada observación se considera inicialmente como un racimo propio (hoja). Luego, los clusteres más similares se fusionan sucesivamente hasta que haya un solo gran cluster (raíz). El agrupamiento aglomerativo es el tipo mas común de agrupamiento jerarquico. Se usa para agrupar objetos en grupos en función de su similitud. Tambien se conoce como AGNES( Anidamiento aglomerativo). El algoritmo comienza tratando cada objeto como un grupo de toneladas. Los pares de clusteres se fusionan sucesivamente hasta que todos los clusteres se hayan fusionado en un gran cluster que contiene todos los objetos. El resultado es un árbol en representación de los objetos se denominada dendrograma.

Librerias utilizadas

FactoExtra:

Implementación en R

Los dendrogramas corresponden a la representación gráfica del árbol jerárquico generado por la función hclust (). El dendrograma se puede producir en R usando el gráfico de función base (res.hc), donde res.hc es la salida de hclust (). Se usa la función fviz_dend () [en el paquete factoextra R] para producir el dendrograma.

Cluster: El clúster de paquetes R facilita la realización de análisis de clústeres en R. Proporciona la función agnes y diana para calcular la agrupación aglomerativa y divisiva, respectivamente. Estas funciones realizan todos los pasos necesarios . No se necesita ejecutar las funciones scale, dist y hclust por separado.

2- La agrupación en clusteres dividida: Es una operacion inversa de la agrupación aglomerativa, comienza con la raíz, en donde todos los objetos estan incluidos en un grupo. Los conglomerados se dividen sucesivamente hasta que todas las observaciones se encuentran en su propio conglomerado.

Librerias utilizadas

Dendextend: El paquete dendextend proporciona varias funciones para comparar dendrogramas. Aquí,nos centraremos en dos funciones:

• tanglegram, para la comparación visual de dos dendrogramas.

• cor.dendlist para calcular una matriz de correlación entre dendrogramas.

Para comparar visualmente dos dendrogramas, se usa la función tanglegram [ dendextendpaquete], que traza los dos dendrogramas, uno al lado del otro, con sus etiquetas conectadas por líneas. La calidad de la alineación de los dos árboles se puede medir utilizando la función enredo. El entrelazamiento es una medida entre 1 (entrelazamiento total) y 0 (sin entrelazamiento). Un coeficiente de entrelazamiento más bajo corresponde a una buena alineación.

Técnicas no Jerarquicas

1- K-medias: Agrupación de K-medias en la que, cada agrupación esta representada por el centro o por medio de los puntos de datos pertenecientes al cluster. El metodo es sensible a puntos de datos anomalos y valores atipicos. Es el metodo no supervisado mas utilizado, algoritmo de aprendizaje automatico para particionar un conjunto de datos dado en un conjunto de k grupos (es decir, k conglomerados), donde k representa el número de grupos predefinidos por el analista.

Eso clasifica objetos en varios grupos (es decir, clusteres), de modo que los objetos dentro del mismo cluster son tan similares como sea posible (es decir, alta similitud intraclase), mientras que los objetos de diferentes grupos son los mas diferentes posible (es decir, baja similitud entre clases). En el agrupamiento de k-medias, cada grupo esta representado por su centro (es decir, centroide) que corresponde a la media de puntos asignados al cluster.

Librerias utilizadas

FactoExtra La función R fviz_nbclust [en el paquete factoextra ] proporciona una solución conveniente para estimar el número óptimo de conglomerados.

Al calcular la agrupación en clústeres de k-medias utilizando diferentes valores de conglomerados, en el caso de wss (dentro de la suma del cuadrado) se dibuja de acuerdo al número de clústeres. La ubicación de una curva (rodilla) en el dibujo es generalmente considerado como un indicador del número apropiado de conglomerados.

La función kmeans devuelve una lista de componentes, que incluyen:

• cluster : un vector de números enteros (de 1: k) que indica el cluster al que cada uno se asigna el punto.

• centros : una matriz de centros de conglomerados (medias de conglomerados).

• totss : La suma total de cuadrados (TSS), es decir, q ( x i ≠ ¯ x ) 2 . TSS mide el total de varianza en los datos.

• withinss : Vector de suma de cuadrados dentro del conglomerado, un componente por conglomerado.

• tot.withinss : suma total de cuadrados dentro del conglomerado, es decir, una suma.

• betweenss : La suma entre-cluster de cuadrados, es decir totss ≠ tot.withinss.

• tamaño : el número de observaciones en cada grupo.

2- K-medioides: Agrupación de K-medoides o PAM ( Partitioning Around Medoids) en el que, cada grupo esta representado por uno de los objetos en el racimo. PAM es menos sensible a valores atipicos en comparación con k-medias. El algoritmo k-medoids es un enfoque de agrupamiento relacionado con k-medias para particionar un conjunto de datos en k grupos o clusteres. En agrupaciones de k-medoides, cada grupo esta representado por uno de los puntos de datos del grupo. Estos puntos son medoides de racimo nombrados. El termino medoide se refiere a un objeto dentro de un grupo para el cual la disimilitud promedio entre el y todos los demas, los miembros del cluster son minimos corresponde al punto mas centrico del grupo. Estos objetos (uno por grupo) pueden ser considerado como un ejemplo representativo de los miembros de ese grupo que puede ser útil en algunas situaciones.

Librerias utilizadas

FactoExtra

Cluster

Paquetes y funciones de R requeridos La función pam [ paquete de clúster ] y pamk [ paquete fpc ] se pueden utilizar para calcular PAM. La función pamk no requiere que el usuario decida el número de clústeres K.

pam (x, k, metric = “euclidiana” , stand = FALSE )

• x : los valores posibles incluyen: - Matriz de datos numéricos o marco de datos numéricos: cada fila corresponde a unobservación, y cada columna corresponde a una variable. - Matriz de disimilitud: en este caso x es típicamente la salida de daisy y odist. • k : el número de clústeres • métrica : la métrica de distancia que se utilizará. Las opciones disponibles son “euclidiana” y “Manhattan”. • soporte : valor lógico; si es verdadero, las variables (columnas) en x están estandarizadas antes calculando las diferencias. Se ignora cuando x es una matriz de disimilitudes.

El algoritmo K-medoids, PAM, es una alternativa robusta a k-means para dividir un conjunto de datos en grupos de observación. En el método k-medoides, cada grupo está representado por un objeto seleccionado dentro del grupo.

Los objetos seleccionados se denominan medoides y corresponden a los más centralizados, puntos ubicados dentro del clúster.El algoritmo PAM requiere que el usuario conozca los datos e indique la aprobación a priori n número de conglomerados que se producirán. Esto se puede estimar usando la función fviz_nbclust [en el paquete factoextra R].

La función R pam () [ paquete de clúster ] se puede utilizar para calcular el algoritmo PAM, el formato simplificado es pam (x, k), donde “x” son los datos y k es el número de agrupaciones que se generará. Después, realizando la agrupación en clústeres PAM, la función R fviz_cluster [paquete factoextra]se puede utilizar para visualizar los resultados. El formato es fviz_cluster (pam.res), donde pam.res son los resultados de PAM.

3- CLARA: Algoritmo CLARA ( Clustering Large Applications), que es una extensión de PAM adaptado para grandes conjuntos de datos. CLARA considera una pequeña muestra de los datos con tamaño fijo (tamaño de muestra) y aplica el algoritmo PAM para generar un conjunto optimo de medoides para la muestra. La calidad de los medoides resultantes se mide por la disimilitud promedio entre cada objeto en todo el conjunto de datos y el medoide de su cluster definido como la función de costo. CLARA repite los procesos de muestreo y agrupamiento un número preestablecido de veces para minimizar el sesgo de muestreo. Los resultados finales de la agrupación corresponden al conjunto de medoides con el minimo costo. El algoritmo CLARA se resume en elSiguiente sección.

Librerias utilizadas

Cluster

FactoExtra

Paquetes requeridos en R

La salida de la función clara () incluye los siguientes componentes:

• medoides : objetos que representan grupos.

• agrupación : un vector que contiene el número de agrupación de cada objeto.

• muestra : etiquetas o números de caso de las observaciones en la mejor muestra, es decir,la muestra utilizada por el algoritmo clara para la partición final.

El algoritmo CLARA (Clustering Large Applications) es una extensión del PAM (Partitioning Around Medoids) método de agrupamiento para grandes conjuntos de datos. Como casi todos los algoritmos de particionamiento, requiere que el usuario especifique elnúmero de racimos que se producirán. Esto se puede estimar usando la función fviz_nbclust [en el paquete factoextra R]. La función R clara [paquete de clúster] se puede utilizar para calcular el algoritmo CLARA. El formato simplificado es clara (x, k, pamLike = TRUE), donde “x” son los datos y k es el número de clústeres que se generarán. Luego, calculando CLARA, la función R fviz_cluster [factoextra package] puede ser utilizado para visualizar los resultados. El formato es fviz_cluster (clara.res), donde clara.res da los resultados de CLARA.

Punto 4

Del texto: Kassambara, A. (2017). Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning (Multivariate Analysis) (1st ed.). STHDA, desarrolle los ejemplos presentados en los capitulos: 4,5,6,7,8,9.

Capitulo 4 (Agrupación de K-medias)

Ejemplo 1

Calcular la agrupación de k-medias en R

##             Murder   Assault   UrbanPop         Rape
## Alabama 1.24256408 0.7828393 -0.5209066 -0.003416473
## Alaska  0.50786248 1.1068225 -1.2117642  2.484202941
## Arizona 0.07163341 1.4788032  0.9989801  1.042878388

Cálculo de la agrupación en clústeres de k-medias

## K-means clustering with 4 clusters of sizes 8, 13, 16, 13
## 
## Cluster means:
##       Murder    Assault   UrbanPop        Rape
## 1  1.4118898  0.8743346 -0.8145211  0.01927104
## 2 -0.9615407 -1.1066010 -0.9301069 -0.96676331
## 3 -0.4894375 -0.3826001  0.5758298 -0.26165379
## 4  0.6950701  1.0394414  0.7226370  1.27693964
## 
## Clustering vector:
##        Alabama         Alaska        Arizona       Arkansas     California 
##              1              4              4              1              4 
##       Colorado    Connecticut       Delaware        Florida        Georgia 
##              4              3              3              4              1 
##         Hawaii          Idaho       Illinois        Indiana           Iowa 
##              3              2              4              3              2 
##         Kansas       Kentucky      Louisiana          Maine       Maryland 
##              3              2              1              2              4 
##  Massachusetts       Michigan      Minnesota    Mississippi       Missouri 
##              3              4              2              1              4 
##        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
##              2              2              4              2              3 
##     New Mexico       New York North Carolina   North Dakota           Ohio 
##              4              4              1              2              3 
##       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
##              3              3              3              3              1 
##   South Dakota      Tennessee          Texas           Utah        Vermont 
##              2              1              4              3              2 
##       Virginia     Washington  West Virginia      Wisconsin        Wyoming 
##              3              3              2              2              3 
## 
## Within cluster sum of squares by cluster:
## [1]  8.316061 11.952463 16.212213 19.922437
##  (between_SS / total_SS =  71.2 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Comentario: La salida muestra las medias o centros del conglomerado siendo una matriz cuyas filas son el número del conglomerado (1 a 4) y las columnas son variables el vector de agrupación es un vector de números enteros (de 1: k) que indica la agrupación que se asigna a cada punto.

##   cluster   Murder   Assault UrbanPop     Rape
## 1       1 13.93750 243.62500 53.75000 21.41250
## 2       2  3.60000  78.53846 52.07692 12.17692
## 3       3  5.65625 138.87500 73.87500 18.78125
## 4       4 10.81538 257.38462 76.00000 33.19231

Es posible calcular la media de cada variable por conglomerados utilizando los datos originales

##            Murder Assault UrbanPop Rape cluster
## Alabama      13.2     236       58 21.2       1
## Alaska       10.0     263       48 44.5       4
## Arizona       8.1     294       80 31.0       4
## Arkansas      8.8     190       50 19.5       1
## California    9.0     276       91 40.6       4
## Colorado      7.9     204       78 38.7       4

Acceso a los resultados de la función kmeans

##        Alabama         Alaska        Arizona       Arkansas     California 
##              1              4              4              1              4 
##       Colorado    Connecticut       Delaware        Florida        Georgia 
##              4              3              3              4              1 
##         Hawaii          Idaho       Illinois        Indiana           Iowa 
##              3              2              4              3              2 
##         Kansas       Kentucky      Louisiana          Maine       Maryland 
##              3              2              1              2              4 
##  Massachusetts       Michigan      Minnesota    Mississippi       Missouri 
##              3              4              2              1              4 
##        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
##              2              2              4              2              3 
##     New Mexico       New York North Carolina   North Dakota           Ohio 
##              4              4              1              2              3 
##       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
##              3              3              3              3              1 
##   South Dakota      Tennessee          Texas           Utah        Vermont 
##              2              1              4              3              2 
##       Virginia     Washington  West Virginia      Wisconsin        Wyoming 
##              3              3              2              2              3
##  Alabama   Alaska  Arizona Arkansas 
##        1        4        4        1
## [1]  8 13 16 13
##       Murder    Assault   UrbanPop        Rape
## 1  1.4118898  0.8743346 -0.8145211  0.01927104
## 2 -0.9615407 -1.1066010 -0.9301069 -0.96676331
## 3 -0.4894375 -0.3826001  0.5758298 -0.26165379
## 4  0.6950701  1.0394414  0.7226370  1.27693964

Capitulo 5 K-medoides

Ejemplo 2

Calcular PAN en R
##             Murder   Assault   UrbanPop         Rape
## Alabama 1.24256408 0.7828393 -0.5209066 -0.003416473
## Alaska  0.50786248 1.1068225 -1.2117642  2.484202941
## Arizona 0.07163341 1.4788032  0.9989801  1.042878388

Estimación del número optimo de conglomerados

Comentario: A partir de la grafica, la cantidad sugerida de grupos es 2.

Calculo de la agrupación en clústeres PAM

El siguiente codigo R calcula el algoritmo PAM con k = 2:

## Medoids:
##            ID     Murder    Assault   UrbanPop       Rape
## New Mexico 31  0.8292944  1.3708088  0.3081225  1.1603196
## Nebraska   27 -0.8008247 -0.8250772 -0.2445636 -0.5052109
## Clustering vector:
##        Alabama         Alaska        Arizona       Arkansas     California 
##              1              1              1              2              1 
##       Colorado    Connecticut       Delaware        Florida        Georgia 
##              1              2              2              1              1 
##         Hawaii          Idaho       Illinois        Indiana           Iowa 
##              2              2              1              2              2 
##         Kansas       Kentucky      Louisiana          Maine       Maryland 
##              2              2              1              2              1 
##  Massachusetts       Michigan      Minnesota    Mississippi       Missouri 
##              2              1              2              1              1 
##        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
##              2              2              1              2              2 
##     New Mexico       New York North Carolina   North Dakota           Ohio 
##              1              1              1              2              2 
##       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
##              2              2              2              2              1 
##   South Dakota      Tennessee          Texas           Utah        Vermont 
##              2              1              1              2              2 
##       Virginia     Washington  West Virginia      Wisconsin        Wyoming 
##              2              2              2              2              2 
## Objective function:
##    build     swap 
## 1.441358 1.368969 
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"

Comentario: La salida muestra los medoides del clúster que es una matriz cuyas filas son los medoides y las columnas son variables tambien muestra el vector de agrupación un vector de números enteros (de 1: k) que indica la agrupación que se asigna a cada punto.

Data original

##         Murder Assault UrbanPop Rape cluster
## Alabama   13.2     236       58 21.2       1
## Alaska    10.0     263       48 44.5       1
## Arizona    8.1     294       80 31.0       1

Acceder a los resultados de la función pam

##                Murder    Assault   UrbanPop       Rape
## New Mexico  0.8292944  1.3708088  0.3081225  1.1603196
## Nebraska   -0.8008247 -0.8250772 -0.2445636 -0.5052109
##    Alabama     Alaska    Arizona   Arkansas California   Colorado 
##          1          1          1          2          1          1

Capitulo 6 CLARA - Agrupación grande

Formato y preparación de los datos

Ejecución CLARA

El siguiente codigo R calcula el algoritmo PAM con k = 2
## Call:     clara(x = df, k = 2, samples = 50, pamLike = TRUE) 
## Medoids:
##              x         y
## S121 -1.531137  1.145057
## S455 48.357304 50.233499
## Objective function:   9.87862
## Clustering vector:    Named int [1:500] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "names")= chr [1:500] "S1" "S2" "S3" "S4" "S5" "S6" "S7" ...
## Cluster sizes:            200 300 
## Best sample:
##  [1] S37  S49  S54  S63  S68  S71  S76  S80  S82  S101 S103 S108 S109 S118 S121
## [16] S128 S132 S138 S144 S162 S203 S210 S216 S231 S234 S249 S260 S261 S286 S299
## [31] S304 S305 S312 S315 S322 S350 S403 S450 S454 S455 S456 S465 S488 S497
## 
## Available components:
##  [1] "sample"     "medoids"    "i.med"      "clustering" "objective" 
##  [6] "clusinfo"   "diss"       "call"       "silinfo"    "data"

clasificaciones de puntos a los datos originales

##             x        y cluster
## S1  -9.656526 3.881815       1
## S2   2.219434 5.574150       1
## S3   8.675529 1.484111       1
## S4 -18.765582 5.605868       1

Acceder a los resultados devueltos por clara () de la siguiente manera

##              x         y
## S121 -1.531137  1.145057
## S455 48.357304 50.233499
##  S1  S2  S3  S4  S5  S6  S7  S8  S9 S10 
##   1   1   1   1   1   1   1   1   1   1

Comentario: Los medoids son S121, S455

Capitulo 7 Agrupación aglomerativa

Ejemplo 4

PASOS HACIA LA AGRUPACIóN JERARQUICA AGLOMERATIVA

##                Murder   Assault   UrbanPop         Rape
## Alabama    1.24256408 0.7828393 -0.5209066 -0.003416473
## Alaska     0.50786248 1.1068225 -1.2117642  2.484202941
## Arizona    0.07163341 1.4788032  0.9989801  1.042878388
## Arkansas   0.23234938 0.2308680 -1.0735927 -0.184916602
## California 0.27826823 1.2628144  1.7589234  2.067820292
## Colorado   0.02571456 0.3988593  0.8608085  1.864967207

Medidas de similitud

##             Alabama   Alaska  Arizona Arkansas California Colorado
## Alabama    0.000000 2.703754 2.293520 1.289810   3.263110 2.651067
## Alaska     2.703754 0.000000 2.700643 2.826039   3.012541 2.326519
## Arizona    2.293520 2.700643 0.000000 2.717758   1.310484 1.365031
## Arkansas   1.289810 2.826039 2.717758 0.000000   3.763641 2.831051
## California 3.263110 3.012541 1.310484 3.763641   0.000000 1.287619
## Colorado   2.651067 2.326519 1.365031 2.831051   1.287619 0.000000

Dendograma

Comentario: En el dendrograma que se muestra, cada hoja corresponde a un objeto, los objetos que son similares entre si. se combinan en ramas, y estan fusionados a una altura mayor. La altura de la fusión, proporcionada en el eje vertical, indica la (dis) similitud / distancia entre dos objetos / grupos. Cuanto mayor sea la altura de la fusión, menos similar sera los objetos. Esta altura se conoce como la distancia cofenetica entre los dos objetos.

Verificar el árbol del clúster

La función de base R cophenetic () se puede utilizar para calcular distancias cofeneticas para agrupaciones jerarquicas.

## [1] 0.6975266

Función hclust usando el método de vinculación promedio y cophenetic para evaluar la solución de agrupamiento.

## [1] 0.7180382

Comentario: El coeficiente de correlación muestra que el uso de un metodo de vinculación diferente crea un árbol que representa las distancias originales de mejor manera.

Capitulo 8 Comparación de dendrogramas

Matriz de correlación entre una lista de dendrogramas

##          [,1]     [,2]
## [1,] 1.000000 0.843143
## [2,] 0.843143 1.000000
##           [,1]      [,2]
## [1,] 1.0000000 0.8400675
## [2,] 0.8400675 1.0000000
## [1] 0.843143
## [1] 0.8400675

Capitulo 9 Visualización de dendrogramas

Bibliografia

Kassambara, A. (2017). Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning (Multivariate Analysis) (1st ed.). STHDA.

Cómo crear Tablas de información en R Markdown, autor: Pedro Luis Luque Calvo Sevilla, Septiembre de 2019.

Uso del link: https://www.r-pkg.org/pkg/rmdformats, para el formato del documento.

Uso del link: https://cran.rproject.org/web/packages/kableExtra/vignettes/awesome_table_in_html.html#Column_spec,para la creación de tablas en formato R.

Analisis Multivariante Aplicado con R: 2017, autor: Joaquin Aldás y Ezequiel Uriel, (2. edicion).