hllinas2023

1 Librerías

1.0.1 Para clúster

library(factoextra)
library(cluster)

1.0.2 Para otros análisis

library(aplore3)       #Base de datos para los ejemplos
library(lsm)           #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(ggplot2)
library(tidyverse)     #Incluye a dplyr y ggplot2
library(stringr)       #Reemplazar caracteres en un data frame
library(outliers)      #outliers::grubbs.test
library(EnvStats)      #EnvStats::rosnerTest
library(DMwR2)         #LOF (Local Outlier Factor)
library(rgl)           #rgl::plot3d
library(heatmaply)     #Matriz de correlaciones
library(ggcorrplot)    #Matriz de correlaciones
library(corrplot)      #Matriz de correlaciones
library(textshape)     #column_to_rownames
library(openxlsx)      #Librería para escribir archivos de Excel

2 Introducción

  1. El análisis de Cluster se refiere a un conjunto de técnicas en los métodos de interdependencia donde no se distingue entre variables dependientes e independientes.

  2. Su objetivo es formar grupos a partir de elementos, donde cada grupo está compuesto por elementos lo más similares posible entre sí y, al mismo tiempo, lo más diferentes posible de los elementos de otros grupos.

  3. La agrupación se realiza considerando las variables disponibles, y se utiliza como base para la clasificación.

  4. Por lo general, se espera que estos grupos sean mutuamente exclusivos y selectivamente exhaustivos.

  5. En el análisis de Cluster, los casos o las variables pueden ser agrupados. Es una técnica descriptiva y a veces exploratoria, pero no explicativa.

  6. La diversidad de situaciones que se presentan para utilizar este método, con numerosos casos y variables, a menudo dificulta la clasificación.

  7. Además, la variedad de formas de medir la similitud entre elementos y los diferentes procedimientos de agrupación aumentan el riesgo de conclusiones que pueden no reflejar la realidad del estudio.

  8. La representatividad de las muestras y la atención a la multicolinealidad son aspectos importantes en el análisis de Cluster.

  9. La posibilidad de influencia del analista es alta, y es común que las variables se presenten en diferentes unidades o escalas de medición, lo que sugiere la conveniencia de normalizarlas.

  10. Cuando se enfrenta multicolinealidad o un gran número de variables, lo que podría dificultar el análisis o generar redundancia en la identificación de atributos similares, es recomendable recurrir a técnicas que sinteticen la información, como el Análisis de Componentes Principales (PCA) y el Análisis Factorial (EFA).

  11. En este modelo, es prudente excluir los valores atípicos del análisis o tratarlos de manera especial.

3 Comentarios generales

3.0.1 Aplicabilidad

El análisis clúster es una tarea de clasificación y ha tenido una amplia aplicación en diversas disciplinas a lo largo del tiempo. Por ejemplo:

  1. En astronomía se utilizan para identificar y clasificar conjuntos de objetos como galaxias y supergalaxias (agrupar estrellas en el universo en base a su brillantez luminosa).

  2. En el campo del Marketing, son útiles para segmentar mercados y realizar investigaciones de mercado (crear conjuntos de consumidores según sus inclinaciones hacia productos recién lanzados).

  3. En el area financiero, se pueden categorizar las instituciones bancarias con miras a identificar las áreas más provechosas para inversiones.

  4. En Biología para identificar áreas como la taxonomía y el análisis de microarrays.

  5. En Ciencias Ambientales, donde se clasifican ríos para establecer tipologías basadas en la calidad del agua o detectar agrupaciones de municipios en una región específica que presenten patrones similares de consumo de agua, con el propósito de encontrar políticas sostenibles y áreas con consumo excesivo para abordar problemas potenciales.

  6. En Psicología, Sociología, Economía, Ingeniería, entre otros campos, estas técnicas también se aplican de manera efectiva para diversos propósitos.

3.0.2 Técnica de agrupación de variables y de casos

Como técnica de agrupación de variables.

  1. El análisis de clúster guarda similitudes con el análisis factorial.

  2. Sin embargo, mientras que el análisis factorial puede ser rígido en algunos de sus supuestos, como la linealidad, la normalidad y la necesidad de variables cuantitativas, y tiende a estimar la matriz de distancias de manera uniforme, el análisis de clúster es menos restrictivo en sus supuestos.

  3. El análisis de clúster no requiere linealidad ni simetría, y puede manejar variables categóricas.

  4. Además, ofrece una variedad de métodos para estimar la matriz de distancias.

Como técnica de agrupación de casos.

  1. El análisis de clúster es similar al análisis discriminante.

  2. Sin embargo, mientras que el análisis discriminante se enfoca en agrupar variables y clasificar los casos utilizando un criterio o variable dependiente (los grupos de clasificación), el análisis de clúster se centra en agrupar objetos.

  3. Es decir, identifica el número óptimo de grupos y su composición basándose únicamente en la similitud entre los casos.

  4. Además, el análisis de clúster no asume una distribución específica para las variables.

3.0.3 Inconvenientes del Análisis Clúster

  1. Este tipo de análisis se centra en la descripción y comprensión de los datos en lugar de realizar inferencias o aplicar teorías específicas.

  2. Suele emplearse como un enfoque exploratorio.

  3. Lo anterior implica que no proporciona respuestas definitivas; más bien, las soluciones son variadas y dependen tanto de las variables examinadas como del método de análisis de clúster utilizado.

4 Medidas de distancia para agrupamiento

Para el agrupamiento de los individuos (u objetos) se utilizan medidas de distancia, que se pueden clasificar de la siguiente manera:

  1. Medidas basadas en correlaciones (Predominan los patrones de variación).

  2. Medidas basadas en distancias geométricas (Predominan los patrones de medición).

  3. Medidas basadas en índices de similitud.

Véase la Figura 4.1. A continuación se explicarán cada una de ellas.

**Medidas de distancias para agrupamiento**

Figure 4.1: Medidas de distancias para agrupamiento

5 Distancias basadas en correlaciones

5.0.1 Correlaciones: descripción

  1. Predominan los patrones de variación. Esta predominancia de patrones de variación se refleja en las medidas de correlación.

  2. Estas medidas son principalmente cuantitativas, aunque también es posible calcular coeficientes de correlación para variables no métricas, como las ordinales o nominales, como los coeficientes de correlación de Spearman o Kendall.

  3. En un conjunto de variables, dos objetos se consideran muy similares si tienen correlaciones altas y poco similares si tienen correlaciones bajas.

  4. Es importante señalar que la correlación proporciona información sobre cómo varían dos variables, más que sobre la magnitud de las mismas.

  5. La distancia basada en correlaciones se define restando el coeficiente de correlación de 1.

  6. Se pueden usar diferentes tipos de métodos de correlación, como las que se explican en la siguiente sección.

5.0.2 Correlaciones: tipos

Hay varios tipos de distancias:

  1. Pearson.

  2. Coseno de Eisen.

  3. Spearman.

  4. Kendall.

Véase la Figura 5.1. A continuación se explicarán cada una de ellas.

**Medidas de distancias para agrupamiento (basada en correlaciones)**

Figure 5.1: Medidas de distancias para agrupamiento (basada en correlaciones)

6 Pearson

6.0.1 Pearson: correlación

La correlación de Pearson mide el grado de relación lineal entre dos perfiles y se define como:

\[r_{\text{pear}}(x, y) \; =\; \frac{\sum\limits_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2 \sum\limits_{i=1}^{n}(y_i - \bar{y})^2}}\]

En la fórmula anterior:

  1. \(x\) e \(y\) son dos vectores de longitud \(n\).

  2. \(\bar{x}\) y \(\bar{y}\) representan las medias de \(x\) e \(y\), respectivamente.

  3. Gráficamente, la correlación puede visualizarse de varias maneras. Mostraré brevemente las más importantes.

6.0.2 Pearson: heatmap

Primera forma:

Usando ggcorrplot::ggcorrplot.

library(ggplot2)
library(ggcorrplot)

ggcorrplot::ggcorrplot(cor(mtcars))

Segunda forma:

Usando heatmap::heatmaply_cor.

library(heatmaply)

heatmaply_cor(x = cor(mtcars),
              xlab = "Features",
              ylab = "Features",
              k_col = 2,
              k_row = 2)

6.0.3 Pearson: distancia

La distancia basada en la correlación de Pearson se define como:

\[d_{\text{pear}}(x, y) \; =\; 1 \; -\; r_{\text{pear}}(x, y)\]

7 Coseno de Eisen

Es un caso especial de la correlación de Pearson con \(\bar{x}\) y \(\bar{y}\) (reemplazados ambos por cero):

\[ d_{\text{eisen}}(x, y) \;=\; 1 \;-\; \frac{\sum\limits_{i=1}^{n} x_i y_i}{\sqrt{\sum\limits_{i=1}^{n} x_i^2} \sqrt{\sum\limits_{i=1}^{n} y_i^2}}\]

8 Spearman

8.0.1 Spearman: correlación

El coeficiente de correlación de Spearman se calcula así:

\[r_{\text{spear}} \;=\;\frac{\sum\limits_{i=1}^{n} (x'_i - \bar{x}') (y'_i - \bar{y}')}{\sqrt{\sum\limits_{i=1}^{n} (x'_i - \bar{x}')^2} \sqrt{\sum\limits_{i=1}^{n} (y'_i - \bar{y}')^2}} \;\approx\; 1 \,-\, \frac{6\sum\limits_{i=1}^n d_i^2}{n(n^2\,-\, 1)}\]

donde

\[x'_i = \text{rank}(x_i), \qquad y'_i = \text{rank}(y_i)\]

y \(d_i = x'_i-y'_i\) es la diferencia de rangos entre las dos variables.

8.0.2 Spearman: distancia

Con lo anterior, la distancia de correlación de Spearman se calcula así:

\[ d_{\text{spear}}(x, y) \;=\; 1 \;-\; r_{\text{spear}} \]

8.0.3 Spearman: ejemplo

Medimos el tiempo de reacción de 8 jugadores de videos juegos y les preguntamos su edad. Nuestro objetivo es calcular la correlación de rangos de Spearman. Para esto, asignamos un rango a cada individuo tanto para el tiempo de reacción como para la edad. La situación se muetra en la Figura 8.1.

**Situación para calcular la correlación  de Spearman**

Figure 8.1: Situación para calcular la correlación de Spearman

Dado que el tiempo de reacción ya está ordenado por tamaño, asignamos el rango 1 al valor más pequeño (12), el rango 2 al segundo valor más pequeño (15), y así sucesivamente. Llevamos a cabo el mismo procedimiento para asignar rangos a las edades. Sabiendo que los promedios de los rangos son iguales a 4.5, entonces,

\[r_{\text{spear}} \;\approx\; 1 \,-\, \frac{6\sum\limits_{i=1}^n d_i^2}{n(n^2\,-\, 1)} \;=\;1 \,-\, \frac{(6)(8)}{8(64\,-\, 1)} \;=\; 1 \,-\,\frac{48}{504} \;=\; 0.905\]

Por esta razon,

\[ d_{\text{spear}}(x, y) \;=\; 1 \;-\; 0.905 \;=\; 0.095 \]

9 Kendall

9.0.1 Kendall: combinaciones

El método de correlación de Kendall mide la correspondencia entre el rango de las variables \(x\) e \(y\). Si \(n\) es el tamaño de \(x\) e \(y\), entonces, el número total de combinaciones posibles de \(x\) con las observaciones \(y\) es:

\[{n\choose 2} \; =\; \frac{1}{2}n(n-1)\]

9.0.2 Kendall: correlacion

Se comienza ordenando los pares por los valores de \(x\). Si \(x\) e \(y\) están correlacionados, entonces tendrían los mismos órdenes de rango relativos. Ahora, para cada \(y_i\), se cuenta el número de \(y_j > y_i\) (pares concordantes \(c\)) y el número de \(y_j < y_i\) (pares discordantes \(d\)). Con lo anterior, se define el coeficiente de correlación \(\tau\) de Kendall como:

\[\tau \; =\; \frac{n_c - n_d}{\frac{1}{2}n(n-1)}\]

9.0.3 Kendall: distancia

La distancia de correlación de Kendall se define de la siguiente manera:

\[d_{\text{kend}}(x, y) \;=\; 1 \;-\; \tau\]

Donde:

  • \(n_c\): número total de pares concordantes.

  • \(n_d\): número total de pares discordantes.

  • \(n\): tamaño de \(x\) e \(y\).

9.0.4 Kendall: ejemplo

Imaginemos que un doctor y una doctora evalúan a 6 pacientes en términos de salud física, ordenándolos de manera descendente.

En este caso, consideramos que la doctora actúa como referencia y los pacientes se numeran del 1 al 6 según su clasificación por la doctora.

La situación se ilustra en la Figura 9.1.

**Situación para calcular la correlación  de Kendall**

Figure 9.1: Situación para calcular la correlación de Kendall

  1. Esto nos permite comparar los rangos asignados por ambos doctores.

  2. Por ejemplo, si un paciente está clasificado como el segundo por la doctora, pero como el primero por el doctor.

  3. Nos interesa determinar si hay una correlación entre estas dos evaluaciones utilizando la \(\tau\) de Kendall.

  4. Para calcularla, solo necesitamos los rangos asignados por el médico.

  5. A partir de aquí, es sencillo determinar el número de pares concordantes y discordantes.

  6. En nuestro ejemplo, encontramos un total de \(n_c=11\) pares concordantes y \(n_d=4\) pares discordantes.

  7. Por lo tanto, el coeficiente de correlación de Kendall y la distancia correspondiente son respectivamente:

\[\tau \; =\; \frac{11 \,-\, 4}{\frac{1}{2}6(6-1)} \;\; \frac{7}{15}\; =\; 0.47, \qquad d_{\text{kend}}(x, y) \;=\; 1 \;-\; 0.47\;=\; 0.53\]

10 Distancias basadas en correlaciones: observaciones

Es importante tener en cuenta que:

  1. El análisis de correlación de Pearson es el método más comúnmente utilizado.

  2. También se conoce como correlación paramétrica y depende de la distribución de los datos.

  3. Las correlaciones de Kendall y Spearman son no paramétricas y se utilizan para realizar análisis de correlación basados en rangos.

  4. La correlación de Kendall debe preferirse a la correlación de Spearman cuando hay muy pocos datos y muchos empates de rango.

  5. Como ya se comentó antes, a diferencia del coeficiente de correlación de Pearson, la correlación de Kendall es una medida de correlación no paramétrica. Para calcular la correlación de Kendall, los datos deben estar distribuidos de forma no normal y las dos variables deben estar en una escala ordinal.

11 Medidas basadas en distancias geométricas

11.0.1 Medidas de distancias: descripción

  1. Los patrones de medición predominan en las medidas de distancia, y son las más utilizadas.

  2. Sea dada una población o muestra de elementos definidos por un conjunto de variables.

  3. Representemos con \(d(x,y)\) la distancia entre dos elementos cualesquiera \(x\) y \(y\) de la población (o muestra).

  4. La distancia \(d\) debe cumplir ciertas condiciones:

    1. No negatividad: \(d(x,y) \geq 0\).

    2. Reflexividad: \(d(x,y) = d(y,x)\).

    3. Desigualdad triangular: Si \(w\) es otro vector del mismo espacio, entonces:

    \[d(x,y) \leq d(x,w) + d(w,y)\]

11.0.2 Distancias geométricas: tipos

Como medidas de distancias se tienen entre otras las siguientes:

  1. Distancia euclidiana.

  2. Distancia de Minkowski.

  3. Distancia City Block o de Manhattan.

  4. Distancia de Chebyshev.

  5. Distancia de Malahanobis.

  6. Distancia de Hamming.

Véase la Figura 11.1. A continuación se explicarán algunas de ellas.

**Medidas de distancias para agrupamiento (basada en distancias geométricas)**

Figure 11.1: Medidas de distancias para agrupamiento (basada en distancias geométricas)

11.0.3 Distancias geométricas: gráficos iniciales

Véase la Figura 11.2.

**Medidas de distancias**

Figure 11.2: Medidas de distancias

11.0.4 Distancias geométricas: comparaciones

Véase la Figura 11.3.

**Medidas de distancias**

Figure 11.3: Medidas de distancias

12 Distancia euclidiana

12.0.1 Euclidiana: descripción

  1. La distancia euclidiana es adecuada cuando se trabaja con ejes ortogonales.

  2. La distancia euclidiana entre dos puntos p y q se define como la longitud del segmento que une ambos puntos.

  3. En coordenadas cartesianas, la distancia euclidiana se calcula empleando el teorema de Pitágoras.

12.0.2 Euclidiana: Fórmula

Si tenemos dos vectores \(x\) y \(y\), definidos por los vectores \(\mathbf{x} = (x_1, x_2, \ldots, x_n)\) y \(\mathbf{b} = (y_1, y_2, \ldots, y_n)\) respectivamente, entonces la distancia euclidiana entre \(xA\) y \(y\), denotada como \(d_e(x,y)\), se calcula como:

\[d_e(x,y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}\]

12.0.3 Euclidiana: bidimensional

Para el caso bidimensional, véase la Figura 12.1.

**Distancia euclidiana**

Figure 12.1: Distancia euclidiana

13 Distancia de Minkowski

13.0.1 Minkowski: descripción

  1. La distancia de Mikowski representa la distancia entre dos puntos con un recorrido perpendicular (segmentos de rectas paralelos a los ejes coordenados).

  2. En muchos casos proporciona resultados similares a los de la distancia euclidiana.

13.0.2 Minkowski: Fórmula

Si consideramos los elementos \(x\) y \(y\) mencionados anteriormente, la distancia de Mikowski entre \(x\) y \(y\), denotada como \(d_m(x,y)\), se calcula como:

\[ d_m(x,y;p) \;=\; \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}, \quad p \geq 1. \]

13.0.3 Minkowski: bidimensional

La Figura 13.1 muestra círculos unitarios (el conjunto de niveles de la función de distancia donde todos los puntos están a la distancia unitaria del centro) con varios valores de \(p\).

**Distancia de Minkowski en el plano ($n=2$) para diferentes valores de $p$**

Figure 13.1: Distancia de Minkowski en el plano (\(n=2\)) para diferentes valores de \(p\)

14 Distancia de Manhattan

14.0.1 Manhattan: descripción

  1. La fórmula de la distancia euclidiana es útil para calcular distancias teóricas, pero en entornos urbanos reales, como una ciudad, rara vez es posible moverse de un punto a otro en línea recta debido a obstáculos como cercas, edificios y calles.

  2. En cambio, debemos seguir rutas trazadas por calles, que generalmente forman una cuadrícula. En este contexto urbano, la distancia Manhattan resulta más práctica, ya que permite calcular la distancia entre dos puntos en una cuadrícula uniforme, como las cuadras de una ciudad o un tablero de ajedrez.

  3. Esta medida es especialmente útil en entornos urbanos debido a la disposición de las calles en forma de cuadrícula, como es el caso de muchas áreas de la isla de Manhattan (véase la Figura 14.1), de ahí su nombre, aunque Broadway es una excepción a este diseño de cuadrícula.

**Isla de Manhattan**

Figure 14.1: Isla de Manhattan

14.0.2 Manhattan: fórmula

A la distancia de Minkowski se le denomina distancia City Block o de Manhattan si \(p=1\). Es decir,

\[d_{man}(x,y) \;=\; \sum_{i=1}^{n} |x_i - y_i|\]

14.0.3 Manhattan: visualización

Para una visualización, véase la Figura 14.2.

**Distancia de Manhattan**

Figure 14.2: Distancia de Manhattan

14.0.4 Manhattan: ejemplo

Se mostarrá un ejemplo gráfico de la distancia de manhattan para el caso de un sector de Barranquilla (Colombia). En ella, se compara también con la distancia euclidiana. Véase la Figura 14.3.

**Distancia de Manhattan versus euclidiana**

Figure 14.3: Distancia de Manhattan versus euclidiana

15 Distancia de Chebyshev

15.0.1 Chebyshev: fórmula

La distancia de Chebyshev se calcula como:

\[ d_{ch}(x,y) = \max_{i=1,\ldots,n} |x_i - y_i|. \]

15.0.2 Chebyshev: gráfico comparativo

En la Figura 15.1 se muestra gráficamente la comparación de las distancias de Chebyshev, euclidiana y taxicab para la hipotenusa de un triángulo 3-4-5 en un tablero de ajedrez.

**Comparación de las distancias de Chebyshev, euclidiana y taxicab para la hipotenusa de un triángulo 3-4-5 en un tablero de ajedrez.**

Figure 15.1: Comparación de las distancias de Chebyshev, euclidiana y taxicab para la hipotenusa de un triángulo 3-4-5 en un tablero de ajedrez.

15.0.3 Chebyshev: observación

En el caso límite de \(p\) (cuando alcanza el infinito), se cumple que:

\[\lim\limits_{p \,\to \, \infty} d_m(x,y;p) \; = \; d_{ch}(x,y) \]

16 Distancia de Malahanobis

16.0.1 Mahalanobis: descripción

  1. La distancia de Mahalanobis tiene una métrica diferente a la euclidiana y es recomendable para situaciones en las que hay multicolinealidad.

  2. Coincide con la distancia euclidiana para variables estandarizadas cuando las correlaciones son nulas.

16.0.2 Mahalanobis: fórmula

Si \(\Sigma\) es la matriz de varianza-covarianza, esta distancia se calcula a partir de la expresión:

\[d(x,y) = (x - y)^T \Sigma^{-1} (x - y)\]

16.0.3 Mahalanobis: gráfica

En la Figura 16.1 se muestra gráficamente diferentes distancias de Malahanobis. En ella vemos que resultan claramente patrones elípticos.

**Distancias de Malahanobis.**

Figure 16.1: Distancias de Malahanobis.

17 Medidas basadas en índices de similitud

17.0.1 Similitud: tipos

Como medidas de distancias basadas en índices de similitud se tienen, entre otras, las siguientes:

  1. ïndice de Sokal y Michener.

  2. Índice de Rogers y Tanimoto.

  3. Índice de Sokal y Sneath.

Véase la Figura 17.1. Más adelante, se explicarán estos índices.

**Medidas de distancias para agrupamiento (basada en índices de similitud)**

Figure 17.1: Medidas de distancias para agrupamiento (basada en índices de similitud)

17.0.2 Similitud: descripción

Tiene una naturaleza cualitativa y denotaremos la similitud entre \(x\) y \(y\) como \(S_{xy}\).

17.0.3 Similitud: condiciones

Las medidas de similitud deben cumplir con las siguientes codiciones:

  1. \(S_{xy} = S_{yx}\).

  2. \(S_{xx} = S_{yy}\).

  3. Si \(S_{xy}\) y \(S_{yw}\) son grandes, entonces \(S_{xw}\) también lo es.

17.0.4 Similitud: métodos de cálculo

  1. Las medidas de similitud pueden obtenerse de diversas formas, ya sea interrogando directamente a las personas sobre su percepción o midiendo las características o atributos (posesión de).

  2. Un caso particular es el uso de variables binarias, con valores 0 y 1, a partir de las cuales se construyen índices.

17.0.5 Similitud: posibilidades de coincidencia

Las posibilidades de coincidencia son:

\[\begin{align*} p & = \text{número de coincidencias positivas (1,1)} \\ n & = \text{número de coincidencias negativas (0,0)} \\ d & = \text{número de diferencias (1,0)} \\ e & = \text{número de diferencias (0,1)} \\ t & = p + n + d + e \end{align*}\]

17.0.6 Similitud: índices de coincidencias

La combinación de estas situaciones da lugar a una amplia gama de índices, según se prioricen las coincidencias positivas, negativas o las diferencias de uno u otro tipo. Algunos de estos índices son:

  1. Índice de Sokal y Michener.

\[I \;=\; \frac{{p + n}}{t} \]

  1. Índice de Rogers y Tanimoto.

\[I \;=\; \frac{{t - (d + e)}}{{t + (d + e)}} \;=\; \frac{{p + n}}{{p + n + 2(d + e)}}\]

  1. Índice de Sokal y Sneath.

\[I \;=\; \frac{p}{{p + n + 2(d + e)}}\]

18 ¿Cuál distancia escoger?

  1. La selección de medidas de distancia es fundamental, ya que ejerce una fuerte influencia en los resultados de agrupamiento.

  2. En la mayoría de los software de agrupamiento convencionales, la medida de distancia por defecto es la euclidiana.

  3. Sin embargo, según el tipo de datos y las interrogantes del investigador, es posible que se prefieran otras medidas de disimilitud.

  4. Por ejemplo, en el análisis de datos de expresión génica se recurre frecuentemente a la distancia basada en correlación.

  5. Esta medida de distancia basada en correlación considera dos elementos como similares si sus características están altamente correlacionadas, incluso si los valores observados difieren significativamente en términos de distancia euclidiana.

  6. De hecho, la distancia entre dos elementos es nula cuando están perfectamente correlacionados.

  7. No obstante, la correlación de Pearson puede ser bastante susceptible a valores atípicos.

  8. Aunque este aspecto no suele ser problemático al agrupar muestras, dado que se calcula la correlación entre miles de genes, sí es relevante al agrupar genes, donde es fundamental tener en cuenta la posible influencia de valores atípicos.

  9. Para mitigar este efecto, es posible emplear la correlación de Spearman en lugar de la de Pearson.

  10. Si nuestro objetivo es identificar grupos de observaciones con perfiles generales similares independientemente de sus magnitudes, es aconsejable optar por la distancia basada en correlación como medida de disimilitud.

  11. Este enfoque resulta especialmente pertinente en el análisis de datos de expresión génica, donde nos interesa considerar genes similares cuando presentan patrones de “subida” y “bajada” conjuntos.

  12. También es aplicable en el ámbito del marketing si deseamos identificar grupos de consumidores con las mismas preferencias en términos de productos, sin importar el volumen de compra.

  13. En contraposición, si se utiliza la distancia euclidiana, es probable que las observaciones con valores altos de características se agrupen entre sí, al igual que las observaciones con valores bajos de características.

19 Estandarización de datos

19.0.1 Estandarización: explicación

  1. La importancia de las medidas de distancia está estrechamente ligada a la escala en la que se toman las mediciones.

  2. Por lo tanto, es común estandarizar las variables antes de calcular las diferencias entre observaciones.

  3. Este proceso es especialmente recomendable cuando las variables se miden en escalas distintas (por ejemplo, kilogramos, kilómetros, centímetros, etc.), ya que de lo contrario, las medidas de diferencia resultantes podrían estar considerablemente afectadas.

  4. El propósito principal es lograr que las variables sean comparables. Normalmente, las variables se estandarizan para tener una desviación estándar de uno y una media de cero.

  5. La estandarización de datos es una técnica muy utilizada en el análisis de datos de expresión génica antes de realizar agrupaciones.

  6. También puede ser útil escalar los datos cuando la media y/o la desviación estándar de las variables son muy diferentes.

19.0.2 Estandarización: fórmula

Al estandarizar las variables, los datos pueden ser transformados de la siguiente manera:

\[\frac{x_i \,-\, centro(x)}{escala(x)}\]

19.0.3 Estandarización: interpretación

En la formula anterior:

  1. El centro de los datos (representado por \(x\)) puede ser tanto la media como la mediana de los valores de \(x\).

  2. La escala (representada también por \(x\)) puede tomar la forma de la desviación estándar (SD), el rango intercuartil o la MAD (desviación absoluta mediana).

  3. Tmabién existe la llamada fórmula de normalización (escala min-max):

\[\frac{x_i \,-\, \min(x)}{\max(x) \,-\, \min(x)}\]

19.0.4 Estandarización: ejemplo

Véase la Figura 19.1.

**Datos estandarizados y normalizados**

Figure 19.1: Datos estandarizados y normalizados

19.0.5 Observación

La estandarización contribuye a que los cuatro métodos de medida de distancia (Euclidiana, Manhattan, Correlación y Eisen) se vuelvan más homogéneos de lo que serían con datos no transformados.

19.0.6 Función scale en R

La función base de R, scale, puede emplearse para estandarizar los datos, operando sobre una matriz numérica y aplicando la escala a las columnas correspondientes.

19.0.7 Distancia euclidiana vs Pearson

  1. Es importante tener en cuenta que, al estandarizar los datos, se establece una relación funcional entre el coeficiente de correlación de Pearson \(r_{euc}=r(x, y)\) y la distancia euclidiana.

  2. Si \(x\) e \(y\) son dos vectores estandarizados (de tamaño \(n\)) con media cero y longitud 1, esta relación puede expresarse como:

\[d_{euc}(x, y) \;=\; \sqrt{2n\,(1 - r_{euc})}\]

  1. Por lo tanto, el resultado obtenido mediante las medidas de correlación de Pearson y las distancias euclidianas estandarizadas son comparables.

20 Procedimientos de agrupación

Para la agrupación existen dos tipos de procedimientos o métodos de clasificación:

  1. Jerárquicos.

  2. No jerárquicos.

Véase la Figura 20.1. A continuación, explicaremos cada uno de ellos.

**Procedimientos jerárquicos y no jerárquicos**

Figure 20.1: Procedimientos jerárquicos y no jerárquicos

21 Procedimientos jerárquicos

21.0.1 Jerárquico: descripción

Explicaremos ciertas directrices para definir cómo se agrupan los elementos. En este sentido, cuando se tenga una población grande, el objetivo es organizarla en una jerarquía de partes, dividiéndola en varios subconjuntos de manera que:

  1. No compartan elementos entre sí.

  2. Cada subconjunto esté contenido dentro del otro.

21.0.2 Jerárquico: observacion

El número de subgrupos generados depende del orden en el que se aborde el proceso.

21.0.3 Jerárquico: gráficos

En los enfoques jerárquicos, se emplean gráficos para simplificar la comprensión de los conjuntos de datos. Entre ellos, los más comunes destacan los dendogramas (figura 21.1) y los mapas de calor (heatmap, figura 21.2).

**Dendograma**

Figure 21.1: Dendograma

**Heatmap (mapa de calor)**

Figure 21.2: Heatmap (mapa de calor)

21.0.4 Jerárquico: tipos

Dentro de los métodos jerárquicos, se pueden identificar los siguientes procedimientos:

  1. Ascendente (o aglomerativos).

  2. Descendente (o divisivos).

Véase la Figura 21.3. A continuación, explicaremos cada uno de ellos.

**Procedimientos jerárquicos ascendentes y no ascendentes**

Figure 21.3: Procedimientos jerárquicos ascendentes y no ascendentes

22 Procedimiento jerárquico ascendente (aglomerativo)

22.0.1 Jerárquico ascendente: descripción

  1. Inicia con un número de grupos igual al de individuos disponibles (u objetos que tengamos que clasificar).

  2. En cada paso se recalculan las distancias entre los grupos existentes

  3. Estos grupos se van fusionando entre sí, agrupando a los individuos más similares basándose en un criterio específico.

  4. Finalmente, culmina con un único grupo que incluye a todos los elementos de la población.

  5. Una vez que se ha formado un grupo, no se desintegra, incluso si algún individuo tiene más afinidad con los elementos de un grupo recién formado.

22.0.2 Jerárquico ascendente: tipos

En los métodos jerárquicos ascendentes, hay varias formas de definir cómo se agrupan los elementos. Dentro de los métodos jerárquicos ascendentes más comunes, sobresalen tres en particular:

  1. Los denominados de unión.

  2. Los basados en el centroide.

  3. Los que lo hacen con base en la varianza.

23 Procedimiento jerárquico descendente

  1. El proceso implica lo opuesto al anterior.

  2. Comienza con el conjunto completo, es decir, la población, y luego se divide en subconjuntos sucesivos hasta que se alcanza un grupo que contiene un único elemento.

24 Procedimientos jerárquicos: métodos

24.0.1 Tipos de métodos

Los métodos de clasificación más comunes son:

  1. Vecino más cercano.

  2. Vecino más lejano.

  3. Vínculo medio.

  4. Centroide.

Véase la Figura 24.1. A continuación, explicaremos cada uno de ellos.

**Distancias en procedimientos jerárquicos**

Figure 24.1: Distancias en procedimientos jerárquicos

24.0.2 El vecino más cercano

  1. En este proceso, la medida de distancia entre dos conjuntos se determina por la distancia entre los elementos más próximos que pertenecen a grupos diferentes.

  2. Los dos primeros elementos a agrupar son aquellos con la distancia más pequeña entre ellos.

  3. Luego, se encuentra la siguiente distancia mínima y se agrega un tercer elemento al grupo, o bien se forma otro grupo con dos elementos.

  4. Este proceso continúa hasta que todos los elementos estén clasificados en un solo grupo.

  5. Generalmene, se utiliza la distancia euclidiana.

  6. Véase la situación gráfica que aparece en la Figura 24.2.

**Vecino más cercano**

Figure 24.2: Vecino más cercano

24.0.3 El vecino más cercano: ejemplo

  1. Considere la Figura 24.3.

  2. El objetivo es identificar el individuo (u objeto) representado por el círculo verde.

  3. Si consideramos \(k = 3\), se clasifica como un triángulo, debido a que dentro del círculo que lo contiene hay un cuadrado y dos triángulos.

  4. Por otro lado, si \(k = 5\), se clasifica como un cuadrado, dado que dentro del círculo exterior hay dos triángulos y tres cuadrados.

**Ejemplo para el vecino más cercano**

Figure 24.3: Ejemplo para el vecino más cercano

24.0.4 El vecino más lejano

  1. Esta nueva propuesta es una variante del enfoque anterior.

  2. Ahora la medida de distancia entre grupos se define como la distancia entre los dos elementos más alejados, cada uno perteneciente a un grupo diferente.

  3. Véase la situación gráfica que aparece en la Figura 24.4.

**Vecino más lejano**

Figure 24.4: Vecino más lejano

24.0.5 Vinculo medio

  1. En este contexto, el cálculo de la distancia entre grupos no se limita a solo dos elementos.

  2. Se emplea la media para determinar dicha distancia, pero este enfoque tiene varias modalidades.

  3. La media puede ser:

    1. La distancia promedio entre pares de objetos de los dos grupos, ya sea sin ponderación o ponderada según el tamaño de los grupos o

    2. El número de elementos en cada uno, especialmente cuando se trata de grupos de tamaños muy dispares.

  4. Los grupos resultantes muestran una varianza similar y generalmente pequeña.

  5. Véase la situación gráfica que aparece en la Figura 24.5.

**Vínculo medio**

Figure 24.5: Vínculo medio

24.0.6 Método del centroide

  1. El punto central de un conjunto, también conocido como centroide, se encuentra en el punto medio de un espacio de \(K\) dimensiones definido por las \(k\) variables analizadas.

  2. Conforme se agregan elementos al conjunto, tanto el número de elementos como su centroide pueden cambiar.

  3. Los enfoques que se basan en el centroide calculan la distancia entre conjuntos tomando la distancia entre sus respectivos centroides.

  4. Al centrarse en los puntos medios, los valores atípicos no afectan significativamente este método.

  5. Este enfoque tiene variaciones que pueden tener en cuenta o no el tamaño de los conjuntos (particularmente cuando los conjuntos son notablemente diferentes).

  6. Véase la situación gráfica que aparece en la Figura 24.6.

**Método del centroide**

Figure 24.6: Método del centroide

25 Procedimientos no jerárquicos

25.0.1 No jerárquicos: descripción

  1. Comienzan con un clúster que engloba a todos los elementos y en cada paso se divide el grupo más heterogéneo.

  2. El algoritmo acaba con tantos clusters (de un elemento cada uno) como objetos se hayan clasificado.

  3. A partir de un conjunto de \(n\) individuos, se requiere crear \(k\) grupos, donde \(k<n\).

  4. La elección de \(k\) es determinada por el analista basándose en experiencia previa o algún conocimiento específico del tema en estudio.

  5. En este método, los grupos se definen de antemano.

  6. Los enfoques no jerárquicos buscan alcanzar un óptimo global en lugar de subóptimos sucesivos en cada etapa de agrupación.

  7. Esto permite la reasignación de un elemento a un grupo diferente en etapas posteriores, en comparación con el grupo al que inicialmente fue asignado.

  8. Estos enfoques no jerárquicos también son conocidos como de \(k\)-medias,

25.0.2 No jerárquicos: tipos

Se distinguen por tres tipos diferentes:

  1. Umbral secuencial.

  2. Umbral paralelo.

  3. Métodos de optimización.

Véase la Figura 25.1. A continuación, explicaremos cada uno de ellos.

**Método del centroide**

Figure 25.1: Método del centroide

25.0.3 No jerárquicos: umbral secuencial

  1. Una vez que se ha seleccionado un centro para un grupo, todos los elementos de una población que se encuentren dentro de un cierto valor o umbral son asignados a dicho grupo.

  2. Este proceso se repite seleccionando nuevos centros y formando nuevos grupos. Es importante destacar que una vez que un elemento ha sido asignado a un grupo, no se considera para la asignación a otro grupo.

25.0.4 No jerárquicos: umbral Paralelo

  1. Esta opción establece varios centros de grupos desde el inicio. Los objetos se asignan a un centro dentro del umbral definido, eligiendo el centro más cercano.

  2. Las distancias pueden ajustarse a medida que avanza el proceso, o incluso pueden dejarse fuera aquellos elementos que no caigan dentro del umbral establecido para ningún centro.

25.0.5 No jerárquicos: métodos de optimización

  1. La distinción radica en su capacidad para la reasignación de objetos.

  2. Lo anterior implica que un objeto asignado a un grupo puede ser transferido a otro grupo.

26 Jerárquico vs no jerárquico

  1. Es aconsejable emplear una variedad de métodos, tanto jerárquicos como no jerárquicos, con el fin de aumentar la confiabilidad de las conclusiones alcanzadas.

  2. Dado que el principal desafío del algoritmo de \(k\)-medias radica en determinar el número óptimo de grupos, se sugiere emplear inicialmente algún método jerárquico para identificar un número de grupos que resulte razonable y coherente.

  3. Una vez establecido el número de grupos y su composición, la interpretación de cada uno de ellos se lleva a cabo mediante la consideración de las características de los elementos que los conforman.

  4. Esto implica analizar si ciertas características están más prominentemente representadas en algunos grupos que en otros, utilizando estadísticas descriptivas de las variables originales agrupadas.

  5. Este enfoque permite nombrar o clasificar los grupos, similar al análisis factorial en el caso de las variables latentes.

  6. La interpretación en el contexto de métodos no jerárquicos se enriquece aún más al recurrir a un análisis de varianza para examinar las diferencias entre los grupos.

  7. Este análisis se centra en la variabilidad pequeña dentro de los grupos y la variabilidad grande entre los grupos, lo que proporciona una comprensión más profunda de las características distintivas de cada grupo.

27 Pasos (jerárquico ascendente)

El proceso que se debe seguir en un Análisis Clúster Jerárquico ascendente se puede resumir como sigue:

Paso 1: Selección de las variables. Se aconseja que las variables tengan características similares (continuas, categóricas, etc.).

Paso 2: Detección de valores atípicos. La presencia de elementos significativamente diferentes al resto puede afectar considerablemente los resultados del análisis de clústeres.

Paso 3: Elección de una medida de similitud entre objetos y obtención de la matriz de distancias. Estas medidas ayudan a establecer los grupos iniciales en un análisis de clustering.

Paso 4: Identificar los clústeres más similares.

Paso 5: Fusionar estos dos clústeres en uno nuevo que contenga al menos dos elementos, reduciendo así en uno el número total de clústeres.

Paso 6: Calcular la distancia entre este clúster y el resto. Diferentes métodos de cálculo de distancias entre clústeres pueden conducir a agrupaciones distintas, lo que implica que no existe una agrupación única.

Paso 7: Repetir los pasos del 4 al 6 hasta que todos los elementos estén agrupados en un único clúster.

Paso 8: Puede dibujar el dendograma.

El proceso de agrupación jerárquica se puede representar visualmente mediante un dendrograma. En este diagrama, los objetos similares se conectan entre sí y su posición está determinada por el nivel de similitud o disimilitud entre ellos.

28 Ejemplo (jerárquico ascendente)

28.0.1 Datos para el ejemplo

Vamos a seguir el procedimiento descrito utilizando un ejemplo simple. Este ejemplo consta de 5 objetos (A, B, C, D, E) y 2 variables (\(X_1\), \(X_2\)). Los datos se muestran a continuación:

datos <- data.frame(
  ID = c("A", "B", "C", "D", "E"),
  x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
  x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))

print(datos)
##   ID x1 x2
## 1  A  1  1
## 2  B  2  1
## 3  C  4  5
## 4  D  7  7
## 5  E  5  7

28.0.2 Pasos 1 y 2

Con ayuda del diagrama de dispersión, vemos que no hay valores atípicos.

ggplot(datos,aes(x = x1, y = x2, color=ID)) + 
                geom_point(size = 3) +
                scale_color_brewer(palette="Set1") +
                labs(x = "x1", y = "x2", 
                     title = "Diagrama de dispersión") 

28.0.3 Paso 3

Distancia euclidiana.

La medida de distancia que utilizaremos entre los objetos será la distancia euclidiana, cuya expresión se define como sigue

\[D(A, B) = \sqrt{ (x_{A_1} - x_{B_1})^2 + (x_{A_2} - x_{B_2})^2 }\]

# Función para calcular la distancia euclidiana
distancia_euclidiana <- function(x1, y1, x2, y2){sqrt((x2 - x1)^2 + (y2 - y1)^2)}

Distancia euclidiana entre A y B

Esta expresión representa la distancia euclidiana entre dos puntos \(A\) y \(B\) en un espacio bidimensional definido por las coordenadas \(x_1\) y \(x_2\). Así, por ejemplo, la distancia entre el clúster \(A\) y el clúster \(B\) es:

\[D(A, B) \;=\; \sqrt{ (2.0 - 1.0)^2 + (1.0 - 1.0)^2 } \;=\; 1.0\]

# Calcular la distancia euclidiana de A a B
distancia_AB <- distancia_euclidiana( datos$x1[datos$ID == "A"], 
                                      datos$x2[datos$ID == "A"], 
                                      datos$x1[datos$ID == "B"], 
                                      datos$x2[datos$ID == "B"] )
print(distancia_AB)
## [1] 1

Distancia euclidiana entre todos los puntos.

Calculamos la distancia Euclidiana entre todos los puntos y obtenemos la siguiente matriz de distancias Euclidianas entre los objetos:

# Calcular las distancias euclidianas entre todos los pares de puntos
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))

rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID

for (i in 1:nrow(datos)) {
      for (j in 1:nrow(datos)) {
           distancias[i, j] <- distancia_euclidiana( datos$x1[i],   
                                                     datos$x2[i],
                                                     datos$x1[j],
                                                     datos$x2[j])
                                }
                          }
distancias <- round(distancias, 2)
print(distancias)
##      A    B    C    D    E
## A 0.00 1.00 5.00 8.49 7.21
## B 1.00 0.00 4.47 7.81 6.71
## C 5.00 4.47 0.00 3.61 2.24
## D 8.49 7.81 3.61 0.00 2.00
## E 7.21 6.71 2.24 2.00 0.00
datos <- data.frame(
  ID = c("A", "B", "C", "D", "E"),
  x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
  x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))

distancias <- dist(datos[, c("x1", "x2")])

library(factoextra)
fviz_dist(distancias)

Distancia euclidiana entre todos los puntos (como matriz triangular inferior).

# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))

rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID

for (i in 1:nrow(datos)) {
        for (j in 1:(i-1)) {
          distancias[i, j] <- distancia_euclidiana( datos$x1[i], 
                                                    datos$x2[i], 
                                                    datos$x1[j],
                                                    datos$x2[j] )
                            }
                          }

distancias <- round(distancias, 2)
print(distancias)
##      A    B    C  D  E
## A 0.00   NA   NA NA NA
## B 1.00   NA   NA NA NA
## C 5.00 4.47   NA NA NA
## D 8.49 7.81 3.61 NA NA
## E 7.21 6.71 2.24  2 NA

Estamos empleando el método jerárquico ascendente, por lo que inicialmente tenemos 5 clústeres, uno por cada uno de los objetos a clasificar.

28.0.4 Paso 4

Examinamos la matriz de distancias para identificar los objetos más similares, que en nuestro caso son \(A\) y \(B\), con la menor distancia (igual a 1).

28.0.5 Paso 5

Fusionamos los clústeres más similares para formar un nuevo clúster que incluye a \(A\) y \(B\). Así, se crean los clústeres: \(AB\), \(C\), \(D\) y \(E\).

28.0.6 Paso 6

Centroide de A y B.

Para determinar la distancia entre el clúster \(AB\) y los objetos \(C\), \(D\) y \(E\), empleamos el centroide como la representación del clúster \(AB\). Esto implica utilizar un punto cuyas coordenadas sean las medias de los valores de las componentes de las variables. Así, obtenemos las coordenadas del clúster \(AB\) como

\[\text{Coordenadas del centroide AB} \;=\; \left( \frac{{x_A + x_B}}{2},\, \frac{{y_A + y_B}}{2} \right) \;=\; \left( \frac{{1.0 + 2.0}}{2},\, \frac{{1.0 + 1.0}}{2} \right) \;=\; \left(1.5,\, 1.0\right)\]

Nuevos datos basados en el centroide de A y B.

La nueva tabla de datos es la siguiente:

datos <- data.frame(
  ID = c("AB", "C", "D", "E"),
  x1 = c(1.5, 4.0, 7.0, 5.0),
  x2 = c(1.0, 5.0, 7.0, 7.0))

print(datos)
##   ID  x1 x2
## 1 AB 1.5  1
## 2  C 4.0  5
## 3  D 7.0  7
## 4  E 5.0  7

28.0.7 Paso 7a

Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.

Paso 4.

Con los nuevos datos, calculamos la matriz de distancias.

# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))

rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID

for (i in 1:nrow(datos)) {
        for (j in 1:(i-1)) {
          distancias[i, j] <- distancia_euclidiana( datos$x1[i], 
                                                    datos$x2[i], 
                                                    datos$x1[j],
                                                    datos$x2[j] )
                            }
                          }

distancias <- round(distancias, 2)
print(distancias)
##      AB    C  D  E
## AB 0.00   NA NA NA
## C  4.72   NA NA NA
## D  8.14 3.61 NA NA
## E  6.95 2.24  2 NA

Paso 5.

Identificamos que los clústeres más similares son \(D\) y \(E\), con una distancia de 2.0, los cuales se combinan en un nuevo clúster llamado \(DE\). Ahora tenemos tres clústeres: \(AB\), \(C\), \(DE\).

Paso 6.

Determinamos el centroide del nuevo clúster, el cual es el punto: \[\text{Coordenadas del centroide DE} \;=\; \left(\frac{7.0+5.0}{2},\, \frac{7.0+7.0}{2}\right) \;=\; (6.0,\, 7.0)\]

En consecuencia, actualizamos la tabla de datos:

datos <- data.frame(
  ID = c("AB", "C", "DE"),
  x1 = c(1.5, 4.0, 6.0),
  x2 = c(1.0, 5.0, 7.0))

print(datos)
##   ID  x1 x2
## 1 AB 1.5  1
## 2  C 4.0  5
## 3 DE 6.0  7

28.0.8 Paso 7b

Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.

Paso 4.

Con los nuevos datos, calculamos la matriz de distancias.

# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))

rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID

for (i in 1:nrow(datos)) {
        for (j in 1:(i-1)) {
          distancias[i, j] <- distancia_euclidiana( datos$x1[i], 
                                                    datos$x2[i], 
                                                    datos$x1[j],
                                                    datos$x2[j] )
                            }
                          }

distancias <- round(distancias, 2)
print(distancias)
##      AB    C DE
## AB 0.00   NA NA
## C  4.72   NA NA
## DE 7.50 2.83 NA

Paso 5.

Identificamos que los clústeres más similares son \(C\) y \(DE\), con una distancia de 2.83 entre ellos. Estos se combinan para formar un nuevo clúster denominado CDE. En este punto, hemos generado dos clústeres: \(AB\) y \(CDE\).

Paso 6.

Determinamos el centroide del nuevo clúster \(CDE\) calculando las medias de las coordenadas de sus componentes:

\[\text{Coordenadas del centroide CDE} \;=\; \left(\frac{4.0+5.0+7.0}{3},\, \frac{5.0+7.0+7.0}{3}\right) \;=\; (5.3,\, 6.3)\]

Posteriormente, creamos una nueva tabla de datos.

datos <- data.frame(
  ID = c("AB", "CDE"),
  x1 = c(1.5, 5.3),
  x2 = c(1.0, 6.3))

print(datos)
##    ID  x1  x2
## 1  AB 1.5 1.0
## 2 CDE 5.3 6.3

28.0.9 Paso 7c

Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.

Paso 4.

Con los nuevos datos, calculamos la matriz de distancias.

# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))

rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID

for (i in 1:nrow(datos)) {
        for (j in 1:(i-1)) {
          distancias[i, j] <- distancia_euclidiana( datos$x1[i], 
                                                    datos$x2[i], 
                                                    datos$x1[j],
                                                    datos$x2[j] )
                            }
                          }

distancias <- round(distancias, 2)
print(distancias)
##       AB CDE
## AB  0.00  NA
## CDE 6.52  NA

En este último paso, observamos que hay solo dos clústeres con una distancia de 6.5 entre ellos. Estos dos clústeres se fusionarán en un único clúster en el siguiente paso, lo que marcará el final del proceso.

28.0.10 Paso 8a: dendograma

A continuación, visualizaremos el proceso de fusión de manera gráfica utilizando un dendrograma.

# Cargar las librerías necesarias
library(ggplot2)
library(dendextend)

# Crear los datos
datos <- data.frame(
  ID = c("A", "B", "C", "D", "E"),
  x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
  x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))

# Convertir los datos en una matriz de distancias
distancias <- dist(datos[, c("x1", "x2")])

# Calcular el dendrograma
dendrograma <- as.dendrogram(hclust(distancias))

# Establecer las etiquetas de los objetos
labels <- datos$ID

# Asignar etiquetas al dendrograma
labels(dendrograma) <- labels

# Graficar el dendrograma
plot(dendrograma, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

29 La función hclust

29.0.1 hclust: Observaciones generales

  1. La función hclust se utiliza para realizar un agrupamiento jerárquico de un conjunto de datos. T

  2. La función hclust proporciona varios métodos que se pueden utilizar para realizar agrupamientos jerárquicos.

  3. Estos métodos determinan cómo se calculan las distancias entre los grupos en cada paso del algoritmo de agrupamiento.

  4. Estos métodos son útiles para diferentes tipos de datos y pueden conducir a diferentes estructuras de agrupamiento. La elección del método depende del tipo de datos y del objetivo del análisis.

29.0.2 hclust: métodos

Aquí están algunos de los métodos disponibles y para qué se utilizan:

1. method = complete" (también conocido como método de enlace completo).

  • Este método calcula la distancia máxima entre los puntos de los dos grupos.

  • La distancia entre dos grupos se define como la mayor distancia entre un punto del primer grupo y un punto del segundo grupo.

  • Se utiliza cuando se quiere evitar que los puntos lejanos de un grupo afecten demasiado al cálculo de la distancia entre grupos.

2. method = "single" (también conocido como método de enlace simple).

  • Este método calcula la distancia mínima entre los puntos de los dos grupos.

  • La distancia entre dos grupos se define como la menor distancia entre un punto del primer grupo y un punto del segundo grupo.

+Este método es sensible a puntos atípicos y puede generar grupos alargados.

3. method = "average" (también conocido como método de enlace promedio).

  • Este método calcula la distancia promedio entre todos los pares de puntos de los dos grupos.

  • La distancia entre dos grupos se define como el promedio de todas las distancias entre los puntos de los dos grupos.

  • Es un método más robusto que el enlace simple y menos sensible a puntos atípicos.

4. method = "ward.D" (método de Ward con la distancia al cuadrado).

  • Este método minimiza la varianza cuando se fusionan dos grupos. Utiliza la distancia al cuadrado entre los centroides de los grupos para evaluar cuánto aumentará la varianza total cuando se fusionen dos grupos.

  • Se utiliza cuando se desea que los grupos resultantes tengan una varianza mínima dentro de ellos.

5. method = "ward.D2" (método de Ward con la distancia euclidiana al cuadrado).

  • Similar a "ward.D", pero utiliza la distancia euclidiana al cuadrado entre los centroides de los grupos.

  • Su fórmula es diferente a la de "ward.D".

29.0.3 hclust: ejemplo anterior (alturas)

En el código mostrado en el paso 8b del ejemplo anterior:

1. Objeto.

La función hclust toma como entrada una matriz de distancias entre los puntos de datos y devuelve un objeto de tipo hclust, que representa la jerarquía de agrupamientos.

2. output.

  1. Se puede definir el objeto correspondiente así y obtener el output correspondiente:
hclust_obj <- hclust(distancias)
hclust_obj
## 
## Call:
## hclust(d = distancias)
## 
## Cluster method   : complete 
## Distance         : euclidean 
## Number of objects: 5

3. Alturas en el dendograma.

Con el objeto hclust_obj, se pueden obtener las alturas de los clústeres:

heights <- hclust_obj$height
heights
## [1] 1.000000 2.000000 3.605551 8.485281

29.0.4 hclust: ejemplo con otros métodos

Se puede cambiar el criterio utilizado en el análisis de conglomerados (cluster analysis) para medir la distancia entre dos grupos de datos. Por ejemplo, se puede agregar el argumento method = "ward.D" (o method = "ward.D2") dentro de la función hclust.

1. Calcular el dendrograma con el método ward.D

hclust_obj_D <- hclust(distancias, method = "ward.D")
plot(hclust_obj_D, labels = datos$ID, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

2. Calcular el dendrograma con el método ward.D2.

hclust_obj_D2 <- hclust(distancias, method = "ward.D2")
plot(hclust_obj_D2, labels = datos$ID, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

30 Distancias para datos numéricos

30.0.1 Base de datos

Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables.

datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names")   #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
##  [1] "Observation"  "ID"           "Gender"       "Like"         "Age"         
##  [6] "Smoke"        "Height"       "Weight"       "BMI"          "School"      
## [11] "SES"          "Enrollment"   "Score"        "MotherHeight" "MotherAge"   
## [16] "MotherCHD"    "FatherHeight" "FatherAge"    "FatherCHD"    "Status"      
## [21] "SemAcum"      "Exam1"        "Exam2"        "Exam3"        "Exam4"       
## [26] "ExamAcum"     "Definitive"   "Expense"      "Income"       "Gas"         
## [31] "Course"       "Law"          "Economic"     "Race"         "Region"      
## [36] "EMO1"         "EMO2"         "EMO3"         "EMO4"         "EMO5"        
## [41] "GOAL1"        "GOAL2"        "GOAL3"        "Pre_STAT1"    "Pre_STAT2"   
## [46] "Pre_STAT3"    "Pre_STAT4"    "Post_STAT1"   "Post_STAT2"   "Post_STAT3"  
## [51] "Post_STAT4"   "Pre_IDARE1"   "Pre_IDARE2"   "Pre_IDARE3"   "Pre_IDARE4"  
## [56] "Pre_IDARE5"   "Post_IDARE1"  "Post_IDARE2"  "Post_IDARE3"  "Post_IDARE4" 
## [61] "Post_IDARE5"  "PSICO1"       "PSICO2"       "PSICO3"       "PSICO4"      
## [66] "PSICO5"

30.0.2 Solo datos numéricos

Solo utilizaremos algunas variables numéricas.

dat <- datosCompleto[, 21:24]
names(dat)
## [1] "SemAcum" "Exam1"   "Exam2"   "Exam3"

30.0.3 Ejemplo: muestreo

Seleccionaremos aleatoriamente solo una parte de los datos tomando 15 filas al azar de las primeras 50 filas disponibles en el conjunto de datos. Esto lo haremos utilizando la función sample. Después, normalizaremos los datos utilizando la función scale.

set.seed(123) # Semilla
ss <- sample(1:50, 15) # Tomando 15 filas aleatoriamente
df <- dat[ss, ] # Subconjunto de las 15 filas
df.scaled <- scale(df) # Estandarizando las variables
##  [1] 31 15 14  3 42 43 37 48 25 26 27  5 40 28  9
## # A tibble: 15 × 4
##    SemAcum Exam1 Exam2 Exam3
##      <dbl> <dbl> <dbl> <dbl>
##  1    4.35   1     2     2.8
##  2    4.1    2.8   2.3   3.5
##  3    3      2.7   2.3   3.3
##  4    4.15   3.4   3.6   2  
##  5    3.5    4.3   3     2.4
##  6    4.2    4     3     5  
##  7    2.7    5     3.2   2.6
##  8    3.9    4     4     1.5
##  9    2.7    2.5   3     4  
## 10    2.8    4.2   4.7   3.2
## 11    3.55   4.7   3.8   2.9
## 12    3.45   3.1   3.5   5  
## 13    4.3    3.2   1.7   1.2
## 14    2.85   3.1   3     2.9
## 15    4.3    2.5   3.3   3.8
##           SemAcum       Exam1      Exam2      Exam3
##  [1,]  1.18475533 -2.29767791 -1.3783042 -0.2479779
##  [2,]  0.79503318 -0.55014823 -1.0001110  0.3870874
##  [3,] -0.91974427 -0.64723321 -1.0001110  0.2056402
##  [4,]  0.87297761  0.03236166  0.6387263 -0.9737669
##  [5,] -0.14029997  0.90612650 -0.1176601 -0.6108724
##  [6,]  0.95092204  0.61487155 -0.1176601  1.7479417
##  [7,] -1.38741085  1.58572137  0.1344687 -0.4294251
##  [8,]  0.48325547  0.61487155  1.1429840 -1.4273850
##  [9,] -1.38741085 -0.84140318 -0.1176601  0.8407055
## [10,] -1.23152199  0.80904152  2.0254349  0.1149166
## [11,] -0.06235554  1.29446643  0.8908552 -0.1572543
## [12,] -0.21824440 -0.25889329  0.5126619  1.7479417
## [13,]  1.10681090 -0.16180830 -1.7564974 -1.6995558
## [14,] -1.15357756 -0.25889329 -0.1176601 -0.1572543
## [15,]  1.10681090 -0.84140318  0.2605331  0.6592583
## attr(,"scaled:center")
##  SemAcum    Exam1    Exam2    Exam3 
## 3.590000 3.366667 3.093333 3.073333 
## attr(,"scaled:scale")
##   SemAcum     Exam1     Exam2     Exam3 
## 0.6414827 1.0300254 0.7932453 1.1022488

30.0.4 Funciones y paquetes en R

Hay diversas funciones y paquetes en R que proporcionan opciones para calcular distancias entre pares de observaciones:

  1. La función dist, parte de la base de R y del paquete stats, se utiliza exclusivamente con datos numéricos como entrada.

  2. La función get_dist, del paquete factoextra, también requiere datos numéricos como entrada. A diferencia de la función dist estándar, esta ofrece soporte para medidas de distancia basadas en correlación, como los métodos pearson, kendall y spearman.

  3. La función daisy, del paquete cluster, es capaz de manejar otros tipos de variables, como nominales, ordinales y binarias (asimétricas). En estos casos, automáticamente emplea el coeficiente de Gower como métrica. Esta es una de las medidas de proximidad más populares para datos de tipos mixtos. Para obtener más detalles, se puede consultar la documentación de R de la función daisy (?daisy).

Todas estas funciones calculan las distancias entre las filas de los datos.

30.0.5 Distancia euclidiana

Para calcular la distancia euclidiana, se puede emplear la función dist básica de R de la siguiente manera:

dist.eucl <- dist(df.scaled, method = "euclidean") 
dist.eucl
##            1         2         3         4         5         6         7
## 2  1.9370290                                                            
## 3  2.7389205 1.7270814                                                  
## 4  3.1814260 2.2097750 2.7843293                                        
## 5  3.7068923 2.1840851 2.1132610 1.5792433                              
## 6  3.7564000 2.0030518 2.8722316 2.8853442 2.6152627                    
## 7  4.9008401 3.3584170 2.6259050 2.8412790 1.4538318 3.3488574          
## 8  4.0893693 3.0560829 3.2895203 0.9753186 1.6521402 3.4482800 2.5406630
## 9  3.3928204 2.4150322 1.1993505 3.1204570 2.5915679 2.9002783 2.7509516
## 10 5.2160554 3.8964506 3.3734404 2.8531285 2.5139246 3.4728074 2.1212246
## 11 4.4290068 2.8301554 2.8657910 1.7883004 1.1746300 2.4769852 1.5769586
## 12 3.6992566 2.2917171 2.3043624 2.9494381 2.7064102 1.5898808 3.1070098
## 13 2.6111536 2.2746898 2.9230901 2.5211598 2.5625748 3.8985331 3.8031549
## 14 3.3499101 2.2264188 1.0563607 2.3303580 1.6092768 2.9702114 1.8960293
## 15 2.3739580 1.3584312 2.4371337 1.9047163 2.5229759 1.8636789 3.6487258
##            8         9        10        11        12        13        14
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9  3.5147669                                                            
## 10 2.4770097 2.8049768                                                  
## 11 1.5608784 2.8863017 1.7216084                                        
## 12 3.4257222 1.7107459 2.6687955 2.4919931                              
## 13 3.0778438 3.9776509 4.8995584 3.5881550 4.3358414                    
## 14 2.5778175 1.1789485 2.4111186 2.1496034 2.2140293 3.1911226          
## 15 2.7644813 2.5292480 3.4063110 2.6444069 1.8286306 3.1771474 2.5016788

Es relevante notar que los valores permitidos para el parámetro method incluyen uno de los siguientes: euclidean, maximum, manhattan, canberra, binary, minkowski.

30.0.6 Distancia euclidiana como matriz

Para hacer más fácil la visualización de la información de distancia generada por la función dist, se puede redefinir el vector de distancia en una matriz utilizando la función as.matrix.

# Redefiniendo como una matriz.
# Subconjunto de las 3 primeras filas y colunas y redondeando los valores. 
round(as.matrix(dist.eucl)[1:3, 1:3], 1)
##     1   2   3
## 1 0.0 1.9 2.7
## 2 1.9 0.0 1.7
## 3 2.7 1.7 0.0

30.0.7 Distancia euclidiana: interpretación

  1. En esta matriz, cada valor indica la distancia entre objetos.

  2. Los valores en la diagonal de la matriz muestran la distancia entre un objeto y sí mismo, lo cual siempre es cero.

  3. En este conjunto de datos, las columnas representan variables.

  4. Por lo tanto, si deseamos calcular distancias entre pares de variables, primero debemos cambiar la disposición de los datos para tener las variables en las filas antes de emplear la función dist.

  5. Recuerde que, para hacer esta transposición de datos, utilizamos la función t.

30.0.8 Distancias basadas en correlaciones

Las distancias que se derivan de correlaciones son ampliamente empleadas en el análisis de datos de expresión genética. La función get_dist del paquete factoextra permite calcular estas distancias, utilizando métodos de correlación como pearson, spearman o kendall.

# Calculando
library("factoextra")
dist.cor <- get_dist(df.scaled, method = "pearson")

# Mostrando un subconjunto
round(as.matrix(dist.cor)[1:3, 1:3], 1)
##     1   2   3
## 1 0.0 0.1 1.0
## 2 0.1 0.0 0.6
## 3 1.0 0.6 0.0

31 Distancias para datos mixtos

31.0.1 Datos mixtos

df.mix <- datosCompleto[1:23, c(21:24, 36:40)]
attach(df.mix)
head(df.mix,4) 
## # A tibble: 4 × 9
##   SemAcum Exam1 Exam2 Exam3  EMO1  EMO2  EMO3  EMO4  EMO5
##     <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1    4.25   1.5   5     5       1     2     2     1     4
## 2    2.8    2.3   4.9   3.7     4     4     1     2     1
## 3    4.15   3.4   3.6   2       3     1     3     3     2
## 4    3.2    2.5   4.2   5       4     2     3     1     2
names(df.mix)
## [1] "SemAcum" "Exam1"   "Exam2"   "Exam3"   "EMO1"    "EMO2"    "EMO3"   
## [8] "EMO4"    "EMO5"

31.0.2 Structure de los datos mixtos

# Data structure
str(df.mix)
## tibble [23 × 9] (S3: tbl_df/tbl/data.frame)
##  $ SemAcum: num [1:23] 4.25 2.8 4.15 3.2 3.45 2.75 2.7 4.35 4.3 2.8 ...
##  $ Exam1  : num [1:23] 1.5 2.3 3.4 2.5 3.1 3.8 5 4 2.5 2.4 ...
##  $ Exam2  : num [1:23] 5 4.9 3.6 4.2 3.5 4.4 3 2.3 3.3 2.6 ...
##  $ Exam3  : num [1:23] 5 3.7 2 5 5 4.2 3.5 4.6 3.8 4.3 ...
##  $ EMO1   : num [1:23] 1 4 3 4 2 3 2 3 4 2 ...
##  $ EMO2   : num [1:23] 2 4 1 2 1 1 4 1 2 2 ...
##  $ EMO3   : num [1:23] 2 1 3 3 2 4 2 4 3 3 ...
##  $ EMO4   : num [1:23] 1 2 3 1 4 2 3 2 1 1 ...
##  $ EMO5   : num [1:23] 4 1 2 2 2 2 1 1 2 2 ...

31.0.3 Función cluster::daisy

La función daisy del paquete cluster ofrece una solución (la métrica de Gower) para calcular la matriz de distancias en situaciones donde los datos contienen columnas no numéricas. El código R a continuación aplica la función daisy a datos que contienen variables factor, ordenadas y numéricas.

library(cluster)
dd <- daisy(df.mix)
round(as.matrix(dd)[1:3, 1:3], 2)
##      1    2    3
## 1 0.00 5.33 5.35
## 2 5.33 0.00 4.86
## 3 5.35 4.86 0.00

32 Visualizando matrices de distancia

32.0.1 La gráfica

  1. Una manera sencilla de representar visualmente las matrices de distancia es emplear la función fviz_dist del paquete factoextra.

  2. También se pueden utilizar otros métodos especializados, como el agrupamiento jerárquico aglomerativo (agglomerative hierarchical clustering) o el mapa de calor (heatmap).

Para utilizar fviz_dist, simplemente se debe escribir:

library(factoextra)
fviz_dist(dist.eucl)

32.0.2 Interpretación

El nivel de color varía según el valor de la disimilitud entre las observaciones será:

  1. Rojo intenso si \(dist(x_i, x_j) = 0\). Es decir, si hay alta similaridad (o, baja disimilaridad).

  2. Azul intenso si \(dist(x_i, x_j) = 1\). Es decir, si hay baja similaridad.

Los objetos pertenecientes al mismo grupo se muestran en orden consecutivo.

33 Ejercicios

Pendiente

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
