Pasos (jerárquico ascendente)
El proceso que se debe seguir en un Análisis Clúster Jerárquico ascendente se puede resumir como sigue:
Paso 1: Selección de las variables. Se aconseja que las variables tengan características similares (continuas, categóricas, etc.).
Paso 2: Detección de valores atípicos. La presencia de elementos significativamente diferentes al resto puede afectar considerablemente los resultados del análisis de clústeres.
Paso 3: Elección de una medida de similitud entre objetos y obtención de la matriz de distancias. Estas medidas ayudan a establecer los grupos iniciales en un análisis de clustering.
Paso 4: Identificar los clústeres más similares.
Paso 5: Fusionar estos dos clústeres en uno nuevo que contenga al menos dos elementos, reduciendo así en uno el número total de clústeres.
Paso 6: Calcular la distancia entre este clúster y el resto. Diferentes métodos de cálculo de distancias entre clústeres pueden conducir a agrupaciones distintas, lo que implica que no existe una agrupación única.
Paso 7: Repetir los pasos del 4 al 6 hasta que todos los elementos estén agrupados en un único clúster.
Paso 8: Puede dibujar el dendograma.
El proceso de agrupación jerárquica se puede representar visualmente mediante un dendrograma. En este diagrama, los objetos similares se conectan entre sí y su posición está determinada por el nivel de similitud o disimilitud entre ellos.
Ejemplo (jerárquico ascendente)
Datos para el ejemplo
Vamos a seguir el procedimiento descrito utilizando un ejemplo simple. Este ejemplo consta de 5 objetos (A, B, C, D, E) y 2 variables (\(X_1\), \(X_2\)). Los datos se muestran a continuación:
datos <- data.frame(
ID = c("A", "B", "C", "D", "E"),
x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))
print(datos)
## ID x1 x2
## 1 A 1 1
## 2 B 2 1
## 3 C 4 5
## 4 D 7 7
## 5 E 5 7
Pasos 1 y 2
Con ayuda del diagrama de dispersión, vemos que no hay valores atípicos.
ggplot(datos,aes(x = x1, y = x2, color=ID)) +
geom_point(size = 3) +
scale_color_brewer(palette="Set1") +
labs(x = "x1", y = "x2",
title = "Diagrama de dispersión")

Paso 3
Distancia euclidiana.
La medida de distancia que utilizaremos entre los objetos será la distancia euclidiana, cuya expresión se define como sigue
\[D(A, B) = \sqrt{ (x_{A_1} - x_{B_1})^2 + (x_{A_2} - x_{B_2})^2 }\]
# Función para calcular la distancia euclidiana
distancia_euclidiana <- function(x1, y1, x2, y2){sqrt((x2 - x1)^2 + (y2 - y1)^2)}
Distancia euclidiana entre A y B
Esta expresión representa la distancia euclidiana entre dos puntos \(A\) y \(B\)
en un espacio bidimensional definido por las coordenadas \(x_1\) y \(x_2\). Así, por ejemplo, la distancia entre el clúster \(A\) y el clúster \(B\) es:
\[D(A, B) \;=\; \sqrt{ (2.0 - 1.0)^2 + (1.0 - 1.0)^2 } \;=\; 1.0\]
# Calcular la distancia euclidiana de A a B
distancia_AB <- distancia_euclidiana( datos$x1[datos$ID == "A"],
datos$x2[datos$ID == "A"],
datos$x1[datos$ID == "B"],
datos$x2[datos$ID == "B"] )
print(distancia_AB)
## [1] 1
Distancia euclidiana entre todos los puntos.
Calculamos la distancia Euclidiana entre todos los puntos y obtenemos la siguiente matriz de distancias Euclidianas entre los objetos:
# Calcular las distancias euclidianas entre todos los pares de puntos
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))
rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID
for (i in 1:nrow(datos)) {
for (j in 1:nrow(datos)) {
distancias[i, j] <- distancia_euclidiana( datos$x1[i],
datos$x2[i],
datos$x1[j],
datos$x2[j])
}
}
distancias <- round(distancias, 2)
print(distancias)
## A B C D E
## A 0.00 1.00 5.00 8.49 7.21
## B 1.00 0.00 4.47 7.81 6.71
## C 5.00 4.47 0.00 3.61 2.24
## D 8.49 7.81 3.61 0.00 2.00
## E 7.21 6.71 2.24 2.00 0.00
datos <- data.frame(
ID = c("A", "B", "C", "D", "E"),
x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))
distancias <- dist(datos[, c("x1", "x2")])
library(factoextra)
fviz_dist(distancias)

Distancia euclidiana entre todos los puntos (como matriz triangular inferior).
# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))
rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID
for (i in 1:nrow(datos)) {
for (j in 1:(i-1)) {
distancias[i, j] <- distancia_euclidiana( datos$x1[i],
datos$x2[i],
datos$x1[j],
datos$x2[j] )
}
}
distancias <- round(distancias, 2)
print(distancias)
## A B C D E
## A 0.00 NA NA NA NA
## B 1.00 NA NA NA NA
## C 5.00 4.47 NA NA NA
## D 8.49 7.81 3.61 NA NA
## E 7.21 6.71 2.24 2 NA
Estamos empleando el método jerárquico ascendente, por lo que inicialmente tenemos 5 clústeres, uno por cada uno de los objetos a clasificar.
Paso 4
Examinamos la matriz de distancias para identificar los objetos más similares, que en nuestro caso son \(A\) y \(B\), con la menor distancia (igual a 1).
Paso 5
Fusionamos los clústeres más similares para formar un nuevo clúster que incluye a \(A\) y \(B\). Así, se crean los clústeres: \(AB\), \(C\), \(D\) y \(E\).
Paso 6
Centroide de A y B.
Para determinar la distancia entre el clúster \(AB\) y los objetos \(C\), \(D\) y \(E\), empleamos el centroide como la representación del clúster \(AB\). Esto implica utilizar un punto cuyas coordenadas sean las medias de los valores de las componentes de las variables. Así, obtenemos las coordenadas del clúster \(AB\) como
\[\text{Coordenadas del centroide AB} \;=\; \left( \frac{{x_A + x_B}}{2},\, \frac{{y_A + y_B}}{2} \right) \;=\; \left( \frac{{1.0 + 2.0}}{2},\, \frac{{1.0 + 1.0}}{2} \right) \;=\; \left(1.5,\, 1.0\right)\]
Nuevos datos basados en el centroide de A y B.
La nueva tabla de datos es la siguiente:
datos <- data.frame(
ID = c("AB", "C", "D", "E"),
x1 = c(1.5, 4.0, 7.0, 5.0),
x2 = c(1.0, 5.0, 7.0, 7.0))
print(datos)
## ID x1 x2
## 1 AB 1.5 1
## 2 C 4.0 5
## 3 D 7.0 7
## 4 E 5.0 7
Paso 7a
Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.
Paso 4.
Con los nuevos datos, calculamos la matriz de distancias.
# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))
rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID
for (i in 1:nrow(datos)) {
for (j in 1:(i-1)) {
distancias[i, j] <- distancia_euclidiana( datos$x1[i],
datos$x2[i],
datos$x1[j],
datos$x2[j] )
}
}
distancias <- round(distancias, 2)
print(distancias)
## AB C D E
## AB 0.00 NA NA NA
## C 4.72 NA NA NA
## D 8.14 3.61 NA NA
## E 6.95 2.24 2 NA
Paso 5.
Identificamos que los clústeres más similares son \(D\) y \(E\), con una distancia de 2.0, los cuales se combinan en un nuevo clúster llamado \(DE\). Ahora tenemos tres clústeres: \(AB\), \(C\), \(DE\).
Paso 6.
Determinamos el centroide del nuevo clúster, el cual es el punto:
\[\text{Coordenadas del centroide DE} \;=\; \left(\frac{7.0+5.0}{2},\, \frac{7.0+7.0}{2}\right) \;=\; (6.0,\, 7.0)\]
En consecuencia, actualizamos la tabla de datos:
datos <- data.frame(
ID = c("AB", "C", "DE"),
x1 = c(1.5, 4.0, 6.0),
x2 = c(1.0, 5.0, 7.0))
print(datos)
## ID x1 x2
## 1 AB 1.5 1
## 2 C 4.0 5
## 3 DE 6.0 7
Paso 7b
Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.
Paso 4.
Con los nuevos datos, calculamos la matriz de distancias.
# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))
rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID
for (i in 1:nrow(datos)) {
for (j in 1:(i-1)) {
distancias[i, j] <- distancia_euclidiana( datos$x1[i],
datos$x2[i],
datos$x1[j],
datos$x2[j] )
}
}
distancias <- round(distancias, 2)
print(distancias)
## AB C DE
## AB 0.00 NA NA
## C 4.72 NA NA
## DE 7.50 2.83 NA
Paso 5.
Identificamos que los clústeres más similares son \(C\) y \(DE\), con una distancia de 2.83 entre ellos. Estos se combinan para formar un nuevo clúster denominado CDE. En este punto, hemos generado dos clústeres: \(AB\) y \(CDE\).
Paso 6.
Determinamos el centroide del nuevo clúster \(CDE\) calculando las medias de las coordenadas de sus componentes:
\[\text{Coordenadas del centroide CDE} \;=\; \left(\frac{4.0+5.0+7.0}{3},\, \frac{5.0+7.0+7.0}{3}\right) \;=\; (5.3,\, 6.3)\]
Posteriormente, creamos una nueva tabla de datos.
datos <- data.frame(
ID = c("AB", "CDE"),
x1 = c(1.5, 5.3),
x2 = c(1.0, 6.3))
print(datos)
## ID x1 x2
## 1 AB 1.5 1.0
## 2 CDE 5.3 6.3
Paso 7c
Iteramos nuevamente desde el paso 4 hasta que todos los objetos se agrupen en un único clúster.
Paso 4.
Con los nuevos datos, calculamos la matriz de distancias.
# Calcular las distancias euclidianas entre todos los pares de puntos (matriz triangular inferior)
distancias <- matrix(NA, nrow = nrow(datos), ncol = nrow(datos))
rownames(distancias) <- datos$ID
colnames(distancias) <- datos$ID
for (i in 1:nrow(datos)) {
for (j in 1:(i-1)) {
distancias[i, j] <- distancia_euclidiana( datos$x1[i],
datos$x2[i],
datos$x1[j],
datos$x2[j] )
}
}
distancias <- round(distancias, 2)
print(distancias)
## AB CDE
## AB 0.00 NA
## CDE 6.52 NA
En este último paso, observamos que hay solo dos clústeres con una distancia de 6.5 entre ellos. Estos dos clústeres se fusionarán en un único clúster en el siguiente paso, lo que marcará el final del proceso.
Paso 8a: dendograma
A continuación, visualizaremos el proceso de fusión de manera gráfica utilizando un dendrograma.
# Cargar las librerías necesarias
library(ggplot2)
library(dendextend)
# Crear los datos
datos <- data.frame(
ID = c("A", "B", "C", "D", "E"),
x1 = c(1.0, 2.0, 4.0, 7.0, 5.0),
x2 = c(1.0, 1.0, 5.0, 7.0, 7.0))
# Convertir los datos en una matriz de distancias
distancias <- dist(datos[, c("x1", "x2")])
# Calcular el dendrograma
dendrograma <- as.dendrogram(hclust(distancias))
# Establecer las etiquetas de los objetos
labels <- datos$ID
# Asignar etiquetas al dendrograma
labels(dendrograma) <- labels
# Graficar el dendrograma
plot(dendrograma, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

La función hclust
hclust
: Observaciones generales
La función hclust
se utiliza para realizar un agrupamiento jerárquico de un conjunto de datos. T
La función hclust
proporciona varios métodos que se pueden utilizar para realizar agrupamientos jerárquicos.
Estos métodos determinan cómo se calculan las distancias entre los grupos en cada paso del algoritmo de agrupamiento.
Estos métodos son útiles para diferentes tipos de datos y pueden conducir a diferentes estructuras de agrupamiento. La elección del método depende del tipo de datos y del objetivo del análisis.
hclust
: métodos
Aquí están algunos de los métodos disponibles y para qué se utilizan:
1. method = complete"
(también conocido como método de enlace completo).
Este método calcula la distancia máxima entre los puntos de los dos grupos.
La distancia entre dos grupos se define como la mayor distancia entre un punto del primer grupo y un punto del segundo grupo.
Se utiliza cuando se quiere evitar que los puntos lejanos de un grupo afecten demasiado al cálculo de la distancia entre grupos.
2. method = "single"
(también conocido como método de enlace simple).
Este método calcula la distancia mínima entre los puntos de los dos grupos.
La distancia entre dos grupos se define como la menor distancia entre un punto del primer grupo y un punto del segundo grupo.
+Este método es sensible a puntos atípicos y puede generar grupos alargados.
3. method = "average"
(también conocido como método de enlace promedio).
Este método calcula la distancia promedio entre todos los pares de puntos de los dos grupos.
La distancia entre dos grupos se define como el promedio de todas las distancias entre los puntos de los dos grupos.
Es un método más robusto que el enlace simple y menos sensible a puntos atípicos.
4. method = "ward.D"
(método de Ward con la distancia al cuadrado).
Este método minimiza la varianza cuando se fusionan dos grupos. Utiliza la distancia al cuadrado entre los centroides de los grupos para evaluar cuánto aumentará la varianza total cuando se fusionen dos grupos.
Se utiliza cuando se desea que los grupos resultantes tengan una varianza mínima dentro de ellos.
5. method = "ward.D2"
(método de Ward con la distancia euclidiana al cuadrado).
Similar a "ward.D"
, pero utiliza la distancia euclidiana al cuadrado entre los centroides de los grupos.
Su fórmula es diferente a la de "ward.D"
.
hclust
: ejemplo anterior (alturas)
En el código mostrado en el paso 8b del ejemplo anterior:
1. Objeto.
La función hclust
toma como entrada una matriz de distancias entre los puntos de datos y devuelve un objeto de tipo hclust
, que representa la jerarquía de agrupamientos.
2. output.
- Se puede definir el objeto correspondiente así y obtener el output correspondiente:
hclust_obj <- hclust(distancias)
hclust_obj
##
## Call:
## hclust(d = distancias)
##
## Cluster method : complete
## Distance : euclidean
## Number of objects: 5
3. Alturas en el dendograma.
Con el objeto hclust_obj
, se pueden obtener las alturas de los clústeres:
heights <- hclust_obj$height
heights
## [1] 1.000000 2.000000 3.605551 8.485281
hclust
: ejemplo con otros métodos
Se puede cambiar el criterio utilizado en el análisis de conglomerados (cluster analysis) para medir la distancia entre dos grupos de datos. Por ejemplo, se puede agregar el argumento method = "ward.D"
(o method = "ward.D2"
) dentro de la función hclust
.
1. Calcular el dendrograma con el método ward.D
hclust_obj_D <- hclust(distancias, method = "ward.D")
plot(hclust_obj_D, labels = datos$ID, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

2. Calcular el dendrograma con el método ward.D2
.
hclust_obj_D2 <- hclust(distancias, method = "ward.D2")
plot(hclust_obj_D2, labels = datos$ID, main = "Dendrograma", xlab = "Objetos", ylab = "Distancia")

Distancias para datos numéricos
Base de datos
Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables.
datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names") #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
## [1] "Observation" "ID" "Gender" "Like" "Age"
## [6] "Smoke" "Height" "Weight" "BMI" "School"
## [11] "SES" "Enrollment" "Score" "MotherHeight" "MotherAge"
## [16] "MotherCHD" "FatherHeight" "FatherAge" "FatherCHD" "Status"
## [21] "SemAcum" "Exam1" "Exam2" "Exam3" "Exam4"
## [26] "ExamAcum" "Definitive" "Expense" "Income" "Gas"
## [31] "Course" "Law" "Economic" "Race" "Region"
## [36] "EMO1" "EMO2" "EMO3" "EMO4" "EMO5"
## [41] "GOAL1" "GOAL2" "GOAL3" "Pre_STAT1" "Pre_STAT2"
## [46] "Pre_STAT3" "Pre_STAT4" "Post_STAT1" "Post_STAT2" "Post_STAT3"
## [51] "Post_STAT4" "Pre_IDARE1" "Pre_IDARE2" "Pre_IDARE3" "Pre_IDARE4"
## [56] "Pre_IDARE5" "Post_IDARE1" "Post_IDARE2" "Post_IDARE3" "Post_IDARE4"
## [61] "Post_IDARE5" "PSICO1" "PSICO2" "PSICO3" "PSICO4"
## [66] "PSICO5"
Solo datos numéricos
Solo utilizaremos algunas variables numéricas.
dat <- datosCompleto[, 21:24]
names(dat)
## [1] "SemAcum" "Exam1" "Exam2" "Exam3"
Ejemplo: muestreo
Seleccionaremos aleatoriamente solo una parte de los datos tomando 15 filas al azar de las primeras 50 filas disponibles en el conjunto de datos. Esto lo haremos utilizando la función sample
. Después, normalizaremos los datos utilizando la función scale
.
set.seed(123) # Semilla
ss <- sample(1:50, 15) # Tomando 15 filas aleatoriamente
df <- dat[ss, ] # Subconjunto de las 15 filas
df.scaled <- scale(df) # Estandarizando las variables
## [1] 31 15 14 3 42 43 37 48 25 26 27 5 40 28 9
## # A tibble: 15 × 4
## SemAcum Exam1 Exam2 Exam3
## <dbl> <dbl> <dbl> <dbl>
## 1 4.35 1 2 2.8
## 2 4.1 2.8 2.3 3.5
## 3 3 2.7 2.3 3.3
## 4 4.15 3.4 3.6 2
## 5 3.5 4.3 3 2.4
## 6 4.2 4 3 5
## 7 2.7 5 3.2 2.6
## 8 3.9 4 4 1.5
## 9 2.7 2.5 3 4
## 10 2.8 4.2 4.7 3.2
## 11 3.55 4.7 3.8 2.9
## 12 3.45 3.1 3.5 5
## 13 4.3 3.2 1.7 1.2
## 14 2.85 3.1 3 2.9
## 15 4.3 2.5 3.3 3.8
## SemAcum Exam1 Exam2 Exam3
## [1,] 1.18475533 -2.29767791 -1.3783042 -0.2479779
## [2,] 0.79503318 -0.55014823 -1.0001110 0.3870874
## [3,] -0.91974427 -0.64723321 -1.0001110 0.2056402
## [4,] 0.87297761 0.03236166 0.6387263 -0.9737669
## [5,] -0.14029997 0.90612650 -0.1176601 -0.6108724
## [6,] 0.95092204 0.61487155 -0.1176601 1.7479417
## [7,] -1.38741085 1.58572137 0.1344687 -0.4294251
## [8,] 0.48325547 0.61487155 1.1429840 -1.4273850
## [9,] -1.38741085 -0.84140318 -0.1176601 0.8407055
## [10,] -1.23152199 0.80904152 2.0254349 0.1149166
## [11,] -0.06235554 1.29446643 0.8908552 -0.1572543
## [12,] -0.21824440 -0.25889329 0.5126619 1.7479417
## [13,] 1.10681090 -0.16180830 -1.7564974 -1.6995558
## [14,] -1.15357756 -0.25889329 -0.1176601 -0.1572543
## [15,] 1.10681090 -0.84140318 0.2605331 0.6592583
## attr(,"scaled:center")
## SemAcum Exam1 Exam2 Exam3
## 3.590000 3.366667 3.093333 3.073333
## attr(,"scaled:scale")
## SemAcum Exam1 Exam2 Exam3
## 0.6414827 1.0300254 0.7932453 1.1022488
Funciones y paquetes en R
Hay diversas funciones y paquetes en R que proporcionan opciones para calcular distancias entre pares de observaciones:
La función dist
, parte de la base de R y del paquete stats
, se utiliza exclusivamente con datos numéricos como entrada.
La función get_dist
, del paquete factoextra
, también requiere datos numéricos como entrada. A diferencia de la función dist
estándar, esta ofrece soporte para medidas de distancia basadas en correlación, como los métodos pearson
, kendall
y spearman
.
La función daisy
, del paquete cluster
, es capaz de manejar otros tipos de variables, como nominales, ordinales y binarias (asimétricas). En estos casos, automáticamente emplea el coeficiente de Gower como métrica. Esta es una de las medidas de proximidad más populares para datos de tipos mixtos. Para obtener más detalles, se puede consultar la documentación de R de la función daisy
(?daisy
).
Todas estas funciones calculan las distancias entre las filas de los datos.
Distancia euclidiana
Para calcular la distancia euclidiana, se puede emplear la función dist
básica de R de la siguiente manera:
dist.eucl <- dist(df.scaled, method = "euclidean")
dist.eucl
## 1 2 3 4 5 6 7
## 2 1.9370290
## 3 2.7389205 1.7270814
## 4 3.1814260 2.2097750 2.7843293
## 5 3.7068923 2.1840851 2.1132610 1.5792433
## 6 3.7564000 2.0030518 2.8722316 2.8853442 2.6152627
## 7 4.9008401 3.3584170 2.6259050 2.8412790 1.4538318 3.3488574
## 8 4.0893693 3.0560829 3.2895203 0.9753186 1.6521402 3.4482800 2.5406630
## 9 3.3928204 2.4150322 1.1993505 3.1204570 2.5915679 2.9002783 2.7509516
## 10 5.2160554 3.8964506 3.3734404 2.8531285 2.5139246 3.4728074 2.1212246
## 11 4.4290068 2.8301554 2.8657910 1.7883004 1.1746300 2.4769852 1.5769586
## 12 3.6992566 2.2917171 2.3043624 2.9494381 2.7064102 1.5898808 3.1070098
## 13 2.6111536 2.2746898 2.9230901 2.5211598 2.5625748 3.8985331 3.8031549
## 14 3.3499101 2.2264188 1.0563607 2.3303580 1.6092768 2.9702114 1.8960293
## 15 2.3739580 1.3584312 2.4371337 1.9047163 2.5229759 1.8636789 3.6487258
## 8 9 10 11 12 13 14
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9 3.5147669
## 10 2.4770097 2.8049768
## 11 1.5608784 2.8863017 1.7216084
## 12 3.4257222 1.7107459 2.6687955 2.4919931
## 13 3.0778438 3.9776509 4.8995584 3.5881550 4.3358414
## 14 2.5778175 1.1789485 2.4111186 2.1496034 2.2140293 3.1911226
## 15 2.7644813 2.5292480 3.4063110 2.6444069 1.8286306 3.1771474 2.5016788
Es relevante notar que los valores permitidos para el parámetro method
incluyen uno de los siguientes: euclidean
, maximum
, manhattan
, canberra
, binary
, minkowski
.
Distancia euclidiana como matriz
Para hacer más fácil la visualización de la información de distancia generada por la función dist
, se puede redefinir el vector de distancia en una matriz utilizando la función as.matrix
.
# Redefiniendo como una matriz.
# Subconjunto de las 3 primeras filas y colunas y redondeando los valores.
round(as.matrix(dist.eucl)[1:3, 1:3], 1)
## 1 2 3
## 1 0.0 1.9 2.7
## 2 1.9 0.0 1.7
## 3 2.7 1.7 0.0
Distancia euclidiana: interpretación
En esta matriz, cada valor indica la distancia entre objetos.
Los valores en la diagonal de la matriz muestran la distancia entre un objeto y sí mismo, lo cual siempre es cero.
En este conjunto de datos, las columnas representan variables.
Por lo tanto, si deseamos calcular distancias entre pares de variables, primero debemos cambiar la disposición de los datos para tener las variables en las filas antes de emplear la función dist
.
Recuerde que, para hacer esta transposición de datos, utilizamos la función t
.
Distancias basadas en correlaciones
Las distancias que se derivan de correlaciones son ampliamente empleadas en el análisis de datos de expresión genética. La función get_dist
del paquete factoextra
permite calcular estas distancias, utilizando métodos de correlación como pearson
, spearman
o kendall
.
# Calculando
library("factoextra")
dist.cor <- get_dist(df.scaled, method = "pearson")
# Mostrando un subconjunto
round(as.matrix(dist.cor)[1:3, 1:3], 1)
## 1 2 3
## 1 0.0 0.1 1.0
## 2 0.1 0.0 0.6
## 3 1.0 0.6 0.0
