Planeación estratégica basada en analítica prescriptiva

Grupo 503

Profesor Rodolfo Miguel Gameros

Equipo 7:

A00833113 - Avril Lobato

A01771127 - Lesly Darian Romero Vázquez

A00831105 - Jazmín del Carmen Cortez Mendoza

A01284611 - Lisset Hernández

Actividad 04. K-Medias (Distancia - Canberra y Gap_Stat)

Introducción

El Análisis de Clusters mediante el Algoritmo de K-Medias es un algoritmo de agrupamiento no supervisado que divide un conjunto de datos en K grupos o clústeres. Su objetivo es minimizar la varianza intra-clúster (la distancia entre los puntos y su centroide). Se caracteriza porque requiere especificar el número de clústeres (K),asume que los clústeres son esféricos y de similar tamaño; y comúnmente utilizala distancia Euclidiana pero se puede adaptar a otras métricas (como Canberra).

La distancia de Canberra es una medida de disimilitud entre dos vectores numéricos. Es útil cuando el análisis de datos cuenta con muchas dimensiones (features), principalmente cuando los datos contienen valores cercanos a cero, ya que penaliza más las pequeñas diferencias relativas.

Asimismo, el Estadístico de Brecha (Gap Statistic) es una técnica utilizada para determinar el número óptimo de clústeres (k) al aplicar el algoritmo K-Means. A diferencia del método del codo (Elbow Method), que se basa únicamente en la variación interna de los clústeres (Wk), el Gap Statistic compara ese valor con el esperado bajo una distribución de referencia aleatoria, es decir, sin una estructura de clústeres definida. Mientras que el método del codo identifica el k óptimo mediante un punto de inflexión en la curva de Wk, el Gap Statistic selecciona el valor de k en el que la diferencia entre el logaritmo de la dispersión observada y la esperada (log(Wk)) es máxima y presenta estabilidad. Dicho enfoque es especialmente recomendable en escenarios donde los datos contienen ruido o la estructura de los clústeres no es evidente a simple vista.

EDA

A continuación se carga la base de datos a ser analizada: ‘USArrests’ de la librería ‘spData’. El presente conjunto de datos proporciona una visión cuantitativa de la criminalidad registrada en los Estados Unidos en 1973, enfocándose en tres delitos graves: homicidio, asalto y violación. Cada una de estas categorías muestra la tasa de arrestos por cada 100,000 habitantes en los 50 estados del país. Además, se incluye una variable que representa el grado de urbanización de cada estado, expresado como el porcentaje de la población que reside en zonas urbanas. Esta información es útil para analizar la relación entre el entorno urbano y la incidencia delictiva, así como para identificar patrones geográficos y sociales relacionados con la criminalidad en ese periodo histórico.

data("USArrests")
head(USArrests)
##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7
glimpse(USArrests)
## Rows: 50
## Columns: 4
## $ Murder   <dbl> 13.2, 10.0, 8.1, 8.8, 9.0, 7.9, 3.3, 5.9, 15.4, 17.4, 5.3, 2.…
## $ Assault  <int> 236, 263, 294, 190, 276, 204, 110, 238, 335, 211, 46, 120, 24…
## $ UrbanPop <int> 58, 48, 80, 50, 91, 78, 77, 72, 80, 60, 83, 54, 83, 65, 57, 6…
## $ Rape     <dbl> 21.2, 44.5, 31.0, 19.5, 40.6, 38.7, 11.1, 15.8, 31.9, 25.8, 2…

Con base al EDA se determina que existen dos patrones claros de criminalidad entre los estados de EE.UU. representados en los clusters, donde un cluster representa estados con alta criminalidad; y el otro, estados con baja criminalidad. Lo anterior debido a que las variables Murder, Assault y Rape están negativamente correlacionadas con el número de cluster asignado (r ≈ -0.83), lo que sugiere que los clusters capturan niveles distintos de criminalidad.

Correlaciones

  • Murder y Assault: Correlación fuerte y positiva (r ≈ 0.80), indicando que los estados con mayor tasa de asesinatos tienden también a tener mayores tasas de asaltos.

  • Rape se correlaciona de forma moderada con: Assault (r ≈ 0.66) & Murder (r ≈ 0.56)

  • UrbanPop (porcentaje de población urbana) muestra baja o nula correlación con otras variables, lo que sugiere que la urbanización no se asocia directamente con las tasas de crimen reportadas en este conjunto de datos.

Distribución de variables

  • Murder y Assault están sesgadas a la derecha, indicando que la mayoría de los estados tienen tasas bajas, pero algunos tienen valores muy altos.

  • Rape también tiene cierta asimetría. Mientras que, UrbanPop tiene una distribución más uniforme.

  • Los gráficos de dispersión muestran agrupaciones claras, sobre todo entre variables altamente correlacionadas (como Murder vs. Assault).

library(ggplot2)
library(GGally)
# Histogramas 
USArrests_long <- USArrests %>%
  tidyr::pivot_longer(cols = everything(), names_to = "Variable", values_to = "Valor")

ggplot(USArrests_long, aes(x = Valor)) +
  geom_histogram(bins = 20, fill = "steelblue", color = "black") +
  facet_wrap(~ Variable, scales = "free", ncol = 2) +
  labs(title = "Histogramas de variables en USArrests") +
  theme_minimal()

# Boxplots
ggplot(USArrests_long, aes(x = Variable, y = Valor, fill = Variable)) +
  geom_boxplot() +
  labs(title = "Boxplots por variable en USArrests") +
  theme_minimal() +
  theme(legend.position = "none")

# Matriz de correlación
ggpairs(USArrests,
        lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"),
        upper = list(continuous = "cor")) +
  ggtitle("Matriz de correlación y relaciones entre variables en USArrests")

Escala de variables

Al momento de realizar el análisis de conglomerados se estandarizan todas las variables, para evitar dar un mayor peso a una variable por tener magnitudes mayores

scaled <- USArrests %>%
  scale() %>% 
  as.data.frame()

#Verificar brevemente que en efecto nuestra nueva base de datos esté centrada en '0' y tenga desviación estándar unitaria ('1')
print("Means")
## [1] "Means"
sapply(scaled, mean) %>%  round(4)
##   Murder  Assault UrbanPop     Rape 
##        0        0        0        0
print("Standard Deviations")
## [1] "Standard Deviations"
sapply(scaled, sd)
##   Murder  Assault UrbanPop     Rape 
##        1        1        1        1
str(scaled)
## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  1.2426 0.5079 0.0716 0.2323 0.2783 ...
##  $ Assault : num  0.783 1.107 1.479 0.231 1.263 ...
##  $ UrbanPop: num  -0.521 -1.212 0.999 -1.074 1.759 ...
##  $ Rape    : num  -0.00342 2.4842 1.04288 -0.18492 2.06782 ...

Análisis de la viabilidad de esta base de datos a contener conglomerados

set.seed(2025)

cluster_td <- 
  get_clust_tendency(
    scaled,
    n = 25,
    gradient = list(low = "white",  
                    high = "steelblue")
    )

cluster_td$plot #Se pueden identificar dos posibles clusters.

Muestra y análisis del Estadístico de Hopkin

Se obtiene un valor de 0.61 que al estar cercano a 1, indica que los datos tienen una tendencia a formar clústeres (estructura no aleatoria).

cluster_td$hopkins_stat 
## [1] 0.6115733
# El estadistico es cercano a 1 (0.61), lo cual indica que el dataset tiene tendencia a ser   clusterizada. 

Matriz de similitudes con la función de distancia Canberra y Gap_Stat

Distancia Canberra:

  • El primer gráfico (Euclídeo) muestra similitudes pero con patrones menos claros.

  • La matriz de distancia Canberra muestra divisiones más marcadas, lo que facilita la detección de grupos.

  • Áreas blancas indican gran similitud; áreas oscuras, gran diferencia.

 fviz_dist(
     get_dist(scaled, method="canberra"),
     order = TRUE,
     show_labels = FALSE,
     lab_size = NULL,
     gradient = list(low = "white", high = "steelblue")
)

#Utilizando la distancia 'Canberra' se ven mucho más claros los dos posibles clusters. 

Número óptimo de Clusters ‘k’

Gap Statistic:

Se obtuvo que el máximo valor del gap para k = 2, lo que sugiere que 2 grupos es lo más adecuado.

#Gap_Stat
fviz_nbclust(scaled, kmeans, method = "gap_stat") # 2 o 3 clusters

Creación de ‘k’ clusters con el algoritmo K-medias

set.seed(2025)
km_cluster <- kmeans(scaled, 2, nstart = 25)

USArrests$km_cluster <- km_cluster$cluster
glimpse(USArrests)
## Rows: 50
## Columns: 5
## $ Murder     <dbl> 13.2, 10.0, 8.1, 8.8, 9.0, 7.9, 3.3, 5.9, 15.4, 17.4, 5.3, …
## $ Assault    <int> 236, 263, 294, 190, 276, 204, 110, 238, 335, 211, 46, 120, …
## $ UrbanPop   <int> 58, 48, 80, 50, 91, 78, 77, 72, 80, 60, 83, 54, 83, 65, 57,…
## $ Rape       <dbl> 21.2, 44.5, 31.0, 19.5, 40.6, 38.7, 11.1, 15.8, 31.9, 25.8,…
## $ km_cluster <int> 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 1, 2, 1,…

Visualización de ‘k’ clusters

Representación de los clusters formados con k-means

  • Los datos se proyectan en 2 dimensiones (probablemente PCA) para visualizar la separación de grupos.

  • Se identifican dos grupos claramente diferenciados, destacados por colores y elipses que indican la dispersión dentro de cada clúster.

  • Se muestra que Missouri aparece como un punto intermedio entre ambos clústeres, lo que sugiere que comparte características tanto de estados con alta como con baja criminalidad, siendo un caso limítrofe o de transición.

library(factoextra)
library(ggplot2)
library(dplyr)

# PCA
pca_result <- prcomp(scaled)
pca_coords <- as.data.frame(pca_result$x[, 1:2])
pca_coords$state <- rownames(USArrests)
pca_coords$cluster <- USArrests$cluster

# Gráfico base con puntos y elipses
plot_base <- fviz_cluster(object = km_cluster, 
                          data = scaled,
                          ellipse.type = "norm",
                          geom = "point",
                          palette = "jco",
                          main = "",
                          ggtheme = theme_minimal())

# Agregar etiquetas de los estados en sus puntos
plot_base +
  geom_text(data = pca_coords, aes(x = PC1, y = PC2, label = state),
            size = 3, vjust = -0.5)

USArrests %>%
  group_by(km_cluster) %>%
  summarise(mean_murder = round(mean(Murder), 2),
            mean_assault = round(mean(Assault), 2),
            mean_urbanpop = round(mean(UrbanPop), 2),
            mean_rape = round(mean(Rape), 2),
            members = n())
## # A tibble: 2 × 6
##   km_cluster mean_murder mean_assault mean_urbanpop mean_rape members
##        <int>       <dbl>        <dbl>         <dbl>     <dbl>   <int>
## 1          1       12.2          255.          68.4      29.2      20
## 2          2        4.87         114.          63.6      15.9      30
library(plotly)

plot_ly(data = USArrests, 
        x = ~Murder, 
        y = ~Assault, 
        z = ~Rape, 
        type = "scatter3d", 
        mode = "markers", 
        color = as.factor(USArrests$km_cluster)) %>%
  layout(title = "Clusters de USArrests en 3D",
         scene = list(
           xaxis = list(title = "Murder"),
           yaxis = list(title = "Assault"),
           zaxis = list(title = "Rape")))

Visualización de distribución de Murder por cluster

Cluster 1: Alta Criminalidad

  • Mediana ≈ 12 homicidios por 100 000 hab.

  • IQR ≈ [10 – 14] (el 50 % de los estados en este cluster está entre esos valores).

  • Valores máximos llegan a ~18, mínimos cerca de 8.

Cluster 2: Baja Criminalidad

  • Mediana ≈ 5 homicidios por 100 000 hab.

  • IQR ≈ [3 – 7].

  • Rango total entre ~1 y ~11, claramente por debajo de los valores de Cluster 1.

library(ggplot2)

ggplot(USArrests, aes(x = as.factor(km_cluster), y = Murder, fill = as.factor(km_cluster))) +
  geom_boxplot() +
  labs(title = "Distribución de 'Murder' por Cluster",
       x = "Cluster",
       y = "Tasa de Homicidios") +
  theme_minimal()

Mapa de EE.UU. coloreado según el cluster asignado a cada estado

Los estados del norte y oeste tienden a agruparse en el Cluster 2 – Menor criminalidad, mientras que los estados del sur y este se concentran en el Cluster 1 – Mayor criminalidad. Esta distribución sugiere una posible relación entre ubicación geográfica, factores socioeconómicos y niveles de criminalidad.

El Cluster 1 - Mayor criminalidad agrupa estados que, según los datos usados en tu análisis, presentan niveles relativamente más altos de criminalidad:

  • Sur de EE.UU.: Alabama, Georgia, Louisiana, Mississippi, North Carolina, South Carolina, Tennessee, Texas. Esta región es consistente en datos históricos de mayor criminalidad en EE.UU., particularmente en crímenes violentos.

  • Costa Oeste y Suroeste: California, Arizona, Nevada, New Mexico, Colorado. Algunos de estos estados tienen grandes ciudades y corredores migratorios.

  • Grandes estados urbanos del norte: Illinois (Chicago), New York (NYC), Michigan (Detroit), Maryland (Baltimore). En estas zonas la criminalidad suele estar concentrada en áreas urbanas específicas.

Los estados agrupados en el “Cluster 2 - Menos criminalidad”, lo que indica que comparten características comunes relacionadas con bajos niveles de criminalidad. Dicho clúster abarca estados de distintas regiones del país:

  • Noreste: Vermont, New Hampshire, Massachusetts, Maine.

  • Medio Oeste: Iowa, Minnesota, Wisconsin, Ohio.

  • Noroeste: Idaho, Montana, Wyoming.

  • Sur: Arkansas, Kentucky, Virginia, West Virginia.

  • Pacífico: Oregon, Washington, Hawaii.

library(dplyr)
library(usmap)
library(ggplot2)

# Añadir columna de estado como variable
USArrests$state <- rownames(USArrests)

# Añadir la variable de clúster como factor
USArrests$cluster <- factor(km_cluster$cluster)

# Crear dataframe con nombres de estados compatibles con usmap
USArrests_map <- USArrests %>%
  mutate(state = state.name[match(state, state.name)]) %>%
  select(state, cluster) %>%
  filter(!is.na(state) & !is.na(cluster))  # Asegura que no haya NAs

# Crear el mapa sin "NA" en la leyenda
plot_usmap(data = USArrests_map, values = "cluster", regions = "states") +
  scale_fill_manual(
    values = c("1" = "steelblue", "2" = "goldenrod"),
    name = "Clúster",
    na.value = "gray90",       # Color de los estados sin datos
    na.translate = FALSE       # <- Evita que aparezca "NA" en la leyenda
  ) +
  labs(
    title = "Clusters de criminalidad en EE.UU. (USArrests)",
    subtitle = "k = 2, basado en tasas de Murder, Assault, Rape y UrbanPop"
  ) +
  theme_minimal()

Medias originales por cluster y listado de estados agrupados

  • El Cluster 1 tiene valores más bajos en crímenes y población urbana.

  • El Cluster 2 agrupa estados con mayores tasas de asalto, asesinato, violación y mayor urbanización.

Esto refuerza la idea de que los estados más urbanizados tienden a tener mayor incidencia de ciertos delitos.

USArrests$cluster <- km_cluster$cluster

aggregate(. ~ cluster, 
          data = USArrests[, c("Murder","Assault","UrbanPop","Rape","cluster")],
          FUN  = mean)
##   cluster Murder  Assault UrbanPop     Rape
## 1       1 12.165 255.2500 68.40000 29.16500
## 2       2  4.870 114.4333 63.63333 15.94333
split(rownames(USArrests), USArrests$cluster)
## $`1`
##  [1] "Alabama"        "Alaska"         "Arizona"        "California"    
##  [5] "Colorado"       "Florida"        "Georgia"        "Illinois"      
##  [9] "Louisiana"      "Maryland"       "Michigan"       "Mississippi"   
## [13] "Missouri"       "Nevada"         "New Mexico"     "New York"      
## [17] "North Carolina" "South Carolina" "Tennessee"      "Texas"         
## 
## $`2`
##  [1] "Arkansas"      "Connecticut"   "Delaware"      "Hawaii"       
##  [5] "Idaho"         "Indiana"       "Iowa"          "Kansas"       
##  [9] "Kentucky"      "Maine"         "Massachusetts" "Minnesota"    
## [13] "Montana"       "Nebraska"      "New Hampshire" "New Jersey"   
## [17] "North Dakota"  "Ohio"          "Oklahoma"      "Oregon"       
## [21] "Pennsylvania"  "Rhode Island"  "South Dakota"  "Utah"         
## [25] "Vermont"       "Virginia"      "Washington"    "West Virginia"
## [29] "Wisconsin"     "Wyoming"

Tabla resumen de tamaño y medias por cluster en unidades originales

Se identifican que los clusters estan compuestos de la siguiente manera:

  • Cluster 1: 19 estados con menor criminalidad.

  • Cluster 2: 31 estados con mayores tasas delictivas.

library(knitr)

tabla_resumen <- USArrests %>%
  group_by(cluster) %>%
  summarise(
    N       = n(),
    Murder  = round(mean(Murder), 2),
    Assault = round(mean(Assault), 2),
    UrbanPop= round(mean(UrbanPop),2),
    Rape    = round(mean(Rape), 2)
  )

kable(tabla_resumen, caption = "Resumen por cluster (unidades originales)")
Resumen por cluster (unidades originales)
cluster N Murder Assault UrbanPop Rape
1 20 12.16 255.25 68.40 29.16
2 30 4.87 114.43 63.63 15.94
centroides_std <- data.frame(
  cluster = rownames(km_cluster$centers),
  km_cluster$centers
)

kable(centroides_std, digits = 3, caption = "Centroides estandarizados")
Centroides estandarizados
cluster Murder Assault UrbanPop Rape
1 1.005 1.014 0.198 0.847
2 -0.670 -0.676 -0.132 -0.565

Tabla de centroides estandarizados resultantes del análisis k-means

tabla_resumen <- USArrests %>%
  group_by(cluster) %>%
  summarise(
    N        = n(),
    Murder   = round(mean(Murder),   2),
    Assault  = round(mean(Assault),  2),
    UrbanPop = round(mean(UrbanPop), 2),
    Rape     = round(mean(Rape),     2)
  )

print(tabla_resumen)
## # A tibble: 2 × 6
##   cluster     N Murder Assault UrbanPop  Rape
##     <int> <int>  <dbl>   <dbl>    <dbl> <dbl>
## 1       1    20  12.2     255.     68.4  29.2
## 2       2    30   4.87    114.     63.6  15.9
centroides_std <- as.data.frame(km_cluster$centers) %>%
  tibble::rownames_to_column(var = "cluster")

print(centroides_std)
##   cluster    Murder    Assault   UrbanPop       Rape
## 1       1  1.004934  1.0138274  0.1975853  0.8469650
## 2       2 -0.669956 -0.6758849 -0.1317235 -0.5646433

Modelo de Random Forest para Clasificar Clusters

El modelo de Random Forest aplicado a la clasificación de clústeres (resultado de kmeans) se comportó de manera óptima tanto en entrenamiento como en prueba. El mejor desempeño se logra con mtry = 1, es decir, considerando solo 1 predictor aleatorio por división.

library(randomForest)
library(caret)
library(randomForest)
library(caret)
library(dplyr)

rf_data <- USArrests %>%
  select(Murder, Assault, UrbanPop, Rape) %>%
  mutate(km_cluster = as.factor(km_cluster$cluster))  # agregar cluster como variable objetivo

set.seed(123)
index <- createDataPartition(rf_data$km_cluster, p = 0.8, list = FALSE)
train_dt <- rf_data[index, ]
test_dt  <- rf_data[-index, ]
trControl <- trainControl(method = "cv", number = 10)
tuneGrid  <- expand.grid(mtry = 1:(ncol(train_dt) - 1))  # -1 porque la última es la variable objetivo

set.seed(123)
modelRF <- train(km_cluster ~ ., 
                 data = train_dt, 
                 method = "rf", 
                 trControl = trControl,
                 tuneGrid = tuneGrid,
                 ntree = 500)

print(modelRF)
## Random Forest 
## 
## 40 samples
##  4 predictor
##  2 classes: '1', '2' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 36, 35, 37, 36, 36, 37, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy  Kappa
##   1     1.000     1.00 
##   2     0.975     0.95 
##   3     0.975     0.95 
##   4     0.975     0.95 
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 1.

Importancia de variable según Random Forest

  • Murder es el predictor más importante en la clasificación de clústeres.

  • UrbanPop no aporta valor predictivo (importancia = 0).

Por lo tanto, la criminalidad violenta (Murder, Assault, Rape) define los clústeres, no tanto la urbanización.

rf_model <- randomForest(km_cluster ~ ., data = train_dt, mtry = modelRF$bestTune$mtry, importance = TRUE)
varImpPlot(rf_model)

varImp(modelRF, scale = TRUE)
## rf variable importance
## 
##          Overall
## Murder    100.00
## Assault    87.37
## Rape       63.83
## UrbanPop    0.00

Precisión de Random Forest

  • El rendimiento en test es perfecto, lo cual puede deberse al tamaño reducido de muestra (n=10).
preds <- predict(modelRF, newdata = test_dt)
confusionMatrix(preds, test_dt$km_cluster)
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction 1 2
##          1 4 0
##          2 0 6
##                                      
##                Accuracy : 1          
##                  95% CI : (0.6915, 1)
##     No Information Rate : 0.6        
##     P-Value [Acc > NIR] : 0.006047   
##                                      
##                   Kappa : 1          
##                                      
##  Mcnemar's Test P-Value : NA         
##                                      
##             Sensitivity : 1.0        
##             Specificity : 1.0        
##          Pos Pred Value : 1.0        
##          Neg Pred Value : 1.0        
##              Prevalence : 0.4        
##          Detection Rate : 0.4        
##    Detection Prevalence : 0.4        
##       Balanced Accuracy : 1.0        
##                                      
##        'Positive' Class : 1          
## 

Conclusión

El análisis del conjunto de datos USArrests revela que existen dos grupos claramente diferenciados entre los estados de EE.UU. en función de los delitos (asesinato, asalto, violación) y la proporción de población urbana. La segmentación mediante K-means clustering muestra una clara separación geográfica y de características criminales. El uso de métricas de distancia como Canberra, junto con el estadístico de Hopkins y el método de Gap Statistic, permite confirmar la validez de la agrupación.

El Clúster 1, compuesto por 20 estados, agrupa principalmente a los estados del norte y oeste, y se caracteriza por niveles más elevados de criminalidad en los indicadores analizados. Estos estados presentan valores por encima del promedio en asesinatos, asaltos y violaciones, así como una mayor proporción de población urbana.

Por otro lado, el Clúster 2, que incluye a 30 estados del sur y este, muestra un perfil opuesto: niveles más bajos de delitos violentos y menor urbanización. Esta división no solo es estadísticamente sólida, sino que también presenta una clara correspondencia geográfica, lo que sugiere que los factores regionales pueden estar influyendo en los patrones delictivos.

Por último, la validación del modelo con un algoritmo de random forest mostró una exactitud del 100% en la clasificación de los clústeres, y la importancia de variables indica que los delitos como asesinato y asalto son los predictores más relevantes en la segmentación de los estados.

Referencias

Ketchen, D. J., & Shook, C. L. (1996). The application of cluster analysis in strategic management research: An analysis and critique. Strategic Management Journal, 17(6), 441–458.

Lance, G. N., & Williams, W. T. (1967). A general theory of classificatory sorting strategies: I. Hierarchical systems. The Computer Journal.

Sneath, P.H.A., & Sokal, R.R. (1973). Numerical Taxonomy. W. H. Freeman and Company.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.

Tan, P.-N., Steinbach, M., & Kumar, V. (2018). Introduction to Data Mining. Pearson.

