Actividad 04. K-Medias (Distancia - Canberra y
Gap_Stat)
Introducción
El Análisis de Clusters mediante el Algoritmo de K-Medias es un
algoritmo de agrupamiento no supervisado que divide un conjunto de datos
en K grupos o clústeres. Su objetivo es minimizar la varianza
intra-clúster (la distancia entre los puntos y su centroide). Se
caracteriza porque requiere especificar el número de clústeres (K),asume
que los clústeres son esféricos y de similar tamaño; y comúnmente
utilizala distancia Euclidiana pero se puede adaptar a otras métricas
(como Canberra).
La distancia de Canberra es una medida de disimilitud entre dos
vectores numéricos. Es útil cuando el análisis de datos cuenta con
muchas dimensiones (features), principalmente cuando los datos contienen
valores cercanos a cero, ya que penaliza más las pequeñas diferencias
relativas.
Asimismo, el Estadístico de Brecha (Gap Statistic) es una técnica
utilizada para determinar el número óptimo de clústeres (k) al aplicar
el algoritmo K-Means. A diferencia del método del codo (Elbow Method),
que se basa únicamente en la variación interna de los clústeres (Wk), el
Gap Statistic compara ese valor con el esperado bajo una distribución de
referencia aleatoria, es decir, sin una estructura de clústeres
definida. Mientras que el método del codo identifica el k óptimo
mediante un punto de inflexión en la curva de Wk, el Gap Statistic
selecciona el valor de k en el que la diferencia entre el logaritmo de
la dispersión observada y la esperada (log(Wk)) es máxima y presenta
estabilidad. Dicho enfoque es especialmente recomendable en escenarios
donde los datos contienen ruido o la estructura de los clústeres no es
evidente a simple vista.
EDA
A continuación se carga la base de datos a ser analizada: ‘USArrests’
de la librería ‘spData’. El presente conjunto de datos proporciona una
visión cuantitativa de la criminalidad registrada en los Estados Unidos
en 1973, enfocándose en tres delitos graves: homicidio, asalto y
violación. Cada una de estas categorías muestra la tasa de arrestos por
cada 100,000 habitantes en los 50 estados del país. Además, se incluye
una variable que representa el grado de urbanización de cada estado,
expresado como el porcentaje de la población que reside en zonas
urbanas. Esta información es útil para analizar la relación entre el
entorno urbano y la incidencia delictiva, así como para identificar
patrones geográficos y sociales relacionados con la criminalidad en ese
periodo histórico.
data("USArrests")
head(USArrests)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
## Rows: 50
## Columns: 4
## $ Murder <dbl> 13.2, 10.0, 8.1, 8.8, 9.0, 7.9, 3.3, 5.9, 15.4, 17.4, 5.3, 2.…
## $ Assault <int> 236, 263, 294, 190, 276, 204, 110, 238, 335, 211, 46, 120, 24…
## $ UrbanPop <int> 58, 48, 80, 50, 91, 78, 77, 72, 80, 60, 83, 54, 83, 65, 57, 6…
## $ Rape <dbl> 21.2, 44.5, 31.0, 19.5, 40.6, 38.7, 11.1, 15.8, 31.9, 25.8, 2…
Con base al EDA se determina que existen dos patrones claros de
criminalidad entre los estados de EE.UU. representados en los clusters,
donde un cluster representa estados con alta criminalidad; y el otro,
estados con baja criminalidad. Lo anterior debido a que las variables
Murder, Assault y Rape están negativamente correlacionadas con el número
de cluster asignado (r ≈ -0.83), lo que sugiere que los clusters
capturan niveles distintos de criminalidad.
Correlaciones
Murder y Assault: Correlación fuerte y positiva (r ≈ 0.80),
indicando que los estados con mayor tasa de asesinatos tienden también a
tener mayores tasas de asaltos.
Rape se correlaciona de forma moderada con: Assault (r ≈ 0.66)
& Murder (r ≈ 0.56)
UrbanPop (porcentaje de población urbana) muestra baja o nula
correlación con otras variables, lo que sugiere que la urbanización no
se asocia directamente con las tasas de crimen reportadas en este
conjunto de datos.
Distribución de variables
Murder y Assault están sesgadas a la derecha, indicando que la
mayoría de los estados tienen tasas bajas, pero algunos tienen valores
muy altos.
Rape también tiene cierta asimetría. Mientras que, UrbanPop tiene
una distribución más uniforme.
Los gráficos de dispersión muestran agrupaciones claras, sobre
todo entre variables altamente correlacionadas (como Murder
vs. Assault).
library(ggplot2)
library(GGally)
# Histogramas
USArrests_long <- USArrests %>%
tidyr::pivot_longer(cols = everything(), names_to = "Variable", values_to = "Valor")
ggplot(USArrests_long, aes(x = Valor)) +
geom_histogram(bins = 20, fill = "steelblue", color = "black") +
facet_wrap(~ Variable, scales = "free", ncol = 2) +
labs(title = "Histogramas de variables en USArrests") +
theme_minimal()

# Boxplots
ggplot(USArrests_long, aes(x = Variable, y = Valor, fill = Variable)) +
geom_boxplot() +
labs(title = "Boxplots por variable en USArrests") +
theme_minimal() +
theme(legend.position = "none")

# Matriz de correlación
ggpairs(USArrests,
lower = list(continuous = "smooth"),
diag = list(continuous = "barDiag"),
upper = list(continuous = "cor")) +
ggtitle("Matriz de correlación y relaciones entre variables en USArrests")

Escala de variables
Al momento de realizar el análisis de conglomerados se estandarizan
todas las variables, para evitar dar un mayor peso a una variable por
tener magnitudes mayores
scaled <- USArrests %>%
scale() %>%
as.data.frame()
#Verificar brevemente que en efecto nuestra nueva base de datos esté centrada en '0' y tenga desviación estándar unitaria ('1')
print("Means")
## [1] "Means"
sapply(scaled, mean) %>% round(4)
## Murder Assault UrbanPop Rape
## 0 0 0 0
print("Standard Deviations")
## [1] "Standard Deviations"
## Murder Assault UrbanPop Rape
## 1 1 1 1
## 'data.frame': 50 obs. of 4 variables:
## $ Murder : num 1.2426 0.5079 0.0716 0.2323 0.2783 ...
## $ Assault : num 0.783 1.107 1.479 0.231 1.263 ...
## $ UrbanPop: num -0.521 -1.212 0.999 -1.074 1.759 ...
## $ Rape : num -0.00342 2.4842 1.04288 -0.18492 2.06782 ...
Análisis de la viabilidad de esta base de datos a contener
conglomerados
set.seed(2025)
cluster_td <-
get_clust_tendency(
scaled,
n = 25,
gradient = list(low = "white",
high = "steelblue")
)
cluster_td$plot #Se pueden identificar dos posibles clusters.

Muestra y análisis del Estadístico de Hopkin
Se obtiene un valor de 0.61 que al estar cercano a 1, indica que los
datos tienen una tendencia a formar clústeres (estructura no
aleatoria).
## [1] 0.6115733
# El estadistico es cercano a 1 (0.61), lo cual indica que el dataset tiene tendencia a ser clusterizada.
Matriz de similitudes con la función de distancia Canberra y
Gap_Stat
Distancia Canberra:
El primer gráfico (Euclídeo) muestra similitudes pero con
patrones menos claros.
La matriz de distancia Canberra muestra divisiones más marcadas,
lo que facilita la detección de grupos.
Áreas blancas indican gran similitud; áreas oscuras, gran
diferencia.
fviz_dist(
get_dist(scaled, method="canberra"),
order = TRUE,
show_labels = FALSE,
lab_size = NULL,
gradient = list(low = "white", high = "steelblue")
)

#Utilizando la distancia 'Canberra' se ven mucho más claros los dos posibles clusters.
Número óptimo de Clusters ‘k’
Gap Statistic:
Se obtuvo que el máximo valor del gap para k = 2, lo que sugiere que
2 grupos es lo más adecuado.
#Gap_Stat
fviz_nbclust(scaled, kmeans, method = "gap_stat") # 2 o 3 clusters

Creación de ‘k’ clusters con el algoritmo
K-medias
set.seed(2025)
km_cluster <- kmeans(scaled, 2, nstart = 25)
USArrests$km_cluster <- km_cluster$cluster
glimpse(USArrests)
## Rows: 50
## Columns: 5
## $ Murder <dbl> 13.2, 10.0, 8.1, 8.8, 9.0, 7.9, 3.3, 5.9, 15.4, 17.4, 5.3, …
## $ Assault <int> 236, 263, 294, 190, 276, 204, 110, 238, 335, 211, 46, 120, …
## $ UrbanPop <int> 58, 48, 80, 50, 91, 78, 77, 72, 80, 60, 83, 54, 83, 65, 57,…
## $ Rape <dbl> 21.2, 44.5, 31.0, 19.5, 40.6, 38.7, 11.1, 15.8, 31.9, 25.8,…
## $ km_cluster <int> 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 1, 2, 1,…
Visualización de ‘k’ clusters
Visualización de distribución de Murder por cluster
Cluster 1: Alta Criminalidad
Mediana ≈ 12 homicidios por 100 000 hab.
IQR ≈ [10 – 14] (el 50 % de los estados en este cluster está
entre esos valores).
Valores máximos llegan a ~18, mínimos cerca de 8.
Cluster 2: Baja Criminalidad
Mediana ≈ 5 homicidios por 100 000 hab.
IQR ≈ [3 – 7].
Rango total entre ~1 y ~11, claramente por debajo de los valores
de Cluster 1.
library(ggplot2)
ggplot(USArrests, aes(x = as.factor(km_cluster), y = Murder, fill = as.factor(km_cluster))) +
geom_boxplot() +
labs(title = "Distribución de 'Murder' por Cluster",
x = "Cluster",
y = "Tasa de Homicidios") +
theme_minimal()

Mapa de EE.UU. coloreado según el cluster asignado a cada
estado
Los estados del norte y oeste tienden a agruparse en el Cluster 2 –
Menor criminalidad, mientras que los estados del sur y este se
concentran en el Cluster 1 – Mayor criminalidad. Esta distribución
sugiere una posible relación entre ubicación geográfica, factores
socioeconómicos y niveles de criminalidad.
El Cluster 1 - Mayor criminalidad agrupa estados
que, según los datos usados en tu análisis, presentan niveles
relativamente más altos de criminalidad:
Sur de EE.UU.: Alabama, Georgia, Louisiana, Mississippi, North
Carolina, South Carolina, Tennessee, Texas. Esta región es consistente
en datos históricos de mayor criminalidad en EE.UU., particularmente en
crímenes violentos.
Costa Oeste y Suroeste: California, Arizona, Nevada, New Mexico,
Colorado. Algunos de estos estados tienen grandes ciudades y corredores
migratorios.
Grandes estados urbanos del norte: Illinois (Chicago), New York
(NYC), Michigan (Detroit), Maryland (Baltimore). En estas zonas la
criminalidad suele estar concentrada en áreas urbanas
específicas.
Los estados agrupados en el “Cluster 2 - Menos
criminalidad”, lo que indica que comparten características
comunes relacionadas con bajos niveles de criminalidad. Dicho clúster
abarca estados de distintas regiones del país:
Noreste: Vermont, New Hampshire, Massachusetts, Maine.
Medio Oeste: Iowa, Minnesota, Wisconsin, Ohio.
Noroeste: Idaho, Montana, Wyoming.
Sur: Arkansas, Kentucky, Virginia, West Virginia.
Pacífico: Oregon, Washington, Hawaii.
library(dplyr)
library(usmap)
library(ggplot2)
# Añadir columna de estado como variable
USArrests$state <- rownames(USArrests)
# Añadir la variable de clúster como factor
USArrests$cluster <- factor(km_cluster$cluster)
# Crear dataframe con nombres de estados compatibles con usmap
USArrests_map <- USArrests %>%
mutate(state = state.name[match(state, state.name)]) %>%
select(state, cluster) %>%
filter(!is.na(state) & !is.na(cluster)) # Asegura que no haya NAs
# Crear el mapa sin "NA" en la leyenda
plot_usmap(data = USArrests_map, values = "cluster", regions = "states") +
scale_fill_manual(
values = c("1" = "steelblue", "2" = "goldenrod"),
name = "Clúster",
na.value = "gray90", # Color de los estados sin datos
na.translate = FALSE # <- Evita que aparezca "NA" en la leyenda
) +
labs(
title = "Clusters de criminalidad en EE.UU. (USArrests)",
subtitle = "k = 2, basado en tasas de Murder, Assault, Rape y UrbanPop"
) +
theme_minimal()

Tabla de centroides estandarizados resultantes del análisis
k-means
tabla_resumen <- USArrests %>%
group_by(cluster) %>%
summarise(
N = n(),
Murder = round(mean(Murder), 2),
Assault = round(mean(Assault), 2),
UrbanPop = round(mean(UrbanPop), 2),
Rape = round(mean(Rape), 2)
)
print(tabla_resumen)
## # A tibble: 2 × 6
## cluster N Murder Assault UrbanPop Rape
## <int> <int> <dbl> <dbl> <dbl> <dbl>
## 1 1 20 12.2 255. 68.4 29.2
## 2 2 30 4.87 114. 63.6 15.9
centroides_std <- as.data.frame(km_cluster$centers) %>%
tibble::rownames_to_column(var = "cluster")
print(centroides_std)
## cluster Murder Assault UrbanPop Rape
## 1 1 1.004934 1.0138274 0.1975853 0.8469650
## 2 2 -0.669956 -0.6758849 -0.1317235 -0.5646433
Modelo de Random Forest para Clasificar
Clusters
El modelo de Random Forest aplicado a la clasificación de clústeres
(resultado de kmeans) se comportó de manera óptima tanto en
entrenamiento como en prueba. El mejor desempeño se logra con mtry = 1,
es decir, considerando solo 1 predictor aleatorio por división.
library(randomForest)
library(caret)
library(randomForest)
library(caret)
library(dplyr)
rf_data <- USArrests %>%
select(Murder, Assault, UrbanPop, Rape) %>%
mutate(km_cluster = as.factor(km_cluster$cluster)) # agregar cluster como variable objetivo
set.seed(123)
index <- createDataPartition(rf_data$km_cluster, p = 0.8, list = FALSE)
train_dt <- rf_data[index, ]
test_dt <- rf_data[-index, ]
trControl <- trainControl(method = "cv", number = 10)
tuneGrid <- expand.grid(mtry = 1:(ncol(train_dt) - 1)) # -1 porque la última es la variable objetivo
set.seed(123)
modelRF <- train(km_cluster ~ .,
data = train_dt,
method = "rf",
trControl = trControl,
tuneGrid = tuneGrid,
ntree = 500)
print(modelRF)
## Random Forest
##
## 40 samples
## 4 predictor
## 2 classes: '1', '2'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
## Summary of sample sizes: 36, 35, 37, 36, 36, 37, ...
## Resampling results across tuning parameters:
##
## mtry Accuracy Kappa
## 1 1.000 1.00
## 2 0.975 0.95
## 3 0.975 0.95
## 4 0.975 0.95
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 1.
Importancia de variable según Random Forest
Por lo tanto, la criminalidad violenta (Murder, Assault, Rape) define
los clústeres, no tanto la urbanización.
rf_model <- randomForest(km_cluster ~ ., data = train_dt, mtry = modelRF$bestTune$mtry, importance = TRUE)
varImpPlot(rf_model)

varImp(modelRF, scale = TRUE)
## rf variable importance
##
## Overall
## Murder 100.00
## Assault 87.37
## Rape 63.83
## UrbanPop 0.00
Precisión de Random Forest
- El rendimiento en test es perfecto, lo cual puede deberse al tamaño
reducido de muestra (n=10).
preds <- predict(modelRF, newdata = test_dt)
confusionMatrix(preds, test_dt$km_cluster)
## Confusion Matrix and Statistics
##
## Reference
## Prediction 1 2
## 1 4 0
## 2 0 6
##
## Accuracy : 1
## 95% CI : (0.6915, 1)
## No Information Rate : 0.6
## P-Value [Acc > NIR] : 0.006047
##
## Kappa : 1
##
## Mcnemar's Test P-Value : NA
##
## Sensitivity : 1.0
## Specificity : 1.0
## Pos Pred Value : 1.0
## Neg Pred Value : 1.0
## Prevalence : 0.4
## Detection Rate : 0.4
## Detection Prevalence : 0.4
## Balanced Accuracy : 1.0
##
## 'Positive' Class : 1
##
Conclusión
El análisis del conjunto de datos USArrests revela que existen dos
grupos claramente diferenciados entre los estados de EE.UU. en función
de los delitos (asesinato, asalto, violación) y la proporción de
población urbana. La segmentación mediante K-means clustering muestra
una clara separación geográfica y de características criminales. El uso
de métricas de distancia como Canberra, junto con el estadístico de
Hopkins y el método de Gap Statistic, permite confirmar la validez de la
agrupación.
El Clúster 1, compuesto por 20 estados, agrupa principalmente a los
estados del norte y oeste, y se caracteriza por niveles más elevados de
criminalidad en los indicadores analizados. Estos estados presentan
valores por encima del promedio en asesinatos, asaltos y violaciones,
así como una mayor proporción de población urbana.
Por otro lado, el Clúster 2, que incluye a 30 estados del sur y este,
muestra un perfil opuesto: niveles más bajos de delitos violentos y
menor urbanización. Esta división no solo es estadísticamente sólida,
sino que también presenta una clara correspondencia geográfica, lo que
sugiere que los factores regionales pueden estar influyendo en los
patrones delictivos.
Por último, la validación del modelo con un algoritmo de random
forest mostró una exactitud del 100% en la clasificación de los
clústeres, y la importancia de variables indica que los delitos como
asesinato y asalto son los predictores más relevantes en la segmentación
de los estados.
Referencias
Ketchen, D. J., & Shook, C. L. (1996). The application of cluster
analysis in strategic management research: An analysis and critique.
Strategic Management Journal, 17(6), 441–458.
Lance, G. N., & Williams, W. T. (1967). A general theory of
classificatory sorting strategies: I. Hierarchical systems. The Computer
Journal.
Sneath, P.H.A., & Sokal, R.R. (1973). Numerical Taxonomy. W. H.
Freeman and Company.
MacQueen, J. (1967). Some methods for classification and analysis of
multivariate observations. Proceedings of the Fifth Berkeley Symposium
on Mathematical Statistics and Probability.
Tan, P.-N., Steinbach, M., & Kumar, V. (2018). Introduction to
Data Mining. Pearson.
