Contexto

La base de datos USArrests contiene estadísticas en arrestos por cada 100,000 residentes por agresión, asesinato y violación en cada uno de los 50 estados de EE.UU. en 1973.

Instalar paquetes y llamas librerias

library(cluster)
library(ggplot2)
library(factoextra)
library(data.table)
library(tidyverse)
library(dplyr)
library(randomForest)  # Cargar la librería

Importar la base de datos

datos <- USArrests

Entender la base de datos

summary(datos)
##      Murder          Assault         UrbanPop          Rape      
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30  
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07  
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10  
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23  
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18  
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00

Escalar base de datos

# Escalar la base de datos
datos_escalados <- scale(USArrests)

# Verificar la media y desviación estándar después del escalado
apply(datos_escalados, 2, mean)  # Debería estar cerca de 0
##        Murder       Assault      UrbanPop          Rape 
## -7.663087e-17  1.112408e-16 -4.332808e-16  8.942391e-17
apply(datos_escalados, 2, sd)    # Debería estar cerca de 1
##   Murder  Assault UrbanPop     Rape 
##        1        1        1        1

Generar los clusters

set.seed(123)
grupos <- 4
segmentos <- kmeans(datos_escalados, centers = grupos, nstart = 25)

Asignar grupos a los datos

asignacion <- cbind(datos, cluster = 
                      segmentos$cluster)

Graficar los clusters

fviz_cluster(segmentos, data = datos_escalados)

## Optimizar la cantidad de grupos

#La cantidad optima de grupos corresponde al punto mas alto de la grafica
set.seed(123)
optimizacion <- clusGap(datos_escalados, 
                        FUN = function(x, k) kmeans(x, k, nstart = 25), 
                        K.max = 10)
plot(optimizacion, xlab = "Número de clusters k")

## Comparar segmentos

promedio <- aggregate(asignacion, by = list(asignacion$cluster), FUN = mean)
print(promedio)
##   Group.1   Murder   Assault UrbanPop     Rape cluster
## 1       1 13.93750 243.62500 53.75000 21.41250       1
## 2       2  3.60000  78.53846 52.07692 12.17692       2
## 3       3  5.65625 138.87500 73.87500 18.78125       3
## 4       4 10.81538 257.38462 76.00000 33.19231       4
table(asignacion$cluster)
## 
##  1  2  3  4 
##  8 13 16 13

Obtener Mapa de USA y Unir Datos

# Obtener el mapa de EE.UU.
library(tigris)  # Carga la librería
us_map <- states(cb = TRUE)
##   |                                                                              |                                                                      |   0%  |                                                                              |=                                                                     |   1%  |                                                                              |=                                                                     |   2%  |                                                                              |==                                                                    |   2%  |                                                                              |==                                                                    |   3%  |                                                                              |==                                                                    |   4%  |                                                                              |===                                                                   |   4%  |                                                                              |====                                                                  |   6%  |                                                                              |=====                                                                 |   7%  |                                                                              |=====                                                                 |   8%  |                                                                              |======                                                                |   9%  |                                                                              |=======                                                               |  10%  |                                                                              |========                                                              |  12%  |                                                                              |==========                                                            |  14%  |                                                                              |===========                                                           |  16%  |                                                                              |============                                                          |  17%  |                                                                              |==============                                                        |  20%  |                                                                              |================                                                      |  24%  |                                                                              |====================                                                  |  28%  |                                                                              |======================                                                |  32%  |                                                                              |==========================                                            |  37%  |                                                                              |==========================                                            |  38%  |                                                                              |=============================                                         |  41%  |                                                                              |==============================                                        |  43%  |                                                                              |=================================                                     |  47%  |                                                                              |====================================                                  |  52%  |                                                                              |=======================================                               |  56%  |                                                                              |===========================================                           |  61%  |                                                                              |==============================================                        |  66%  |                                                                              |==================================================                    |  71%  |                                                                              |=====================================================                 |  76%  |                                                                              |========================================================              |  80%  |                                                                              |============================================================          |  85%  |                                                                              |===============================================================       |  90%  |                                                                              |==================================================================    |  95%  |                                                                              |======================================================================| 100%
# Normalizar nombres de los estados para que coincidan
asignacion$state <- tolower(rownames(asignacion))
us_map$NAME <- tolower(us_map$NAME)

# Unir el mapa con la clasificación de clusters
us_clustered <- left_join(us_map, asignacion, by = c("NAME" = "state"))

Clasificación de seguridad basada en los clusters

# Agregar la clasificación de seguridad basada en los clusters
set.seed(123)
asignacion$nivel_seguridad <- case_when(
  asignacion$cluster == 1 ~ "Bajo",
  asignacion$cluster == 2 ~ "Medio",
  asignacion$cluster == 3 ~ "Alto",
  asignacion$cluster == 4 ~ "Muy Alto",
  TRUE ~ "Desconocido"  # Para manejar cualquier error
)

# Verificar la base con la nueva columna
head(asignacion)
##            Murder Assault UrbanPop Rape cluster      state nivel_seguridad
## Alabama      13.2     236       58 21.2       1    alabama            Bajo
## Alaska       10.0     263       48 44.5       4     alaska        Muy Alto
## Arizona       8.1     294       80 31.0       4    arizona        Muy Alto
## Arkansas      8.8     190       50 19.5       1   arkansas            Bajo
## California    9.0     276       91 40.6       4 california        Muy Alto
## Colorado      7.9     204       78 38.7       4   colorado        Muy Alto

Graficar los clusters en el mapa

# Definir colores según el nivel de seguridad
colores_seguridad <- c("Bajo" = "red", 
                       "Medio" = "yellow", 
                       "Alto" = "green", 
                       "Muy Alto" = "darkgreen")

# Convertir los nombres de los estados a minúsculas en ambas bases
asignacion$state <- tolower(rownames(asignacion))
us_map$NAME <- tolower(us_map$NAME)
# Hacer el left_join nuevamente
us_clustered <- dplyr::left_join(us_map, asignacion, by = c("NAME" = "state"))


# Graficar el mapa
ggplot(data = us_clustered) +
  geom_sf(aes(fill = nivel_seguridad), color = "blue") +  
  scale_fill_manual(values = colores_seguridad, name = "Nivel de Seguridad") +
  labs(title = "Mapa de Seguridad en EE.UU. (1973)",
       subtitle = "Clasificación basada en tasas de criminalidad",
       caption = "Fuente: USArrests") +
  theme_minimal()

Construcción del Modelo Random Forest

# Convertir la variable de salida en un factor
asignacion$nivel_seguridad <- as.factor(asignacion$nivel_seguridad)

# Modelo de Random Forest
set.seed(123)
modelo_rf <- randomForest(
  nivel_seguridad ~ Murder + Assault + Rape + UrbanPop, 
  data = asignacion,
  ntree = 100
)
LS0tDQp0aXRsZTogIkFycmVzdG9zIEVzdGFkb3MgVW5pZG9zIg0KYXV0aG9yOiAiT3NjYXIgQmFsY2FyY2VsIg0KZGF0ZTogIjIwMjUtMDItMjEiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgICAgdG9jOiBUUlVFDQogICAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICAgIHRoZW1lOiAic3BhY2VsYWIiDQogICAgICBoaWdobGlnaHQ6ICJrYXRlIg0KLS0tDQoNCiFbXShDOlxcVXNlcnNcXE9zY0JhXFxEb3dubG9hZHNcXGRlZmF1bHQud2VicCkNCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHJlZDsiPkNvbnRleHRvPC9zcGFuPiAgDQpMYSBiYXNlIGRlIGRhdG9zICoqVVNBcnJlc3RzKiogY29udGllbmUgZXN0YWTDrXN0aWNhcyBlbiBhcnJlc3RvcyBwb3IgY2FkYSAxMDAsMDAwIHJlc2lkZW50ZXMgcG9yIGFncmVzacOzbiwgYXNlc2luYXRvIHkgdmlvbGFjacOzbiBlbiBjYWRhIHVubyBkZSBsb3MgNTAgZXN0YWRvcyBkZSBFRS5VVS4gZW4gMTk3My4NCg0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5JbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hcyBsaWJyZXJpYXM8L3NwYW4+DQpgYGB7ciBtZXNzYWdlPUZBTFNFLCB3YXJuaW5nPUZBTFNFfQ0KbGlicmFyeShjbHVzdGVyKQ0KbGlicmFyeShnZ3Bsb3QyKQ0KbGlicmFyeShmYWN0b2V4dHJhKQ0KbGlicmFyeShkYXRhLnRhYmxlKQ0KbGlicmFyeSh0aWR5dmVyc2UpDQpsaWJyYXJ5KGRwbHlyKQ0KbGlicmFyeShyYW5kb21Gb3Jlc3QpICAjIENhcmdhciBsYSBsaWJyZXLDrWENCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5JbXBvcnRhciBsYSBiYXNlIGRlIGRhdG9zPC9zcGFuPg0KYGBge3J9DQpkYXRvcyA8LSBVU0FycmVzdHMNCmBgYA0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOiBncmV5OyI+RW50ZW5kZXIgbGEgYmFzZSBkZSBkYXRvczwvc3Bhbj4NCmBgYHtyfQ0Kc3VtbWFyeShkYXRvcykNCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5Fc2NhbGFyIGJhc2UgZGUgZGF0b3M8L3NwYW4+ICANCmBgYHtyfQ0KIyBFc2NhbGFyIGxhIGJhc2UgZGUgZGF0b3MNCmRhdG9zX2VzY2FsYWRvcyA8LSBzY2FsZShVU0FycmVzdHMpDQoNCiMgVmVyaWZpY2FyIGxhIG1lZGlhIHkgZGVzdmlhY2nDs24gZXN0w6FuZGFyIGRlc3B1w6lzIGRlbCBlc2NhbGFkbw0KYXBwbHkoZGF0b3NfZXNjYWxhZG9zLCAyLCBtZWFuKSAgIyBEZWJlcsOtYSBlc3RhciBjZXJjYSBkZSAwDQphcHBseShkYXRvc19lc2NhbGFkb3MsIDIsIHNkKSAgICAjIERlYmVyw61hIGVzdGFyIGNlcmNhIGRlIDENCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5HZW5lcmFyIGxvcyBjbHVzdGVyczwvc3Bhbj4NCmBgYHtyfQ0Kc2V0LnNlZWQoMTIzKQ0KZ3J1cG9zIDwtIDQNCnNlZ21lbnRvcyA8LSBrbWVhbnMoZGF0b3NfZXNjYWxhZG9zLCBjZW50ZXJzID0gZ3J1cG9zLCBuc3RhcnQgPSAyNSkNCmBgYA0KDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5Bc2lnbmFyIGdydXBvcyBhIGxvcyBkYXRvczwvc3Bhbj4NCmBgYHtyfQ0KYXNpZ25hY2lvbiA8LSBjYmluZChkYXRvcywgY2x1c3RlciA9IA0KICAgICAgICAgICAgICAgICAgICAgIHNlZ21lbnRvcyRjbHVzdGVyKQ0KYGBgDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5HcmFmaWNhciBsb3MgY2x1c3RlcnM8L3NwYW4+DQpgYGB7cn0NCmZ2aXpfY2x1c3RlcihzZWdtZW50b3MsIGRhdGEgPSBkYXRvc19lc2NhbGFkb3MpDQpgYGANCiMjIDxzcGFuIHN0eWxlPSJjb2xvcjogZ3JleTsiPk9wdGltaXphciBsYSBjYW50aWRhZCBkZSBncnVwb3M8L3NwYW4+DQpgYGB7cn0NCiNMYSBjYW50aWRhZCBvcHRpbWEgZGUgZ3J1cG9zIGNvcnJlc3BvbmRlIGFsIHB1bnRvIG1hcyBhbHRvIGRlIGxhIGdyYWZpY2ENCnNldC5zZWVkKDEyMykNCm9wdGltaXphY2lvbiA8LSBjbHVzR2FwKGRhdG9zX2VzY2FsYWRvcywgDQogICAgICAgICAgICAgICAgICAgICAgICBGVU4gPSBmdW5jdGlvbih4LCBrKSBrbWVhbnMoeCwgaywgbnN0YXJ0ID0gMjUpLCANCiAgICAgICAgICAgICAgICAgICAgICAgIEsubWF4ID0gMTApDQpwbG90KG9wdGltaXphY2lvbiwgeGxhYiA9ICJOw7ptZXJvIGRlIGNsdXN0ZXJzIGsiKQ0KYGBgDQojIyA8c3BhbiBzdHlsZT0iY29sb3I6IGdyZXk7Ij5Db21wYXJhciBzZWdtZW50b3M8L3NwYW4+DQpgYGB7cn0NCnByb21lZGlvIDwtIGFnZ3JlZ2F0ZShhc2lnbmFjaW9uLCBieSA9IGxpc3QoYXNpZ25hY2lvbiRjbHVzdGVyKSwgRlVOID0gbWVhbikNCnByaW50KHByb21lZGlvKQ0KdGFibGUoYXNpZ25hY2lvbiRjbHVzdGVyKQ0KYGBgDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogcmVkOyI+T2J0ZW5lciBNYXBhIGRlIFVTQSB5IFVuaXIgRGF0b3M8L3NwYW4+DQpgYGB7ciBlY2hvPVRSVUUsIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQojIE9idGVuZXIgZWwgbWFwYSBkZSBFRS5VVS4NCmxpYnJhcnkodGlncmlzKSAgIyBDYXJnYSBsYSBsaWJyZXLDrWENCnVzX21hcCA8LSBzdGF0ZXMoY2IgPSBUUlVFKQ0KDQojIE5vcm1hbGl6YXIgbm9tYnJlcyBkZSBsb3MgZXN0YWRvcyBwYXJhIHF1ZSBjb2luY2lkYW4NCmFzaWduYWNpb24kc3RhdGUgPC0gdG9sb3dlcihyb3duYW1lcyhhc2lnbmFjaW9uKSkNCnVzX21hcCROQU1FIDwtIHRvbG93ZXIodXNfbWFwJE5BTUUpDQoNCiMgVW5pciBlbCBtYXBhIGNvbiBsYSBjbGFzaWZpY2FjacOzbiBkZSBjbHVzdGVycw0KdXNfY2x1c3RlcmVkIDwtIGxlZnRfam9pbih1c19tYXAsIGFzaWduYWNpb24sIGJ5ID0gYygiTkFNRSIgPSAic3RhdGUiKSkNCmBgYA0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOiBncmV5OyI+Q2xhc2lmaWNhY2nDs24gZGUgc2VndXJpZGFkIGJhc2FkYSBlbiBsb3MgY2x1c3RlcnM8L3NwYW4+DQoNCmBgYHtyfQ0KIyBBZ3JlZ2FyIGxhIGNsYXNpZmljYWNpw7NuIGRlIHNlZ3VyaWRhZCBiYXNhZGEgZW4gbG9zIGNsdXN0ZXJzDQpzZXQuc2VlZCgxMjMpDQphc2lnbmFjaW9uJG5pdmVsX3NlZ3VyaWRhZCA8LSBjYXNlX3doZW4oDQogIGFzaWduYWNpb24kY2x1c3RlciA9PSAxIH4gIkJham8iLA0KICBhc2lnbmFjaW9uJGNsdXN0ZXIgPT0gMiB+ICJNZWRpbyIsDQogIGFzaWduYWNpb24kY2x1c3RlciA9PSAzIH4gIkFsdG8iLA0KICBhc2lnbmFjaW9uJGNsdXN0ZXIgPT0gNCB+ICJNdXkgQWx0byIsDQogIFRSVUUgfiAiRGVzY29ub2NpZG8iICAjIFBhcmEgbWFuZWphciBjdWFscXVpZXIgZXJyb3INCikNCg0KIyBWZXJpZmljYXIgbGEgYmFzZSBjb24gbGEgbnVldmEgY29sdW1uYQ0KaGVhZChhc2lnbmFjaW9uKQ0KYGBgDQoNCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiByZWQ7Ij5HcmFmaWNhciBsb3MgY2x1c3RlcnMgZW4gZWwgbWFwYTwvc3Bhbj4NCmBgYHtyfQ0KIyBEZWZpbmlyIGNvbG9yZXMgc2Vnw7puIGVsIG5pdmVsIGRlIHNlZ3VyaWRhZA0KY29sb3Jlc19zZWd1cmlkYWQgPC0gYygiQmFqbyIgPSAicmVkIiwgDQogICAgICAgICAgICAgICAgICAgICAgICJNZWRpbyIgPSAieWVsbG93IiwgDQogICAgICAgICAgICAgICAgICAgICAgICJBbHRvIiA9ICJncmVlbiIsIA0KICAgICAgICAgICAgICAgICAgICAgICAiTXV5IEFsdG8iID0gImRhcmtncmVlbiIpDQoNCiMgQ29udmVydGlyIGxvcyBub21icmVzIGRlIGxvcyBlc3RhZG9zIGEgbWluw7pzY3VsYXMgZW4gYW1iYXMgYmFzZXMNCmFzaWduYWNpb24kc3RhdGUgPC0gdG9sb3dlcihyb3duYW1lcyhhc2lnbmFjaW9uKSkNCnVzX21hcCROQU1FIDwtIHRvbG93ZXIodXNfbWFwJE5BTUUpDQojIEhhY2VyIGVsIGxlZnRfam9pbiBudWV2YW1lbnRlDQp1c19jbHVzdGVyZWQgPC0gZHBseXI6OmxlZnRfam9pbih1c19tYXAsIGFzaWduYWNpb24sIGJ5ID0gYygiTkFNRSIgPSAic3RhdGUiKSkNCg0KDQojIEdyYWZpY2FyIGVsIG1hcGENCmdncGxvdChkYXRhID0gdXNfY2x1c3RlcmVkKSArDQogIGdlb21fc2YoYWVzKGZpbGwgPSBuaXZlbF9zZWd1cmlkYWQpLCBjb2xvciA9ICJibHVlIikgKyAgDQogIHNjYWxlX2ZpbGxfbWFudWFsKHZhbHVlcyA9IGNvbG9yZXNfc2VndXJpZGFkLCBuYW1lID0gIk5pdmVsIGRlIFNlZ3VyaWRhZCIpICsNCiAgbGFicyh0aXRsZSA9ICJNYXBhIGRlIFNlZ3VyaWRhZCBlbiBFRS5VVS4gKDE5NzMpIiwNCiAgICAgICBzdWJ0aXRsZSA9ICJDbGFzaWZpY2FjacOzbiBiYXNhZGEgZW4gdGFzYXMgZGUgY3JpbWluYWxpZGFkIiwNCiAgICAgICBjYXB0aW9uID0gIkZ1ZW50ZTogVVNBcnJlc3RzIikgKw0KICB0aGVtZV9taW5pbWFsKCkNCg0KYGBgICANCg0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOiBncmV5OyI+Q29uc3RydWNjacOzbiBkZWwgTW9kZWxvIFJhbmRvbSBGb3Jlc3Q8L3NwYW4+DQpgYGB7cn0NCiMgQ29udmVydGlyIGxhIHZhcmlhYmxlIGRlIHNhbGlkYSBlbiB1biBmYWN0b3INCmFzaWduYWNpb24kbml2ZWxfc2VndXJpZGFkIDwtIGFzLmZhY3Rvcihhc2lnbmFjaW9uJG5pdmVsX3NlZ3VyaWRhZCkNCg0KIyBNb2RlbG8gZGUgUmFuZG9tIEZvcmVzdA0Kc2V0LnNlZWQoMTIzKQ0KbW9kZWxvX3JmIDwtIHJhbmRvbUZvcmVzdCgNCiAgbml2ZWxfc2VndXJpZGFkIH4gTXVyZGVyICsgQXNzYXVsdCArIFJhcGUgKyBVcmJhblBvcCwgDQogIGRhdGEgPSBhc2lnbmFjaW9uLA0KICBudHJlZSA9IDEwMA0KKQ0KYGBgDQo=