
#Contexto La base de datos
USArrests contiene estadisticas en arrestos por cada
100,000 residentes por agresion, asesinato y violacion en cada uno de
los 50 estados de EE. UU. en 1973.
##Instalar paquetes y librerias
#install.packages("cluster") # Agrupamientos
library(cluster)
#install.packages("ggplot2") # Graficar
library(ggplot2)
#install.packages("factoextra") # Visualizar Clusters
library(factoextra)
#install.packages("data.table") # Manejo de datos grandes
library(data.table)
#install.packages("tidyverse") # Manipulación de datos
library(tidyverse)
##Importar base de datos
data("USArrests")
datos <- USArrests
##Escalar la base de datos
datos_escalados <- datos
datos_escalados <- subset(datos_escalados, select = -UrbanPop) # Quitamos la columna de nombres
datos_escalados <- scale(datos_escalados) # Normalizamos las variables
##Generar los segmentos
grupos <- 5
segmentos <- kmeans(datos_escalados, grupos)
##Graficar y asignar grupo a los
cluster
asignacion <- cbind(datos_escalados, cluster = segmentos$cluster)
fviz_cluster(segmentos, data = datos_escalados)
##Optimizar la cantidad de grupos
# Método del Codo para determinar el número óptimo de clusters
set.seed(123)
optimizacion <- clusGap(datos_escalados, FUN = kmeans, nstart = 1, K.max = 10)
plot(optimizacion, xlab = "Número de clusters")
##Comparar segmentos
# Asegurar que asignacion es un data frame
asignacion <- as.data.frame(cbind(datos, cluster = segmentos$cluster))
# Calcular los promedios por cluster
promedio <- aggregate(asignacion[, 1:4], by = list(Cluster = asignacion$cluster), FUN = mean)
print(promedio)
## Cluster Murder Assault UrbanPop Rape
## 1 1 2.791667 82.08333 56.16667 10.70833
## 2 2 10.100000 261.28571 74.57143 38.28571
## 3 3 13.633333 258.16667 64.66667 23.92500
## 4 4 6.887500 172.00000 69.00000 22.31250
## 5 5 6.045455 113.63636 68.45455 18.13636
table(asignacion$cluster)
##
## 1 2 3 4 5
## 12 7 12 8 11
##Inseguridad por promedio
# Crear una nueva columna con la suma de Murder, Assault y Rape en los promedios de los clusters
promedio$Total_Inseguridad <- promedio$Murder + promedio$Assault + promedio$Rape
# Ordenar de mayor a menor inseguridad
promedio_ordenado <- promedio[order(-promedio$Total_Inseguridad), ]
# Asignar categorías de inseguridad
promedio_ordenado$Clasificación <- factor(rank(-promedio_ordenado$Total_Inseguridad),
levels = 1:nrow(promedio_ordenado),
labels = c("Más Inseguro", "Inseguro", "Moderado", "Seguro", "Más Seguro"))
print(promedio_ordenado)
## Cluster Murder Assault UrbanPop Rape Total_Inseguridad Clasificación
## 2 2 10.100000 261.28571 74.57143 38.28571 309.67143 Más Inseguro
## 3 3 13.633333 258.16667 64.66667 23.92500 295.72500 Inseguro
## 4 4 6.887500 172.00000 69.00000 22.31250 201.20000 Moderado
## 5 5 6.045455 113.63636 68.45455 18.13636 137.81818 Seguro
## 1 1 2.791667 82.08333 56.16667 10.70833 95.58333 Más Seguro
#Machine Learning
##Instalar paquetes y librerias
#install.packages("caret") # Algoritmos de aprendizaje automático
library(caret)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("rpart") # Árboles de decisión
library(rpart)
#install.packages("rpart.plot") # Visualización de árboles
library(rpart.plot)
#install.packages("kernlab") # SVM
library(kernlab)
#install.packages("nnet") # Redes neuronales
library(nnet)
#install.packages("randomForest") # Bosques Aleatorios
library(randomForest)
library(caret)
##Importar base de datos
# Cambiar el nombre de la columna "cluster" a "clasificacion" (Por estetica)
colnames(asignacion)[colnames(asignacion) == "cluster"] <- "clasificacion"
# Reemplazar los valores numéricos por etiquetas de clasificación
asignacion$clasificacion <- factor(asignacion$clasificacion,
levels = c(1, 2, 3, 4, 5),
labels = c("Más inseguro", "Más seguro", "Seguro", "Moderado", "Inseguro"))
##Partir datos 80-20
set.seed(123)
renglones_entrenamiento <- createDataPartition(asignacion$clasificacion, p=0.8, list=FALSE)
entrenamiento <- asignacion[renglones_entrenamiento, ]
prueba <- asignacion[-renglones_entrenamiento, ]
##Modelo 1: SVM Lineal
modelo1 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "svmLinear",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
tuneGrid = data.frame(C=1))
resultado_entrenamiento1 <- predict(modelo1, entrenamiento)
resultado_prueba1 <- predict(modelo1, prueba)
mcre1 <- confusionMatrix(resultado_entrenamiento1, entrenamiento$clasificacion)
mcrp1 <- confusionMatrix(resultado_prueba1, prueba$clasificacion)
##Modelo 2: SVM Radial
modelo2 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "svmRadial",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
tuneGrid = data.frame(sigma=1, C=1))
resultado_entrenamiento2 <- predict(modelo2, entrenamiento)
resultado_prueba2 <- predict(modelo2, prueba)
mcre2 <- confusionMatrix(resultado_entrenamiento2, entrenamiento$clasificacion)
mcrp2 <- confusionMatrix(resultado_prueba2, prueba$clasificacion)
##Modelo 3: SVM Polinómico
modelo3 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "svmPoly",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
tuneGrid = data.frame(degree=1, scale=1, C=1))
resultado_entrenamiento3 <- predict(modelo3, entrenamiento)
resultado_prueba3 <- predict(modelo3, prueba)
mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$clasificacion)
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$clasificacion)
##Modelo 4: Árbol de Decisión
modelo4 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "rpart",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
tuneLength = 20, # Aumenta la longitud para más profundidad
control = rpart.control(minsplit=2, cp=0.01, maxdepth=5) # Permite más divisiones
)
resultado_entrenamiento4 <- predict(modelo4, entrenamiento)
resultado_prueba4 <- predict(modelo4, prueba)
mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$clasificacion)
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$clasificacion)
rpart.plot(modelo4$finalModel, type=5, extra=104, fallen.leaves=TRUE, box.palette="Blues")
##Modelo 5: Redes Neuronales
modelo5 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "nnet",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
trace=FALSE)
resultado_entrenamiento5 <- predict(modelo5, entrenamiento)
resultado_prueba5 <- predict(modelo5, prueba)
mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$clasificacion)
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$clasificacion)
##Modelo 6: Random Forest
modelo6 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
method = "rf",
preProcess=c("scale", "center"),
trControl = trainControl(method = "cv", number=10),
tuneGrid = expand.grid(mtry = c(2, 4, 6)))
resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)
mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$clasificacion)
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$clasificacion)
## Resumen de Resultados
resultados <- data.frame(
"SVM Lineal" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
"SVM Radial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
"SVM Polinómico" = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
"Árbol de decisión" = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
"Redes Neuronales" = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
"Bosques Aleatorios" = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)
rownames(resultados) <- c("Precisión de Entrenamiento", "Precisión de Prueba")
resultados
## SVM.Lineal SVM.Radial SVM.Polinómico
## Precisión de Entrenamiento 1 1.000 1
## Precisión de Prueba 1 0.875 1
## Árbol.de.decisión Redes.Neuronales
## Precisión de Entrenamiento 0.9761905 1.000
## Precisión de Prueba 0.5000000 0.875
## Bosques.Aleatorios
## Precisión de Entrenamiento 1.00
## Precisión de Prueba 0.75
---
title: "USArrests"
output: 
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: "journal"
    highlight: "kate"
date: "2025-02-21"
---
![](C:\\Users\\Luis Arturo Reinoso\\Downloads\\images (1).jpg)


#<span style= "color: blue;">Contexto</span>
La base de datos **USArrests** contiene estadisticas en arrestos por cada 100,000 residentes por agresion, asesinato y violacion en cada uno de los 50 estados de EE. UU. en 1973.

##<span style= "color: blue;">Instalar paquetes y librerias</span>
```{r message=FALSE, warning=FALSE}
#install.packages("cluster") # Agrupamientos
library(cluster)
#install.packages("ggplot2") # Graficar
library(ggplot2)
#install.packages("factoextra") # Visualizar Clusters
library(factoextra)
#install.packages("data.table") # Manejo de datos grandes
library(data.table)
#install.packages("tidyverse") # Manipulación de datos
library(tidyverse)
```

##<span style= "color: blue;">Importar base de datos</span>
```{r}
data("USArrests")

datos <- USArrests

```
##<span style= "color: blue;">Escalar la base de datos</span>

```{r}
datos_escalados <- datos
datos_escalados <- subset(datos_escalados, select = -UrbanPop)  # Quitamos la columna de nombres
datos_escalados <- scale(datos_escalados)  # Normalizamos las variables
```
##<span style= "color: blue;">Generar los segmentos</span>
```{r}
grupos <- 5 
segmentos <- kmeans(datos_escalados, grupos)

```
##<span style= "color: blue;">Graficar y asignar grupo a los cluster</span>
```{r}
asignacion <- cbind(datos_escalados, cluster = segmentos$cluster)
fviz_cluster(segmentos, data = datos_escalados)

```
##<span style= "color: blue;">Optimizar la cantidad de grupos</span>
```{r}
# Método del Codo para determinar el número óptimo de clusters
set.seed(123)
optimizacion <- clusGap(datos_escalados, FUN = kmeans, nstart = 1, K.max = 10)
plot(optimizacion, xlab = "Número de clusters")

```
##<span style= "color: blue;">Comparar segmentos</span>
```{r}
# Asegurar que asignacion es un data frame
asignacion <- as.data.frame(cbind(datos, cluster = segmentos$cluster))

# Calcular los promedios por cluster
promedio <- aggregate(asignacion[, 1:4], by = list(Cluster = asignacion$cluster), FUN = mean)
print(promedio)
table(asignacion$cluster)


```

##<span style= "color: blue;">Inseguridad por promedio</span>

```{r}
# Crear una nueva columna con la suma de Murder, Assault y Rape en los promedios de los clusters
promedio$Total_Inseguridad <- promedio$Murder + promedio$Assault + promedio$Rape

# Ordenar de mayor a menor inseguridad
promedio_ordenado <- promedio[order(-promedio$Total_Inseguridad), ]

# Asignar categorías de inseguridad
promedio_ordenado$Clasificación <- factor(rank(-promedio_ordenado$Total_Inseguridad), 
                                          levels = 1:nrow(promedio_ordenado),
                                          labels = c("Más Inseguro", "Inseguro", "Moderado", "Seguro", "Más Seguro"))

print(promedio_ordenado)


```
#<span style= "color: blue;">Machine Learning</span>

##<span style= "color: blue;">Instalar paquetes y librerias</span>

```{r message=FALSE, warning=FALSE}
#install.packages("caret") # Algoritmos de aprendizaje automático
library(caret)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("rpart") # Árboles de decisión
library(rpart)
#install.packages("rpart.plot") # Visualización de árboles
library(rpart.plot)
#install.packages("kernlab") # SVM
library(kernlab)
#install.packages("nnet") # Redes neuronales
library(nnet)
#install.packages("randomForest") # Bosques Aleatorios
library(randomForest)
library(caret)

```
##<span style= "color: blue;">Importar base de datos</span>
```{r}

# Cambiar el nombre de la columna "cluster" a "clasificacion" (Por estetica)
colnames(asignacion)[colnames(asignacion) == "cluster"] <- "clasificacion"

# Reemplazar los valores numéricos por etiquetas de clasificación
asignacion$clasificacion <- factor(asignacion$clasificacion,
                                   levels = c(1, 2, 3, 4, 5),
                                   labels = c("Más inseguro", "Más seguro", "Seguro", "Moderado", "Inseguro"))



```
##<span style= "color: blue;">Partir datos 80-20</span>
```{r}
set.seed(123)
renglones_entrenamiento <- createDataPartition(asignacion$clasificacion, p=0.8, list=FALSE)
entrenamiento <- asignacion[renglones_entrenamiento, ]
prueba <- asignacion[-renglones_entrenamiento, ]


```
##<span style= "color: blue;">Modelo 1: SVM Lineal</span>
```{r}
modelo1 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmLinear",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(C=1))

resultado_entrenamiento1 <- predict(modelo1, entrenamiento)
resultado_prueba1 <- predict(modelo1, prueba)

mcre1 <- confusionMatrix(resultado_entrenamiento1, entrenamiento$clasificacion)
mcrp1 <- confusionMatrix(resultado_prueba1, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 2: SVM Radial</span>
```{r}
modelo2 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmRadial",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(sigma=1, C=1))

resultado_entrenamiento2 <- predict(modelo2, entrenamiento)
resultado_prueba2 <- predict(modelo2, prueba)

mcre2 <- confusionMatrix(resultado_entrenamiento2, entrenamiento$clasificacion)
mcrp2 <- confusionMatrix(resultado_prueba2, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 3: SVM Polinómico</span>
```{r}
modelo3 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmPoly",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(degree=1, scale=1, C=1))

resultado_entrenamiento3 <- predict(modelo3, entrenamiento)
resultado_prueba3 <- predict(modelo3, prueba)

mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$clasificacion)
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 4: Árbol de Decisión</span>
```{r}

modelo4 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rpart",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneLength = 20,  # Aumenta la longitud para más profundidad
                 control = rpart.control(minsplit=2, cp=0.01, maxdepth=5) # Permite más divisiones
)

resultado_entrenamiento4 <- predict(modelo4, entrenamiento)
resultado_prueba4 <- predict(modelo4, prueba)

mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$clasificacion)
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$clasificacion)

rpart.plot(modelo4$finalModel, type=5, extra=104, fallen.leaves=TRUE, box.palette="Blues")


```
##<span style= "color: blue;">Modelo 5: Redes Neuronales</span>
```{r}
modelo5 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "nnet",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 trace=FALSE) 

resultado_entrenamiento5 <- predict(modelo5, entrenamiento)
resultado_prueba5 <- predict(modelo5, prueba)

mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$clasificacion)
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 6: Random Forest</span>
```{r message=FALSE, warning=FALSE}
modelo6 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rf",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = expand.grid(mtry = c(2, 4, 6))) 

resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)

mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$clasificacion)
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$clasificacion)


```
##<span style= "color: blue;"> Resumen de Resultados</span>
```{r}
resultados <- data.frame(
  "SVM Lineal" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
  "SVM Radial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
  "SVM Polinómico" = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
  "Árbol de decisión" = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
  "Redes Neuronales" = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
  "Bosques Aleatorios" = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)

rownames(resultados) <- c("Precisión de Entrenamiento", "Precisión de Prueba")
resultados


```

