#Contexto La base de datos USArrests contiene estadisticas en arrestos por cada 100,000 residentes por agresion, asesinato y violacion en cada uno de los 50 estados de EE. UU. en 1973.

##Instalar paquetes y librerias

#install.packages("cluster") # Agrupamientos
library(cluster)
#install.packages("ggplot2") # Graficar
library(ggplot2)
#install.packages("factoextra") # Visualizar Clusters
library(factoextra)
#install.packages("data.table") # Manejo de datos grandes
library(data.table)
#install.packages("tidyverse") # Manipulación de datos
library(tidyverse)

##Importar base de datos

data("USArrests")

datos <- USArrests

##Escalar la base de datos

datos_escalados <- datos
datos_escalados <- subset(datos_escalados, select = -UrbanPop)  # Quitamos la columna de nombres
datos_escalados <- scale(datos_escalados)  # Normalizamos las variables

##Generar los segmentos

grupos <- 5 
segmentos <- kmeans(datos_escalados, grupos)

##Graficar y asignar grupo a los cluster

asignacion <- cbind(datos_escalados, cluster = segmentos$cluster)
fviz_cluster(segmentos, data = datos_escalados)

##Optimizar la cantidad de grupos

# Método del Codo para determinar el número óptimo de clusters
set.seed(123)
optimizacion <- clusGap(datos_escalados, FUN = kmeans, nstart = 1, K.max = 10)
plot(optimizacion, xlab = "Número de clusters")

##Comparar segmentos

# Asegurar que asignacion es un data frame
asignacion <- as.data.frame(cbind(datos, cluster = segmentos$cluster))

# Calcular los promedios por cluster
promedio <- aggregate(asignacion[, 1:4], by = list(Cluster = asignacion$cluster), FUN = mean)
print(promedio)
##   Cluster    Murder   Assault UrbanPop     Rape
## 1       1  2.791667  82.08333 56.16667 10.70833
## 2       2 10.100000 261.28571 74.57143 38.28571
## 3       3 13.633333 258.16667 64.66667 23.92500
## 4       4  6.887500 172.00000 69.00000 22.31250
## 5       5  6.045455 113.63636 68.45455 18.13636
table(asignacion$cluster)
## 
##  1  2  3  4  5 
## 12  7 12  8 11

##Inseguridad por promedio

# Crear una nueva columna con la suma de Murder, Assault y Rape en los promedios de los clusters
promedio$Total_Inseguridad <- promedio$Murder + promedio$Assault + promedio$Rape

# Ordenar de mayor a menor inseguridad
promedio_ordenado <- promedio[order(-promedio$Total_Inseguridad), ]

# Asignar categorías de inseguridad
promedio_ordenado$Clasificación <- factor(rank(-promedio_ordenado$Total_Inseguridad), 
                                          levels = 1:nrow(promedio_ordenado),
                                          labels = c("Más Inseguro", "Inseguro", "Moderado", "Seguro", "Más Seguro"))

print(promedio_ordenado)
##   Cluster    Murder   Assault UrbanPop     Rape Total_Inseguridad Clasificación
## 2       2 10.100000 261.28571 74.57143 38.28571         309.67143  Más Inseguro
## 3       3 13.633333 258.16667 64.66667 23.92500         295.72500      Inseguro
## 4       4  6.887500 172.00000 69.00000 22.31250         201.20000      Moderado
## 5       5  6.045455 113.63636 68.45455 18.13636         137.81818        Seguro
## 1       1  2.791667  82.08333 56.16667 10.70833          95.58333    Más Seguro

#Machine Learning

##Instalar paquetes y librerias

#install.packages("caret") # Algoritmos de aprendizaje automático
library(caret)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("rpart") # Árboles de decisión
library(rpart)
#install.packages("rpart.plot") # Visualización de árboles
library(rpart.plot)
#install.packages("kernlab") # SVM
library(kernlab)
#install.packages("nnet") # Redes neuronales
library(nnet)
#install.packages("randomForest") # Bosques Aleatorios
library(randomForest)
library(caret)

##Importar base de datos

# Cambiar el nombre de la columna "cluster" a "clasificacion" (Por estetica)
colnames(asignacion)[colnames(asignacion) == "cluster"] <- "clasificacion"

# Reemplazar los valores numéricos por etiquetas de clasificación
asignacion$clasificacion <- factor(asignacion$clasificacion,
                                   levels = c(1, 2, 3, 4, 5),
                                   labels = c("Más inseguro", "Más seguro", "Seguro", "Moderado", "Inseguro"))

##Partir datos 80-20

set.seed(123)
renglones_entrenamiento <- createDataPartition(asignacion$clasificacion, p=0.8, list=FALSE)
entrenamiento <- asignacion[renglones_entrenamiento, ]
prueba <- asignacion[-renglones_entrenamiento, ]

##Modelo 1: SVM Lineal

modelo1 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmLinear",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(C=1))

resultado_entrenamiento1 <- predict(modelo1, entrenamiento)
resultado_prueba1 <- predict(modelo1, prueba)

mcre1 <- confusionMatrix(resultado_entrenamiento1, entrenamiento$clasificacion)
mcrp1 <- confusionMatrix(resultado_prueba1, prueba$clasificacion)

##Modelo 2: SVM Radial

modelo2 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmRadial",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(sigma=1, C=1))

resultado_entrenamiento2 <- predict(modelo2, entrenamiento)
resultado_prueba2 <- predict(modelo2, prueba)

mcre2 <- confusionMatrix(resultado_entrenamiento2, entrenamiento$clasificacion)
mcrp2 <- confusionMatrix(resultado_prueba2, prueba$clasificacion)

##Modelo 3: SVM Polinómico

modelo3 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmPoly",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(degree=1, scale=1, C=1))

resultado_entrenamiento3 <- predict(modelo3, entrenamiento)
resultado_prueba3 <- predict(modelo3, prueba)

mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$clasificacion)
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$clasificacion)

##Modelo 4: Árbol de Decisión

modelo4 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rpart",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneLength = 20,  # Aumenta la longitud para más profundidad
                 control = rpart.control(minsplit=2, cp=0.01, maxdepth=5) # Permite más divisiones
)

resultado_entrenamiento4 <- predict(modelo4, entrenamiento)
resultado_prueba4 <- predict(modelo4, prueba)

mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$clasificacion)
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$clasificacion)

rpart.plot(modelo4$finalModel, type=5, extra=104, fallen.leaves=TRUE, box.palette="Blues")

##Modelo 5: Redes Neuronales

modelo5 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "nnet",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 trace=FALSE) 

resultado_entrenamiento5 <- predict(modelo5, entrenamiento)
resultado_prueba5 <- predict(modelo5, prueba)

mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$clasificacion)
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$clasificacion)

##Modelo 6: Random Forest

modelo6 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rf",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = expand.grid(mtry = c(2, 4, 6))) 

resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)

mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$clasificacion)
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$clasificacion)

## Resumen de Resultados

resultados <- data.frame(
  "SVM Lineal" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
  "SVM Radial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
  "SVM Polinómico" = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
  "Árbol de decisión" = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
  "Redes Neuronales" = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
  "Bosques Aleatorios" = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)

rownames(resultados) <- c("Precisión de Entrenamiento", "Precisión de Prueba")
resultados
##                            SVM.Lineal SVM.Radial SVM.Polinómico
## Precisión de Entrenamiento          1      1.000              1
## Precisión de Prueba                 1      0.875              1
##                            Árbol.de.decisión Redes.Neuronales
## Precisión de Entrenamiento         0.9761905            1.000
## Precisión de Prueba                0.5000000            0.875
##                            Bosques.Aleatorios
## Precisión de Entrenamiento               1.00
## Precisión de Prueba                      0.75
---
title: "USArrests"
output: 
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: "journal"
    highlight: "kate"
date: "2025-02-21"
---
![](C:\\Users\\Luis Arturo Reinoso\\Downloads\\images (1).jpg)


#<span style= "color: blue;">Contexto</span>
La base de datos **USArrests** contiene estadisticas en arrestos por cada 100,000 residentes por agresion, asesinato y violacion en cada uno de los 50 estados de EE. UU. en 1973.

##<span style= "color: blue;">Instalar paquetes y librerias</span>
```{r message=FALSE, warning=FALSE}
#install.packages("cluster") # Agrupamientos
library(cluster)
#install.packages("ggplot2") # Graficar
library(ggplot2)
#install.packages("factoextra") # Visualizar Clusters
library(factoextra)
#install.packages("data.table") # Manejo de datos grandes
library(data.table)
#install.packages("tidyverse") # Manipulación de datos
library(tidyverse)
```

##<span style= "color: blue;">Importar base de datos</span>
```{r}
data("USArrests")

datos <- USArrests

```
##<span style= "color: blue;">Escalar la base de datos</span>

```{r}
datos_escalados <- datos
datos_escalados <- subset(datos_escalados, select = -UrbanPop)  # Quitamos la columna de nombres
datos_escalados <- scale(datos_escalados)  # Normalizamos las variables
```
##<span style= "color: blue;">Generar los segmentos</span>
```{r}
grupos <- 5 
segmentos <- kmeans(datos_escalados, grupos)

```
##<span style= "color: blue;">Graficar y asignar grupo a los cluster</span>
```{r}
asignacion <- cbind(datos_escalados, cluster = segmentos$cluster)
fviz_cluster(segmentos, data = datos_escalados)

```
##<span style= "color: blue;">Optimizar la cantidad de grupos</span>
```{r}
# Método del Codo para determinar el número óptimo de clusters
set.seed(123)
optimizacion <- clusGap(datos_escalados, FUN = kmeans, nstart = 1, K.max = 10)
plot(optimizacion, xlab = "Número de clusters")

```
##<span style= "color: blue;">Comparar segmentos</span>
```{r}
# Asegurar que asignacion es un data frame
asignacion <- as.data.frame(cbind(datos, cluster = segmentos$cluster))

# Calcular los promedios por cluster
promedio <- aggregate(asignacion[, 1:4], by = list(Cluster = asignacion$cluster), FUN = mean)
print(promedio)
table(asignacion$cluster)


```

##<span style= "color: blue;">Inseguridad por promedio</span>

```{r}
# Crear una nueva columna con la suma de Murder, Assault y Rape en los promedios de los clusters
promedio$Total_Inseguridad <- promedio$Murder + promedio$Assault + promedio$Rape

# Ordenar de mayor a menor inseguridad
promedio_ordenado <- promedio[order(-promedio$Total_Inseguridad), ]

# Asignar categorías de inseguridad
promedio_ordenado$Clasificación <- factor(rank(-promedio_ordenado$Total_Inseguridad), 
                                          levels = 1:nrow(promedio_ordenado),
                                          labels = c("Más Inseguro", "Inseguro", "Moderado", "Seguro", "Más Seguro"))

print(promedio_ordenado)


```
#<span style= "color: blue;">Machine Learning</span>

##<span style= "color: blue;">Instalar paquetes y librerias</span>

```{r message=FALSE, warning=FALSE}
#install.packages("caret") # Algoritmos de aprendizaje automático
library(caret)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("rpart") # Árboles de decisión
library(rpart)
#install.packages("rpart.plot") # Visualización de árboles
library(rpart.plot)
#install.packages("kernlab") # SVM
library(kernlab)
#install.packages("nnet") # Redes neuronales
library(nnet)
#install.packages("randomForest") # Bosques Aleatorios
library(randomForest)
library(caret)

```
##<span style= "color: blue;">Importar base de datos</span>
```{r}

# Cambiar el nombre de la columna "cluster" a "clasificacion" (Por estetica)
colnames(asignacion)[colnames(asignacion) == "cluster"] <- "clasificacion"

# Reemplazar los valores numéricos por etiquetas de clasificación
asignacion$clasificacion <- factor(asignacion$clasificacion,
                                   levels = c(1, 2, 3, 4, 5),
                                   labels = c("Más inseguro", "Más seguro", "Seguro", "Moderado", "Inseguro"))



```
##<span style= "color: blue;">Partir datos 80-20</span>
```{r}
set.seed(123)
renglones_entrenamiento <- createDataPartition(asignacion$clasificacion, p=0.8, list=FALSE)
entrenamiento <- asignacion[renglones_entrenamiento, ]
prueba <- asignacion[-renglones_entrenamiento, ]


```
##<span style= "color: blue;">Modelo 1: SVM Lineal</span>
```{r}
modelo1 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmLinear",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(C=1))

resultado_entrenamiento1 <- predict(modelo1, entrenamiento)
resultado_prueba1 <- predict(modelo1, prueba)

mcre1 <- confusionMatrix(resultado_entrenamiento1, entrenamiento$clasificacion)
mcrp1 <- confusionMatrix(resultado_prueba1, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 2: SVM Radial</span>
```{r}
modelo2 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmRadial",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(sigma=1, C=1))

resultado_entrenamiento2 <- predict(modelo2, entrenamiento)
resultado_prueba2 <- predict(modelo2, prueba)

mcre2 <- confusionMatrix(resultado_entrenamiento2, entrenamiento$clasificacion)
mcrp2 <- confusionMatrix(resultado_prueba2, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 3: SVM Polinómico</span>
```{r}
modelo3 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "svmPoly",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = data.frame(degree=1, scale=1, C=1))

resultado_entrenamiento3 <- predict(modelo3, entrenamiento)
resultado_prueba3 <- predict(modelo3, prueba)

mcre3 <- confusionMatrix(resultado_entrenamiento3, entrenamiento$clasificacion)
mcrp3 <- confusionMatrix(resultado_prueba3, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 4: Árbol de Decisión</span>
```{r}

modelo4 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rpart",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneLength = 20,  # Aumenta la longitud para más profundidad
                 control = rpart.control(minsplit=2, cp=0.01, maxdepth=5) # Permite más divisiones
)

resultado_entrenamiento4 <- predict(modelo4, entrenamiento)
resultado_prueba4 <- predict(modelo4, prueba)

mcre4 <- confusionMatrix(resultado_entrenamiento4, entrenamiento$clasificacion)
mcrp4 <- confusionMatrix(resultado_prueba4, prueba$clasificacion)

rpart.plot(modelo4$finalModel, type=5, extra=104, fallen.leaves=TRUE, box.palette="Blues")


```
##<span style= "color: blue;">Modelo 5: Redes Neuronales</span>
```{r}
modelo5 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "nnet",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 trace=FALSE) 

resultado_entrenamiento5 <- predict(modelo5, entrenamiento)
resultado_prueba5 <- predict(modelo5, prueba)

mcre5 <- confusionMatrix(resultado_entrenamiento5, entrenamiento$clasificacion)
mcrp5 <- confusionMatrix(resultado_prueba5, prueba$clasificacion)


```
##<span style= "color: blue;">Modelo 6: Random Forest</span>
```{r message=FALSE, warning=FALSE}
modelo6 <- train(clasificacion ~ Murder + Assault + Rape, data=entrenamiento,
                 method = "rf",
                 preProcess=c("scale", "center"),
                 trControl = trainControl(method = "cv", number=10),
                 tuneGrid = expand.grid(mtry = c(2, 4, 6))) 

resultado_entrenamiento6 <- predict(modelo6, entrenamiento)
resultado_prueba6 <- predict(modelo6, prueba)

mcre6 <- confusionMatrix(resultado_entrenamiento6, entrenamiento$clasificacion)
mcrp6 <- confusionMatrix(resultado_prueba6, prueba$clasificacion)


```
##<span style= "color: blue;"> Resumen de Resultados</span>
```{r}
resultados <- data.frame(
  "SVM Lineal" = c(mcre1$overall["Accuracy"], mcrp1$overall["Accuracy"]),
  "SVM Radial" = c(mcre2$overall["Accuracy"], mcrp2$overall["Accuracy"]),
  "SVM Polinómico" = c(mcre3$overall["Accuracy"], mcrp3$overall["Accuracy"]),
  "Árbol de decisión" = c(mcre4$overall["Accuracy"], mcrp4$overall["Accuracy"]),
  "Redes Neuronales" = c(mcre5$overall["Accuracy"], mcrp5$overall["Accuracy"]),
  "Bosques Aleatorios" = c(mcre6$overall["Accuracy"], mcrp6$overall["Accuracy"])
)

rownames(resultados) <- c("Precisión de Entrenamiento", "Precisión de Prueba")
resultados


```

