Estos datos son el resultados de consumo energetico por entidad federativa mexciana del año 2015
#install.packages("cluster") #Analisis de Agrupamiento
library(cluster)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("data.table")
library(data.table)
#install.packages("factoextra")
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
df1 <- read.csv("C:/Users/usuario/Desktop/Consumo_energia_electrica_2015.csv")
summary(df1)
## estado Promedio.gasto.energetico.por.estado
## Length:32 Min. : 103.2
## Class :character 1st Qu.: 207.1
## Mode :character Median : 361.7
## Mean : 511.9
## 3rd Qu.: 790.1
## Max. :1402.1
str(df1)
## 'data.frame': 32 obs. of 2 variables:
## $ estado : chr " Aguascalientes" " Baja California" " Baja California Sur" " Campeche" ...
## $ Promedio.gasto.energetico.por.estado: num 209 781 169 103 813 ...
#Solo si los datos no están en la misma escala.
datos_escalados <- scale(df1$Promedio.gasto.energetico.por.estado)
grupos1 <- 4
set.seed(123)
clusters1 <- kmeans(datos_escalados,grupos1)
clusters1
## K-means clustering with 4 clusters of sizes 15, 3, 8, 6
##
## Cluster means:
## [,1]
## 1 -0.8299525
## 2 2.0907082
## 3 0.8697896
## 4 -0.1301923
##
## Clustering vector:
## [1] 1 3 1 1 3 1 1 3 2 1 3 1 1 3 2 4 1 1 2 1 4 4 4 4 4 3 1 3 1 3 1 1
##
## Within cluster sum of squares by cluster:
## [1] 0.3187405 0.3888196 0.4104041 0.2825654
## (between_SS / total_SS = 95.5 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
optimizacion1 <- clusGap(datos_escalados, FUN=kmeans, nstart=1, K.max=10)
#El k.max normalmente es 10, en este ejercicio al ser 8 datos se dejó en 7.
plot(optimizacion1, xlab="Número de cluster k", main= "Optimización de Clusters")
#se selecciona el como óptimo el primer punto más alto.
# Scatterplot de valores escalados con cluster asignado
plot(datos_escalados, col = clusters1$cluster, pch = 19,
main = "Clusters en 1 variable (Promedio gasto energético)",
xlab = "Estados (índice)", ylab = "Valor escalado")
# Agregar línea horizontal por cada centroide
abline(h = clusters1$centers, col = 1:grupos1, lwd = 2, lty = 2)
df1_clusters <- cbind(df1, cluster = clusters1$cluster)
head(df1_clusters)
## estado Promedio.gasto.energetico.por.estado cluster
## 1 Aguascalientes 208.6117 1
## 2 Baja California 781.1447 3
## 3 Baja California Sur 169.2510 1
## 4 Campeche 103.1543 1
## 5 Coahuila 813.2697 3
## 6 Colima 136.2911 1
El análisis de clustering permitió agrupar a las entidades federativas mexicanas según su consumo energético en 2015, identificando patrones de comportamiento diferenciados. Los estados con mayor consumo quedaron concentrados en un grupo específico, mientras que aquellos con niveles medios y bajos se separaron en otros clusters. Esto muestra que el gasto energético no es homogéneo en el país y depende en gran medida de factores como el tamaño de la población, la actividad industrial y el desarrollo económico de cada región. La clasificación obtenida puede ser útil para diseñar políticas energéticas más focalizadas, asignar recursos de manera eficiente y comparar el desempeño entre entidades con características similares.