UNIVERSIDAD DE EL SALVADOR
FACULTAD DE CIENCIAS ECONÓMICAS
ESCUELA DE ECONOMÍA
TEMA:
Aplicación: Análisis de Clúster (Conglomerados)
Asignatura: Econometría
Docente: Carlos Ademir Perez Alas
Integrantes:
Ortega Gómez, Johana Isabel - OG21015
Sanchez Dominguez, Victor René - SD21005
Suriano Cerón, Graciela Mercedes - SC18003
Grupo: GT02
ENUNCIADO:
El director de una cadena de electrodomesticos esta estudiando el plan de incentivos de sus vendedores. Considerando que los incentivos deben estar ajustados a las dificultades de las distintas zonas de ventas, siendo necesario fijar incentivos más altos en aquellas zonas geograficas que en las condiciones de vida de sus habitantes hacen más díficil las ventas. Por este motivo quiere determinar si las comunidades autonómas se pueden segmentar en grupos homogéneos respecto al equipamiento de los hogares. El objetivo es establecer cuantos grupos de comunidades autonómas con niveles de equipamiento similar pueden establecerse y en que radican las diferencias entre esos grupos. El procedimiento que aplicaremos es el descrito en el tema a saber:
1. Analisis de la existencia de outliers.
en la medida que pueden generar importantes distorciones en la detección de numero de grupos.
library(ggplot2)
library(readxl)
equipamiento <- read_excel("C:/Users/Johana/Downloads/Cuadro_3.22.xlsx")
data_numeric <- equipamiento[, sapply(equipamiento, is.numeric)]
mean <- colMeans(data_numeric)
sx <- cov(data_numeric)
mahalanobis_d<- mahalanobis(data_numeric, mean, sx, inverted = FALSE)
pchisq(mahalanobis_d, df=5, lower.tail = FALSE)## [1] 0.99751621 0.06042918 0.85950914 0.48026544 0.33635589 0.08973882
## [7] 0.19992838 0.81886551 0.61525946 0.70148079 0.75906562 0.06401622
## [13] 0.02172347 0.14050255 0.43297138 0.18442574 0.80324248 0.52314027
## [1] 15.08627
## [1] 0.3066467 10.5775850 1.9243603 4.4971456 5.7015011 9.5288937
## [7] 7.2903235 2.2136249 3.5538241 2.9903039 2.6151268 10.4264125
## [13] 13.1829345 8.2991255 4.8618547 7.5250661 2.3205601 4.1847111
2. Realización de un análisis de conglomerados jerárquicos.
evaluando la solución de distintos metodos de conglomeración, aplicando los criterios presentados para identificar el numero adecuado de grupos y obtención de los centroides que han de servir de partida para el paso siguiente.
2.1. Método del Centroide
#Calculo de la distancia euclidea
matriz.euclidea<-dist(equipamiento, method = "euclidean",diag = TRUE)
#Distancia euclidea al cuadrado
matriz.euclidea_2<-(matriz.euclidea)^2
centroide<-hclust(matriz.euclidea_2, method = "centroid")
plot(centroide, labels=equipamiento$CC.AA.)
## 2.2. Método del Vecino Más Cercano
2.3. Método del Vecino Más Lejano
vecino_ml<-hclust(matriz.euclidea_2, method = "complete")
plot(vecino_ml, labels=equipamiento$CC.AA.)
## 2.4. Método de Vinculación Promedio
vinculacion<-hclust(matriz.euclidea_2, method = "average")
plot(vinculacion, labels=equipamiento$CC.AA.)
## 2.5. Método de Ward
Observando los dendogramas podemos ver que los métodos “complete” y
“Ward.2D” nos muestran la misma solución y el resto muestran soluciones
parecidas, tomando en cuenta a todas las comunidades pero excluyendo
Madrid. Lo que nos plantea la idea de que el numero optimo de grupos
está entre 5 o 6, independientemente de que método se use.
Centroides Resultantes del Método Jerarquico:
library(dplyr)
grupo_ward<-cutree(ward, k=2, h=NULL)
datos_J<-cbind(data_numeric, grupo_ward)
datos_J$id<-NULL
datos_J2<-round(aggregate(datos_J, list(grupo_ward), mean),2) %>% print()## Group.1 Automovil TV.color Vídeo Microondas Lavavajillas Teléfono grupo_ward
## 1 1 66.94 96.82 57.68 25.42 11.81 80.71 1
## 2 2 70.70 98.53 63.47 44.70 22.43 90.23 2
3. Realización de un análisis de conglomerados no jerarquicos.
mediante el metodo k-medias para la obtención de una solución optima en terminos de homogeneidad intrasegmentos y heterogeneidad intersegmentos.
## K-means clustering with 6 clusters of sizes 4, 6, 1, 2, 2, 3
##
## Cluster means:
## Automovil TV.color Vídeo Microondas Lavavajillas Teléfono
## 1 71.22500 98.22500 66.02500 31.37500 14.75000 87.42500
## 2 64.33333 96.21667 49.85000 21.31667 12.13333 80.06667
## 3 74.00000 99.40000 76.30000 53.90000 32.30000 95.70000
## 4 64.15000 96.75000 51.65000 40.45000 14.40000 81.95000
## 5 69.70000 97.40000 75.55000 26.00000 9.25000 75.05000
## 6 71.63333 98.36667 59.66667 44.36667 21.63333 90.03333
##
## Clustering vector:
## [1] 1 5 6 2 1 5 4 2 2 1 1 2 2 3 2 6 6 4
##
## Within cluster sum of squares by cluster:
## [1] 214.5075 787.0117 0.0000 78.9850 152.2350 94.0000
## (between_SS / total_SS = 78.5 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
*Conclusión:** Se realizó un analisis utilizando el enfoque no jerárquico (k-means), se obtuvo que el número de clústeres que homogeniza más los clústeres es 6 ya que brinda un indicador R2 más alto que otros grupos (78.8%).
Como se puede observar al comparar método jerárquico y el no jerárquico, la solución de ambos metodos coincide.