UNIVERSIDAD DE EL SALVADOR

FACULTAD DE CIENCIAS ECONÓMICAS

ESCUELA DE ECONOMÍA

TEMA:

Aplicación: Análisis de Clúster (Conglomerados)

Asignatura: Econometría

Docente: Carlos Ademir Perez Alas

Integrantes:

Ortega Gómez, Johana Isabel - OG21015

Sanchez Dominguez, Victor René - SD21005

Suriano Cerón, Graciela Mercedes - SC18003

Grupo: GT02

ENUNCIADO:

El director de una cadena de electrodomesticos esta estudiando el plan de incentivos de sus vendedores. Considerando que los incentivos deben estar ajustados a las dificultades de las distintas zonas de ventas, siendo necesario fijar incentivos más altos en aquellas zonas geograficas que en las condiciones de vida de sus habitantes hacen más díficil las ventas. Por este motivo quiere determinar si las comunidades autonómas se pueden segmentar en grupos homogéneos respecto al equipamiento de los hogares. El objetivo es establecer cuantos grupos de comunidades autonómas con niveles de equipamiento similar pueden establecerse y en que radican las diferencias entre esos grupos. El procedimiento que aplicaremos es el descrito en el tema a saber:

1. Analisis de la existencia de outliers.

en la medida que pueden generar importantes distorciones en la detección de numero de grupos.

library(ggplot2)
library(readxl)
equipamiento <- read_excel("C:/Users/Johana/Downloads/Cuadro_3.22.xlsx")

data_numeric <- equipamiento[, sapply(equipamiento, is.numeric)]
mean <- colMeans(data_numeric)
sx <- cov(data_numeric)
mahalanobis_d<- mahalanobis(data_numeric, mean, sx, inverted = FALSE)

pchisq(mahalanobis_d, df=5, lower.tail = FALSE)

##  [1] 0.99751621 0.06042918 0.85950914 0.48026544 0.33635589 0.08973882
##  [7] 0.19992838 0.81886551 0.61525946 0.70148079 0.75906562 0.06401622
## [13] 0.02172347 0.14050255 0.43297138 0.18442574 0.80324248 0.52314027

qchisq(.99, df=5)

## [1] 15.08627

print(mahalanobis_d)

##  [1]  0.3066467 10.5775850  1.9243603  4.4971456  5.7015011  9.5288937
##  [7]  7.2903235  2.2136249  3.5538241  2.9903039  2.6151268 10.4264125
## [13] 13.1829345  8.2991255  4.8618547  7.5250661  2.3205601  4.1847111

2. Realización de un análisis de conglomerados jerárquicos.

evaluando la solución de distintos metodos de conglomeración, aplicando los criterios presentados para identificar el numero adecuado de grupos y obtención de los centroides que han de servir de partida para el paso siguiente.

2.1. Método del Centroide

#Calculo de la distancia euclidea
matriz.euclidea<-dist(equipamiento, method = "euclidean",diag = TRUE)

#Distancia euclidea al cuadrado
matriz.euclidea_2<-(matriz.euclidea)^2

centroide<-hclust(matriz.euclidea_2, method = "centroid")
plot(centroide, labels=equipamiento$CC.AA.)

## 2.2. Método del Vecino Más Cercano

vecino_mc<-hclust(matriz.euclidea_2, method = "single")
plot(vecino_mc, labels=equipamiento$CC.AA.)

2.3. Método del Vecino Más Lejano

vecino_ml<-hclust(matriz.euclidea_2, method = "complete")
plot(vecino_ml, labels=equipamiento$CC.AA.)

## 2.4. Método de Vinculación Promedio

vinculacion<-hclust(matriz.euclidea_2, method = "average")
plot(vinculacion, labels=equipamiento$CC.AA.)

## 2.5. Método de Ward

ward<-hclust(matriz.euclidea_2, method = "ward.D2")
plot(ward, labels=equipamiento$CC.AA.)

Observando los dendogramas podemos ver que los métodos “complete” y “Ward.2D” nos muestran la misma solución y el resto muestran soluciones parecidas, tomando en cuenta a todas las comunidades pero excluyendo Madrid. Lo que nos plantea la idea de que el numero optimo de grupos está entre 5 o 6, independientemente de que método se use.

Centroides Resultantes del Método Jerarquico:

library(dplyr)
grupo_ward<-cutree(ward, k=2, h=NULL)
datos_J<-cbind(data_numeric, grupo_ward)
datos_J$id<-NULL

datos_J2<-round(aggregate(datos_J, list(grupo_ward), mean),2) %>% print()

##   Group.1 Automovil TV.color Vídeo Microondas Lavavajillas Teléfono grupo_ward
## 1       1     66.94    96.82 57.68      25.42        11.81    80.71          1
## 2       2     70.70    98.53 63.47      44.70        22.43    90.23          2

3. Realización de un análisis de conglomerados no jerarquicos.

mediante el metodo k-medias para la obtención de una solución optima en terminos de homogeneidad intrasegmentos y heterogeneidad intersegmentos.

k.medias <- kmeans(data_numeric, 6) 
print(k.medias)

## K-means clustering with 6 clusters of sizes 4, 6, 1, 2, 2, 3
## 
## Cluster means:
##   Automovil TV.color    Vídeo Microondas Lavavajillas Teléfono
## 1  71.22500 98.22500 66.02500   31.37500     14.75000 87.42500
## 2  64.33333 96.21667 49.85000   21.31667     12.13333 80.06667
## 3  74.00000 99.40000 76.30000   53.90000     32.30000 95.70000
## 4  64.15000 96.75000 51.65000   40.45000     14.40000 81.95000
## 5  69.70000 97.40000 75.55000   26.00000      9.25000 75.05000
## 6  71.63333 98.36667 59.66667   44.36667     21.63333 90.03333
## 
## Clustering vector:
##  [1] 1 5 6 2 1 5 4 2 2 1 1 2 2 3 2 6 6 4
## 
## Within cluster sum of squares by cluster:
## [1] 214.5075 787.0117   0.0000  78.9850 152.2350  94.0000
##  (between_SS / total_SS =  78.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

*Conclusión:** Se realizó un analisis utilizando el enfoque no jerárquico (k-means), se obtuvo que el número de clústeres que homogeniza más los clústeres es 6 ya que brinda un indicador R2 más alto que otros grupos (78.8%).

Como se puede observar al comparar método jerárquico y el no jerárquico, la solución de ambos metodos coincide.