ETAPA 1: OBJETIVOS DEL ANÁLISIS DE CONGLOMERADOS

En esta práctica se utiliza la base de datos HBAT para mostrar la aplicación de técnicas de análisis de conglomerados.
La primera etapa consiste en definir los objetivos, seleccionar las variables de agrupamiento y realizar un análisis descriptivo y exploratorio de las mismas.

El análisis de conglomerados en HBAT tiene tres objetivos principales:

1.Desarrollo de una taxonomía:

segmentar a los clientes en grupos homogéneos.De todas las variables disponibles, se eligen únicamente aquellas que servirán como base para formar los conglomerados: X6: Calidad del producto. X8: Soporte técnico. X12: Imagen de la fuerza de ventas. X15: Desarrollo de nuevos productos. X18: Velocidad de entrega

2. Simplificación de datos:

reducir la complejidad de la información agrupando clientes en segmentos representativos.Aquí se calculan medidas de tendencia central y dispersión (mínimo, máximo, media, desviación estándar).Esto nos permite conocer: El rango de respuestas para cada atributo.El nivel de satisfacción promedio (ej. una media alta en X6 refleja que los clientes valoran positivamente la calidad del producto).El grado de variabilidad en las percepciones (una desviación estándar elevada refleja heterogeneidad entre clientes)

Tabla 4.5 – Estadísticos descriptivos de las variables de conglomerado
Variable N Media Desv.Est. Mediana Mínimo Máximo
X6 1 100 7.81 1.40 8.0 5.0 10.0
X8 2 100 5.36 1.53 5.4 1.3 8.5
X12 3 100 5.12 1.07 4.9 2.9 8.2
X15 4 100 5.15 1.49 5.0 1.7 9.5
X18 5 100 3.89 0.73 3.9 1.6 5.5

3.Identificación de relaciones:

descubrir patrones de comportamiento o percepciones que no son visibles con datos individuales. Se calcula la matriz de correlaciones para examinar la relación entre las variables de agrupamiento.Correlaciones muy altas (>0.70) indicarían redundancia (es decir, dos variables aportan la misma información).En este caso, se espera que las correlaciones sean moderadas, lo que justifica la inclusión de cada variable en el análisis.Esto asegura que cada atributo seleccionado aporte información diferenciada a la formación de los clústeres.

Tabla 4.X – Matriz de correlaciones de las variables de conglomerado
Variable 1 (X6) 2 (X8) 3 (X12) 4 (X15) 5 (X18)
X6 1 (X6) 1.00 0.10 -0.15 0.03 0.03
X8 2 (X8) 0.10 1.00 0.02 -0.07 0.03
X12 3 (X12) -0.15 0.02 1.00 0.03 0.27
X15 4 (X15) 0.03 -0.07 0.03 1.00 0.11
X18 5 (X18) 0.03 0.03 0.27 0.11 1.00
* X6 = Calidad del producto; X8 = Soporte técnico; X12 = Imagen de la fuerza de ventas; X15 = Nuevos productos; X18 = Rapidez de entrega

Histogramas de las variables

Se generan histogramas para visualizar la distribución de cada variable: Una distribución cercana a la normal es deseable para la estabilidad del análisis. Distribuciones sesgadas o con valores extremos pueden influir en la asignación de clientes a los clústeres.Este paso de exploración gráfica es clave para detectar patrones iniciales y posibles problemas antes de aplicar los algoritmos de conglomerados. Fortaleza: Calidad del producto (X6). Debilidades/retos: Velocidad de entrega (X18) y Soporte técnico (X8). Variables polarizadas: Nuevos productos (X15) e Imagen de ventas (X12).

ETAPA 2: DISEÑO DE LA INVESTIGACIÓN DEL ANÁLISIS DE CONGLOMERADOS

En esta etapa se abordan cuatro aspectos esenciales para garantizar la calidad del análisis de conglomerados:
* 1. Detección de valores atípicos.
* 2. Selección de la medida de similitud.
* 3. Determinación del tamaño de la muestra.
* 4. Decisión sobre la estandarización de variables.

1. Detección de valores atípicos.

Se calcula la distancia euclidiana de cada observación al centroide (cliente promedio).Esto nos da una medida de disimilitud: observaciones con valores altos son candidatas a ser atípicas.Aquí se listan las 10 observaciones más disímiles.Según el texto de HBAT, observaciones con disimilitud mucho mayor al resto deben vigilarse como posibles outliers.

Tabla 4.6 – Cálculo de la disimilitud para la observación 100

Tabla 4.6 – Ejemplo de centrado al calcular disimilitud (Obs. 100)
Variable Valores.observados..Obs.100. Medias.variables..Tabla.4.5. Diferencia Diferencia.
X6 X6 7.9 7.81 0.09 0.0081
X8 X8 4.4 5.36 -0.96 0.9312
X12 X12 4.8 5.12 -0.32 0.1043
X15 X15 5.8 5.15 0.65 0.4225
X18 X18 3.5 3.89 -0.39 0.149
6 Diferencias totales al cuadrado 1.62
7 Raíz cuadrada del total 1.27

en la tabla 4.6 calculamos la distancia euclidiana de 1.28,esto representa que tan lejos esta la observación 100 del promedio, cuanto mayor sea la distancia más atípica es la observación frente al promedio

Tabla 4.7 Valores de disimilitud más grandes para identificar posibles valores atípicos

Valores de disimilitud más grandes para identificar posibles valores atípicos
Observation X6 X8 X12 X15 X18 X6² X8² X12² X15² X18² Dissimilarity
87 87 -2.81 -4.065 -0.223 2.45 -0.786 7.8961 16.524225 0.049729 6.0025 0.617796 5.58
6 6 -1.31 -2.265 -1.423 4.35 -0.586 1.7161 5.130225 2.024929 18.9225 0.343396 5.30
90 90 -2.31 2.335 3.077 -0.25 1.014 5.3361 5.452225 9.467929 0.0625 1.028196 4.62
53 53 1.59 -0.565 -0.523 4.05 0.714 2.5281 0.319225 0.273529 16.4025 0.509796 4.48
41 41 0.49 -2.065 0.077 -3.45 0.014 0.2401 4.264225 0.005929 11.9025 0.000196 4.05
44 44 -2.71 1.235 2.677 0.05 0.614 7.3441 1.525225 7.166329 0.0025 0.376996 4.05
72 72 -1.11 -2.365 -0.623 -2.65 -0.786 1.2321 5.593225 0.388129 7.0225 0.617796 3.85
31 31 -0.91 3.135 -0.423 -1.85 -0.586 0.8281 9.828225 0.178929 3.4225 0.343396 3.82
22 22 1.79 1.435 2.677 1.35 0.414 3.2041 2.059225 7.166329 1.8225 0.171396 3.80
88 88 -0.11 2.635 -0.823 2.55 0.414 0.0121 6.943225 0.677329 6.5025 0.171396 3.78

87 y 6 → son los casos más lejanos del centroide → fuertes candidatos a outliers. 90 y 53 → también tienen distancias relativamente altas, pero no tan extremas. Los demás (44, 41, 72, 31, 22, 88) → siguen estando por encima del promedio de disimilitud, pero en menor grado.

2. Selección de la medida de similitud

##  [1] 4.097560 3.296968 5.281098 3.141656 6.070420 3.911521 2.882707 3.861347
##  [9] 3.570714 4.091455

3.14, 2.88, 3.29 → indican pares de clientes bastante parecidos (cercanos al promedio de la muestra). 6.07 → indica un par de clientes muy disímiles, con percepciones bastante distintas en al menos una de las variables. La variación de valores (desde ~2.88 hasta ~6.07) nos muestra que en la base hay tanto clientes similares como otros muy diferentes.

3. Determinación del tamaño de la muestra

El dataset de HBAT tiene 100 observaciones.Se considera que un segmento útil debe representar al menos el 10% de la muestra (≥ 10 observaciones).En la práctica, se trabajará con entre 3 y 7 conglomerados, ya que este rango se considera manejable y con utilidad gerencial.

4. Decisión sobre la estandarización de variables

##        X6        X8       X12       X15       X18 
## 1.3962793 1.5304568 1.0723198 1.4930479 0.7344372
##         X6     X8    X12   X15    X18
## [1,]  0.69 -2.865  0.877 -0.85 -0.186
## [2,]  0.39 -0.265 -2.023 -1.15  1.014
## [3,]  1.39  0.235  0.677 -0.55  0.614
## [4,] -1.41  1.635 -0.623 -1.55 -0.886
## [5,]  1.19 -0.165 -0.623 -0.65 -0.386
## [6,] -1.31 -2.265 -1.423  4.35 -0.586

Valores positivos el cliente percibe el atributo mejor que el promedio. Valores negativos el cliente percibe el atributo peor que el promedio. El centrado en la media deja todas las variables con media = 0, lo que facilita comparar perfiles entre variables y segmentos. Ejemplos de clientes:

  • Obs. 1 Ama la calidad (X6 +0.69), pero está muy insatisfecho con el soporte (X8 –2.86).

  • Obs. 2 Muy crítico con la imagen de ventas (X12 –2.02) y la innovación (X15 –1.15).

  • Obs. 6 Percibe muy alta innovación (X15 +4.35), pero valora muy bajo soporte (X8 –2.27).

  • X6 = 0.69 → este cliente dio un puntaje 0.69 por encima del promedio en calidad del producto.

  • X8 = -2.865 → dio una calificación muy por debajo de la media en soporte técnico.

  • X12 = 0.877 → ligeramente por encima del promedio en imagen de ventas.

  • X15 = -0.85 → algo por debajo en innovación.

  • X18 = -0.186 → casi igual al promedio en velocidad de entrega. Así, cada fila nos dice si un cliente percibe mejor o peor que el promedio en cada atributo.

ETAPA 3: SUPUESTOS EN EL ANÁLISIS DE CONGLOMERADOS

El análisis de conglomerados no es una técnica de inferencia estadística tradicional, sino un método exploratorio para identificar estructuras naturales en los datos. Por ello, no depende de supuestos como normalidad, linealidad u homocedasticidad (propios de la regresión o el ANOVA).
En cambio, se centra en tres aspectos críticos:


1. Existencia de una estructura

El análisis de conglomerados parte del supuesto de que sí existen agrupaciones naturales en los datos. Si los datos fueran completamente aleatorios, el algoritmo igual generaría clústeres, pero serían artificiales y poco interpretables. Por ello, siempre debemos validar la solución obtenida en función de los objetivos de investigación (ejemplo: segmentación de clientes en HBAT).

En HBAT, se supone que los clientes pueden dividirse en segmentos con percepciones diferentes sobre calidad, soporte, innovación, etc.
Más adelante, en la validación (Etapa 6), se confirmará si los clústeres realmente tienen sentido gerencial.

2. Representatividad de la muestra

La utilidad del análisis depende de que la muestra represente bien a la población. En HBAT tenemos 100 observaciones, que deben reflejar la diversidad de clientes de la empresa. Si la muestra está sesgada ejemplo, incluye mayor mente entes satisfechos, los clústeres no reflejarán la estructura real de la población.
También es importante el manejo de valores atípicos: eliminarlos sin justificación puede distorsionar la estructura real, pues podrían representar segmentos legítimospero minoritarios.

En HBAT, los casos detectados con alta disimilitud (Etapa 2) se deben evaluar con cuidado: ¿son outliers reales o clientes de un segmento poco común pero válido?

3. Impacto de la multicolinealidad

La multicolinealidad (correlaciones altas entre variables) tiene un efecto distinto en el análisis de conglomerados que en técnicas inferenciales: Aquí actúa como una ponderación implícita: las dimensiones con más ítems correlacionados influyen más en la medida de similitud. Ejemplo: si 8 de las 10 variables del cuestionario miden “calidad” y solo 2 miden “servicio”, la similitud entre clientes estará dominada por la calidad, y el servicio quedará subestimado.

Para evitar este problema: Se recomienda usar análisis factorial exploratorio previamente (como hicimos en HBAT) y seleccionar una sola variable por factor. Otra opción es usar las puntuaciones factoriales, aunque existe el riesgo de que estas no representen bien las variables que mejor discriminan entre grupos.

En HBAT se optó por: Usar X6, X8, X12, X15, X18 (una variable representativa por factor + la variable de nuevos productos).
De esta forma, se reduce la multicolinealidad y se balancea el peso de cada dimensión en el análisis. # Conclusión En esta etapa hemos revisado los supuestos conceptuales que garantizan la validez del análisis de conglomerados:
Que haya estructura real en los datos.
Que la muestra de clientes de HBAT sea representativa.
Que la multicolinealidad esté controlada mediante la selección de variables relevantes.

Estos supuestos no se prueban con código directamente, pero sí guían la preparación de los datos y la interpretación crítica de los clústeres que obtendremos en las siguientes etapas.

ETAPAS 4-6: EMPLEO DE MÉTODOS JERÁRQUICOS Y NO JERÁRQUICOS

En esta etapa se aplica el método jerárquico de Ward con distancia euclídea cuadrada, para identificar soluciones preliminares de clústeres y orientar la selección del número final de grupos.

ANÁLISIS JERÁRQUICO DE CONGLOMERADOS (ETAPA 4)

Parte 1 Partición:

Se utilizó un procedimiento jerárquico para identificar un conjunto preliminar de soluciones de clúster como base para determinar el número apropiado de clústeres. Se escalan las variables para evitar sesgo por magnitudes distintas y se aplica el algoritmo de Ward con distancia euclídea cuadrada, para identificar soluciones preliminares de clústeres y orientar la selección del número final de grupos.

Paso 1: Selección del algoritmo de agrupamiento

Se escalan las variables para evitar sesgo por magnitudes distintas y se aplica el algoritmo de Ward

Dendrograma con etiquetas de clúster

El dendrograma mejorado con Ward y etiquetas de clúster permite ver claramente cómo se forman los grupos, qué clientes pertenecen a cada uno y el tamaño de cada segmento. Esto es la base para pasar a la interpretación de perfiles y la estrategia de segmentación.

Eje X (Observaciones):Representa las 100 encuestas de clientes HBAT. Cada cliente inicia como un clúster independiente en la base.

Eje Y (Distancia):Indica el nivel de heterogeneidad al que se combinan los clústeres. Uniones bajas clientes muy similares. Uniones altas clientes más diferentes.

Método de Ward: Busca fusionar clústeres de manera que el aumento en la varianza interna sea mínimo. Esto asegura clústeres compactos y homogéneo

Paso 2: Genere los resultados del clúster, compruebe si hay clústeres de un solo miembro u otros clústeres inapropiados y vuelva a especificar el análisis del clúster según sea necesario.

* Clúster 1: 21 clientes * Clúster 2: 40 clientes * Clúster 3: 22 clientes * Clúster 4: 17 clientes * Clúster 2 → es el más grande (40%). Representa al segmento más numeroso y probablemente al grupo “promedio” de clientes de HBAT. * Clúster 4 es el más pequeño (17%). Aunque más reducido, puede ser muy importante si se trata de clientes con características únicas (ej. muy exigentes o con necesidades especiales). * Clústeres 1 y 3 son intermedios (21% y 22%), lo que aporta diversidad a la segmentación. La distribución es bastante balanceada: ningún clúster es demasiado pequeño (<10), lo cual es un criterio para considerar la solución estadísticamente estable y gerencialmente útil.

Programación de aglomeración parcial (Tabla 4.8 HBAT)

Tabla 4.8 – Calendario de aglomeración (ejemplo reducido)
Etapa Cluster1 Cluster2 Coeficiente Aparece_Cluster1 Aparece_Cluster2 Siguiente_Etapa
1 3 94 0.080 0 0 18
2 75 96 0.180 0 0 62
18 3 38 6.065 1 0 67
74 2 98 120.542 59 0 92
75 6 87 125.830 0 0 89
76 32 84 131.506 54 0 86
77 3 50 137.566 67 62 83
98 6 11 659.781 97 95 99
99 1 6 812.825 96 98 0

En la Tabla 4.8 podemos ver que en la etapa 1, las observaciones 3 y 94 están unidas y ambas son grupos de un solo miembro. En la etapa 2, se unen dos clústeres diferentes de un solo miembro. Luego, en la etapa 18, el conglomerado formado en la etapa 1 (observaciones 3 y 94) se une con un conglomerado de un solo miembro (observación 38). Podemos usar esta información de agrupación para identificar cuándo los clústeres de un solo miembro se unen mucho más tarde en el proceso y, por lo tanto, es probable que sean valores atípicos. Obviamente, si los clústeres de un solo miembro se unen dentro del conjunto de posibles soluciones de clúster, estas observaciones se eliminarían como valores atípicos o, de lo contrario, una solución de clúster contendría un clúster con un solo miembro.

Paso 3:Resultados de conglomerado preespecificados

Tabla 4.9 – Calendario de aglomeracion y cambio porcentual en la heterogeneidad (Etapas 90–97)
Etapa Cluster1 Cluster2 Coeficiente Num_Clusters Diferencia Aumento Regla
90 1 2 297.81 8 28.65 9.6% HBAT no esta interesado en tantos clusters.
91 22 27 326.46 7 39.11 12.0% El aumento es mayor que el anterior, en contra de la combinacion.
92 1 5 365.56 6 41.82 11.4% El aumento es relativamente pequeno, favoreciendo 5 clusters.
93 7 10 407.38 5 58.01 14.2% El aumento es mayor que en la etapa anterior, favoreciendo 4 clusters.
94 1 4 465.39 4 70.86 15.2% El aumento es relativamente grande, favorece 4 clusters sobre 3 (posible punto de parada).
95 7 22 536.24 3 77.55 14.5% El aumento es relativamente grande, favorece 3 clusters en vez de 2.
96 7 9 613.79 2 138.71 22.6% El aumento de 2 a 1 es relativamente grande (normal en ultima etapa).
97 1 7 752.50 1 NA Solucion de 1 cluster. No tiene sentido.

Tabla 4.10 Medidas adicionales de la regla de detención para una muestra reducida de conglomerados de HBAT

Tabla 4.10 – Medidas adicionales de la regla de detención para una muestra reducida de conglomerados HBAT
Número.de.clústeres Criterio.de.agrupación.cúbica Estadística.Pseudo.F Pseudo.t.cuadrado
10 -3.5 19.2 6.2
9 -3.8 19.4 9.9
8 -4.2 19.6 9.8
7 -4.7 19.8 10.6
6 -5.6 19.5 11.4
5 -6.3 19.7 11.6
4 -6.4 19.3 13.9
3 -4.9 19.2 13.9
2 -2.3 21.7 12.9
1 0.0 NA 21.7

pseudo T2 : cambio porcentual en la heterogeneidad, también existe la medida Pseudo T2 que evalúa la significación estadística de los cambios en la heterogeneidad al unir clústeres. Los valores de Pseudo T2 se calculan para los clústeres comb;inados, por lo que cuando vemos un valor grande, “retrocedemos” a la solución anterior como la solución de clúster con menos heterogeneidad.

Medida directa de la heterogeneidad: esta medida se apoya en valores mas altos para medir la heterogeneidad,como la tabla lo inidca los valores son negativo diciendo que hay honogeneidad alta en el cluter 4 confirmando lA SOLUCION verificadas con las reglas de detencion.

Significación estadística de la variación del conglomerado:La medida final de la regla de detención es el estadístico Pseudo F , que es una medida de la homogeneidad de cada solución de conglomerado. Al igual que con el CCC, debemos seleccionar soluciones de clúster con valores relativamente más altos del valor Pseudo F.

SELEECION DE UNA SOLUCION DE CLUSTER JERARQUICO :Como hemos visto en todas las reglas de detención, las soluciones de tres, cuatro y cinco clústeres son bastante similares en términos de su estructura. En algunos casos se indica la solución de cuatro o cinco clústeres, pero nunca con una diferencia marcada con estas otras soluciones. Como resultado, se seleccionará la solución de cuatro clústeres como solución de clúster para su consideración en la creación de perfiles posteriores y como punto de partida para la

Como se puede ver en la aplicación de todas estas reglas de detención, muchas veces no existe una única solución de clúster definitiva, sino más bien un conjunto de posibles soluciones de clúster para su posterior consideración

gura 4.14 Regla de parada: cambio porcentual en la heterogeneidad

La figura muestra los cambios porcentuales en la heterogeneidad entre las etapas 90 y 97 del proceso de aglomeración para la muestra reducida de HBAT

El análisis sugiere que la solución de 4 clústeres es la más adecuada para HBAT, ya que representa un equilibrio entre homogeneidad interna y diferenciación entre grupos. La solución de 3 clústeres puede ser una alternativa, pero implica mayor heterogeneidad. Soluciones de 2 clústeres o menos no son útiles para los objetivos de segmentación.

Figura 4.15 Reglas de detención adicionales:

Medidas directas y una medida estadística del cambio en la heterogeneidad

El CCC evalúa si los clústeres obtenidos son significativamente mejores que una partición aleatoria. El punto de interés es donde deja de caer bruscamente alrededor de 4 clústeres, lo que sugiere una buena solución.

Un Pseudo F alto indica que la partición explica bien la variabilidad entre grupos. Aquí, los valores se mantienen relativamente altos y estables en casi todo el rango, pero muestran un pico notable en 2 clústeres, lo que sugeriría una división muy marcada en dos grandes grupos. Sin embargo, como el libro aclara, una solución de 2 clústeres suele ser demasiado simplista para decisiones estratégicas, por lo que no se toma como definitiva

Pseudo t-cuadrado Este índice ayuda a identificar en qué etapa las fusiones de clústeres producen grandes aumentos en la heterogeneidad interna. En la figura se observa un salto grande al pasar de 4 a 3 clústeres, indicando que mantener 4 grupos es una mejor opción.

paso 4: Perfilar las variables de agrupamiento

tabla 4.11

Means from Hierarchical Cluster Analysis
Mean Values Cluster Number:
Mean-Centered Values Cluster Number:
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster1 Cluster2 Cluster3 Cluster4 F Sig
X6 Product Quality 8.21 8.04 5.97 8.18 0.4 0.23 -1.84 0.37 14.56 0
X8 Technical Support 5.37 4.04 6.16 6.47 0 -1.33 0.78 1.09 12.64 0
X12 Salesforce Image 4.91 5.69 6.12 4.42 -0.02 0.57 1 -0.72 11.8 0
X15 New Products 3.97 6.63 5.51 6.28 -1.18 1.45 0.36 1.13 62.74 0
X18 Delivery Speed 3.83 4.14 4.37 3.45 -0.06 0.25 0.48 -0.44 5.49 0
Cluster sample sizes 49 18 14 17 49 18 14 17

La tabla muestra las medias y medias centradas de cinco variables de agrupamiento para la solución de cuatro clústeres. Los resultados indican que todas las variables presentan diferencias significativas entre los grupos (p < 0.05en los ANOVA), lo que confirma su capacidad discriminante. Cada clúster exhibe un perfil distintivo.

4.16 Perfil de cuatro conglomerados a partir del análisis jerárquico de conglomerados

  • Clúster 1 (49 casos):Alto en calidad de producto (X6 = 8.21) y promedio en casi todas las demás.Muy bajo en nuevos productos (X15 = 3.97, –1.18 centrado).Representa clientes que valoran la calidad, pero consideran que falta innovación.

  • Clúster 2 (18 casos):Muy bajo en soporte técnico (X8 = 4.04, –1.33 centrado).Muy alto en nuevos productos (X15 = 6.63, +1.45 centrado).Perfil: clientes críticos con el soporte técnico, pero que perciben fuerte innovación.

  • Clúster 3 (14 casos):Muy bajo en calidad de producto (X6 = 5.97, –1.84 centrado).Alto en imagen de fuerza de ventas y velocidad de entrega.Perfil: clientes que perciben problemas serios de calidad, aunque ven mejoras en servicio.

  • Clúster 4 (17 casos):Alto en soporte técnico (X8 = 6.47, +1.09 centrado).Bajo en imagen de ventas (X12 = 4.42, –0.72) y velocidad de entrega (X18 = 3.45, –0.44).Perfil: clientes satisfechos con soporte, pero descontentos con la imagen comercial y la rapidez.

PARTE 2: ANÁLISIS DE CONGLOMERADOS NO JERÁRQUICOS (ETAPAS 4-6)

Esta segunda parte del proceso de agrupamiento utiliza los resultados del proceso jerárquico para ejecutar la agrupación no jerárquica. En concreto, el número de clústeres se determina a partir de los resultados jerárquicos. A continuación, los procedimientos no jerárquicos desarrollan soluciones de clúster “óptimas”. A continuación, se comparan las soluciones de clúster en términos de validez de criterio, así como de aplicabilidad a la pregunta de investigación para seleccionar una única solución como solución final de clúster.

Etapa 4: Derivación de conglomerados y evaluación del ajuste general

muestra que el método no jerárquico (K-Means) mejora la solución jerárquica, generando clústeres más equilibrados

Figura 4.17 - Perfil de cuatro clústeres de Solución de clúster K-Means

Figura 4.17 - Perfil de cuatro clústeres de Solución de clúster K-Means
Variable Cluster1 Cluster2 Cluster3 Cluster4 MC1 MC2 MC3 MC4 F Sig
X6 Product Quality 8.25 8.91 8.18 6.14 0.44 1.10 0.37 -1.67 55.06 0
X8 Technical Support 4.40 6.80 3.92 5.86 -0.97 1.43 -1.44 0.50 45.56 0
X12 Salesforce Image 4.70 4.89 5.49 5.59 -0.42 -1.33 0.37 0.47 4.56 0.005
X15 New Products 3.83 5.25 6.75 5.01 -1.32 0.10 1.60 -0.14 25.56 0
X18 Delivery Speed 3.72 3.89 4.05 3.98 -0.17 0.01 0.17 0.10 0.88 0.002
Cluster sample sizes 25.00 29.00 17.00 27.00 25.00 29.00 17.00 27.00

La solución no jerárquica (K-Means) generó clústeres más equilibrados en tamaño (25, 29, 17 y 27) que la jerárquica. Además, mostró diferencias significativas en 4 de las 5 variables de agrupamiento (X6, X8, X12 y X15), siendo la única excepción X18 Velocidad de entrega, que no discrimina entre grupos. En conclusión, K-Means ofrece una solución más adecuada y diferenciada. El proceso de agrupación no jerárquica produjo una solución de cuatro clústeres basada en los puntos semilla generados por software. Un análisis más detallado en términos de perfil de las soluciones y evaluación de su validez de criterio proporcionará los elementos necesarios para seleccionar una solución final de clúster.

Etapa 5: Perfilado de las variables de agrupamiento

El equipo de investigación de HBAT primero caracteriza los conglomerados analizando el patrón de medias de conglomerados y los valores centrados en la media que se muestran en la Figura 4.17, que se representan en el diagrama de perfil de la figura. La interpretación comienza buscando los valores extremos asociados con cada clúster. En otras palabras, las medias de las variables que son las más altas o más bajas en comparación con otros clústeres son útiles para distinguir entre los clústeres de las variables de agrupación. ## Gráfico de Medias por Clúster (p1)

Clúster 1 (25 casos): presenta medias bajas en casi todas las variables, especialmente en Nuevos productos (X15) este grupo percibe a HBAT como débil en innovación y en general poco competitivo. Clúster 2 (29 casos): el más alto en Calidad (X6) y Soporte técnico (X8) es el segmento más favorable, pues valora la calidad del producto y el respaldo. Clúster 3 (17 casos): destaca en Nuevos productos (X15) (la media más alta de todos los grupos), pero es bajo en Soporte técnico (X8) perciben innovación, pero con mal soporte. Clúster 4 (27 casos): el más bajo en Calidad (X6), aunque se ubica en valores medios para las otras variables, con ligera ventaja en Imagen de la fuerza de ventas (X12) consideran los productos de menor calidad, aunque valoran un poco más la fuerza de ventas.

Gráfico de Valores Centrados en la Media (p2)

Este gráfico compara cada clúster contra el promedio general: Clúster 1: barras negativas en casi todo, en especial X15 Nuevos productos → refuerza la visión de un segmento muy crítico. Clúster 2: barras muy positivas en X6 Calidad y X8 Soporte técnico → confirma que es el grupo “estrella” de HBAT. Clúster 3: positivo en X15 Nuevos productos, negativo en X8 Soporte técnico → opuesto al clúster 2. Clúster 4: fuertemente negativo en X6 Calidad, cerca de cero en otras variables, con leve positivo en X12 Fuerza de ventas.

Gráfico de Tamaños de Clústeres (p3)

  • Clúster 2 (29 casos) → el grupo más grande y atractivo (clientes que valoran calidad y soporte).
  • Clúster 4 (27 casos) → segundo en tamaño, aunque con percepciones negativas en calidad.
  • Clúster 1 (25 casos) → tamaño intermedio, pero poco favorable porque perciben a HBAT como débil en todo.
  • Clúster 3 (17 casos) → el más pequeño, pero valioso porque perciben innovación (aunque demandan mejor soporte).

Etapa 6: Validación y perfilado de los clústeres

En esta etapa final, los procesos de validación y elaboración de perfiles son críticos debido a la base exploratoria y a menudo ateórica para el análisis de conglomerados

Tabla 4.11 Clasificación cruzada para evaluar la estabilidad de los conglomerados

Clasificación cruzada para evaluar la estabilidad de los conglomerados
Cluster Number from Second K-Means
Cluster.Number.from.First.K.Means X1 X2 X3 X4 Total
1 0 0 1 24 25
2 2 21 0 6 29
3 0 0 17 0 17
4 22 0 5 0 27
Total 24 21 23 30 98

Esa tabla muestra cómo las observaciones se reasignan entre clústeres cuando se cambia el orden de los datos y se corre de nuevo el algoritmo k-means. Correspondencia alta entre soluciones: La mayoría de las observaciones permanecen en el mismo grupo que en la primera corrida.

  • Clúster 1 → Clúster 4: De las 25 observaciones originales, 24 permanecieron juntas y solo 1 cambió de grupo.
  • Clúster 2: De 29 observaciones, 21 se mantuvieron y 8 cambiaron de clúster.
  • Clúster 3: Las 17 observaciones permanecieron totalmente unidas (100% de estabilidad).
  • Clúster 4 → Clúster 1: 22 de las 27 observaciones permanecieron juntas, y solo 5 cambiaron. En total, 84 de 98 observaciones mantuvieron la misma pertenencia a clústeres entre las dos soluciones.

EVALUACIÓN DE LA VALIDEZ DE CRITERIO

Se prueba si los grupos encontrados con el análisis de clústeres realmente predicen satisfacción y comportamiento de los clientes. Si hay diferencias claras, significa que los clústeres son válidos, útiles y aplicables en decisiones de negocio

Tabla 4.12 Resultados multivariados F Evaluación de la validez del criterio de solución de conglomerados

Resultados multivariados F: Evaluación de la validez de criterio de la solución de conglomerados
Variable Cluster.1 Cluster.2 Cluster.3 Cluster.4 Multivariate.F. Univariate.F. Sig.
X19 Satisfacción 6.76 7.44 7.39 6.34 2.23 5.98 0.001
X20 Probabilidad de recomendar 6.89 7.46 7.14 6.68 3.06 0.032
X21 Probabilidad de compra 7.74 8.09 7.83 7.33 3.53 0.018
X22 Nivel de compra 58.70 62.17 60.92 53.17 6.21 0.001
Multivariate F has 12,241 df; univariate Fs each have 3,94 df.

Validez global (MANOVA)

Se aplicó un MANOVA porque las cuatro variables de criterio (X19–X22) están correlacionadas. El modelo fue significativo: F = 2.23, p = 0.012. Esto indica que, en conjunto, los clústeres predicen diferencias reales en satisfacción, recomendación, intención de compra y nivel de compra. Validez individual (ANOVA por variable)

Todas las pruebas univariadas fueron significativas:

  • X19 Satisfacción (p = 0.001)
  • X20 Probabilidad de recomendar (p = 0.032)
  • X21 Probabilidad de compra (p = 0.018)
  • X22 Nivel de compra (p = 0.001) Esto confirma que cada variable por separado diferencia a los clústeres.

Interpretación de los clústeres

  • Clúster 2: sobresale con las puntuaciones más altas en satisfacción, recomendación, intención y nivel de compra → es el grupo más valioso para HBAT.
  • Clúster 4: muestra los valores más bajos, indicando menor satisfacción y menor probabilidad de compra.
  • Clústeres 1 y 3: se ubican en posiciones intermedias, con diferencias menos marcadas.

Conclusión práctica La solución de clúster no solo identifica grupos distintos, sino que también tiene validez de criterio, ya que predice indicadores clave del negocio.

Esto la hace útil para la gestión gerencial, permitiendo a HBAT diseñar estrategias diferenciadas (ej. fortalecer la relación con clientes del Clúster 2, trabajar en mejorar la experiencia del Clúster 4).

clasificación cruzada

técnica que se utliza para validar y perfilar los clústeres, Consiste en cruzar la pertenencia de los individuos a los clústeres con otras variables categóricas externas (que no se usaron para formar los clústeres), El objetivo es ver si los grupos se diferencian de manera significativa y práctica en esas variables adicionales.

Tabla 4.13 Resultados de la clasificación cruzada de conglomerados en X1, X2, X3, X4, and X5

Resultados de la clasificación cruzada de conglomerados en X1, X2, X3, X4 y X5
Cliente.Características Cluster.1 Cluster.2 Cluster.3 Cluster.4 Total
X1 Tipo de cliente < 1 año 1 8 5 12 30
1–5 años 8 6 6 15 35
Más de 5 años 9 18 6 0 33
Total (X1) 25 29 17 27 98
X2 Industria: Magazine 8 21 10 12 51
Newsprint 17 8 7 15 47
Total (X2) 25 29 17 27 98
X3 Tamaño: Small (0–499) 11 19 7 10 47
Large (500+) 14 10 10 17 51
Total (X3) 25 29 17 27 98
X4 Región: USA/North America 14 14 8 1 39
Outside North America 11 15 9 26 59
Total (X4) 25 29 17 27 98
X5 Sistema: Indirecto 13 14 8 20 55
Directo 12 15 9 7 34
Total (X5) 25 29 17 27 98

La Tabla muestra la clasificación cruzada entre los clústeres obtenidos y cinco variables adicionales (X1–X5) que no se usaron para formar los conglomerados.

Esto permite perfilar los clústeres y comprobar su validez práctica, es decir, que representen grupos con características distinguibles en variables relevantes para la empresa.

Resultados principales

  • X1 Tipo de cliente (antigüedad): se observan diferencias significativas. Ejemplo: el Clúster 4 concentra más clientes de menos de 1 año, mientras que el Clúster 2 tiene una mayor proporción de clientes con más de 5 años.

  • X2 Tipo de industria: aunque el valor de chi-cuadrado es marginal, se aprecian patrones. El Clúster 1 tiene más clientes de la industria Magazine, mientras que el Clúster 4 reúne más de Newsprint.

  • X3 Tamaño de la empresa: no muestra diferencias significativas; los clientes pequeños y grandes están relativamente distribuidos en todos los clústeres.

  • X4 Región: diferencias muy claras. El Clúster 4 está formado casi totalmente por clientes fuera de Norteamérica, mientras que el Clúster 2 incluye principalmente clientes de EE. UU./Norteamérica.

  • X5 Sistema de distribución: no presenta diferencias significativas; todos los clústeres incluyen clientes con distribución directa e indirecta.

Interpretación

La clasificación cruzada confirma que los clústeres son distintos y consistentes en variables externas, lo que respalda su carácter distintivo y su validez de perfilado. Los patrones observados (ej. región, antigüedad, tipo de industria) permiten describir y nombrar los clústeres con base en características que no se usaron en el análisis.

Conclusión según la teoría del libro

Un análisis de segmentación exitoso requiere no solo identificar grupos homogéneos, sino también que estos sean fácilmente identificables mediante otras variables externas. La Tabla 4.13 demuestra que los conglomerados obtenidos cumplen con este requisito: exhiben diferencias claras en varias características de clientes, reforzando su utilidad práctica y teórica dentro del proceso de validación y perfilado de clústeres