Source: ITU World Telecommunication/ICT Indicators
Database.
Fuente: Base de datos de indicadores mundiales de
telecomunicaciones/TIC de la UIT.
Variable | Variable | Description | Descripción |
---|---|---|---|
Radio | Radio | Proportion of households with radio | Proporción de hogares con radio |
TV | TV | Proportion of households with TV | Proporción de hogares con televisión |
Telephone | Teléfono | Proportion of households with fixed line telephone | Proporción de hogares con teléfono fijo |
Mobile | Móvil | Proportion of households with mobile-cellular telephone | Proporción de hogares con teléfono móvil |
Computer | Computadora | Proportion of households with computer | Proporción de hogares con computadora |
Internet | Internet | Proportion of households with internet access at home | Proporción de hogares con acceso a internet en casa |
Computer_ind | Computadora_ind | Percentage of individuals using a computer | Porcentaje de individuos que usan una computadora |
Internet_ind | Internet_ind | Percentage of individuals using internet | Porcentaje de individuos que usan internet |
Mobil_ind | Móvil_ind | Percentage of individuals using a mobile | Porcentaje de individuos que usan un móvil |
Radio TV Telephone Mobile Computer Internet Computer_ind Internet_ind
AFG 98.9 81.7 27.7 90.7 27.7 55.2 6.1 55.7
ALB 42.0 99.3 17.1 86.6 20.2 83.3 27.2 72.2
DZA 52.6 99.0 27.7 99.1 42.2 74.4 33.3 49.0
AND 72.6 98.7 74.9 97.9 85.7 94.5 70.7 91.6
Mobil_ind
AFG 73.7
ALB 75.6
DZA 91.7
AND 86.1
A continuación explico por medio de un cuadro comparativo la importancia de estandarizar las variables:
Variable | Media (Antes de Estandarización) | Desviación Estándar (Antes de Estandarización) | Media (Después de Estandarización) | Desviación Estándar (Después de Estandarización) | Importancia de la Estandarización |
---|---|---|---|---|---|
Radio | 48.2 | 23.9 | 0 | 1 | Facilita la comparación entre variables al centrar en 0 y escalar a 1. |
TV | 75.9 | 28.9 | 0 | 1 | Permite observar variaciones relativas independientemente de las unidades. |
Telephone | 33.0 | 30.9 | 0 | 1 | Hace que los diferentes niveles de uso sean comparables. |
Mobile | 90.1 | 12.1 | 0 | 1 | Reduce la influencia de magnitudes diferentes en el análisis. |
Computer | 46.3 | 30.9 | 0 | 1 | Mejora la interpretación de los datos al eliminar sesgos por escalas. |
Internet | 59.2 | 32.2 | 0 | 1 | Permite evaluar el impacto de cada variable en conjunto. |
Computer_ind | 44.6 | 28.6 | 0 | 1 | Ayuda a identificar patrones que de otro modo podrían pasar desapercibidos. |
Internet_ind | 62.8 | 28.4 | 0 | 1 | Facilita la comparación entre indicadores de acceso digital. |
Mobil_ind | 83.7 | 13.5 | 0 | 1 | Aumenta la claridad en el análisis al uniformar las escalas. |
La estandarización es crucial en análisis multivariantes, ya que permite que todas las variables contribuyan de manera equitativa, ademas de reducir la distorsión causada por diferencias en magnitudes y unidades y facilita la identificación de patrones y relaciones entre variables.
Método Ward
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 10 proposed 2 as the best number of clusters
* 6 proposed 3 as the best number of clusters
* 3 proposed 4 as the best number of clusters
* 1 proposed 5 as the best number of clusters
* 3 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 110 0.41
2 2 43 0.44
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 10 proposed 2 as the best number of clusters
* 6 proposed 3 as the best number of clusters
* 3 proposed 4 as the best number of clusters
* 1 proposed 5 as the best number of clusters
* 3 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 50 0.17
2 2 60 0.37
3 3 43 0.32
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 10 proposed 2 as the best number of clusters
* 6 proposed 3 as the best number of clusters
* 3 proposed 4 as the best number of clusters
* 1 proposed 5 as the best number of clusters
* 3 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 50 0.12
2 2 60 0.37
3 3 15 0.37
4 4 28 0.31
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 10 proposed 2 as the best number of clusters
* 6 proposed 3 as the best number of clusters
* 3 proposed 4 as the best number of clusters
* 1 proposed 5 as the best number of clusters
* 3 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 27 0.28
2 2 60 0.32
3 3 15 0.37
4 4 28 0.28
5 5 23 0.06
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 10 proposed 2 as the best number of clusters
* 6 proposed 3 as the best number of clusters
* 3 proposed 4 as the best number of clusters
* 1 proposed 5 as the best number of clusters
* 3 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 27 0.21
2 2 38 0.19
3 3 15 0.37
4 4 22 0.30
5 5 28 0.28
6 6 23 0.02
En todos los casos de evaluación de k (desde 2 hasta 6), el número de clusters propuesto más frecuentemente fue 2. Esto sugiere que, independientemente del número de clusters evaluado, la estructura subyacente de los datos tiende a agruparse de manera más efectiva en dos clusters.
A lo largo de todos los valores de k, hay una consistente recomendación por parte de los índices de agrupamiento, donde 10 índices proponen 2 como el mejor número de clusters, lo que refuerza la robustez de esta recomendación.
Aunque 2 es el número más recomendado, hay cierta variabilidad en las propuestas para otros valores de k. Por ejemplo, algunos índices sugieren k=3 (6 propuestas), k=4 (3 propuestas), y hasta k=6 (3 propuestas), lo que indica que puede haber estructuras adicionales en los datos que podrían ser exploradas, aunque no tan fuertemente como k=2.
La disminución en el número de propuestas para clusters mayores (k=5 y k=6) sugiere que, aunque es posible crear más grupos, la separación de los datos podría no ser significativa o podría resultar en grupos menos homogéneos.
La tendencia hacia k=2 puede tener implicaciones prácticas en la segmentación de los datos. Esto puede facilitar la toma de decisiones en el contexto empresarial, donde una segmentación clara y simple puede ser más efectiva que una complejidad innecesaria. Sin embargo, es recomendable considerar la posibilidad de explorar otras configuraciones (k=3 o k=4) para comprender mejor las características de los datos.
En el caso de k=2, ambos clusters presentan anchos de silueta relativamente altos (0.41 y 0.44), lo que indica una buena cohesión y separación entre ellos. Esto sugiere que dos grupos son suficientes para capturar la estructura en los datos de manera efectiva.
Al aumentar a k=3, se observa una disminución en el ancho promedio de la silueta del cluster 1 (0.17), lo que indica que este grupo es menos cohesivo. Aunque los clusters 2 y 3 tienen anchos de silueta aceptables, la variabilidad sugiere que el agrupamiento no es tan sólido como en k=2. Lo mismo ocurre en k=4, donde el primer cluster tiene un bajo ancho de silueta (0.12).
En k=5, el cluster 5 presenta un ancho de silueta muy bajo (0.06), lo que indica que este grupo es muy disperso y menos representativo. De manera similar, en k=6, el cluster 6 tiene un ancho de silueta extremadamente bajo (0.02), lo que sugiere que este grupo podría no ser útil o relevante en el análisis.
A medida que se incrementa el número de clusters, la inconsistencia en los anchos de silueta sugiere que los datos pueden no estar bien estructurados para una mayor segmentación. Los valores de silueta más bajos en k=5 y k=6 refuerzan la idea de que más grupos no necesariamente mejoran la calidad de la agrupación.
Basado en los anchos de silueta, se sugiere que k=2 es el más adecuado para este conjunto de datos, con k=3 como una opción viable pero menos efectiva. La elección de más clusters podría llevar a una fragmentación innecesaria y a la creación de grupos poco coherentes.
Método Single
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 9 proposed 2 as the best number of clusters
* 3 proposed 3 as the best number of clusters
* 7 proposed 4 as the best number of clusters
* 5 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 152 0.23
2 2 1 0.00
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 9 proposed 2 as the best number of clusters
* 3 proposed 3 as the best number of clusters
* 7 proposed 4 as the best number of clusters
* 5 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 151 0.04
2 2 1 0.00
3 3 1 0.00
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 9 proposed 2 as the best number of clusters
* 3 proposed 3 as the best number of clusters
* 7 proposed 4 as the best number of clusters
* 5 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 149 -0.03
2 2 1 0.00
3 3 2 0.55
4 4 1 0.00
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 9 proposed 2 as the best number of clusters
* 3 proposed 3 as the best number of clusters
* 7 proposed 4 as the best number of clusters
* 5 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 149 -0.08
2 2 1 0.00
3 3 1 0.00
4 4 1 0.00
5 5 1 0.00
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 9 proposed 2 as the best number of clusters
* 3 proposed 3 as the best number of clusters
* 7 proposed 4 as the best number of clusters
* 5 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 2
*******************************************************************
cluster size ave.sil.width
1 1 148 -0.1
2 2 1 0.0
3 3 1 0.0
4 4 1 0.0
5 5 1 0.0
6 6 1 0.0
En todos los análisis realizados para valores de k (desde 2 hasta 6), el número de clusters propuesto más frecuentemente fue 2, con 9 índices recomendando este número. Esto sugiere que los datos tienen una estructura clara que se agrupa de manera más efectiva en dos clusters.
La consistencia en la propuesta de k=2 a lo largo de diferentes configuraciones refuerza la idea de que esta es una solución robusta para la agrupación de los datos. A pesar de los distintos k evaluados, la tendencia a dos grupos se mantiene constante.
Aunque k=2 es el más recomendado, hay un interés notable en otros valores como k=4, que fue propuesto por 7 índices, y k=6, con 5 propuestas. Esto sugiere que podría haber características adicionales en los datos que valdría la pena explorar, aunque con menos apoyo comparativo.
La cantidad de índices que sugieren k=3 (3 propuestas) y k=4 (7 propuestas) indica que, si bien 2 es el número más favorable, también existen configuraciones alternativas que podrían ofrecer información útil sobre subgrupos dentro del conjunto de datos.
La tendencia hacia k=2 puede simplificar el proceso de análisis y toma de decisiones. Sin embargo, la existencia de propuestas para más grupos sugiere que realizar un análisis adicional con k=4 o k=6 podría proporcionar insights más detallados sobre las dinámicas dentro de los datos, ayudando a identificar patrones más complejos que podrían ser relevantes en contextos prácticos.
En k=2, el primer cluster es considerablemente grande (152 elementos), pero su ancho de silueta (0.23) es bajo, indicando que la cohesión dentro del cluster es limitada. El segundo cluster, que tiene solo 1 elemento, presenta un ancho de silueta de 0.00, lo que sugiere que no contribuye en absoluto a la calidad del agrupamiento.
Al incrementar a k=3, el primer cluster sigue siendo grande (151 elementos) pero su ancho de silueta se reduce a 0.04, lo que indica una menor cohesión. En k=4, la situación empeora aún más, ya que el primer cluster tiene un ancho de silueta negativo (-0.03), lo que sugiere que algunos elementos podrían estar más cerca de otros clusters que de su propio grupo.
El tercer cluster en k=4 tiene un ancho de silueta notablemente alto (0.55), indicando que este grupo es muy cohesivo y está bien definido. Sin embargo, los otros clusters tienen anchos de silueta bajos o cero, lo que sugiere que la mayor parte de los datos no están bien agrupados.
En k=5 y k=6, la situación no mejora. Todos los clusters excepto uno tienen anchos de silueta de 0.00, lo que indica que esos grupos no aportan ninguna separación útil. El primer cluster en ambas configuraciones tiene anchos de silueta negativos, lo que refuerza la falta de coherencia en el agrupamiento.
La evaluación sugiere que los intentos de crear más clusters no están resultando en agrupamientos útiles. Los valores de silueta negativos indican que el agrupamiento no está logrando capturar la estructura subyacente de los datos. Se recomienda considerar un enfoque diferente o reevaluar los datos, ya que la fragmentación adicional parece no mejorar la calidad del análisis.
Método Complete
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 6 proposed 2 as the best number of clusters
* 13 proposed 3 as the best number of clusters
* 3 proposed 5 as the best number of clusters
* 1 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 3
*******************************************************************
cluster size ave.sil.width
1 1 71 0.28
2 2 82 0.46
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 6 proposed 2 as the best number of clusters
* 13 proposed 3 as the best number of clusters
* 3 proposed 5 as the best number of clusters
* 1 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 3
*******************************************************************
cluster size ave.sil.width
1 1 57 0.19
2 2 82 0.40
3 3 14 0.49
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 6 proposed 2 as the best number of clusters
* 13 proposed 3 as the best number of clusters
* 3 proposed 5 as the best number of clusters
* 1 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 3
*******************************************************************
cluster size ave.sil.width
1 1 57 0.17
2 2 72 0.33
3 3 14 0.49
4 4 10 0.21
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 6 proposed 2 as the best number of clusters
* 13 proposed 3 as the best number of clusters
* 3 proposed 5 as the best number of clusters
* 1 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 3
*******************************************************************
cluster size ave.sil.width
1 1 31 0.22
2 2 72 0.27
3 3 14 0.36
4 4 26 0.28
5 5 10 0.19
*** : The Hubert index is a graphical method of determining the number of clusters.
In the plot of Hubert index, we seek a significant knee that corresponds to a
significant increase of the value of the measure i.e the significant peak in Hubert
index second differences plot.
*** : The D index is a graphical method of determining the number of clusters.
In the plot of D index, we seek a significant knee (the significant peak in Dindex
second differences plot) that corresponds to a significant increase of the value of
the measure.
*******************************************************************
* Among all indices:
* 6 proposed 2 as the best number of clusters
* 13 proposed 3 as the best number of clusters
* 3 proposed 5 as the best number of clusters
* 1 proposed 6 as the best number of clusters
***** Conclusion *****
* According to the majority rule, the best number of clusters is 3
*******************************************************************
cluster size ave.sil.width
1 1 31 0.20
2 2 48 0.22
3 3 14 0.36
4 4 24 0.10
5 5 26 0.28
6 6 10 0.17
A lo largo de todos los análisis de k (desde 2 hasta 6), el número de clusters más frecuentemente recomendado fue 3, con 13 índices sugiriendo esta opción. Esto indica que la estructura de los datos es más adecuada para ser agrupada en tres clusters, lo que podría reflejar una separación más clara entre subgrupos dentro del conjunto de datos.
Aunque k=3 es el número más propuesto, k=2 también recibió un apoyo significativo, con 6 índices recomendando esta opción. Esto sugiere que, aunque 3 puede ser la mejor opción, existe una justificación para un enfoque más simple que agrupe los datos en dos categorías.
Hay un número menor de propuestas para k=5 (3 índices) y k=6 (1 índice). Esto indica que, aunque se pueden considerar estas configuraciones, no hay un consenso fuerte sobre su viabilidad, lo que sugiere que estos números de clusters pueden no ser tan informativos o relevantes.
La fuerte recomendación para k=3 sugiere que esta configuración podría proporcionar insights significativos y diferenciados sobre los grupos en los datos. Puede ser útil explorar las características de estos tres clusters para entender mejor las dinámicas subyacentes.
La tendencia hacia k=3 implica que los análisis posteriores y las decisiones empresariales podrían beneficiarse de una segmentación más detallada. Comprender las diferencias entre estos tres grupos puede ser crucial para el desarrollo de estrategias específicas y personalizadas basadas en las características de cada segmento.
En k=2, los clusters tienen tamaños relativamente equilibrados (71 y 82), con anchos de silueta de 0.28 y 0.46, respectivamente. Estos valores indican una buena cohesión y separación entre los grupos, sugiriendo que esta configuración puede capturar efectivamente la estructura de los datos.
Al incrementar a k=3, el primer cluster presenta una disminución en su ancho de silueta (0.19), lo que indica que es menos cohesivo. Sin embargo, el tercer cluster muestra un ancho de silueta relativamente alto (0.49), sugiriendo que, aunque la separación general puede ser adecuada, el primer grupo se vuelve menos definido.
En k=4, el primer cluster sigue teniendo un ancho de silueta bajo (0.17), mientras que el tercer cluster mantiene un buen rendimiento (0.49). En k=5, los anchos de silueta son más variados, pero el primer cluster aún tiene un ancho bajo (0.22). Esto sugiere que la adición de más clusters no está mejorando la cohesión en los grupos existentes.
En k=6, el rendimiento disminuye aún más. El primer cluster mantiene un ancho de silueta de 0.20, pero la mayoría de los otros clusters tienen anchos de silueta bajos (0.10, 0.17), indicando una falta de cohesión y una posible dispersión en la agrupación de datos.
Los resultados sugieren que k=2 es la mejor opción en términos de cohesión y separación. Aunque k=3 también presenta buenos resultados, la disminución de la cohesión en el primer cluster sugiere que la introducción de un tercer grupo puede no ser necesaria. Se recomienda utilizar k=2 o k=3 para mantener una estructura clara y efectiva en los datos.
Número óptimo de clusters: 2
Clustering Methods:
kmeans
Cluster sizes:
2 3 4 5 6
Validation Measures:
2 3 4 5 6
kmeans APN 0.077 0.133 0.182 0.149 0.266
AD 2.963 2.624 2.492 2.283 2.299
ADM 0.366 0.490 0.618 0.419 0.680
FOM 0.771 0.663 0.653 0.631 0.632
Connectivity 25.554 35.708 38.748 41.972 48.345
Dunn 0.188 0.172 0.169 0.181 0.181
Silhouette 0.413 0.318 0.298 0.295 0.279
Optimal Scores:
Score Method Clusters
APN 0.077 kmeans 2
AD 2.283 kmeans 5
ADM 0.366 kmeans 2
FOM 0.631 kmeans 5
Connectivity 25.554 kmeans 2
Dunn 0.188 kmeans 2
Silhouette 0.413 kmeans 2
Número óptimo de grupos: 2
cluster size ave.sil.width
1 1 100 0.44
2 2 53 0.37
El índice de silueta para k=2 es de 0.4127, el más alto entre las opciones que evalué, de k=3 a k=6. Esto sugiere que los clusters formados son bien definidos y presentan una buena separación, lo que indica una calidad de agrupamiento superior en este caso.
Aunque el APN para k=2 es relativamente bajo (0.0774), observé que muestra un aumento gradual a medida que se incrementa k. Sin embargo, considero crucial evaluar esta métrica junto con otros indicadores de calidad.
La distancia promedio dentro de los clusters es más alta para k=2 (2.9625), lo que indica que la cohesión dentro de los grupos es razonablemente amplia. Sin embargo, la combinación con el índice de silueta sugiere que estos grupos son, en general, coherentes y representativos.
Además, el índice de Dunn es más elevado para k=2 (0.1885), lo que indica una separación efectiva entre los clusters. También noté que el FOM es favorable en este caso (0.7711), lo que refuerza mi preferencia por esta configuración.
En resumen, dado que k=2 presenta el índice de silueta más alto y destaca en otras métricas de validación (como Dunn y FOM), concluyo que esta es la opción óptima para los clusters en mis datos. Esto indica que la estructura subyacente se agrupa de manera más efectiva en dos grupos.
Comparativa entre el Método de Ward y K-means
Característica | Método de Ward | K-means | Semejanzas | Diferencias | Campo de Aplicación |
---|---|---|---|---|---|
Objetivo | Agrupamiento jerárquico | Agrupamiento basado en centroides | Ambos buscan identificar patrones y segmentar datos. | Ward se centra en jerarquías, K-means en centroides. | Segmentación de clientes, análisis de datos. |
Forma de Clusters | Funciona bien con formas no esféricas | Eficaz con clusters esféricos | Ambos generan grupos en base a similitudes. | Ward adapta mejor a formas complejas; K-means a formas simples. | Marketing y ventas, investigación de mercado. |
Compactación | Genera grupos más compactos y homogéneos | Compactación depende de la inicialización | Ambos intentan crear grupos coherentes. | Ward suele ser más homogéneo; K-means depende de la inicialización. | Optimización de inventarios, agrupación de datos. |
Velocidad | Más lento y computacionalmente intensivo | Rápido y eficiente, especialmente con grandes volúmenes de datos | Ambos son útiles en análisis de datos, pero con diferentes velocidades. | K-means es generalmente más rápido. | Análisis de grandes conjuntos de datos. |
Especificación de Clusters | No requiere número de clusters definido | Requiere número de clusters especificado | Ambos requieren decisiones sobre la forma de agrupamiento. | Ward no necesita predefinir, K-means sí. | Investigación exploratoria y decisiones estratégicas. |
Visualización | Produce dendrograma para visualización jerárquica | No genera visualización jerárquica | Ambos ayudan en la interpretación de datos, pero de manera diferente. | Ward proporciona visualización jerárquica, K-means no. | Presentaciones de resultados, análisis de relaciones. |
Sensibilidad a Atípicos | Sensible a valores atípicos | También sensible, pero menos que Ward | Ambos pueden verse afectados por valores atípicos. | Ward es más sensible a los atípicos. | Evaluación de calidad de datos. |
Aplicaciones Empresariales | Segmentación de clientes, análisis de patrones complejos | Segmentación de clientes, optimización de recursos | Ambos pueden ser utilizados para segmentar y analizar datos en negocios. | Ward es mejor para patrones complejos, K-means para grandes volúmenes. | Marketing, logística, desarrollo de productos. |
Interpretabilidad | Facilita la comprensión de relaciones jerárquicas | Menos claro en relaciones entre clusters | Ambos buscan ofrecer insights a partir de datos. | Ward es más interpretativo debido a su visualización. | Análisis de resultados y toma de decisiones. |
CONCLUSIONES
La menor cantidad de valores negativos en la gráfica de silueta sugiere que K-means logra una mejor separación entre los clusters. Esto indica que los puntos dentro de cada grupo están más cerca de su centroide y más lejos de otros grupos, lo que puede ser beneficioso para segmentaciones claras en el análisis de servicios de Internet.
K-means parece generar grupos más homogéneos en comparación con Ward, lo que podría ser útil para diseñar estrategias de marketing o servicios personalizados. La homogeneidad puede facilitar la identificación de características comunes entre los clientes o servicios.
Aunque ambos métodos pueden ser sensibles a valores atípicos, la gráfica de K-means sugiere que puede manejar mejor estos casos en este conjunto de datos específico. Esto implica que los resultados de K-means podrían ser más estables y confiables en situaciones donde hay datos extremos.
La rapidez de K-means, combinada con su desempeño positivo en la gráfica de silueta, sugiere que es un método eficiente para el análisis de grandes volúmenes de datos. Esto es especialmente importante en entornos empresariales donde el tiempo y los recursos son limitados.
Dado que K-means presenta menos negativos en la silueta, podría ser preferido para la toma de decisiones en el análisis de servicios de Internet. La claridad en la segmentación y la capacidad de realizar un análisis más rápido pueden proporcionar ventajas competitivas en la estrategia de mercado y en la optimización de servicios.
Medidas_Ward_radio
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.525 152. 0.0422 0.920
2 2 0.156 645. -0.729 0.897
3 3 -0.314 -170. -0.530 -0.0583
4 4 0.835 88.1 0.331 1.01
5 5 -0.255 -308. -0.842 0.332
6 6 -1.16 -51.7 -1.72 -0.873
Medidas_Kmeans_radio
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.0708 1478. -0.813 0.835
2 2 -0.134 -674. -0.611 0.327
Conclusiones
Conclusiones
El grupo 4 presenta la media más alta (0.835), lo que indica que, en promedio, los elementos de este grupo tienen un valor positivo más elevado en comparación con los demás grupos, lo que sugiere que podría ser un grupo con características notablemente diferentes.
El grupo 2 tiene el coeficiente de variación (CV) más alto (645), lo que indica una gran dispersión en los datos. Esto sugiere que los elementos de este grupo son muy heterogéneos, lo que podría ser un indicativo de que contiene valores atípicos o extremos.
La media negativa en los grupos 3, 5 y 6 sugiere que estos grupos podrían estar compuestos en parte por valores atípicos negativos. Esto es relevante para el análisis, ya que estos valores pueden influir significativamente en la interpretación de los resultados.
Al observar los cuartiles Q1 y Q3, el grupo 2 tiene un rango intercuartílico amplio (desde -0.729 hasta 0.897), lo que refuerza la idea de que hay valores extremos o atípicos. En contraste, el grupo 4, aunque tiene una media alta, tiene un rango más estrecho entre Q1 y Q3 (0.331 a 1.01), sugiriendo mayor homogeneidad.
Los grupos con medias negativas (3, 5, y 6) contrastan fuertemente con los grupos con medias positivas (1, 2 y 4). Esto puede indicar que los grupos con valores negativos presentan características o comportamientos muy diferentes de aquellos con valores positivos.
Diferencias entre Grupos
Grupo 4 (0.835) tiene la media más alta, mientras que el grupo 6 (-1.16) tiene la más baja, indicando diferencias significativas en los promedios de cada grupo.
El grupo 2 (645) presenta la mayor variabilidad, lo que sugiere una dispersión considerable en los datos, a diferencia del grupo 4 (88.1), que es el más homogéneo.
El grupo 2 tiene un rango intercuartílico amplio (Q1: -0.729, Q3: 0.897), mientras que el grupo 4 tiene un rango más estrecho (Q1: 0.331, Q3: 1.01), lo que indica que el grupo 2 tiene una distribución más amplia de sus valores en comparación con el grupo 4.
Medidas_Ward_tv
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.321 137. 0.180 0.643
2 2 0.705 18.8 0.656 0.798
3 3 -1.97 -22.9 -2.23 -1.85
4 4 0.555 57.3 0.511 0.766
5 5 -1.07 -60.4 -1.55 -0.721
6 6 0.523 84.9 0.580 0.774
Medidas_Kmeans_tv
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.622 39.7 0.542 0.784
2 2 -1.17 -69.3 -1.83 -0.664
Conclusiones
El grupo 2 en ward_tv tiene la media más alta (0.705), lo que sugiere que, en promedio, sus valores son significativamente positivos. En contraste, el grupo 5 en ward_tv tiene una media negativa (-1.07), indicando que hay un rango notablemente bajo en comparación con otros grupos.
Los grupos 3 y 5 en ward_tv tienen coeficientes de variación negativos (-22.9 y -60.4, respectivamente). Esto indica una baja variabilidad en sus datos, pero también sugiere que las medidas de dispersión pueden estar influidas por valores extremos, reforzando la idea de que estos grupos podrían contener valores atípicos.
El grupo 2 tiene un rango entre Q1 (0.656) y Q3 (0.798), lo que muestra que sus valores están más concentrados. En contraste, el grupo 3 tiene un rango más amplio y negativo, indicando una mayor dispersión de valores atípicos en ese grupo.
La presencia de grupos con medias negativas (3 y 5) frente a aquellos con medias positivas (1, 2, 4 y 6) sugiere diferencias significativas en las características de los datos, lo que puede indicar comportamientos o patrones diferentes entre los grupos.
Los grupos 1, 2 y 6 en ward_tv muestran una variabilidad relativamente baja en comparación con los grupos negativos, lo que indica que estos grupos tienen una mayor uniformidad en sus valores, posiblemente representando características más homogéneas.
Diferencias entre Grupos
El grupo 2 de ward_tv (0.705) presenta la media más alta, mientras que el grupo 5 de ward_tv (-1.07) tiene la más baja, evidenciando diferencias significativas en el comportamiento general de los grupos.
El grupo 2 de kmeans_tv tiene un coeficiente de variación (39.7) más bajo en comparación con los grupos negativos de ward_tv, lo que sugiere que los valores de este grupo son más consistentes.
En ward_tv, el grupo 3 tiene un rango entre Q1 (-2.23) y Q3 (-1.85), lo que indica que los valores en este grupo son bastante negativos y dispersos. En cambio, el grupo 1 de kmeans_tv tiene un rango más positivo (Q1: 0.542, Q3: 0.784), lo que indica que sus valores son más altos y más homogéneos.
Medidas_Ward_telephone
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 -0.502 -72.0 -0.808 -0.242
2 2 1.33 25.9 1.09 1.60
3 3 -0.884 -31.8 -1.01 -0.910
4 4 -0.160 -288. -0.403 0.00524
5 5 -0.870 -32.0 -1.01 -0.910
6 6 0.176 641. -0.726 1.35
Medidas_Kmeans_telephone
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.457 206. -0.410 1.46
2 2 -0.862 -31.5 -1.01 -0.910
Conclusiones
El grupo 2 en ward_telephone tiene la media más alta (1.33), indicando que este grupo tiene valores significativamente positivos en comparación con los otros grupos, que en su mayoría presentan medias negativas. Esto sugiere que el grupo 2 podría representar un comportamiento o características distintas.
El grupo 6 de ward_telephone muestra un coeficiente de variación (CV) muy alto (641), lo que indica una gran dispersión en los datos. Esto podría ser un indicativo de que este grupo contiene valores extremos o atípicos que influyen en su variabilidad.
Los grupos 1, 3, 4 y 5 en ward_telephone tienen medias negativas, lo que sugiere que estos grupos representan comportamientos o características asociadas con valores inferiores. Esto puede ser relevante para el análisis, ya que puede señalar problemas o características desfavorables.
El rango entre Q1 y Q3 en el grupo 2 (1.09 a 1.60) es más estrecho y positivo, sugiriendo una mayor homogeneidad en comparación con otros grupos como el grupo 4, que tiene un rango más amplio (-0.403 a 0.00524), lo que sugiere una mayor dispersión de valores.
En el análisis de kmeans_telephone, el grupo 1 tiene una media positiva (0.457) mientras que el grupo 2 tiene una media negativa (-0.862). Esto resalta diferencias significativas en las características de los grupos, similar a las observadas en ward_telephone.
Diferencias entre Grupos
El grupo 2 de ward_telephone (1.33) presenta la media más alta, en comparación con el grupo 5 de ward_telephone (-0.870), lo que indica diferencias significativas en los promedios de cada grupo.
El grupo 6 en ward_telephone (641) tiene una variabilidad mucho más alta en comparación con el grupo 1 en kmeans_telephone (206), lo que sugiere que el grupo 6 es menos consistente en sus valores.
El grupo 2 de kmeans_telephone tiene un rango intercuartílico más estrecho (Q1: -1.01, Q3: -0.910), indicando que sus valores son más homogéneos, mientras que el grupo 4 de ward_telephone tiene un rango más amplio (-0.403 a 0.00524), lo que sugiere una mayor dispersión en sus datos.
Medidas_Ward_mobile
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.263 115. 0.0482 0.490
2 2 0.502 58.6 0.387 0.701
3 3 -2.68 -23.2 -3.26 -2.26
4 4 0.508 52.2 0.331 0.703
5 5 -0.221 -225. -0.489 0.191
6 6 0.392 100. 0.156 0.672
Medidas_Kmeans_mobile
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.450 69.4 0.271 0.687
2 2 -0.849 -150. -2.07 0.180
Conclusiones
El grupo 2 en ward_mobile tiene la media más alta (0.502), lo que indica que, en promedio, sus valores son positivos. En contraste, el grupo 3 tiene una media significativamente baja (-2.68), sugiriendo un comportamiento o características muy diferentes en comparación con los demás grupos.
El grupo 5 de ward_mobile muestra un coeficiente de variación muy alto (-225), lo que indica una gran dispersión en los datos. Esto podría ser indicativo de que este grupo contiene valores extremos o atípicos que afectan la variabilidad.
Los cuartiles Q1 y Q3 del grupo 1 en ward_mobile (Q1: 0.0482, Q3: 0.490) muestran que los valores están relativamente concentrados, mientras que el grupo 3 tiene un rango más amplio y negativo (Q1: -3.26, Q3: -2.26), indicando una mayor dispersión de valores negativos.
En kmeans_mobile, el grupo 1 tiene una media positiva (0.450), mientras que el grupo 2 tiene una media negativa (-0.849). Esto resalta diferencias significativas en las características de los grupos, sugiriendo que el grupo 2 podría representar un comportamiento desfavorable.
Los grupos 1, 2 y 4 de ward_mobile presentan una variabilidad relativamente baja en comparación con el grupo 5, lo que sugiere que estos grupos tienen una mayor uniformidad en sus valores y podrían estar más relacionados con características positivas. Diferencias entre Grupos
El grupo 2 de ward_mobile (0.502) presenta la media más alta, mientras que el grupo 3 de ward_mobile (-2.68) tiene la media más baja, evidenciando diferencias significativas en el comportamiento general de los grupos.
El grupo 5 de ward_mobile (-225) tiene un coeficiente de variación muy alto, lo que indica una gran dispersión en sus valores, en contraste con el grupo 1 de kmeans_mobile (69.4), que muestra una variabilidad más baja.
El grupo 2 de kmeans_mobile tiene un rango intercuartílico más estrecho (Q1: -2.07, Q3: 0.180), indicando que sus valores son más homogéneos, mientras que el grupo 3 de ward_mobile tiene un rango más amplio (-3.26 a -2.26), sugiriendo una mayor dispersión de valores negativos.
Medidas_Ward_computer_ind
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 -0.510 -73.7 -0.675 -0.220
2 2 1.13 38.9 0.971 1.37
3 3 -0.750 -83.5 -1.33 -0.447
4 4 0.796 46.2 0.524 1.03
5 5 -1.23 -21.7 -1.38 -1.23
6 6 -0.0449 -1548. -0.720 0.349
Medidas_Kmeans_computer_ind
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.530 145. -0.0560 1.10
2 2 -1.00 -48.4 -1.35 -0.710
Conclusiones
El grupo 2 en ward_computer_ind tiene la media más alta (1.13), lo que indica que, en promedio, este grupo tiene valores positivos. En contraste, el grupo 5 tiene la media más baja (-1.23), lo que sugiere características o comportamientos desfavorables.
El grupo 6 en ward_computer_ind presenta un coeficiente de variación extremadamente alto (-1548), lo que indica una gran dispersión en los datos. Esto podría ser indicativo de la presencia de valores atípicos que influyen en la variabilidad de este grupo.
En el grupo 2, el rango entre Q1 (0.971) y Q3 (1.37) es relativamente estrecho y positivo, sugiriendo que los valores están más concentrados. En contraste, el grupo 5 tiene un rango más negativo (Q1: -1.38, Q3: -1.23), lo que indica una mayor dispersión de valores en el extremo negativo.
En kmeans_computer_ind, el grupo 1 tiene una media positiva (0.530), mientras que el grupo 2 tiene una media negativa (-1.00). Esto refuerza la idea de que hay diferencias significativas en las características de los grupos, lo que puede señalar diferentes patrones de comportamiento.
Los grupos 1 y 2 en ward_computer_ind muestran una mayor homogeneidad en comparación con el grupo 5, que tiene una media negativa y una variabilidad más baja. Esto sugiere que los grupos con valores positivos están más relacionados con características uniformes.
Diferencias entre Grupos
El grupo 2 de ward_computer_ind (1.13) presenta la media más alta, mientras que el grupo 5 de ward_computer_ind (-1.23) tiene la media más baja, indicando diferencias significativas en el comportamiento general de los grupos.
El grupo 6 de ward_computer_ind (-1548) muestra una variabilidad extrema, lo que sugiere una gran dispersión en sus valores, en comparación con el grupo 1 de kmeans_computer_ind (145), que tiene una variabilidad más moderada.
En kmeans_computer_ind, el grupo 1 tiene un rango entre Q1 (-0.0560) y Q3 (1.10), lo que sugiere una mayor concentración de valores positivos. En cambio, el grupo 5 de ward_computer_ind tiene un rango más negativo (-1.38 a -1.23), indicando una mayor dispersión de valores en el extremo negativo.
Medidas_Ward_internet_ind
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.124 305. -0.130 0.409
2 2 0.946 21.7 0.793 1.07
3 3 -1.52 -33.6 -1.81 -1.43
4 4 0.737 42.2 0.546 0.901
5 5 -1.32 -34.6 -1.68 -1.03
6 6 0.184 254. -0.0206 0.337
Medidas_Kmeans_internet_ind
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.626 68.1 0.323 0.962
2 2 -1.18 -53.4 -1.71 -0.647
Conclusiones
El grupo 2 en ward_internet_ind tiene la media más alta (0.946), indicando un comportamiento positivo en comparación con otros grupos. En contraste, los grupos 3 (-1.52) y 5 (-1.32) presentan las medias más bajas, sugiriendo características desfavorables.
El grupo 1 en ward_internet_ind muestra un coeficiente de variación (cv) alto (305), lo que indica una considerable dispersión en los datos. Esto podría señalar que este grupo incluye valores atípicos que afectan la variabilidad general.
El grupo 2 presenta un rango entre Q1 (0.793) y Q3 (1.07), lo que indica que los valores están bastante concentrados y positivos. Por el contrario, el grupo 5 tiene un rango más negativo (Q1: -1.68, Q3: -1.03), sugiriendo una dispersión considerable de valores desfavorables.
En kmeans_internet_ind, el grupo 1 tiene una media positiva (0.626), mientras que el grupo 2 tiene una media negativa (-1.18). Esto subraya las diferencias significativas en las características de los grupos y puede implicar diferentes patrones de comportamiento.
Los grupos 1 y 4 en ward_internet_ind tienen valores más positivos y muestran una menor variabilidad en comparación con los grupos negativos (3 y 5). Esto sugiere que los grupos positivos tienden a ser más homogéneos en sus características.
Diferencias entre Grupos
El grupo 2 de ward_internet_ind (0.946) presenta la media más alta, mientras que el grupo 5 de ward_internet_ind (-1.32) tiene la media más baja, indicando diferencias significativas en el comportamiento general de los grupos.
El grupo 1 de ward_internet_ind (305) tiene un coeficiente de variación muy alto, lo que indica una gran dispersión en sus valores, en comparación con el grupo 1 de kmeans_internet_ind (68.1), que muestra una variabilidad más moderada.
En kmeans_internet_ind, el grupo 1 tiene un rango entre Q1 (0.323) y Q3 (0.962), lo que sugiere una mayor concentración de valores positivos. En contraste, el grupo 2 de kmeans_internet_ind tiene un rango más negativo (Q1: -1.71, Q3: -0.647), indicando una dispersión significativa de valores desfavorables.
Medidas_Ward_mobil_ind
# A tibble: 6 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 -0.0739 -931. -0.522 0.439
2 2 0.263 311. -0.208 1.00
3 3 -1.57 -63.9 -2.40 -0.744
4 4 0.739 45.9 0.465 1.01
5 5 -0.218 -379. -0.603 0.297
6 6 0.233 464. -0.0319 0.978
Medidas_Kmeans_mobil_ind
# A tibble: 2 × 5
grupo media cv Q1 Q3
<int> <dbl> <dbl> <dbl> <dbl>
1 1 0.308 261. 0.0572 0.978
2 2 -0.582 -186. -1.38 0.0943
Conclusiones
El grupo 2 en ward_mobil_ind tiene la media más alta (0.263), lo que indica que, en promedio, este grupo tiene valores positivos. Por el contrario, el grupo 3 presenta la media más baja (-1.57), sugiriendo características desfavorables.
El grupo 1 de ward_mobil_ind muestra un coeficiente de variación extremadamente alto (-931), lo que indica una gran dispersión en los datos. Esto sugiere que este grupo podría incluir valores atípicos que afectan significativamente la variabilidad general.
En el grupo 2, el rango entre Q1 (-0.208) y Q3 (1.00) es relativamente estrecho y positivo, lo que indica que los valores están más concentrados. En contraste, el grupo 3 tiene un rango más amplio y negativo (Q1: -2.40, Q3: -0.744), sugiriendo una mayor dispersión de valores negativos.
En kmeans_mobil_ind, el grupo 1 tiene una media positiva (0.308), mientras que el grupo 2 tiene una media negativa (-0.582). Esto resalta las diferencias significativas en las características de los grupos, indicando que el grupo 2 puede representar un comportamiento desfavorable.
Los grupos 2 y 4 de ward_mobil_ind muestran valores positivos y una menor variabilidad en comparación con los grupos negativos (1 y 3). Esto sugiere que los grupos positivos tienden a ser más homogéneos en sus características.
Diferencias entre Grupos
El grupo 2 de ward_mobil_ind (0.263) presenta la media más alta, mientras que el grupo 3 de ward_mobil_ind (-1.57) tiene la media más baja, indicando diferencias significativas en el comportamiento general de los grupos.
El grupo 1 de ward_mobil_ind (-931) tiene un coeficiente de variación muy alto, lo que sugiere una gran dispersión en sus valores, en comparación con el grupo 1 de kmeans_mobil_ind (261), que muestra una variabilidad más moderada.
En kmeans_mobil_ind, el grupo 1 tiene un rango entre Q1 (0.0572) y Q3 (0.978), lo que sugiere una mayor concentración de valores positivos. En contraste, el grupo 2 tiene un rango más negativo (Q1: -1.38, Q3: 0.0943), indicando una dispersión significativa de valores desfavorables.
A. Diagrama de Cajas para Ward variable Radio
Diagrama de Cajas para K-means variable Radio
B. Diagrama de Cajas para Ward variable TV
Diagrama de Cajas para K-means variable TV
C. Diagrama de Cajas para Ward variable Telephone
Diagrama de Cajas para K-means variable Telephone
D. Diagrama de Cajas para Ward variable Mobile
Diagrama de Cajas para K-means variable Mobile
E. Diagrama de Cajas para Ward variable Computer_ind
Diagrama de Cajas para K-means variable Computer_ind
F. Diagrama de Cajas para Ward variable Internet_ind
Diagrama de Cajas para K-means variable Internet_ind
G. Diagrama de Cajas para Ward variable Mobil_ind
Diagrama de Cajas para K-means variable Mobil_ind
Los distintos métodos de agrupamiento (Ward, Single, Complete y K-means) ofrecen diferentes perspectivas sobre la estructura de los datos. Mientras que algunos métodos sugieren que un menor número de grupos es óptimo, otros indican que una mayor complejidad puede ser necesaria. Esto resalta la importancia de elegir el método adecuado según el contexto y los objetivos específicos del análisis.
Los resultados de las medidas descriptivas (media, CV, Q1, Q3) indican que los grupos resultantes tienen características distintas en términos de dispersión y centralidad. Esto sugiere que los segmentos de la población son heterogéneos, y una comprensión clara de estas diferencias es esencial para implementar estrategias efectivas.
Los índices de silueta proporcionan una medida valiosa de la calidad de los agrupamientos. Grupos con un índice de silueta más alto indican una mejor separación entre los grupos, lo que es crucial para la interpretación de los resultados y la posterior toma de decisiones.
La segmentación de la población en grupos distintos permite el desarrollo de estrategias personalizadas. Los grupos con alta variabilidad (como los identificados en los análisis de k-medias) pueden beneficiarse de ofertas diversificadas, mientras que los grupos más homogéneos pueden responder mejor a enfoques más estándar.
Los hallazgos sugieren que las organizaciones deben considerar estas diferencias en sus análisis para optimizar sus decisiones. Esto incluye desde el diseño de productos hasta la implementación de campañas de marketing, asegurando que cada segmento sea abordado de manera efectiva para maximizar el impacto y la satisfacción del cliente.