class: center, middle, inverse, title-slide .title[ # Aprendizaje No Supervisado ] .author[ ### Miguel Garces -Jeison Fernandez-Samuel Leon-Harrison Enriquez ] .date[ ### 2024-11-09 ] --- ## Índice <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> 1. *Introducción* 2. *Metodología* 3. *Descripitivas* 4. *Modelo* 5. *Resultados* 6. *Conclusiones* --- ## Introducción <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> Esta presentación consiste en la recopilación de datos de 42 países obtenidos del Banco Mundial que en 29 variables explican diferentes factores como: -Producción y crecimiento económico -Consumo y gasto -Comercio internacional -Empleo y mercado laboral Se utiliza la base de datos para aplicar técnicas de aprendizaje no supervisado y análisis de datos. Antes del modelado, se examinan las variables clave para facilitar la interpretación y comprensión de los resultados. --- ## Metodología <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> En los modelos de aprendizaje no supervisado existen diferentes métodos de clusterización, entre ellos los más destacados son: -Kmedias -Agrupamiento Jerárquico -Kmedoids En este proyecto se usó el método K-medias, además, se eliminaron 3 países y 1 variable con el objetivo de obtener agrupamientos nivelados. Se emplearon métodos adicionales como la matriz de correlación para evaluar la relación entre las variables, y un diagrama boxplot para identificar y eliminar posibles valores atípicos, lo cual mejora la precisión del modelo. --- ## Metodología <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> De la misma forma, existen diferentes métodos para reducir la dimensionalidad de los datos. En este caso, se utilizó el Análisis de Componentes Principales (ACP) para reducir las 29 variables originales a 4 factores. <div style="text-align: center;"> <img src="factor.png" width="100%"> </div> Donde Xi representa las variables y λi son los pesos que maximizan la varianza del componente. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> <div style="height:80vh; display: flex; justify-content: center; align-items: center; color: black;"> <h1>DESCRIPTIVAS</h1> </div> </section> --- ## Gráfico de TOP 10 formación bruta de capital fijo <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> El FBCF es la medida económica que representa la inversión en activos fijos dentro de una economía, con el siguiente gráfico podemos observar que países como Colombia, India, Chile, Japón y corea son los que más FBCF tienen.
--- ## Gráfico TOP 5 países con mayor PIB nominal <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> Los países en este análisis representan economías de diferentes tamaños y etapas de desarrollo. Corea y Japón son economías industrializadas con alto valor agregado, mientras que Colombia, India y Chile dependen más de recursos naturales y manufactura.
--- ## Gráfico de caja y bigotes (box plot para analizar outliers) <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> Del siguiente gráfico podemos identificar los valores atípicos en las diferentes variables presentes en la base de datos. Se observa que en la mayoría de las variables los valores atípicos son: **Colombia, Chile, Corea y Japón** .
--- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> <div style="height:80vh; display: flex; justify-content: center; align-items: center; color: black;"> <h1>MODELO</h1> </div> </section> --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> #Kmeans Países completos. Al ejecutar la clusterización por el método K-means se observa que el gráfico de silueta sugiere **2 clusters** cuya métrica Ancho de Silueta Promedio (ASW) es igual a **0.61**
<div style="text-align: center;"> <img src="kpaisc2d.png" width="100%"> </div> --- ###Kmeans Países completos 4 clusters <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> Debido a la asignación desproporcionada de individuos en 2 clusters, se realizaron múltiples pruebas con diferentes cantidades de clústeres, encontrándose que 4 clústeres ofrecían la distribución más equilibrada.
<div style="text-align: center;"> <img src="kpaisc4d.png" width="90%"> </div> Viendo el gráfico de la silueta se observa que la métrica se redujo a ** 0.4** lo que sugiere que los puntos están en las fronteras entre clústeres, lo que podría indicar una superposición o poca claridad entre los grupos. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Matriz de correlación <div style="text-align: center;"> <!-- Gráfico centrado --> <img src="Presentacionparagestion_files/figure-html/unnamed-chunk-5-1.png" width="50%" style="display: block; margin: auto;" /> </div> <div style="text-align: center; margin-top: 20px; font-size: 1.1em;"> Dada la gran cantidad de variables, resulta difícil identificar cuáles presentan una mayor correlación entre sí y cuáles, por el contrario, no muestran relación alguna con las demás. </div> --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ###Suma de correlaciones Para resolver el problema se decidió realizar la suma de los valores absolutos de la correlación de cada variable con las demás obteniendo el siguiente resultado: <div style="text-align: center;"> <img src="sumcor.png" width="90%"> </div> Aquí podemos ver que la variable con menor correlación respecto a las demás es **x26 (tasa de desempleo)** y, para **NO** afectar la técnica de ACP, se decidió **NO** eliminar la variable que más se relaciona con las demás. Apoyado en la tabla de la suma de correlaciones y las descriptivas dadas anteriormente se eliminará la variable de x26 y los países: Colombia,Chile y corea. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Kmeans con base modificada <div style="text-align: center;"> <img src="kpais4d.png" style="width: 100%; display: block; margin-left: auto; margin-right: auto;"> </div> <div style="text-align: center; margin-top: 20px; font-size: 1.1em;"> <b><i>Pero, ¿qué cambió?</i></b> </div> Se preguntarán cuál fue la diferencia al eliminar los países con más valores atípicos y la variable x26, ya que la agrupación de los clusters en los dos casos es similar. Esto se explica en la siguiente diapositiva. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Comparacion de ASW Se observa una mejora en la métrica ASW de 0,4 a 0,57 lo que indica que la calidad de la agrupación aumentó y la mayoría de los puntos están bien definidos dentro de los clusters.
--- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Nombre de los clusters. Teniendo en cuenta el resultado de las medias de cada variable al usar k-means eliminando a Colombia,Chile y corea, además de eliminar la variable con menor correlación (Tasa de desempleo) el nombre adecuado para cada cluster es: **Cluster 1: Economías Estables y Diversificadas**: Crecimiento moderado, estabilidad en consumo y comercio; economías maduras y diversificadas. **Cluster 2: Economías en Expansión Acelerada**: Rápido crecimiento en comercio, consumo y PIB; potencial de crecimiento, pero con posibles desafíos de estabilidad económica (como en el caso de Argentina). **Cluster 3: Economías en Recesión**: Desafíos de crecimiento, con bajas en exportaciones, consumo o inversión; economías en recesión o crecimiento lento. **Cluster 4: Economías Dependientes de Exportaciones**: Alta dependencia de exportaciones y vulnerabilidad económica; pueden tener volatilidad en tasas de cambio y consumo. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> <div style="height:80vh; display: flex; justify-content: center; align-items: center; color: black;"> <h1>Análisis de Componentes Principales</h1> </div> </section> --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##ACP El score plot refleja cómo se distribuyen las observaciones en el espacio de las componentes principales y cómo cada una de estas dimensiones captura la variabilidad de los datos. <div style="text-align: center;"> <img src="contfac.png" width="50%"> </div> Apoyado en el scree plot y en el resultado del porcentaje de varianza acumulada se decidió trabajar con 4 dimensiones que explican un 77% de la variabilidad de los datos. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##PCA - BIPLOT Dim(1,2)  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Análisis de la dimensión 1. Para la dimensión 1 tenemos que las variables con mayor contribución son: - x7(Gasto de consumo final privado) - x10(PIB, volumen, precios de mercado) - x12(Formación bruta de capital fijo, total, volumen) - x6(Gasto de consumo final del gobierno, volumen) - x9(PIB, valor nominal, precios de mercado) - x14(Exportaciones de bienes y servicios, volumen(base de cuentas nacionales)) - x13(Importaciones de bienes y servicios, volumen(base de cuentas nacionales)). Se observó que todas las variables están relacionadas con gasto, consumo,inversión y el comercio de una economía, por ende el nombre más adecuado es "Actividad Económica y Comercio Exterior". --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Análisis de la dimensión 2. Para la dimensión 2 tenemos que las variables con mayor contribución son: - x24(Importaciones de bienes y servicios, deflactor (base de cuentas nacionales) - x23(Exportaciones de bienes y servicios, deflactor (base cuentas nacionales) - x19(Producto interno bruto, precios de mercado, deflactor, crecimiento) - x18(Producto Interno Bruto, crecimiento del volumen) - x25(Importaciones de bienes y servicios, deflactor (base de cuentas nacionales) - x8(Gasto de consumo final privado, volumen) Estas variables están relacionadas con comercio exterior, el Producto Interno Bruto (PIB) y los deflactores (que ajustan las cifras económicas para eliminar el efecto de la inflación), un nombre que se ajusta para esta dimensión sería Inflación y Desempeño Económico Internacional. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##PCA - BIPLOT Dim(3,4)  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Análisis de la dimensión 3. La dimensión 3 está definida principalmente por las primeras 4 variables de la tabla anterior: - x3 Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales) - x4 Comercio de bienes y servicios, volumen en USD - x5 Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales) - x11 Producto Interno Bruto, volumen en USD, a paridades de poder adquisitivo constante Por lo cual se decide darle el nombre de Comercio y producción nacional esto con el fin de enfatizar la relación entre producción nacional (PIB) y actividad comercial internacional. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Análisis de la dimensión 4. En el caso de la dimensión 4 igualmente se tendrán en cuenta las primeras 4 variables, las cuales son: - x8 Exportaciones netas, contribuciones a los cambios en el PIB real - x1 Saldo de cuenta corriente como porcentaje del PIB - x16 Importaciones de bienes y servicios, crecimiento del volumen (base de cuentas nacionales) - x20 Formación bruta de capital fijo, total, crecimiento del volumen Las variables parecen estar relacionadas con el balance de comercio y cuenta corriente, así como con el crecimiento de componentes importantes del PIB, como las importaciones y la inversión (formación bruta de capital fijo). Estas variables reflejan aspectos de la dinámica económica interna y externa que afectan al crecimiento y estabilidad económica de un país. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ###Comparación de los paises eliminados en la dimensión 1.
Se observa que los países eliminados en su mayoría están por encima o tiene un valor similar al de Japón (país con mayor contribución en la dimensión 1) por ende serían países con una buena representación en la dimensión 1. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> #Clusterización ACP <div style="text-align: center;"> <img src="clusteracp.png" width="70%"> </div> Un total de 6 clusters (2 cluster equilibrados) y 4 clusters con valores atípicos. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Clusterización ACP <div style="text-align: center;"> <img src="clusacp.png" width="80%"> </div> Como se observa los clusters (1,2 y 3) estan juntos porque, probablemente, las variables o características que definen a estos grupos tienen valores muy similares, lo que provoca que no se separen claramente en el espacio de análisis. --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre para el cluster 1 **Economías de crecimiento moderado** esto gracias a los resultados del análisis de media para el cluster 1. Estos países tienen una media menor al promedio global en PIB, exportaciones, importaciones y consumo privado.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre para el cluster 2 más adecuado es **Economías de crecimiento dinámico** estos paises cuentan con un fuerte aumento en consumo privado, exportaciones e importaciones.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre más adecuado para el cluster 3 (Irlanda) es **Economía Exportadora** esto porque tiene una economía altamente orientada hacia las exportaciones, con un crecimiento robusto del PIB y un superávit en cuenta corriente.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre más adecuado para el cluster 4 (Japón) es **Economías de fuerte crecimiento impulsadas por el consumo y la inversión interna** ya que destaca positivamente frente a la media global de las variables relacionados al crecimiento económico, como se ve en la siguiente tabla.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre más adecuado para el cluster 5 (Estados Unidos) es **Economías con alta dependencia del empleo y la inversión interna** ya que destaca positivamente frente a la media global relacionadas con empleo y la inversión extranjera.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ##Asignación de nombre. El nombre para el cluster 6 (Argetina) es **Economías con fuerte enfoque en el comercio exterior y control de precios**.  --- <div class="logo" style="position: absolute; top: 10px; right: 10px; width: 80px;"> <img src="https://seeklogo.com/images/U/universidad-del-valle-logo-20717A4FDA-seeklogo.com.png" style="width: 100%; height: auto;" /> </div> ## Conclusiones 1. La base de datos contiene numerosos datos atípicos, lo que dificulta una agrupación equilibrada de los países, ya que estos valores extremos generan mucho ruido en el modelo. Incluso modelos más robustos, como k-medoids, siguen siendo susceptibles a la influencia de estos datos atípicos. 2. La dimensionalidad de los modelos se redujo de manera significativa, pasando de 29 variables a solo 4 factores principales. Esta reducción se logró manteniendo un buen nivel de calidad en la segmentación de los datos, con un índice de Average Silhouette Width (ASW) que disminuyó de 0.57 a 0.42, lo cual indica una adecuada separación de los clusters, aunque con algo más de solapamiento comparado con el modelo original, esto debido a que los 4 factores explican el 77% de la variabilidad.