El aprendizaje no supervisado permite la creación de algoritmos que realicen agrupaciones de una cantidad de datos según los patrones o características similares que se encuentren entre las mismas, aún cuando estas no han sido etiquetadas o clasificadas con anterioridad. En la presente investigación se dará lugar a la aplicación de la técnica ACP (Análisis de componentes principales) de aprendizaje no supervisado a partir de una base de datos con 13 variables relacionadas al crecimiento y nivel de desarrollo de 97 países alrededor del mundo. Esta técnica permite una correcta agrupación de los distintos países según los indicadores de nivel de desarrollo ya mencionados, simplificando el manejo de grandes cantidades de información para entender de una mejor forma las dinámicas en materia del ya nombrado desarrollo durante el año 2022. A continuación se muestra un mapa que indica el INB per cápita de cada país, en la anterior investigación de aprendizaje supervisado, se encontró que según el Banco Mundial dicha variable tiene un poder predictivo muy poderoso para determinar si un país es desarrollado o no (gracias a la regla de dicotomización que establece), ya que tiene en cuenta factores como la inflación, los tipos de cambio y el crecimiento demográfico, lo cual ayudará para tener una idea del nivel de desarrollo alrededor del mundo previo a la realización del ejercicio de clusterización, así mismo permite la realización de un ejercicio de comparación respecto al poder predictivo que puedan llegar a tener otras variables que contribuyan a las dimensiones con mayor varianza en el ACP, las cuales pueden llegar a ser otras variables distintas a la que se esta hablando ahora.
A continuación se describen los pasos necesarios para la puesta en marcha del análisis de componentes principales que compete al aprendizaje no supervisado desde la definición de variables hasta el análisis relacionado con la técnica ya mencionada:
1.Para esta investigación se siguió con el mismo tema de interés (Nivel de desarrollo) y año de análisis (2022) que se usó en la investigación competente a aprendizaje supervisado haciendo uso de las mismas variables, aunque para este caso se deben añadir de entre 3 a 10 variables cuantitativas para de esta forma tener una data compuesta de entre 13 a 20 variables del tipo ya mencionado que permita la generación de mejores patrones a la hora de encontrar combinaciones lineales entre las mismas para contribuir a una determinada dimensión y lograr una buena reducción de esa dimensionalidad y cierta calidad en las segmentaciones. Se dio la búsqueda de esas variables adicionales en la página de Our World in Data. Por lo tanto las variables que se tienen vendrían siendo: Tasa de empleo, gasto público en educación como porcentaje del PIB, tasa de natalidad, tasa de mortalidad, valor de los bienes y servicios exportados, crecimiento anual del PIB, porcentaje de la población con acceso a la electricidad, esperanza de vida al nacer, emisiones de CO2 en toneladas, índice de corrupción política, porcentaje de la población que se encuentra en desnutrición e índice de desigualdad de género.
2.Con lo dicho anteriormente se procede a realizar la respectiva limpieza de datos para de esta forma tener una base de 97 países compuesta por las variables ya nombradas, luego con ayuda de la librería tibble perteneciente al paquete que lleva el mismo nombre se procede a transformar la columna de los países para que de esta forma cada país termine llevando a cabo la función de ser el nombre de su respectiva fila teniendo así una matriz de datos.
3.Se procede con la elaboración de un análisis descriptivo en el que predominan el cálculo de las medidas de tendencia central y posteriormente diagramas de dispersión para establecer patrones visuales acerca de las variables que contribuyen a la explicación de las dimensiones (Tema que se abordará en el análisis de resultados) realizando un contraste con la variable INB per cápita.
4.Para empezar con el análisis de componentes (ACP) se hace uso de la función prcomp, luego se procede a realizar la estandarización de las variables para que de esta forma cada una de estas tenga una media de cero y una desviación estándar de uno y además queden en la misma escala independientemente cuales sean sus unidades originales, lo cual ayuda a que se de una contribución equitativa de cada variable al análisis, pues si esto no se realiza aquellas variables que tienen valores extremos o más amplios pueden generar sesgos e influir en los resultados de manera desproporcionada, pues tienen un mayor peso en el análisis, un ejemplo que se puede llegar a presentar radica en que las variables con mayor varianza van a influir más en la determinación de la primera componente.
5.Con ayuda de la función fvizeig proveniente del paquete factoextra se procede a realizar la elaboración del gráfico que muestra cada una de las 13 componentes (Número de componentes = Número de variables) junto con su respectivo porcentaje de varianza explicada, lo cual ayuda a tener un panorama visual que nos será supremamente útil a la hora de decidir el número de componentes o dimensiones con las cuales se realizará el análisis, aunque por otro lado también podemos hacer uso del criterio Kaiser, el cual nos dice que se deben elegir aquellas componentes que poseen un valor propio superior a 1, dichos valores los obtenemos con ayuda de lo que nos lanza la línea de código en la cual se da la intervención de la función prcomp.
6.Una vez que ya se tiene en firme la decisión respecto al número de dimensiones con la cual se realizará el ACP, se procede a la elaboración del gráfico de variables, este gráfico ayuda a entender cuales son las variables que contribuyen mayormente a la formación de una dimensión, cabe recalcar que cada variable está representada por un vector que nace en el origen y cada dimensión se representa por un eje de coordenadas (En el caso de la dimensión 1 esta representada por el eje X y la dimensión 2 representada por el eje Y). En dicho análisis visual entran en juego muchas cosas, si por ejemplo el vector está muy pegado al eje que representa determinada dimensión se puede considerar que hay una alta contribución, pero esto no es suficiente, ya que hay que tener en cuenta lo que es la longitud del vector y el color (El color viene determinado por el coseno cuadrado o Cos2, un Cos2 alto que se representa en general por un color rojizo indica una alta contribución de la variable en la dimensión, lo cual a su vez también genera una longitud extensa en el vector, por el contrario un Cos2 bajo se representa por un color azulado o amarilloso, lógicamente indica una baja contribución de la variable en la dimensión, lo cual ocasiona que el vector que representa a la variable no tenga una longitud muy extensa). Para tener un apoyo respecto al análisis visual se hace uso de la función get_pca_var, la cual expresa de forma numérica la contribución de las variables a las dimensiones. En esta investigación se tiene como objetivo elegir aquellas variables que aporten más a la dimensión, estas variables que se elijan, entre ellas deben tener un aporte homógeneo o similar. Al tener en claro qué variables son las que contribuyen de forma mayoritaria a las dimensiones se da la creación de factores, lo cual es equivalente a asignarle un nombre a la dimensión que se está trabajando, dicho nombre debe partir de una correlación proveniente de las variables que están contribuyendo.
7.Respecto al análisis visual del gráfico de individuos (Países) , este se hace con el fin de entender la forma en que los países se relacionan con los factores y a partir de ahí poder detectar posibles tendencias y patrones. Así mismo como en el caso del análisis del gráfico de variables acá también se puede tener un apoyo respecto al análisis visual haciendo uso de la función get_pca_ind, la cual expresa de forma numérica como está representado cada país por cada factor, además también interviene el tema del color o el Cos2, en donde por lo general los países mejor representados por la dimensión se encuentran en la periferia del plano y poseen un color rojizo.
8.La relación entre los países y cada factor que se evidencia por el análisis del gráfico mencionado en el apartado anterior nos indica cuales son los países más destacables en cada factor, pero a su vez se debe entender si esta relación es positiva o negativa, lo cual es una inquietud que surge a partir de muchas preguntas como por ejemplo: ¿Los países que tienden a acercarse al factor que se ubica en el eje horizontal, al ubicarse a la derecha tienen una relación positiva o negativa? o ¿los países que tienen a acercarse al factor que se ubica en el eje vertical, entre más estén arriba representarán una relación positiva? Debido a que estos gráficos no necesariamente siguen la misma orientación que un plano cartesiano convencional, se recurre al gráfico que reúne variables y países con ayuda de la función fviz_pca_biplot, el cual ayuda a entender la orientación del signo.
9.Por último se tiene la clusterización por factores, la cual se realiza con la ayuda de la librería FactoClass indicando el número de dimensiones con las cuales se está trabajando y el número de clusters, luego de eso se le añade a nuestra base de datos una columna en la cual ya cada país queda identificado con su respectivo cluster. Con ayuda de s.class podemos elaborar un gráfico en el cual se puede ver la relación de los clusters y los factores para posteriormente contrastar este análisis visual con las descripciones de cada cluster junto con el análisis de medias.
Para esta investigación todas las variables fueron cuantitativas.
Tasa de Empleo (TasaEmpleo): Se define como la razón entre la población ocupada y el número de personas en edad productiva o económicamente activa, o sea personas que están en la capacidad de laborar. Para el caso de la base de datos de este proyecto se usó la tasa referente al número de empleadores por empleos totales lo que incluye a los trabajadores por cuenta propia con y sin empleados a cargo. La razón por la cuál se eligió como variable para el modelo es que la tasa de empleo indica que tantas personas están aportando a la economía de un país, si hay empleo, hay ingreso y al haber ingreso hay consumo de bienes y servicios.
Gasto público en educación como porcentaje del PIB: (GastoEducacionPorc): Hace referencia a la cantidad de dinero perteneciente al producto interno bruto que los países destinan para invertir en la educación en todos los niveles. Puede relacionarse con el nivel de desarrollo económico de los países ya que es una inversión en el capital humano, cuando las poblaciones pueden acceder a la educación tienen más posibilidades de acceder a un empleo, y a su vez, los países con mayor PIB pueden invertir más en educación, es una relación de doble vía.
Tasa de Natalidad (TasaNatalidad): Es el número de nacidos vivos por cada 1000 habitantes en un año. Es un indicador demográfico que da cuenta de la fecundidad de una población, o sea la capacidad de tener hijos de un país. Esta variable está relacionada con el nivel de desarrollo económico ya que las estadísticas demuestran que a mayor nivel de desarrollo la tasa de natalidad disminuye ya que las personas tienen mejor acceso a la planificación familiar, las mujeres tienen mejor acceso al empleo y posponen la maternidad.
Valor de los bienes y servicios exportados (ValorExport): Es el precio en dólares de los bienes y servicios que un país exporta, para este caso está ajustado a los niveles de inflación. Las exportaciones representan una gran fuente de ingresos económicos lo que afecta directamente al nivel de desarrollo económico de los países, también podría entenderse como una relación de doble vía ya que los países con mejores economías son normalmente más industrializados y por esta razón tienen más capacidad de exportación.
Variación Anual del PIB (CrecimientoAnualPIB): Es la variación porcentual anual del producto interno bruto, también es una variable ajustada a la inflación de cada país, hace referencia a si el PIB crece o decrece en las economías de los diferentes países. Este indicador permite conocer como ha fluctuado la economía en los diversos países, actualmente el mundo se encuentra en constante movimientos sociales, políticos y económicos, algunos tienen economías emergentes, o sea, que están pasando de ser economías de niveles bajos a niveles un poco más altos, por está razón este indicador podría ser relevante de tener en cuenta para analizar el modelo del Nivel de Desarrollo Económico de los países.
Porcentaje de la población con acceso a la electricidad (PorcAccesoElectricidad): El acceso a la electricidad se define en las estadísticas internacionales como tener una fuente de electricidad que pueda proporcionar una iluminación muy básica y cargar un teléfono o alimentar una radio durante 4 horas. Esta variable se eligió para el análisis del modelo ya que puede ser un indicador de ingresos en los países, ya que a más ingreso más inversión en infraestructura, además el acceso constante y estable a la energía permite más horas activas de los países, en las fábricas, en laboratorios, en las escuelas, etc.
Esperanza de Vida (EsperanzaVida): es la duración en promedio de vida de los nacidos vivos en un periodo específico tomando como referencias las tasas de mortalidad del mismo periodo. En otras palabras es un tipo de dato predictivo de cuanto años pueden llegar a vivir las personas de determinado país teniendo en cuenta las tasas de mortalidad. Es un indicador de bienestar y calidad de vida, su relación es estrecha con el nivel de desarrollo de un país, ya que los países con mejores ingresos invierten más en salud, en saneamiento ambiental y la población con sus ingresos pueden acceder a una mejor alimentación, entretenimiento, y mejores estilos de vida.
Emisiones de C02 (EmisCO2):Hace referencia a las cantidades en toneladas de dióxido de carbono producidas por actividades como las industriales, transporte y producción de energía que se realizan en los diferentes países. Se relaciona con el nivel de desarrollo económico ya que a mayor crecimiento económico, mayores emisiones de CO₂, debido al aumento en la actividad industrial, el uso de combustibles fósiles, el transporte y la generación de energía. Esto se observa especialmente en países que se industrializaron tempranamente (como EE. UU., Alemania o China).
Tasa de Mortalidad (TasaMortalidad): Es el número de muertes por cada 1000 habitantes que suceden en un país en un periodo específico. Los países más desarrollados tienen mejor infraestructura en salud, mayor esperanza de vida, y mejores condiciones de vida en general, por tanto a mayor nivel de desarrollo económico menor es la tasa de mortalidad.
INB per Cápita (INBpercapita): El INB per cápita mide el ingreso total de los residentes de un país (incluyendo ingresos desde el extranjero) dividido entre la población total. Es una estimación del ingreso promedio por persona y se utiliza comúnmente para clasificar países según su nivel de ingresos (bajo, medio y alto). Esta variable es funcional y fundamental para realizar la regla de dicotomización para los tres modelos que se van a desarrollar.
Índice de Percepción de Corrupción Política (IndiCorrupt): Este indicador pone en evidencia un porcentaje de funcionarios de la rama ejecutiva, legislativa, judicial y públicos que cometen delitos como fraudes, soborno, malversación de fondos y abuso de poder. La corrupción política es un factor importante al momento de evaluar el crecimiento económico de los países ya que a mayor corrupción se puede generar menor inversión nacional y extranjera, menor productividad y mayor desigualdad.
Porcentaje de la población que en desnutrición (Desnutric): Este índice hace referencia al porcentaje de personas con ingesta diaria por día insuficiente para proporcionar la cantidad de energía alimentaria necesaria para mantener una vida normal y saludable. Este factor se relaciona con el nivel de desarrollo, ya que los países menos desarrollados no tienen la capacidad económica para solventar las necesidades alimentarias de su población, por este motivo tienen altos índices de desnutrición.
Índice de Desigualdad de Género (DesGen): Este índice abarca tres dimensiones: salud reproductiva, empoderamiento y situación económica. La desigualdad de género, particularmente en el ámbito laboral, tiene un impacto significativo en el nivel de desarrollo económico de los países. Cuando las mujeres tienen menos oportunidades de educación, empleo y liderazgo, se limita el potencial de crecimiento económico del país. Las puntuaciones oscilan entre 0 y 1, es decir varía de 0, donde mujeres y hombres tienen el mismo rendimiento, a 1, donde un género tiene el peor rendimiento posible en todas las dimensiones medidas. Los valores del IDG se calculan utilizando la medida de desigualdad sensible, lo que implica que el índice se basa en la media general de medias generales de diferentes órdenes: la primera agregación se realiza mediante una media geométrica a través de las dimensiones; estas medias, calculadas por separado para mujeres y hombres, luego se agregan utilizando una media armónica entre los géneros.
A continuación se dará una breve descripción respecto a las técnicas de clusterización:
Método de Ward: El método de Ward es una técnica de agrupamiento jerárquico utilizada en estadística y minería de datos para formar clusters (grupos) de observaciones similares minimizando el aumento de la varianza total, desistiendo del uso de métricas de distancia o medidas de asociación. Es muy usado para generar grupos compactos y homogéneos. Este método es más apropiado para variables cuantitativas y no para variables binarias.Implica un algoritmo de aprupamiento aglomerativo, se comienza con n grupos de tamaño 1 y continúa hasta que todas las observaciones se incluyen en un grupo, en específico lo que hace es que comienza en las hojas y avanza hasta el tronco, luego busca grupos de hojas que forman ramas, estas en extremidades y finalmente, en el tronco.
Método Kmeans: El algoritmo k-means es un método de agrupamiento que divide un conjunto de datos en k grupos o clusters. Los datos se agrupan de tal manera que los puntos en el mismo clúster sean más similares entre sí que los puntos en otros clusters. Este algoritmo permite recopilar grandes cantidades de información similar en un mismo lugar, hecho que ayuda a encontrar patrones y hacer predicciones en grandes conjuntos de datos. Primero se específica el número de clusters o grupos deseados, luego se eligen k puntos al azar del conjunto de datos para servir como centroides iniciales, cada punto se asigna al clúster con el centroide más cercano, teniendo en cuenta una medida de distancia, se recalcula la posición de cada centroide como la media de los puntos asignados a su clúster, ya luego se vuelven a asignar los puntos al centroide más cercano y a recalcular las posiciones hasta que los centroides no tengan un cambio significativo o se alcance la mayor cantidad de repeticiones.
Técnica ACP: Es una técnica estadística que reduce la dimensionalidad de un conjunto de datos, buscando las direcciones (componentes principales) en las que la varianza de los datos es mayor. Esta técnica permite transformar variables correlacionadas en nuevas variables independientes y no correlacionadas entre sí, llamadas componentes principales (Son combinaciones lineales de las variables originales, al no estar correlacionados entre sí son ortogonales o perpendiculares en el espacio de datos, esto ayuda a que cada componente aporte una perspectiva única sobre la varianza, sin repetir la información capturada por otras componentes),que explican la mayor varianza posible de los datos, en sí estos componentes se conocen como vectores propios, es decir las direcciones de los ejes en donde existe mayor varianza, cada vector tiene asignado un valor propio, el cual indica la cantidad de varianza presente en cada componente principal. El PCA es muy eficaz para visualizar y explorar conjuntos de datos de alta dimensión, o datos con muchas características, ya que puede identificar fácilmente tendencias, patrones o valores atípicos. Su ecuación vendría siendo la siguiente:
\[ Z = \lambda_1 X_1 + \lambda_2 X_2 + \dots + \lambda_p X_p \]
A continuación se muestra una tabla que posee el cálculo de los principales indicadores de tendencia central para cada variable:
A continuación se mostrarán gráficos de dispersión en los que sólo se tendrán en cuenta las variables que contribuyen a las dimensiones o componentes que se tomarán para el ACP junto con la variable INB per cápita para entender la estructura subyacente de los datos, teniendo en cuenta lo que se mencionó de forma introductoria respecto a la anterior investigación:
Este gráfico representa la relación entre el Ingreso Nacional Bruto (INB) per cápita y la esperanza de vida de 97 países, dos de las variables incluidas en el conjunto de datos utilizado para el análisis no supervisado. Su comportamiento respalda una de las hipótesis centrales del estudio, lo cual es que las condiciones económicas y sociales están fuertemente correlacionadas con el nivel de desarrollo.Se observa que: Hay una relación directamente proporcional y positiva: El incremento en la esperanza de vida es más pronunciado en los niveles más altos de INB per cápita, lo que indica que las mejoras económicas tienen un impacto significativo en la longevidad, pues como ya se dijo un alto INB per capita promueve un alto nivel de desarrollo y esto a su vez promueve un mejor acceso a servicios médicos, mejores condiciones de vivienda, agua potable, electricidad, etc.
Los países con un INB per cápita más alto (hacia el lado derecho del gráfico) tienden a tener tasas de natalidad considerablemente más bajas, agrupándose en su mayoría por debajo de los 20 nacimientos por cada 1,000 habitantes, e incluso por debajo de 10 en algunos casos, lo cual se debe a que son países en los que hay una mayor accesibilidad a métodos anticonceptivos, planificación familiar y oportunidades de educación, lo cual hace que las mujeres retrasen la edad para tener el primer hijo.
Se puede observar que los países con un INB per cápita más bajo (concentrados en el lado izquierdo del gráfico) tienden a tener tasas de natalidad más altas y más dispersas, con algunos superando los 40 nacimientos por cada 1,000 habitantes, en el caso de estos países sucede todo lo contrario en los temas de accesibilidad a métodos anticonceptivos y educación en comparación a países con un INB alto.
Se observa una tendencia general de que a medida que aumenta el INB per cápita (es decir, a medida que los países son más ricos), la tasa de natalidad tiende a disminuir. Esto se conoce como una correlación negativa.Si bien hay una tendencia clara, también hay dispersión en los datos. Esto significa que no todos los países con un INB similar tienen exactamente la misma tasa de natalidad. Hay otros factores que también influyen en la tasa de natalidad.
Similar al gráfico anterior, se observa una correlación negativa. A medida que aumenta el INB per cápita (los países son más ricos), el Índice de Desigualdad de Género tiende a disminuir. Esto sugiere que un mayor desarrollo económico suele estar asociado con una menor desigualdad de género, pues estos países tienen una mayor igualdad en acceso a la educación y la salud, se presentan altas tasas de participación femenina en el mercado laboral y cuentan con legislaciones avanzadas en igualdad de género. Los países con menor INB per cápita (ubicados a la izquierda del gráfico) tienden a presentar Índices de Desigualdad de Género más altos y también más dispersos. Vemos valores que se acercan e incluso superan el 0.6 en este índice presentandose la situación contraria en temas de educación, salud, legislaciones, etc.
A medida que nos movemos hacia la derecha en el eje X (mayor INB per cápita), los puntos tienden a agruparse en la parte inferior del eje Y, indicando Índices de Desigualdad de Género más bajos. Muchos de estos países muestran índices por debajo de 0.2, y algunos incluso muy cercanos a cero.
Aunque la tendencia es clara, también hay dispersión. Por ejemplo, incluso entre países con niveles de INB per cápita relativamente similares (por ejemplo, alrededor de $10,000 - $20,000), existe una variación considerable en sus Índices de Desigualdad de Género. Esto indica que si bien el desarrollo económico es un factor importante, otros elementos culturales, políticos y sociales también juegan un papel crucial en la determinación de la desigualdad de género. Se observa que la disminución de la desigualdad de género es más pronunciada en los niveles más bajos de INB per cápita, y luego la curva se aplana un poco, aunque sigue descendiendo.
El gráfico muestra la relación entre el ingreso nacional bruto INB per capital y las toneladas totales de emisiones de co2 por país en él se observan dos comportamientos claves. El primer comportamiento es una alta concentración de países con bajo INB per capita y bajas emisiones totales bastante visibles hacia la esquina inferior izquierda. Estos países en su mayoría en vías de desarrollo, presentan estructuras económicas menos industrializadas y una demanda energética reducida. El segundo comportamiento evidente que tenemos es que aparece en puntos aislados como emisiones totales extremadamente elevadas, incluso superiores a los 5000 millones de toneladas, que corresponden claramente a grandes economías con una fuerte actividad industrial y alto consumo energético. Estos puntos son pocos, pero dominan visualmente el gráfico por su magnitud, ubicados hacia la derecha INB alto y en la parte superior del eje y. Este patrón evidencia una desigualdad ambiental estructural: hoy unas pocas economías concentradas no sólo producen más riqueza, sino que también generan una carga desproporcionada de emisiones contaminantes. Además, se revela que el desarrollo económico no implica automáticamente una gestión eficiente del impacto ambiental, ya que algunas de esas economías ricas no logran desacoplar su crecimiento del daño ecológico.
El gráfico expone la relación entre el ingreso nacional bruto IND per cápita y el valor total de exportaciones en dólares por país, a simple vista no hay correlación lineal clara pero sí se evidencian tendencias estructurales importantes.En la zona inferior izquierda, se observa una alta concentración de países con bajo INB per cápita y bajo valor de exportaciones, lo cual es coherente con economías menos desarrolladas, usualmente dependientes de sectores primarios con baja diversidad de aplicación productiva y limitada integración en los mercados globales. Conforme se avanza hacia la derecha (mayor INB per cápita), aparece una mayor dispersión vertical en el eje y, lo que indica variaciones extremas en la capacidad exportadora entre países económicamente similares. Por ejemplo, hay países con INB medio-alto cuyas exportaciones apenas superan los niveles bajos, mientras otros, con niveles de ingresos similares, registran exportaciones superiores a uno o incluso 2 billones de dólares, representando potencias comerciales globales. Puntos extremos ubicados hacia la parte superior del gráfico reflejan hoy economías con altísimos niveles de inserción internacional, infraestructuras productivas desarrollada y capacidad tecnológica e industrial consolidada. A su vez, evidencian que no basta con tener un alto INB per cápita para hacer una potencia exportadora: el modelo económico, la especialización comercial y la estrategia industrial marcan la diferencia.
Al contar con 13 variables, el ACP va a generar 13 factores, cada uno con un porcentaje distinto de varianza explicada. En este caso se dio la selección de las dos primeras componentes que acumulan una varianza explicada del 58.05%, con la tercera componente se llega a tener una varianza explicada del 68.41%, pero se optó por no trabajar con dicha componente por una situación que se explicará un poco más adelante. En específico se dió el uso del criterio Kaiser, el cual nos arrojó que se deben usar las primeras 4 componentes, en el caso del valor de los valores propios entre los componentes 3 y 4 no varía mucho en comparación con los 2 primeros componentes, lo cual hizo que en un principio se diese la elección de las 3 primeras componentes, pero al final se tomó la decisión de abordar las 2 primeras componentes por una situación que, como ya se dijo, se explicará posteriormente. Con esto se entiende que las dos primeras componentes capturan el 58.05% de la información total contenida en las 13 variables originales.
## Standard deviations (1, .., p=13):
## [1] 2.3679028 1.3926616 1.1607372 1.0618975 0.9468256 0.8161938 0.7346799
## [8] 0.5525518 0.4691575 0.3643699 0.3369421 0.2698779 0.1778632
##
## Rotation (n x k) = (13 x 13):
## PC1 PC2 PC3 PC4
## GastoEducacionPorc 0.07833171 0.09690635 -0.405219274 0.66243789
## TasaNatalidad 0.38518539 0.17726214 -0.098014688 0.01928579
## ValorExport -0.23197076 0.53397570 0.088337657 -0.14246700
## CrecimientoAnualPIB 0.05117036 0.07831258 -0.559739143 -0.40898348
## PorcAccesoElectricidad -0.33652339 -0.22283736 -0.061996754 -0.20014237
## EsperanzaVida -0.39190175 -0.11110964 -0.165265822 -0.07072516
## EmisCO2 -0.13546727 0.53728317 0.158776455 -0.32322385
## TasaMortalidad -0.14354572 -0.06477224 0.617131183 0.21918386
## INBpercapita -0.32708190 0.17152895 -0.203090214 0.15415403
## IndiCorrupt 0.32661629 -0.07072864 0.128567094 -0.21782960
## Desnutric 0.33429535 0.12806068 0.099484193 0.02137867
## DesGen 0.39671683 0.09161598 0.004292356 -0.14653923
## TasaEmpleo -0.02184951 0.50382154 0.013080553 0.28726562
## PC5 PC6 PC7 PC8
## GastoEducacionPorc 0.31289151 0.11188142 0.48579715 0.14916087
## TasaNatalidad -0.09471135 0.06261167 -0.03929791 -0.23253292
## ValorExport 0.07177473 0.16534173 0.12305282 0.14023125
## CrecimientoAnualPIB -0.52873187 -0.17460106 0.37623162 0.21438722
## PorcAccesoElectricidad 0.33511451 -0.17014422 0.13547569 0.31622876
## EsperanzaVida 0.07808233 -0.05649418 -0.20633942 0.14847614
## EmisCO2 0.28576670 0.17387187 0.25825640 -0.16177290
## TasaMortalidad -0.43624248 -0.05811322 0.46403644 0.18180033
## INBpercapita -0.17336207 0.35648998 -0.31715885 0.09412925
## IndiCorrupt 0.39832923 -0.23143015 0.04152674 0.42159541
## Desnutric -0.13000114 0.39389267 -0.26552971 0.67195115
## DesGen 0.07563999 -0.01280710 0.04456964 -0.15276761
## TasaEmpleo -0.08190649 -0.72389861 -0.29665145 0.12379771
## PC9 PC10 PC11 PC12
## GastoEducacionPorc -0.038593348 -0.01033476 -0.05136697 -0.056192838
## TasaNatalidad 0.360242658 -0.01605373 0.18190385 0.606331922
## ValorExport 0.106239104 0.73355513 0.04769264 0.076393131
## CrecimientoAnualPIB 0.009355792 -0.06422521 -0.07049754 -0.040912196
## PorcAccesoElectricidad -0.047944571 -0.11269493 0.66638805 0.269911832
## EsperanzaVida -0.067060817 0.11214402 -0.34009233 -0.114482999
## EmisCO2 -0.147878756 -0.55128452 -0.15266534 -0.007982482
## TasaMortalidad 0.169467663 -0.07812876 0.06448960 -0.068053241
## INBpercapita 0.563933079 -0.27979272 0.22819848 -0.277328645
## IndiCorrupt 0.572704480 -0.03584227 -0.29328516 -0.118974311
## Desnutric -0.373983590 -0.10568363 0.03853795 0.100845842
## DesGen -0.073872914 0.13508262 0.47269757 -0.655485876
## TasaEmpleo -0.092985915 -0.11457453 0.08250812 -0.011951907
## PC13
## GastoEducacionPorc -0.07340191
## TasaNatalidad -0.45930957
## ValorExport 0.09034631
## CrecimientoAnualPIB 0.04756254
## PorcAccesoElectricidad -0.04081191
## EsperanzaVida -0.76288969
## EmisCO2 -0.09683874
## TasaMortalidad -0.24622620
## INBpercapita 0.08189246
## IndiCorrupt 0.05657392
## Desnutric -0.06876783
## DesGen -0.32359082
## TasaEmpleo 0.01427734
Factor 1: Se puede observar que las variables que tienen una mayor relación con la dimensión 1 son aquellas que tienen un color rojizo fuerte y una cercanía al eje horizontal, en este caso vendría siendo EsperanzaVida (Esperanza de vida), TasaNatalidad (Tasa de natalidad) y DesGen (Índice de desigualdad de género). Adicional a esto se puede ver que el vector que corresponde a dichas variables tiene una longitud extensa en comparación a otras variables como lo es desnutric (Porcentaje de población que se encuentra en desnutrición), la cual es una variable que si bien tiene una mayor cercanía al eje X, su menor longitud de vector hace que no contribuya significativamente a la dimensión 1. Dado al aporte de estas variables a la dimensión, se podría interpretar al factor como “Dinámica demográfica y de género”. La razón radica en que estas variables se relacionan con tópicos que competen a la estructura y crecimiento poblacional junto con las brechas de género, dichas brechas se da en contextos relacionados con la salud o el papel en la fuerza laboral o en la política, las cuales en última instancia influyen en patrones demográficos que a su vez repercutirán en un crecimiento o decrecimiento poblacional. De forma numérica el índice de desigualdad de género aporta en un 15.74%, la esperanza de vida aporta en un 15.36% y la tasa de natalidad aporta en un 14.84% acumulando de esta forma un aporte de aproximadamente el 46% a la formación de la dimensión. En cuanto a variables que podrían aportar a esta dimensión pero no fueron tenidas en cuenta se tienen al porcentaje de acceso a la electricidad (11.33%), porcentaje de población que se encuentra en desnutrición (11.18%), INB per cápita (10.70%) e índice de corrupción (10.67%) , estás no se tuvieron en cuenta debido a que se tuvo como objetivo elegir variables que en primer lugar facilitasen darle un nombre e interpretación al factor y que además tuviesen la contribución más alta y que entre ellas tuviesen una contribución homogénea.
Factor 2: Se puede observar que aquellas variables que poseen una contribución más fuerte para con la dimensión 2 son aquellas que tienen un color rojizo fuerte y una cercanía al eje horizontal, en este caso vendrían siendo EmisCO2 (Cantidad en toneladas de emisiones de CO2) y ValorExport (Valor de los bienes y servicios exportados). Se puede ver que son las dos únicas variables fuertes en cuanto a contribución, pues en el caso de TasaEmpleo (Tasa de empleo) esta muy adherida al eje vertical, además el color amarillo y la longitud del vector dan a entender su poca contribución . Dado el aporte de estas dos variables a la dimensión, se podría interpretar al factor como “Industrialización intensificada” , pues cuando un país se fortalece en materia de industrialización es obvio que se dará un aumento en dichas emisiones, ya que esto requiere que las empresas recurran a procesos industriales en los cuales se ven grandemente involucrados un uso intensivo de energía y combustibles fósiles, por otro lado esto a su vez contribuye a un crecimiento, desarrollo y competitividad que sirve como trampolín para que de esa forma la economía de un país de un buen salto hacia el mercado externo. De forma numérica las emisiones de CO2 aporta en un 28.87% y el valor de las exportaciones aporta en un 28.51% acumulando de esta forma un aporte del 57.4% a la formación de la dimensión, por el lado de la tasa de empleo está tiene un aporte del 25.38%, el cual no es similar u homogéneo con el de las otras 2 variables y además el incluirla complicaba la asignación de un nombre al factor.
Factor 3: Se puede observar que la única variable que tiene una contribución fuerte a la dimensión 3 es TasaMortalidad (Tasa de mortalidad), por esta razón se tomó la decisión de no tener en cuenta esta dimensión en el ACP, ya que la reducción de dimensionalidad lo que hace es realizar combinaciones lineales de variables para que de esta forma compartan varianza y estén correlacionadas, lo cual da a entender que esta dimensión no captura una relación entre variables, sino que al contrario está desistiendo del propósito de la reducción de dimensionalidad, pues en vez de generar esa combinación como ya se dijo, está reproduciendo una dimensión individual que no comparte varianza con otras variables, por lo tanto no se da la identificación de estructuras comunes entre varios indicadores en esta dimensión. Se pensó en incluir como variable contributiva a esta dimensión al crecimiento anual del PIB pero su color amarillo (Bajo Cos2) y su corta longitud del vector hizo que no se incluyese. De forma numérica la tasa de mortalidad tiene un aporte del 38.06%, mientras que el crecimiento anual del PIB un aporte del 31.33%, en primer lugar estas dos variables no aportan de forma homogénea, no tienen un aporte similar y además no hay cierta facilidad o parsimonia a la hora de asignarle un nombre a este factor.
A continuación se muestra la tabla en la cual se ve de forma numérica la contribución de las variables a las dimensiones:
En primer lugar nos podemos encontrar principalmente con países como lo son Chad, Somalia, Guinea Bissau, Sierra Leona, Niger y Benin, se puede ver que estos países están bien representados por el factor 1 “Dinámica demográfica y de género”, lo cual se comprueba con su lejanía del origen y su color rojizo (alto Cos2), además de que poseen altos o extremos valores en las variables que contribuyen a la formación del factor 1 (Índice de desigualdad de género y tasa de natalidad) junto con bajos valores en esperanza de vida. Por otro lado se puede ver qué otros países que se encuentran bien representados en la dimensión 1 son Japan, Switzerland, Sweden, Australia y Spain, como ya se dijo, esto se comprueba al tener un color rojizo y una lejanía del origen, en específico estos países tienen altos valores en cuanto a la variable de esperanza de vida que contribuye fuertemente a la formación de la dimensión 1 junto con bajos valores en índice de desigualdad de género y tasa de natalidad. Con esto se entiende que dichos países cuentan con una ubicación confiable dentro del gráfico, lo cual les permite reflejar bien la varianza explicada proveniente de la dimensión 1. En el caso del factor 2 “Industrialización intensificada” se puede ver que los países mejor representados por la dimensión 2 son United States y Germany, pues tanto un país como el otro posee valores extremos en cuanto a los valores que contribuyen a la explicación de la dimensión 2 (Emisiones de CO2 y valor de los bienes y servicios exportados) , en específico estos dos países tienen los valores más altos en emisiones de CO2 y en exportaciones, se destaca su color rojizo (alto Cos2) y lejanía del origen.
A continuación esta la tabla que evidencia de forma numérica como están representados los países por las dimensiones 1 y 2:
Mirando la base de datos haciendo enfásis en las variables que contribuyen tanto a una dimensión como a la otra se puede ver lo que compete a valores extremos en esas variables:
Ahora, con este gráfico podemos entender la orientación del signo, según lo que se percibe se sigue la misma orientación de signo que un plano cartesiano convencional, en el caso del eje horizontal que representa a la dimensión 1, este se prolonga hacia el lado derecho con valores positivos y hacia la izquierda con valores negativos, por el lado de la dimensión 2 se proyecta hacia arriba con valores positivos y hacia abajo con valores negativos. En el caso específico de la dimensión 1, los respectivos vectores de la tasa de natalidad y el índice de desigualdad de género apuntan hacia la derecha, lo cual indica una carga positiva en la dimensión, esto se reafirma con el hecho de que hacia la derecha hay valores altos respecto a esas dos variables y al lado izquierdo sucede todo lo contrario. En el caso de la variable de esperanza de vida, su correspondiente vector apunta hacia la izquierda, lo cual indica una carga negativa en la dimensión 1,además muchos países que se encuentran a la izquierda poseen valores altos en términos de esa variable. En el caso específico de la dimensión 2, los respectivos vectores de los valores de las exportaciones y las emisiones de CO2 en toneladas apuntan hacia arriba, esto es una señal de carga positiva en la dimensión 2, esto se apoya con que hacia esa dirección se encuentran países con valores altos en esas variables.
Luego de realizar el análisis de factores se procede a visualizar la clusterización por factores, cabe recalcar que algo curioso que sucedió en este ejercicio fue que las segmentaciones resultaron en una diferenciación entre países avanzados, emergentes y superpotencias. En un principio se hizo uso del método del “codo” para establecer el número óptimo de clusters a elegir, haciendo uso de este método dio como resultado la selección de 3 clusters, un cluster de países que se pueden considerar avanzados, un cluster de países que se pueden considerar emergentes y otro cluster que puede considerarse como países superpotencias, esto proporciona un análisis muy general o global que oculta diferencias que pueden ser importantes o significativas dentro de países emergentes, avanzados y superpotencias, por lo tanto se tomó la decisión de probar con 5 clusters en el que resultaron dos grupos de países avanzados, dos grupos de países emergentes y un grupo de superpotencias, lo cual permite hacer un análisis más detallado que permite detectar diferencias regionales y de desarrollo más específicas. Con los 5 clusters se obtuvieron: Un cluster de 19 países, uno de 21, uno de 20, uno de 35 y otro de 2 países.
En ese gráfico se puede ver la forma en cómo se relacionan los clusters con los factores 1 y 2. Se puede ver al cluster 5 conformado por Germany y United States, los cuales son los 2 países mejor representados por el factor 2, siendo de esta forma un cluster atípico por llamarlo de algún modo. Se ve al cluster 1, el cual está muy bien representado por el factor 1, el cluster 3 igualmente se ve qué está bien representado por ese factor y también por el factor 2. En el caso específico de los clusters 2 y 4, el cluster 2 se encuentra moderadamente bien representado por ambos factores, mientras que el cluster 4 está bien representado en mediana medida por el factor 1. Se da una oposición entre el cluster 1 y el 5 en ambos factores, por otro lado también se refleja esa oposición entre el cluster 1 y 3, un ejemplo de ello es que en cuanto al factor 1 el cluster 1 tiene alta tasa de natalidad, mientras que el cluster 3 no y en cuanto al factor 2 el cluster 3 tiene altos valores en exportaciones, mientras que el cluster 1 no. Otra oposición se da entre el cluster 3 y 4, lo cual radica sobre todo en su diferencia tan enmarcada en cuanto al nivel de industrialización, uno tiene valores altos respecto a este factor, mientras que el otro no, ninguno de estos grupos sobresale en cuanto al factor de dinámica demográfica y de género, pues uno tiene valores bajos y el otro valores intermedios, siendo así su principal diferenciador el nivel de industrialización. El cluster 2 está en una situación intermedia por llamarlo de algún modo, pues presenta valores intermedios tanto en un factor como en el otro. Dichas diferencias entre factores que encaminan las oposiciones existentes entre los clusters se explicarán más a detalle a continuación con la interpretación de los mismos.
## The number of retained axes for factorial analysis is 5
##
## The number of axes for clustering is 2
## Look the histogram of 25 indexes
## Partition in 5 clusters
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## TasaNatalidad 8.002 3.391400e+01 21 1.781600e+01
## DesGen 6.913 5.700000e-01 21 2.970000e-01
## Desnutric 6.902 2.405700e+01 21 9.415000e+00
## IndiCorrupt 3.577 6.280000e-01 21 4.150000e-01
## ValorExport -2.310 5.997971e+09 21 1.612663e+11
## INBpercapita -4.003 1.198095e+03 21 1.766598e+04
## EsperanzaVida -7.927 6.251000e+01 21 7.371200e+01
## PorcAccesoElectricidad -8.963 4.639000e+01 21 8.692300e+01
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## TasaMortalidad 3.843 10.432 31 8.599
## PorcAccesoElectricidad 3.769 99.997 31 86.923
## EsperanzaVida 2.518 76.442 31 73.712
## TasaEmpleo -2.385 2.732 31 3.856
## GastoEducacionPorc -2.745 1.945 31 2.935
## DesGen -3.021 0.206 31 0.297
## Desnutric -3.855 3.142 31 9.415
## TasaNatalidad -4.847 10.339 31 17.816
## ------------------------------------------------------------
## class: 3
## Test.Value Class.Mean Frequency Global.Mean
## INBpercapita 7.763 4.866500e+04 22 1.766598e+04
## EsperanzaVida 5.760 8.161400e+01 22 7.371200e+01
## ValorExport 3.458 3.868391e+11 22 1.612663e+11
## PorcAccesoElectricidad 2.980 1.000000e+02 22 8.692300e+01
## Desnutric -3.328 2.564000e+00 22 9.415000e+00
## TasaNatalidad -4.001 1.000500e+01 22 1.781600e+01
## IndiCorrupt -6.069 6.400000e-02 22 4.150000e-01
## DesGen -6.140 6.200000e-02 22 2.970000e-01
## ------------------------------------------------------------
## class: 4
## Test.Value Class.Mean Frequency Global.Mean
## IndiCorrupt 4.800 0.700 21 0.415
## DesGen 3.164 0.422 21 0.297
## INBpercapita -3.186 4558.571 21 17665.979
## TasaMortalidad -4.501 5.800 21 8.599
## ------------------------------------------------------------
## class: 5
## Test.Value Class.Mean Frequency Global.Mean
## ValorExport 7.760 2.050831e+12 2 1.612663e+11
## EmisCO2 7.225 2.875171e+09 2 1.567366e+08
## TasaEmpleo 5.617 1.635000e+01 2 3.856000e+00
## INBpercapita 2.593 5.632000e+04 2 1.766598e+04
Cluster 1: Se compone por 21 países, de los cuales 20 son africanos y 1 es americano.
-Cote d’ivoire, Cameroon, Kenya, Mauritania, Togo, Tanzania, Namibia, Ethiopia, Benin, Rwanda, Níger, Somalia, Chad, Haití, Madagascar, Guinea-Bissau, Sierra Leone, Burkina Faso, Mozambique, Angola.
Se pudo observar que este cluster es prácticamente de países africanos, se caracterizan principalmente por mostrar una media superior a la media global en indicadores como la tasa de natalidad, el índice de desigualdad de género, el porcentaje de la población que se encuentra en desnutrición y el índice de corrupción, por el contrario en indicadores como el valor de exportaciones, el INB per cápita, la esperanza de vida y el porcentaje de acceso a electricidad muestra una media inferior a la media global. Todo este panorama da a entender que África es un claro representante y el más vivo ejemplo de un muy bajo nivel de desarrollo determinado tanto por aspectos sociales , políticos y económicos. Podemos reafirmar la condición de estos países con sus valores extremos en las variables que contribuyen al factor de “Dinámica demográfica y de género” , pues poseen altos valores en tasa de natalidad, en índice de desigualdad de género y a su vez bajos valores en esperanza de vida, además poseen valores muy bajos en las variables que contribuyen al factor de “Industrialización intensificada” como lo es en el caso de las exportaciones, siendo estos indicadores determinantes para considerar ese nivel de desarrollo.
Cluster 2: Se compone por 35 países, de los cuales 7 son asiáticos, 9 americanos y 19 europeos.
-Kuwait, Malaysia, Brazil, Oman, Thailand, Panama, Kazakhstan, Peru, Sri Lanka, Colombia, Mauritius, Argentina, Georgia, Portugal, Czechia, New Zealand, Slovenia, Lithuania, Latvia, Malta, Estonia, Croatia, Chile, Cyprus, Belarus, Uruguay, Costa Rica, Hungary, Moldova, Serbia, Bosnia and Herzegovina, North Macedonia, Ukraine, Bulgaria, Romania.
En este cluster se puede ver que no hay un continente que predomine de una manera tan fuerte, los países europeos tienen solo una proporción de casi el 54% dentro de este grupo, el resto de proporción se acumula entre países asiáticos y americanos. Se caracterizan principalmente por una media superior a la media global en indicadores como la tasa de mortalidad, el porcentaje al acceso de electricidad y la esperanza de vida, en el caso de indicadores como la tasa de empleo, el gasto en educación como porcentaje del PIB, el índice de desigualdad de género, el porcentaje de población que se encuentra en desnutrición y la tasa de natalidad presenta una media inferior a la media global. Podemos decir que este cluster hace énfasis en países que perfectamente pueden ser candidatos a avanzados, pero pese a esto tienen muchas cosas por mejorar, por otro lado este cluster ayuda a romper el estereotipo de que Europa es aquel continente en el que todo es “color de rosa” por llamarlo de algún modo, sin saber que pueden haber deficiencias en aspectos importantes que enmarcan el rumbo del nivel de desarrollo, así mismo se rompe el estigma en el que se cree que América y Asia son continente en los que predominan bajos niveles sin saber que tienen condiciones y herramientas para aspirar a ser continentes con un gran avance en el futuro. Se pueden confirmar las condiciones de estos países con sus medianos y bajos valores en cuanto a tasa de natalidad e índice de desigualdad de género y sus medianos y altos valores en esperanza de vida, las cuales son variables que contribuyen al factor de “Dinámica demográfica y de género”, además se presentan valores medianos en cuanto a exportaciones y emisiones de CO2 que contribuyen al factor de “Industrialización intensificada”.
Cluster 3: Se compone por 20 países, de los cuales 17 son europeos, 2 asiáticos y 1 americano
-Luxembourg, Italy, Netherlands, Spain, Iceland, Finland, Norway, Sweden, Belgium, Denmark, Saudi Arabia, Israel, Poland, Japan, Switzerland, Ireland, Austria, Canada, Australia, United Kingdom.
Se presenta una situación parecida al cluster 1, en este cluster predominan lo que son los países europeos, en el caso de indicadores como lo son el INB per cápita, la esperanza de vida, el valor de las exportaciones y el porcentaje de acceso a la electricidad se tiene una media superior a la media global, mientras que en el caso de indicadores como el porcentaje de población que se encuentra en desnutrición, la tasa de natalidad, el índice de corrupción y el índice de desigualdad de género se tiene una media inferior a la media global. Con este cluster se entiende que Europa es el vivo y claro ejemplo de alto nivel de desarrollo tanto en aspectos sociales, políticos y económicos, además esto se apoya por los altos valores en variables que contribuyen al factor de “industrialización intensificada” como lo es el valor en exportaciones y sus valores extremadamente bajos en variables como la tasa de natalidad, el índice de desigualdad de género y a su vez valores extremadamente altos en esperanza de vida, los cuales son variables que contribuyen al factor de “Dinámica demográfica y de género”.
Cluster 4: Se compone por 19 países, de los cuales 7 son americanos, 6 asiáticos y 6 africanos.
-Ecuador, Dominican Republic, Algeria, Libya, Paraguay, Indonesia, Uzbekistán, South Africa, Bangladesh, Guatemala, Tajikistan, Iraq, Botswana, Honduras, Nicaragua, Bolivia, Senegal, Gabón y Pakistán.
Es un cluster mixto en el cual ninguno de los continentes expuestos ahí es predominante, en el caso de indicadores como lo es el índice de corrupción y el índice de desigualdad de género tienen una media superior a la media global, mientras que en el caso del INB per cápita y la tasa de mortalidad se tiene una media inferior a la media global. Este cluster vuelve a reafirmar el bajo nivel de desarrollo que está enmarcado en África, se vuelve a dar la situación descrita en el cluster 2, muchas veces se piensa que por los avances tecnológicos que ha venido teniendo Asia en los últimos años se goza de un buen nivel de desarrollo sin saber que hay problemáticas que generan grandes afectaciones en ese tema, además se ve que estás afectaciones también afectan al continente americano, siendo esto una evidencia estadística que apoya el estigma existente hacia dicho continente. De forma conclusa, este cluster refleja países con nivel de desarrollo bajo aunque está condición se centra en deficiencias generadas por indicadores muy específicos a diferencia de lo que sucede en el cluster 1. Presentan valores intermedios en variables que contribuyen a la “dinámica demográfica y de género” y valores bajos en variables que contribuyen a la “industrialización intensificada”.
Cluster 5: Se compone por dos países, de los cuales 1 es americano y el otro es europeo.
-Germany, United States
Este cluster puede considerarse como un grupo de países “superpotencias” en el caso de indicadores como valores de las exportaciones, emisiones del CO2, tasa de empleo e INB per cápita la media está por encima de la media global, claramente se ve que esas variables o indicadores tienen una gran relación con los efectos que genera una industrialización, un avance empresarial y un crecimiento productivo, lo cual automáticamente hace pensar que deben ser considerados de esa forma. Se reafirma el gran aporte de las variables de emisiones de CO2 y valor en exportaciones al factor de “industrialización intensificada”, pues estos dos países tienen valores muy extremos y altos respecto a estas dos variables, además presentan valores bajos en cuanto a tasa de natalidad y muy altos valores en cuanto a esperanza de vida.
Con respecto a todo el análisis realizado a cada cluster, para tener un panorama claro, se puede entender que las variables que contribuyen a ambos factores claramente son determinantes en el nivel de desarrollo, en general un país avanzado se puede considerar como aquel que tiene una baja tasa de natalidad, baja desigualdad de género, alta esperanza de vidas, altos niveles de exportaciones y altos niveles de emisiones de CO2, uno que no lo es lógicamente todo lo contrario, es decir que continentes en los cuales se ve Una baja tasa de natalidad y desigualdad de género se relacionan con una sociedad que posee fácil accesibilidad a una educación de calidad, educación en salud y derechos reproductivos (Métodos anticonceptivos y de planificación familiar), una alta esperanza de vida indica buenas condiciones de vida y servicios de salud. En cuanto al otro factor, altos niveles en exportaciones y emisiones de CO2, indican una economía altamente industrializada y con un alto nivel de desarrollo tecnológico, lo cual promueve un incremento del empleo, diversificación de la economía, mejoras en infraestructura y diversos servicios básicos, etc.
En resumen, teniendo en cuenta que se está trabajando con dos factores que poseen casi un 60% de varianza explicada:
Factor 1: Factor de Dinámica Demográfica y Género (Esperanza de vida, tasa de natalidad e índice de desigualdad de género)
Factor 2: Factor de Industrialización Intensiva (Emisiones de CO2 y Valor Exportaciones)
Finalmente se tienen 5 clusters que se pueden identificar como:
Cluster 1: Países emergentes en situación crítica (Muy poco avance sociodemográfico con muy baja industrialización)
Cluster 2: Países avanzados de forma intermedia (Mediano avance sociodemográfico con una industrialización moderada)
Cluster 3: Países sólidamente avanzados (Alto avance sociodemográfico con una alta industrialización)
Cluster 4: Países emergentes de forma intermedia (Poca industrialización con un mediano avance en lo sociodemográfico)
Cluster 5: Superpotencias(Hiperindustrialización e hiperavance sociodemográfico)
Los factores con los que se trabajaron cuentan con variables que generan un efecto diferenciador en cuanto al nivel de desarrollo de los países, lo cual da a entender que la industrialización y las dinámicas relacionadas con la demografía y el género son indicadores los cuales deben recibir una gran atención en diversas investigaciones para detectar falencias y a su vez proponer mejoras. En esta investigación claramente se vió que un continente que requiere en gran medida de esa atención es el continente africano, en el caso de países americanos y asiáticos se puede decir que tienen un gran potencial para aspirar a tener mejores condiciones, por el lado de los países europeos siempre se piensa en que gozan de buenas condiciones sabiendo de que de una u otra forma también pueden poseen problemáticas y cosas a mejorar, además algo muy interesante que se encontró fue el tema de que solo 2 países se pueden considerar como altas potencias, lo cual fácilmente se contrasta con la realidad, ya que en la vida real claramente se ve que los países que pertenecen a esta categoría son una cantidad minoritaria.
La técnica ACP fue una técnica muy efectiva en esta investigación, pues ayudó a descubrir que hay otras variables que pueden ser determinantes en el nivel de desarrollo, pues desde la anterior investigación y al principio de esta se creía que el factor más determinante es el INB per cápita, siendo un claro ejemplo de esto lo realizado en las estadísticas descriptivas, que de hecho muchos razonamientos que resultaron de ese análisis descriptivo se confirmaron a la hora de realizar el análisis de la clusterización, pero a la hora de mirar el gráfico de variables claramente se vio que dicho indicador no ameritaba ser incluido como variable contributiva de las dimensiones, lo cual da a entender que esta técnica ayuda a romper con esquemas de pensamiento y a mirar que hay realidades más allá de las que uno cree, además si se realiza un escaneo del mapa que aparece de forma introductoria, claramente se nota que el mayor nivel de desarrollo se encuentra en United States, gran parte de Europa y Australia, mientras que el bajo desarrollo es muy claro en Africa, obviamente los resultados del ACP le dan la razón a lo evidenciado en ese mapa, pero a su vez esta técnica brinda una información previamente desconocida, pues como se ha venido diciendo de forma reiterativa, se encontró que paises pertenecientes a continentes como America y Asia tienen un gran potencial para alcanzar un alto nivel de desarrollo, hecho que no muestra el mapa, reafirmando así la efectividad de esta técnica al mostrar que no necesariamente el INB per cápita es la variable más importante o significativa, sino que hay otros indicadores que pueden brindar un panorama más amplio acerca del nivel de desarollo.
Se entiende finalmente al ACP como una herramienta muy valiosa para investigaciones en las cuales se quiera analizar a detalle las diferencias entre nivel de desarrollo y de esa forma proponer mejoras o soluciones como ya se dijo previamente haciendo uso del principio de optimización, lo cual es algo fundamental dentro de la ingeniería, pues se pudo establecer conclusiones y hallazgos claros trabajando mediante una dimensión reducida de los datos.
1.Análisis estadístico multivariante aplicado. El método de Ward. Recuperado de: https://online.stat.psu.edu/stat505/lesson/14/14.7
2.Algoritmo k-means: ¿Qué es y cómo funciona?., (Ramírez, Lorena,30 Octubre, 2024). Recuperado de: https://www.iebschool.com/hub/algoritmo-k-means-que-es-y-como-funciona-big-data/
3.¿Qué es el análisis de componentes principales (PCA)?. IBM (8 de diciembre de 2023). Recuperado de: https://www.ibm.com/es-es/think/topics/principal-component-analysis
4.Minitab. (s.f.). Todos los estadísticos y gráficas para componentes principales. Minitab.Recuperado de: https://support.minitab.com/es-mx/minitab/help-and-how-to/statistical-modeling/multivariate/how-to/principal-components/interpret-the-results/all-statistics-and-graphs/
5.Dey, R. (2023, 25 de septiembre). Step-by-step explanation of Principal Component Analysis (PCA). Built In. Recuperado de: https://builtin.com/data-science/step-step-explanation-principal-component-analysis
6.LinkedIn. (s.f.). ¿Qué métodos ayudan a determinar el número óptimo de clústeres? Recuperado de: https://es.linkedin.com/advice/1/which-methods-help-determine-optimal-number-clusters?lang=es
7.Our World in Data. (s.f.). Our World in Data. Recuperado de: https://ourworldindata.org/
8.Chris_666. (2020, 7 de mayo). ACP: Análisis de Componentes Principales con R [RPubs].Recuperado de: https://rpubs.com/Chris_666/acpppcc
9.Hamadeh, N., Van Rompaey, C., & Metreau, E. (2023, 30 de junio). Clasificación de los países elaborada por el Grupo Banco Mundial según los niveles de ingreso para el año fiscal 24 (1 de julio de 2023 - 30 de junio de 2024). Blogs del Banco Mundial.Recuperado de: https://blogs.worldbank.org/es/opendata/clasificacion-de-los-paises-elaborada-por-el-grupo-banco-mundial-segun-los-niveles-de-ingreso
10.Jaadi, Z. (2024, 23 de febrero). Principal Component Analysis (PCA): A Step-by-Step Explanation. Built In. Recuperado de: https://builtin.com/data-science/step-step-explanation-principal-component-analysis
11.Joaqui Barandica, O. (s.f.) Sitio web personal. Recuperado de: https://www.joaquibarandica.com/