Análisis del acceso a Internet en países del mundo mediante técnicas de aprendizaje no supervisado (2019)
Introducción
En la actualidad, el acceso a Internet se ha consolidado como un factor esencial para el desarrollo económico, la innovación tecnológica y la inclusión social. No obstante, persisten desigualdades significativas en la conectividad digital entre países, reflejo de diferencias profundas en infraestructura, inversión y políticas públicas.
Este estudio aborda dicha problemática mediante el uso de técnicas de analisis no supervisado, aplicadas a un conjunto de datos del Banco Mundial correspondiente al año 2019. La base de datos incluye 15 variables clave relacionadas con el desarrollo digital en 100 países, abarcando dimensiones económicas, tecnológicas y sociales.
Utilizaremos dos métodos complementarios para explorar estos datos: el Análisis de Componentes Principales (ACP), que nos permitirá reducir la dimensionalidad e identificar las variables más influyentes, y técnicas de clusterización para agrupar países con características similares en cuanto a conectividad digital. Este enfoque metodológico nos ayudará a descubrir patrones ocultos en los datos y a clasificar objetivamente los países según su nivel de desarrollo digital.
Los resultados de este análisis buscan no solo cuantificar las diferencias en acceso a internet entre paises, sino también proporcionar información valiosa para la formulación de políticas públicas y estrategias de inversión.
Metodología
En este trabajo se implementaron técnicas de aprendizaje no supervisado, una rama del aprendizaje automático que permite identificar patrones y estructuras subyacentes en un conjunto de datos sin necesidad de contar con etiquetas o clases predefinidas. El objetivo principal fue realizar una segmentación significativa de los países en función de variables asociadas al acceso a Internet y factores socioeconómicos y tecnológicos relacionados.
Estandarización de los datos
Como paso inicial, se estandarizaron las variables con el fin de eliminar las diferencias de escala entre ellas. La estandarización transforma cada variable para que tenga una media de cero y una desviación estándar de uno. Esto es esencial en métodos basados en distancias (como K-means o ACP), ya que evita que las variables con unidades más grandes dominen la segmentación.
Análisis de Componentes Principales (ACP)
El Análisis de Componentes Principales (ACP) es una técnica estadística ampliamente utilizada para reducir la dimensionalidad de conjuntos de datos complejos, manteniendo la mayor cantidad posible de información relevante. Su propósito principal es transformar un grupo de variables originales en un nuevo conjunto de variables denominadas componentes principales. Estas nuevas variables son combinaciones lineales de las variables originales y están construidas de manera que no se correlacionen entre sí, lo que favorece una representación más clara de la estructura de los datos.
Uno de los aspectos más importantes del ACP es que no se basa en interpretaciones preestablecidas: la relación entre los componentes y las variables se determina a partir del análisis estadístico. La combinación lineal que representa un componente principal puede expresarse matemáticamente como:
\[ Z = \lambda_1 X_1 + \lambda_2 X_2 + \cdots + \lambda_p X_p \]
Donde 𝑋 representan las variables originales y 𝜆 son los coeficientes que maximizan la varianza explicada por el componente.
El procedimiento general del ACP inicia con el cálculo de la matriz de covarianza o de correlación entre las variables del conjunto de datos. A partir de esta matriz, se extraen los valores y vectores propios (autovalores y autovectores), que permiten identificar las direcciones en las que los datos varían más. Los componentes principales se obtienen seleccionando los vectores propios asociados a los autovalores más grandes, ya que estos representan las dimensiones con mayor variabilidad.
Posteriormente, se escogen los componentes que expliquen el mayor porcentaje de varianza acumulada, permitiendo así reducir el número de dimensiones a analizar sin perder información significativa.
Ortogonalidad
Una propiedad clave del ACP es la ortogonalidad entre los componentes, lo que implica que no están correlacionados entre sí. Esto garantiza que cada componente aporte información nueva y no redundante sobre los datos. Gracias a esta propiedad, se puede simplificar la estructura del conjunto de datos sin sacrificar información relevante, lo cual facilita su análisis e interpretación.
K-means
El algoritmo K-means es una técnica de aprendizaje no supervisado ampliamente utilizada para la segmentación de datos. Su objetivo principal es dividir un conjunto de observaciones en un número predeterminado de grupos o clústeres, de modo que los elementos dentro de cada grupo sean lo más similares posible entre sí y lo más distintos posible de los elementos en otros grupos.
El proceso inicia seleccionando aleatoriamente k puntos que actuarán como los centroides iniciales de cada clúster. Luego, cada observación se asigna al clúster cuyo centroide esté más cercano, según una métrica de distancia (generalmente la distancia euclidiana). Posteriormente, se recalculan los centroides como el promedio de los puntos asignados a cada grupo. Este procedimiento se repite iterativamente hasta que las asignaciones de los datos a los clústeres dejan de cambiar significativamente o se alcanza un número máximo de iteraciones.
El algoritmo K-means es especialmente útil cuando se desea identificar patrones ocultos o estructuras dentro de grandes volúmenes de datos. En el contexto de este estudio, permite agrupar países según su nivel de acceso a Internet y otras variables relacionadas, revelando similitudes en sus características socioeconómicas y tecnológicas.
Ward
El análisis jerárquico de conglomerados es una técnica de clasificación utilizada para agrupar objetos (como países, individuos o variables) con características similares en grupos o clústeres. A diferencia de otros métodos de agrupamiento, el enfoque jerárquico no requiere especificar el número de clústeres desde el inicio. En su lugar, construye una jerarquía de agrupaciones que puede representarse mediante un diagrama llamado dendrograma.
El procedimiento comienza tratando cada elemento como un clúster independiente. Luego, en pasos sucesivos, los clústeres más similares se fusionan entre sí hasta que todos los elementos quedan reunidos en un único grupo. La similitud o distancia entre elementos y conglomerados puede calcularse mediante distintas métricas (como la distancia euclidiana) y criterios de enlace (como enlace simple, completo o promedio).
Este método permite visualizar las relaciones entre los elementos y facilita la identificación de patrones naturales en los datos. Además, el dendrograma resultante ofrece una guía visual clara para decidir el número óptimo de clústeres en función del nivel de similitud deseado.
Descripción de variables.
Selección y tratamiento de variables
Inicialmente se consideraron 16 variables relacionadas con el acceso a Internet y factores socioeconómicos en 100 países. Sin embargo, durante el análisis exploratorio se identificó una alta redundancia entre dos variables Exportaciones de servicios TIC y Servicios informáticos, comunicaciones y otros (Export), ya que ambas capturan información muy similar. Se realizó una prueba comparativa conservando y eliminando la variable “Exportaciones de servicios TIC”, y se observó que su exclusión mejoraba la calidad de los agrupamientos obtenidos mediante el Análisis de Componentes Principales (ACP) y el algoritmo de K-means. Por lo tanto, se decidió continuar con un conjunto final de 15 variables, buscando reducir la colinealidad y optimizar la interpretación de los resultados.
Estas 15 variables se agruparon en tres categorías:
Variables tecnológicas:
x1.Suscripciones a banda ancha fija: Representan conexiones de Internet de alta velocidad (≥256 kbit/s) mediante infraestructura permanente como fibra óptica, DSL, cable, satélite fijo o tecnologías inalámbricas fijas (WiMAX).
x6.Usuarios que usan Internet : Es un término que se utiliza para referirse a la cantidad de personas que han accedido a internet en un período de tiempo determinado (generalmente los últimos tres meses). Se trata de un indicador clave para medir el acceso y la penetración de internet en una población.
x7.Suscripciones banda ancha móvil : Representan los contratos activos que permiten a los usuarios acceder a Internet de alta velocidad a través de redes inalámbricas (3G, 4G o 5G), utilizando dispositivos como smartphones, tablets o módems portátiles
x9.Servidores de Internet seguros: Es un sistema que protege los datos transmitidos y almacenados mediante protocolos avanzados de seguridad, como el cifrado SSL/TLS, que garantiza comunicaciones encriptadas entre usuarios y servidores
Variables económicas:
x2.PIB per cápita : Es un indicador imporatnte que refleja el nivel de riqueza promedio de cada ciudadano en un territorio determinado. Su cálculo se obtiene al dividir el valor total del Producto Interno Bruto de una nación entre su cantidad total de población. Por ejemplo, para una economía con un PIB de 100 millones de dólares y una población de 1 millón de personas, el resultado sería un PIB per cápita de 100 dólares por individuo. Esta métrica permite comparar el desarrollo económico entre diferentes países o regiones.
x3.Gasto público en educación : Comprende los recursos financieros que el Estado destina al sistema educativo en sus diferentes etapas formativas desde la educación inicial hasta la superior incorporando tanto los servicios educativos básicos como los complementarios (transporte escolar, alimentación) y los proyectos de investigación pedagógica. Estos fondos tienen su origen en las recaudaciones fiscales, es decir, en los impuestos pagados por los contribuyentes.
x4.Exportaciones de bienes TIC : Representan la comercialización internacional de productos tecnológicos como hardware (computadoras, dispositivos electrónicos y componentes), software y servicios de telecomunicaciones. Estas ventas al exterior constituyen un importante generador de divisas para los países especializados en el sector tecnológico, contribuyendo a diversificar su economía, fomentar la innovación y posicionarse en los mercados globales digitales
x5.Importaciones de bienes TIC : Consisten en la adquisición de productos tecnológicos del exterior para su utilización en el mercado interno. Estos incluyen equipos informáticos (computadoras, periféricos), dispositivos de telecomunicaciones, componentes electrónicos y soluciones digitales, que permiten a los países acceder a tecnologías avanzadas, modernizar su infraestructura digital y mejorar la productividad empresarial.
x13.Servicios informáticos, comunicaciones y otros(Export): Representan los ingresos que obtiene un país por la venta al exterior de soluciones digitales y de conectividad, abarcando desde el desarrollo de software y servicios en la nube hasta telecomunicaciones internacionales y otros servicios basados en tecnología. Este indicador, más amplio que las exportaciones TIC tradicionales, incluye tanto servicios puramente tecnológicos (como consultoría TI o procesamiento de datos) como actividades relacionadas (plataformas digitales, centros de servicio global y producción de contenidos en línea).
x14.Servicios informáticos, comunicaciones y otros(Import): Las importaciones de servicios informáticos, telecomunicaciones y otros representan los pagos que un país realiza por la adquisición de servicios digitales y de conectividad provenientes del exterior, abarcando desde licencias de software y plataformas en la nube hasta servicios de telecomunicaciones internacionales y outsourcing tecnológico.
x15.Inversión extranjera directa, entradas netas: Representa el flujo de capital que ingresa a un país para establecer operaciones empresariales de largo plazo, calculado como la diferencia entre las inversiones recibidas del exterior y las desinversiones o repatriación de capitales.
Variables sociales y de infraestructura:
x8.Población total: Se refiere al número total de personas que residen en un área geográfica específica, como una ciudad, región, país o el mundo en general. Este indicador es fundamental para comprender la demografía de una región y se utiliza en diversos estudios y análisis.
x10.Desempleo: Es un indicador económico fundamental que mide el porcentaje de personas dentro de la población activa (que están en edad y disposición de trabajar) que buscan empleo activamente pero no logran conseguirlo.
x11.Acceso a electricidad en zonas urbanas: Se refiere a la disponibilidad de un suministro eléctrico confiable, continuo y asequible para los habitantes de ciudades y áreas metropolitanas. Este indicador evalúa no solo la cobertura de la red eléctrica, sino también la calidad del servicio
x12.Acceso a electricidad en zonas rurales: Se refiere a la disponibilidad de un suministro eléctrico estable, asequible y de calidad para comunidades alejadas de los centros urbanos. Este indicador es fundamental para el desarrollo socioeconómico, ya que en estas áreas persisten desafíos únicos, como la dificultad de extender redes convencionales debido a la dispersión geográfica y los altos costos de infraestructura.
Resultados Descriptivos
| Variable | Min | Q1 | Median | Mean | Q3 | Max | SD |
|---|---|---|---|---|---|---|---|
| x1 | -0.2220812 | -0.2149442 | -0.1929977 | 0 | -0.1347931 | 9.4480671 | 1 |
| x2 | -0.8620844 | -0.6965126 | -0.4463702 | 0 | 0.4412006 | 4.0522681 | 1 |
| x3 | -2.8524534 | -0.6590611 | -0.1731661 | 0 | 0.5144528 | 2.6699809 | 1 |
| x4 | -0.5241948 | -0.4999618 | -0.3859730 | 0 | -0.0724910 | 5.8112910 | 1 |
| x5 | -1.1275640 | -0.6307638 | -0.3339327 | 0 | 0.2379335 | 4.0982876 | 1 |
| x6 | -2.4174834 | -0.4503468 | 0.2645617 | 0 | 0.7472387 | 1.3574154 | 1 |
| x7 | -2.6241340 | -0.5283278 | 0.0935254 | 0 | 0.5629906 | 2.6227514 | 1 |
| x8 | -0.2970630 | -0.2781610 | -0.2453481 | 0 | -0.1257628 | 6.7150985 | 1 |
| x9 | -0.1827508 | -0.1822807 | -0.1750341 | 0 | -0.1035086 | 9.7060268 | 1 |
| x10 | -1.3044561 | -0.6259698 | -0.3304957 | 0 | 0.4843430 | 4.6253126 | 1 |
| x11 | -5.3273341 | 0.2931009 | 0.3578788 | 0 | 0.3578788 | 0.3578788 | 1 |
| x12 | -3.3856558 | 0.3059749 | 0.4438014 | 0 | 0.4438014 | 0.4438014 | 1 |
| x13 | -1.6201635 | -0.8511895 | -0.0107345 | 0 | 0.7812667 | 2.2655875 | 1 |
| x14 | -2.1075333 | -0.5925486 | 0.0726452 | 0 | 0.5907098 | 3.1377847 | 1 |
| x15 | -0.4984595 | -0.2089388 | -0.1861481 | 0 | -0.1549897 | 8.0053200 | 1 |
Las estadísticas descriptivas de las 15 variables analizadas reflejan que los datos fueron correctamente estandarizados, ya que todas las variables tienen una media cercana a 0 y una desviación estándar cercana a 1. Esto es un indicativo de que cada valor se mide en función de cuántas desviaciones estándar se encuentra por encima o por debajo del promedio. Esta transformación permite comparar variables que originalmente tenían distintas escalas y unidades, facilitando su análisis conjunto.
Sin embargo, a pesar de esta estandarización, se observa una gran variabilidad en los valores mínimos y máximos de algunas variables. Por ejemplo, x1 alcanza un valor máximo superior a 9, mientras que x11 y x12 presentan valores mínimos inferiores a -5 y -3, respectivamente. Esta presencia de valores extremos sugiere la existencia de outliers, los cuales podrían corresponder a países con condiciones socioeconómicas, tecnológicas o demográficas muy diferentes del promedio global. Estos valores atípicos, aunque pueden representar realidades importantes, también podrían distorsionar los resultados si no se abordan adecuadamente.
El análisis de los cuartiles (Q1 y Q3) permite observar la distribución interna de los datos. Mientras que varias variables presentan cuartiles relativamente balanceados, lo que sugiere una distribución simétrica, otras muestran una asimetría marcada. Variables como x6, x10 y x13 tienen una mayor dispersión hacia los valores positivos, mientras que x11 y x12 concentran la mayoría de sus datos en un solo valor alto, acompañados de mínimos extremadamente bajos, lo que podría indicar una distribución sesgada o incluso la presencia de valores categóricos codificados numéricamente.
Personas que usan internet
El análisis de la variable x6 muestra una marcada brecha digital a nivel global. El porcentaje de personas que usan internet en 2019 varía desde un mínimo de 16.6% hasta un máximo de 99.5% según el país. Esta diferencia de más de 80 puntos porcentuales evidencia desigualdades significativas en términos de acceso y conectividad.
En general, los países con valores cercanos al máximo suelen pertenecer a regiones altamente desarrolladas, como Europa Occidental, América del Norte o Asia Oriental, donde las políticas públicas, la infraestructura y el empleo han facilitado una conectividad casi total.
Por otro lado, los países con valores bajos se evidencian principalmente en regiones de África o Asia Central, reflejando barreras estructurales, económicas o sociales para el acceso masivo a tecnologías de la información.
Esta información pone de relieve la importancia de impulsar políticas de inclusión digital para reducir la brecha y promover el desarrollo equitativo.
Top 10 países con mayor porcentaje de personas que usan Internet
El gráfico muestra los 10 países con mayor porcentaje de personas que usan Internet en 2019, liderados por Islandia (Iceland), Noruega (Norway) y Dinamarca (Denmark), todos con tasas cercanas al 100% de uso. Estos países nórdicos, junto con Luxemburgo, Corea del Sur, Suecia (Sweden), Australia, Países Bajos (Netherlands), Suiza (Switzerland) y Japón, superan el 90% de penetración digital, reflejando no solo su desarrollo económico avanzado, sino también una amplia adopción tecnológica y políticas públicas efectivas de inclusión digital.
Corea del Sur y Japón destacan por sus velocidades de conexión ultrarrápidas, mientras que las naciones europeas combinan uso casi universal con precios asequibles. Este alto nivel de adopción contrasta marcadamente con muchos países en desarrollo, lo que evidencia la persistente brecha digital global. Factores como estabilidad política, inversión en innovación, infraestructura tecnológica y educación digital explican su liderazgo en el uso de Internet.
Top 5 Paises con menor porcentaje de personas que usan Internet (2019)
El gráfico muestra los cinco países con menor uso de Internet en 2019: Nigeria (16,6%), Pakistán (17,1%), Zambia (18,7%), Benín (20,5%) y Togo (20,7%). Aunque Nigeria es la mayor economía de África, enfrenta una baja adopción digital debido a infraestructura desigual, cortes de energía y altos costos de datos. Pakistán, con una población muy numerosa, sufre limitaciones por censura gubernamental, pobreza rural y brechas de género en el uso digital. Zambia, con una economía centrada en el cobre, muestra poco avance en cobertura tecnológica, especialmente en zonas rurales. Benín y Togo, con economías agrícolas y menor inversión en TIC, presentan las tasas más bajas de uso.
En general, estos países comparten factores como pobreza, inestabilidad energética y desigualdad urbano-rural, lo que limita la adopción de Internet y contribuye a ampliar la brecha digital global.
Exportaciones TIC
Los países que lideran las exportaciones de bienes TIC suelen contar con una infraestructura tecnológica sólida, lo cual no solo beneficia sus relaciones comerciales internacionales, sino que también impulsa el acceso a tecnologías digitales dentro del país. En el grafico, se observa que Filipinas, Malasia y Singapur encabezan las exportaciones de este tipo de bienes, lo que podría contribuir al alto porcentaje de usuarios de Internet en sus territorios.
Importaciones TIC
El nivel de importaciones de bienes TIC puede considerarse un reflejo de la infraestructura tecnológica disponible en un país. Como se muestra en el grafico, países como Singapur, Malasia y China presentan las mayores importaciones TIC, lo cual se alinea con sus altos niveles de acceso a Internet. Esto sugiere que la disponibilidad de equipos y tecnología es un factor importante para la conectividad.
Suscripción banda ancha fija y movil
Este gráfico presenta los cinco países con mayor número de suscripciones a banda ancha fija:
China sobresale ampliamente con más de 449 millones de suscripciones, lo que refleja su enorme población y una fuerte inversión en infraestructura de telecomunicaciones fija.
En segundo lugar se encuentra Estados Unidos, con aproximadamente 114 millones de suscripciones, una cifra que resalta la alta capacidad económica con una cobertura tecnológica robusta.
Japón, Alemania y Brasil completan el top 5, con niveles similares entre sí, oscilando entre los 30 y 40 millones de suscripciones. Estos países cuentan con economías desarrolladas o emergentes y una infraestructura consolidada, aunque con poblaciones menores que las de China y EE. UU.
La gráfica evidencia una fuerte concentración en los dos primeros países y una caída significativa en las cifras a partir del tercer puesto. Esto sugiere que, si bien el desarrollo económico influye, la dimensión poblacional y la política de inversión tecnológica nacional juegan un papel clave en el número de suscripciones a banda ancha fija.
El gráfico presenta los cinco países con mayor número de suscripciones a banda ancha móvil:
China y India lideran ampliamente, con más de mil millones de suscripciones cada uno, lo que refleja sus enormes poblaciones y el creciente acceso a tecnologías móviles.
Estados Unidos ocupa el tercer lugar, con un volumen significativamente menor que los dos primeros, pero aún elevado en comparación con otros países.
Indonesia y Pakistán completan el top 5, también con cifras destacables, lo cual es coherente con su gran tamaño poblacional y el aumento del uso de dispositivos móviles.
Este gráfico destaca cómo el tamaño de la población y la penetración de tecnologías móviles influyen directamente en el número total de suscripciones. Aunque países como Estados Unidos tienen ingresos per cápita más altos, son superados en volumen por países con poblaciones mucho mayores.
Pib per capita y banda ancha
En este gráfico se representa la relación entre el PIB per cápita (USD) y el número de suscripciones a banda ancha fija, donde cada punto corresponde a un país. Este tipo de visualización es útil para identificar tendencias generales, posibles correlaciones entre variables y la presencia de valores atípicos.
Se destaca China, que presenta un PIB per cápita moderado (10,144 USD), pero una cantidad extremadamente alta de suscripciones (449 millones). Esto refleja tanto su gran población como una fuerte inversión en infraestructura tecnológica.
Por otro lado, Estados Unidos sobresale por tener un PIB per cápita elevado (70,000 USD) y también un alto número de suscripciones. Aunque no alcanza las cifras absolutas de China, su posición en el gráfico resalta por combinar un alto nivel de ingresos con un acceso significativo a banda ancha fija, lo cual es coherente con su grado de desarrollo tecnológico.
La mayoría de los países se agrupan en la esquina inferior izquierda del gráfico, lo que indica PIB per cápita bajo o medio y niveles bajos o moderados de suscripciones. Esta distribución sugiere una posible relación positiva entre el nivel de ingresos y el acceso a banda ancha fija.
Acceso a la electricidad - Zona urbana
El gráfico refleja que el acceso a la electricidad en zonas urbanas es casi universal en la mayoría de los países del conjunto analizado. La mediana es de 100%, lo que implica que al menos la mitad de los países tienen una cobertura total en áreas urbanas. El primer cuartil (Q1) es 99.55%, y el límite inferior del rango intercuartílico es 99%, indicando una baja dispersión y un acceso prácticamente completo en la mayoría de los casos.
No obstante, se observan algunos valores atípicos por debajo de este umbral, siendo el valor mínimo 62.7%, lo cual evidencia que ciertos países aún enfrentan dificultades importantes para garantizar el acceso a la electricidad en zonas urbanas. Aunque estos casos son excepcionales, resaltan la existencia de desigualdades persistentes incluso en contextos urbanos, que tradicionalmente presentan mejores condiciones de infraestructura.
Acceso a la electricidad - Zona rural
El diagrama de caja muestra que el acceso a la electricidad en zonas rurales es alto en la mayoría de los países analizados. La mediana se encuentra en 100%, lo que indica que al menos la mitad de los países tienen cobertura total en estas áreas. El primer cuartil (Q1) es 96.6%, y el límite inferior del rango intercuartílico es 93%, lo cual refuerza que la mayoría de países tienen un acceso rural bastante alto.
Sin embargo, también se observan valores atípicos importantes, con algunos países por debajo del 80%, y un mínimo extremo de apenas 9.7%, lo cual evidencia una gran desigualdad entre países en términos de cobertura eléctrica en zonas rurales.
Valores atipicos por variable
En este gráfico se muestra la distribución de valores para cada una de las 15 variables tras ser estandarizadas. Esto permite comparar entre variables que originalmente pueden estar en diferentes escalas, lo cual es especialmente importante para métodos como el análisis de componentes principales (PCA), que son sensibles a la escala de los datos.
Cada boxplot representa el rango intercuartílico (IQR) de cada variable, con la línea central indicando la mediana. Los puntos fuera de los bigotes del diagrama representan valores atípicos (outliers), es decir, observaciones que se alejan significativamente del comportamiento central de la variable.
Se observa que la mayoría de las variables presentan valores atípicos. Las variables x1 (Suscripciones a banda ancha fija), x4 (Exportaciones de bienes TIC), x5 (Importaciones de bienes TIC), x6 (Usuarios de Internet) y x15 (Inversión extranjera directa, entradas netas) destacan por tener muchos outliers hacia valores positivos, lo que indica que algunos países tienen comportamientos muy elevados en esas dimensiones. Por ejemplo, España presenta un valor atípico extremo en x1, con una puntuación estandarizada de 9.45, muy por encima del resto.
En contraste, variables como x10 (Desempleo), x13 (Servicios informáticos, comunicaciones y otros - Exportaciones) y x14 (Importaciones) muestran distribuciones más compactas y con menor número de valores extremos. Sin embargo, destacan x11 (Acceso a electricidad en zonas urbanas) y x12 (en zonas rurales), por presentar valores atípicos negativos, evidenciando que algunos países aún enfrentan dificultades significativas en el acceso a la electricidad, especialmente en zonas rurales.
Identificar estas variables es útil para tomar decisiones sobre su transformación o eliminación en función de su impacto en la varianza general del conjunto de datos. Si bien el PCA se realizará con datos estandarizados, conocer previamente la presencia de valores atípicos ayuda a interpretar mejor los resultados y a decidir si alguna variable podría sesgar la generación de los componentes principales.
Análisis metodo k-means
El gráfico del método silhouette permite identificar el número óptimo de clústeres para aplicar en un análisis de agrupamiento, evaluando qué tan bien separados y cohesionados están los grupos formados.
En el gráfico, se observa que el ancho promedio del índice silhouette alcanza su valor máximo cuando el número de clústeres (k) es igual a 3. Esto indica que con tres grupos, los datos están mejor agrupados: cada país se encuentra, en promedio, más cercano a los elementos de su mismo grupo y más alejado de los elementos de otros grupos.
Resultado K-means
El gráfico muestra el resultado del modelo k-means, el cual clasificó a los países en 3 clústeres basados en la similitud de sus características.
Clúster 1 (círculos rojos, 55 países):Es el grupo más numeroso, lo que sugiere una mayor homogeneidad entre los países que lo conforman
Clúster 2 (triángulos verdes, 32 países): Agrupa a países que comparten condiciones similares según las variables analizadas.
Clúster 3 (cuadrados azules, 13 países): Este grupo reducido representa casos atípicos o únicos dentro del conjunto de datos. Los países de este clúster muestran valores distintos al resto.
Tabla de media de cada cluster
| cluster | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 | x11 | x12 | x13 | x14 | x15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | -0.14 | -0.41 | -0.15 | -0.34 | -0.28 | 0.00 | 0.04 | -0.15 | -0.15 | 0.27 | 0.28 | 0.33 | -0.33 | -0.29 | -0.16 |
| 2 | 0.33 | 1.03 | 0.37 | 0.77 | 0.77 | 0.72 | 0.19 | 0.31 | 0.33 | -0.44 | 0.35 | 0.43 | 0.76 | 0.73 | 0.36 |
| 3 | -0.22 | -0.81 | -0.26 | -0.48 | -0.71 | -1.79 | -0.66 | -0.12 | -0.18 | -0.05 | -2.05 | -2.45 | -0.49 | -0.58 | -0.19 |
La comparación de las medias estandarizadas para cada uno de los tres clústeres revela patrones diferenciados entre los grupos formados. Dado que los datos fueron previamente estandarizados, las medias indican si los países de cada clúster presentan un desempeño por encima o por debajo del promedio general en cada variable.
Clúster 1 muestra valores cercanos a cero, sin extremos marcados. Representa un grupo intermedio o equilibrado, con niveles relativamente cercanos al promedio general.
Clúster 2 agrupa a los países con mayores niveles en la mayoría de las variables. Destacan especialmente en x2, x4, x5, x6, x13 y x14, lo cual sugiere un perfil de alto desarrollo o mejores condiciones tecnológicas, económicas o sociales.
Clúster 3 presenta las medias más bajas, con valores notablemente inferiores al promedio en variables como x6, x11 y x12. Esto indica un grupo con condiciones menos favorables, posiblemente asociado a países con mayores desafíos estructurales
Teniendo en cuenta el grafico del modelo y el análisis de las medias de las variables dentro de cada cluster, permite identificar patrones diferenciados que caracterizan a los grupos formados. Esta aproximación es válida porque las medias muestran valores distintos en las variables analizadas, lo que confirma que el algoritmo de clustering ha agrupado correctamente observaciones con perfiles similares.Dicho lo anterior,se procede a la calsificación de cada cluster.
Cluster 1. Naciones Digitales Emergentes Representado en color rojo y ubicado en el centro del gráfico, este grupo está conformado por la mayoría de los países, con niveles medios en la mayoría de las variables. Muestran valores moderados en usuarios de Internet (x6: -0.01), suscripciones de banda ancha fija (x1: -0.11). Son economías en transición digital, con avances en conectividad e infraestructura tecnológica, pero aún con espacio de mejora en exportación de servicios TIC, atracción de inversión y adopción de tecnologías más avanzadas.
Cluster 2. Potencias Digitales . Este grupo, representado en color verde y ubicado en la parte derecha del gráfico, agrupa a potencias digitales consolidadas como Estados Unidos, China, Singapur, Japón y Corea del Sur. Se caracteriza por registrar las medias más altas en la mayoría de las variables, destacando especialmente(x2: 1.03), (x6: 0.72),(x13: 0.76). Estos países lideran el ecosistema digital global gracias a sus economías avanzadas, infraestructura tecnológica sólida, alta conectividad y capacidad de innovación.
Cluster 3. Brecha Digital Crítica Representado en color azul y ubicado en la parte izquierda del gráfico, este grupo está compuesto Níger, Nigeria y Mali, entre otros. Se caracteriza por registrar los valores más bajos en casi todas las variables, especialmente en PIB per cápita (x2: -1.20), usuarios de Internet (x6: -1.27), exportaciones TIC (x4: -0.70).Son países con brechas digitales y económicas. La limitada conectividad, baja inversión en tecnología y escasa participación en los mercados digitales reflejan desafíos estructurales que obstaculizan su integración plena en la economía digital global.
Análisis Multivariado (PCA)
Como parte fundamental del proceso de Análisis de Componentes Principales (PCA), se implementó una matriz de correlación con los siguientes objetivos: (1) evaluar las relaciones lineales entre las variables del estudio, (2) identificar variables con baja correlación como candidatas potenciales para reducción de dimensionalidad, y (3) detectar variables altamente correlacionadas que podrían indicar redundancia en la información. Este análisis se complementa con el estudio previo mediante el gráfico boxplot que permitió identificar y tratar valores atípicos en los datos, asegurando así la calidad para el PCA.
Análisis Matriz de Correlación
Al analizar la matriz de correlación, se identificaron algunas variables
que presentan correlaciones muy débiles o nulas con el resto del
conjunto, lo que indica que no comparten una relación lineal
significativa con las demás y, por tanto, podrían aportar información
limitada al análisis multivariado.
A simple vista es dificil saber que variables se relacionan mas o por el contrario cuales tiene menos relacion, asi que se ha decido realizar la suma de los valores absolutos de la correlacion de cada variable y tener un mejor orientación al momento de tomar decisiones.
| Tabla 1 | Tabla 2 | Tabla 3 |
|---|---|---|
| x6: 4.34 | x5: 3.84 | x2: 3.74 |
| x12: 3.66 | x11: 3.35 | x4: 3.24 |
| x13: 3.21 | x14: 3.15 | x7: 2.39 |
| x8: 2.39 | x1: 2.30 | x10: 1.69 |
| x9: 1.60 | x3: 1.54 | x15: 1.04 |
Teniendo en cuenta los resultados obtenidos, decidimos construir el modelo únicamente con aquellas variables que presentan un aporte significativo tanto en la matriz de correlación como en las sumas de contribuciones. Además, incluimos variables que, aunque puedan no destacar numéricamente, consideramos fundamentales por su relevancia teórica. A continuación, se presentan las variables que fueron excluidas del estudio.
x3 (Gasto gubernamental en educación, % del PIB) muestra una escasa correlación con las demás variables.
x8 (Población total) presenta correlaciones débiles, especialmente con variables clave como x10 (Desempleo total), x11 (Acceso a electricidad en zonas urbanas) y x12 (Acceso a electricidad en zonas rurales). Esta falta de relación puede deberse a que x8 mide el tamaño absoluto de la población, una magnitud demográfica general que no se alinea directamente con las demás variables del análisis,ademas de que posiblemente este generando ruido con las demas variables que miden una poblacion en especifico.
x10 (Desempleo total), aunque es un indicador económico relevante, no muestra asociaciones significativas con los factores tecnológicos e infraestructurales, por lo que podría estar capturando dinámicas del mercado laboral más amplias y no directamente relacionadas con el desarrollo digital.
x15 (Inversión extranjera directa) también presenta una baja o nula correlación con la mayoría de variables.
Justificación
Estas variables no presentan relaciones significativas con el resto del conjunto de indicadores, lo cual sugiere que su inclusión podría introducir ruido en los análisis posteriores como el análisis de componentes principales (PCA) o la segmentación mediante clustering. Ademas, en el grafico bloxplot de “valores atipicos por variable” nos permite evidenciar que es buena opcion eliminar estas variables porque no se relacionan y tiene varios valores atipicos. Por lo tanto, se decidió eliminarlas con el fin de optimizar la consistencia interna del análisis y garantizar un enfoque más fuerte y centrado en variables relacionadas entre sí, principalmente vinculadas al desarrollo económico y tecnológico de los países.
Por otro lado, se optó por conservar la variable x9, pese a su contribución moderadamente baja, debido a su relevancia dentro del estudio. Esta variable refleja un aspecto clave vinculado al acceso a Internet, considerado fundamental para el análisis de patrones y la identificación de posibles agrupamientos.
PCA - Varianza Explicada
El Análisis de Componentes Principales (ACP) aplicado a las 11 variables
seleccionadas permitió reducir la dimensionalidad del conjunto de datos
mediante la obtención de 11 componentes principales. Cada uno de estos
componentes está asociado a un porcentaje de varianza explicada, lo que
refleja cuánta información de las variables originales logra
capturar.
Con base en el criterio del porcentaje acumulado de varianza explicada, se recomienda conservar aquellos factores que, en conjunto, representen al menos el 70% de la información total. En este caso, los cuatro primeros componentes cumplen con este criterio, acumulando aproximadamente el 73.5% de la varianza. Esta decisión permite simplificar el análisis sin perder una cantidad significativa de información.
Interpretación de los factores
Se analizaron las variables que más contribuyeron a su formación según el gráfico de correlaciones de variables. Se consideraron los dos primeros componentes principales, que explican en conjunto el 51.6% de la varianza total (Dim1: 35%, Dim2: 16.6%).
Componente 1 (Dim1) está fuertemente influenciado por variables económicas y de infraestructura tecnológica. Las que más contribuyen a este componente son:
PIB per cápita (x2)
Acceso a electricidad en zonas urbanas (x11)
Usuarios que usan Internet (x6)
Acceso a electricidad en zonas rurales (x12)
Importaciones de bienes TIC (x5)
Exportaciones de bienes TIC (x4)
Estas variables apuntan en una dirección similar y con vectores largos, lo que indica una alta correlación con esta dimensión. La Dim1 puede interpretarse como el factor de Desarrollo económico y tecnológico.
Componente 2 (Dim2) tiene una menor contribución total y agrupa variables como:
Exportaciones de bienes TIC (x4)
Importaciones de bienes TIC (x5)
Servidores de Internet seguros (x9)
Servicios informáticos, comunicaciones y otros – exportaciones (x13)
Aunque estas variables tienen una menor carga en general, su orientación más vertical sugiere que aportan información distinta a la de Dim1. Por tanto, Dim2 puede interpretarse como el factor de Participación en servicios digitales globales
Para profundizar en la comprensión del análisis de componentes
principales, se examinaron los ejes Dimensión 3 y Dimensión 4, que
explican respectivamente el 11.6% y el 10.3% de la varianza total. En
conjunto, aportan un 21.9% adicional de información.
Componente 3 (Dim 3) está fuertemente influenciada por las variables relacionadas con el comercio internacional de servicios TIC, como las importaciones (x14) y exportaciones (x13) de servicios informáticos, comunicaciones y otros, así como por el PIB per cápita (x2). Esta dimensión puede interpretarse como factor integración a la economía digital global. Los países que presentan altos valores en esta dimensión tienden a tener un mayor desempeño económico y una participación activa en el comercio de servicios digitales.
Componente 4 (Dim 4), por su parte, está dominada por la variable x9 (servidores de Internet seguros), lo que sugiere una relación directa con aspectos de infraestructura tecnológica y seguridad digital. Esta dimensión puede interpretarse como factor indicador de capacidad tecnológica en términos de ciberseguridad e infraestructura digital confiable.
Contribución de las variables a los 4 primeros componentes.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | |
|---|---|---|---|---|
| x1 | 1.86 | 18.43 | 0.35 | 18.51 |
| x2 | 11.08 | 2.26 | 21.35 | 0.16 |
| x4 | 7.35 | 24.51 | 3.17 | 3.73 |
| x5 | 9.78 | 22.58 | 3.04 | 0.62 |
| x6 | 16.97 | 8.77 | 0.02 | 1.24 |
| x7 | 5.90 | 0.17 | 10.78 | 7.80 |
| x9 | 1.59 | 2.47 | 12.43 | 40.59 |
| x11 | 13.42 | 7.69 | 10.49 | 2.77 |
| x12 | 15.69 | 7.51 | 8.49 | 3.29 |
| x13 | 7.13 | 4.80 | 10.57 | 7.85 |
| x14 | 9.24 | 0.81 | 19.30 | 13.45 |
Es importante observar qué variables tienen mayor contribución a cada componente, ya que esto indica qué dimensiones de los datos están siendo representadas por cada eje y asi poder tener un mejor aporte de como clasificar a estos factores.
Factor 1 (Dim.1): Este componente está principalmente influenciado por las variables x6 (16.97%), x11 (13.42%) y x12 (15.69%). Estas variables explican una parte significativa de la variabilidad en los datos, por lo tanto, el primer eje del ACP puede interpretarse como una combinación de estas dimensiones.
Factor 2 (Dim.2): Las variables con mayor peso son x4 (24.51%), x5 (22.58%) y x1 (18.43%). Este eje capta otra dimensión importante de variación en el conjunto de datos, y sugiere que estas variables están relacionadas entre sí en un segundo patrón .
Factor 3 (Dim.3): Las variables más representativas en este eje son x2 (21.35%), x14 (19.30%) y x9 (12.43%). Este tercer componente refleja un patrón distinto, dominado por x2, posiblemente capturando una dimensión más específica o puntual del fenómeno analizado.
Factor 4 (Dim.4): Este eje está fuertemente determinado por la variable x9, que aporta el 40.59% de la varianza, seguida por x1 (18.51%) y x14 (13.45%). La alta concentración de contribución en x9 sugiere que el cuarto componente está casi completamente definido por esta variable, lo que puede indicar una dimensión única o muy específica en el análisis.
Interpretación factores con países
Distribución de países
El gráfico de individuos representa la distribución de 100 países en el espacio definido por las dos primeras dimensiones del análisis de componentes principales (PCA), cuyos factores han sido interpretados como Desarrollo económico y tecnológico (Dim1) y Acceso y penetración tecnológica (Dim2).
Factor 1:Desarrollo económico y tecnológico. agrupa
variables como el PIB per cápita, la infraestructura básica
(electricidad urbana y rural), y el uso de servicios digitales. Los
países con valores positivos en esta dimensión tienen mayores niveles de
ingresos, infraestructuras más consolidadas y mayor capacidad para
invertir en tecnologías y exportar servicios digitales.
Algunos de estos paises son Suiza, Alemania, Suecia, Australia y Países Bajos se sitúan hacia la derecha del eje, reflejando un alto nivel de desarrollo económico y tecnológico.
Níger, Zambia, Benín y Lesotho, en cambio, se ubican hacia la izquierda, lo que indica economías con menor desarrollo tecnológico y digital.
Factor 2:Participación en servicios digitales globales. recoge información vinculada a la conectividad de la población, como las suscripciones a internet (fijo y móvil), el uso de internet por parte de los ciudadanos, y la presencia de infraestructura digital segura (servidores).
Algunos paises que destacan son, China, Malasia y Filipinas, reflejan un alto desarrollo digital y fuerte participación en exportación/importación de servicios TIC.
Países con bajos valores en este eje tienen menor conectividad digital y acceso limitado a tecnologías, esto no significa que no tengan servicios TIC, sino que su comercio internacional de estos servicios es menos dominante en relación con otras variables como PIB o suscripciones digitales.
Este gráfico muestra la posición de los países según su comportamiento
en las Dimensiones 3 y 4. Cada punto representa un país y la coloración
(cos²) indica qué tan bien está representado ese país por estas
dimensiones: valores cercanos al rojo indican buena calidad de
representación.
Factor 3: Integración a la economía digital global con valores positivos en Dim3 indican un mayor desarrollo en la exportación/importación y dinamismo del mercado TIC internacional.
Georgia, Mongolia, Kazajistán, Paraguay, Ecuador son países que se ubican más a la derecha, lo cual indica que están relativamente más involucrados en mercados internacionales de servicios TIC dentro del grupo.
Posiblemente estos países podrían estar mostrando apertura comercial, acuerdos internacionales o crecimiento en exportación de servicios tecnológicos.
Los valores negativos en Dim3 indican un bajo desarrollo o limitada participación en mercados TIC internacionales.
Nigeria, Hungría, República Checa, Eslovaquia, Singapur aparecen a la izquierda, sugiriendo baja puntuación en este factor.
Factor 4:Indicador de capacidad tecnológica con valores positivos en Dim4 muestran mayor capacidad tecnológica (infraestructura, capital humano en tecnología, innovación).
Estados Unidos se destaca notablemente como el país con la mayor puntuación en esta dimensión.
También aparecen Noruega, Dinamarca, Botsuana y Francia en la parte superior del gráfico.
Posiblemente estos países cuentan con fuertes capacidades tecnológicas, como inversión en I+D, infraestructura digital avanzada y formación tecnológica.
Con valores negativos en Dim4 indican menor capacidad tecnológica.
Tailandia, El Salvador, Camboya, Mongolia, Georgia se ubican en la parte inferior, sugiriendo limitaciones en infraestructura, formación o capacidades tecnológicas.
En estos casos, podría haber una necesidad de inversión en talento humano tecnológico o en redes digitales.
Relación con variables
A continuación, se explica cómo las variables influyen en la distribución de los países, con el fin de lograr una mejor interpretación de los factores obtenidos mediante el análisis de componentes principales.
Las dos primeras dimensiones del análisis permite identificar patrones
comunes entre variables y países. La primera dimensión fue interpretada
como un indicador de desarrollo económico y tecnológico, al agrupar
variables como el PIB per cápita, el porcentaje de usuarios de Internet,
las suscripciones a banda ancha fija y móvil, la cantidad de servidores
seguros, y el acceso a electricidad en zonas urbanas y rurales. Esta
dimensión refleja el nivel de infraestructura digital, conectividad y
bienestar económico. Los países con valores altos en esta dimensión,
ubicados hacia la derecha del gráfico, como Singapur, Alemania y Japón
se ubican alto en esta dimensión, indicando infraestructura digital
sólida. En contraste, países como Zambia o Nigeria muestran rezagos en
estos aspectos.
La segunda dimensión se relaciona principalmente con la participación en servicios digitales global y bienes TIC, los países que se ubican en la parte superior del gráfico, como China, Filipinas y Malasia se destacan por su integración comercial en TIC, mientras que otros como Luxemburgo o Jamaica muestran menor apertura en este ámbito.
El factor 3 “integración a la economía digital global”, está fuertemente influida por las variables de exportaciones (x13) e importaciones (x14) de servicios informáticos, comunicaciones y otros relacionados con las TIC. Los países con puntajes altos en esta dimensión, ubicados hacia la derecha del gráfico como Filipinas, Ucrania, India, Kazajistán o Malasia, se caracterizan por una fuerte participación en el comercio internacional de servicios digitales. Esto refleja una orientación productiva y comercial hacia las industrias de servicios TIC, más allá del acceso interno de la población.
Por otro lado, el factor 4 “indicador de capacidad tecnológica”. Está determinada principalmente por variables como las suscripciones a banda ancha fija (x1) y móvil (x7), el número de usuarios de Internet (x6) y la cantidad de servidores seguros (x9), entre otras. Esta dimensión refleja el nivel de despliegue y uso interno de tecnologías digitales en cada país. Países ubicados en la parte superior del gráfico, como Polonia, Letonia, Corea del Sur o Singapur, presentan una infraestructura tecnológica más desarrollada y una mayor digitalización de su población. En contraste, países situados en la parte inferior como Jamaica, Bolivia o China muestran una menor capacidad instalada o uso efectivo de dichas tecnologías.
Clusterización PCA
A continuación se presenta la clusterización teniendo en cuenta los 4 factores.
Con base en el análisis de los gráficos anteriores,incluyendo el dendrograma jerárquico y los biplots del PCA, se considera que una solución de tres clústeres resulta adecuada para este conjunto de datos. Esta elección se apoya en la interpretación visual del dendrograma, donde se distinguen tres grupos relativamente definidos, así como en la distribución de los datos en el espacio reducido por las componentes principales.
Inicialmente, se exploró la opción de una agrupación en dos clústeres; sin embargo, se observó que algunos países se alejan de dicha clasificación, mostrando menor relación con ciertas variables. El análisis reveló que la separación entre los dos grupos no era lo suficientemente clara, por lo que se optó finalmente por una clasificación en tres grupos, la cual refleja de manera más adecuada la diversidad presente en los datos.
Para una mejor visualización y validar visualmente si los grupos formados tienen sentido se presentan los siguientes graficos. Recordemos que una buena separación indica que el agrupamiento fue efectivo.
En este grafico tenemos la dimension 1 y 2, que en conjunto explican el
51.6% de la varianza total. Se observa una buena separación visual entre
los tres grupos, lo que indica que los factores representados por estas
dos dimensiones (Factor 1: Desarrollo económico y tecnológico, y Factor
2: Participación en servicios digitales globales), capturan las
diferencias estructurales clave entre los países. Esta representación
respalda la decisión de clasificar en tres grupos, ya que muestra una
segmentación clara y coherente en función de las características
tecnológicas y económicas analizadas
Aunque en las proyecciones de las Dimensiones 3 y 4 los clústeres
aparecen más concentrados y con cierta superposición, esto se debe a que
estas dimensiones explican un porcentaje menor de la varianza total. No
obstante, estas dimensiones aportan información complementaria sobre
aspectos más específicos, como el desarrollo de los mercados
internacionales de servicios TIC y la capacidad tecnológica. Al
considerar el conjunto completo de variables originales utilizadas en el
análisis de clústeres refleja patrones consistentes en multiples
dimensiones.
Contribución de las variables a cada cluster
A partir del Análisis de Componentes Principales (PCA), se seleccionaron las primeras cuatro dimensiones, ya que concentran la mayor parte de la variabilidad presente en los datos. Con base en estas dimensiones, se realizó un análisis de agrupamiento jerárquico, identificándose tres clústeres. Para interpretar estos grupos y asignarles un nombre representativo, se analizará la contribución de las variables actuales a cada clúster, con el fin de identificar las características que los distinguen.
A continuación, se presentan los gráficos que resumen estos resultados:
La Dimensión 1 del Análisis de Componentes Principales (ACP) está fuertemente influenciada por las variables x6, x12, x11, x2,x5 y x14, que en conjunto explican las principales diferencias entre los países a lo largo del eje horizontal del gráfico de clústeres. Estas variables están asociadas con el acceso a internet, la disponibilidad de electricidad tanto en zonas urbanas como rurales, y las exportaciones de servicios relacionados con las tecnologías de la información y la comunicación (TIC). En este sentido:
El Clúster 1 ocupa una posición intermedia, lo que refleja condiciones moderadas en estos factores.
El Clúster 2 agrupa países con valores elevados en estas variables, lo que sugiere una mayor dotación tecnológica y mejores condiciones de infraestructura digital.
El Clúster 3, en el extremo opuesto, representa países con niveles considerablemente bajos, indicando una menor disponibilidad de estos recursos.
En cuanto a la Dimensión 2, las variables con mayor peso son x4, x5 y
x7, por lo que esta dimensión puede interpretarse como un eje
relacionado con el comercio de bienes TIC (exportaciones e
importaciones) y el acceso a internet móvil (suscripciones a banda ancha
móvil):
El Clúster 1 muestra valores intermedios a bajos, lo que sugiere una menor participación en el comercio de bienes TIC y un acceso más limitado a la conectividad móvil.
El Clúster 2, ubicado en la parte superior del gráfico, se asocia a países con altos niveles en estos indicadores.
El Clúster 3, en la parte inferior, agrupa países con bajos niveles.
Respecto a la Dimensión 3, destacan las variables x2, x14, x9,x7 y x13.
En esta dimensión:
El Clúster 2 presenta una alta dispersión, lo que indica una gran variabilidad interna entre los países agrupados, posiblemente debido a contextos diversos en cuanto a estas variables.
En contraste, los Clústeres 1 y 3 se caracterizan por una mayor homogeneidad, dado que las observaciones están más concentradas y menos dispersas en este componente.
Finalmente, en la Dimensión 4, la variable x9 tiene una contribución
predominante (superior al 40 %), por lo que esta dimensión está
fuertemente explicada por dicho indicador. También tienen una influencia
destacada, aunque menor, las variables x7 y x14:
El Clúster 2 muestra una dispersión vertical considerable, lo que sugiere una alta variabilidad en la variable x9 dentro del grupo.
Por su parte, los Clústeres 1 y 3 presentan una baja varianza en esta dimensión, lo cual refleja mayor consistencia interna respecto a la variable mencionada.
Interpretación de los cluster
Cluster 1: Agrupa a 35 países y se interpreta como “Países en Escalón Digital Intermedio”
Representa a países con condiciones intermedias o moderadas. Tienen niveles medios en acceso a infraestructura digital, comercio TIC y conectividad. En general, este grupo se encuentra en una posición de transición entre países con alta y baja dotación tecnológica.
Cluster 2: Esta conformado por 57 países y se interpreta como “Países Vanguardia Digital”
Este grupo reúne a países con altos niveles de desarrollo digital. Se caracterizan por un mayor acceso a internet (x6), mejor cobertura eléctrica en zonas urbanas y rurales (x11, x12), y una fuerte participación en la exportación de servicios TIC (x2, x14). También muestran altos niveles en comercio de bienes TIC (x4, x5) y en suscripciones a banda ancha móvil (x7). Sin embargo, presentan cierta heterogeneidad en variables como x9 y x13, lo que indica diferencias internas en otros aspectos.
Cluster 3: Incluye 8 países y se interpreta como “Países con Rezago Tecnológico Acentuado”
Agrupa a países con bajo desempeño en los indicadores tecnológicos. Tienen poco acceso a internet y electricidad (x6, x11, x12), baja participación en exportaciones de servicios TIC (x2, x14), y menor comercio de bienes TIC y conectividad móvil (x4, x5, x7). Además, presentan poca variabilidad interna, lo que sugiere condiciones más homogéneas en estos bajos niveles.
Conclusiones
Este estudio reveló realidades que van más allá de lo esperado. Se confirmó que la brecha digital aún persiste: países con fuerte infraestructura tecnológica conviven con otros que aún enfrentan barreras básicas, como el acceso a la electricidad. En particular, algunas regiones de África siguen quedando rezagadas, lo que marca una diferencia significativa en comparación con regiones que lideran en innovación. Esto reafirma que el acceso a las TIC sigue siendo un desafío global, y no solo una cuestión de avance tecnológico.
Clasificar a los países según su acceso a Internet permitió ver que no todo se divide entre países totalmente conectados y países desconectados. Hay un punto intermedio, donde algunos países están en camino, mejorando poco a poco su acceso digital. Esto muestra que las estrategias para mejorar la tecnología no pueden ser iguales para todos, sino que deben ajustarse a la situación y necesidades específicas de cada grupo de países.
Mediante el análisis de aprendizaje no supervisado con el método PCA , se identificaron y evaluaron las variables más relevantes que contribuyen a cada una de las cuatro dimensiones obtenidas. Este proceso permitió sintetizar sus características fundamentales y asignar un concepto global descriptivo a cada dimensión, facilitando así su interpretación y contextualización.
A pesar de que los resultados fueron consistentes, se considera que el modelo puede seguir mejorando. Se intentó ir más allá de una agrupación matemática para entender el contexto detrás de los datos, comparando realidades y evaluando el impacto de cada variable. Fue evidente que el modelo, por sí solo, no detectaría variables irrelevantes si no se complementa con un análisis exploratorio profundo. Por eso, herramientas como la matriz de correlación y el análisis de medias jugaron un papel fundamental para optimizar la clasificación.
La comparación entre el agrupamiento inicial con K-means (utilizando 15 variables originales sin depuración) y el resultado obtenido mediante PCA seguido de clustering jerárquico muestra una clara mejora en la calidad del modelo. Al reducir la dimensionalidad y conservar solo las variables más relevantes, se logró una clasificación más precisa y coherente, con clústeres más fácilmente interpretables y representativos. Este cambio también permitió detectar grupos con características particulares que antes quedaban diluidos, lo que evidencia el valor del preprocesamiento y la selección adecuada de variables en el aprendizaje no supervisado.
Aunque inicialmente algunas variables parecían aportar información única al no presentar correlaciones fuertes con las demás,lo cual podría interpretarse como un signo de independencia y valor agregado, el Análisis de Componentes Principales (PCA) reveló que dichas variables no contribuían significativamente a las primeras dimensiones del modelo. Esto evidenció que, pese a su aparente singularidad, su aporte a la estructura global de la información era limitado, por lo que su exclusión favoreció una representación más clara y eficiente de los datos.
Referencias
- Joaqui Barandica, O. (2023, April 16). Data Visualization in R. Recuperado de: https://www.joaquibarandica.com/post/datavizr/
- Banco Mundial. (s.f.). Fixed broadband subscriptions (per 100 people). Recuperado de: https://databank.worldbank.org/metadataglossary/world-development-indicators/series/IT.NET.BBND.P2
- DPL News. (2024). Hay mil 500 millones de suscriptores de banda ancha fija en el mundo. https://dplnews.com/hay-mil-500-millones-de-suscriptores-de-banda-ancha-fija-en-el-mundo/
- Banco Mundial. (s.f.). ICT goods exports (% of total goods exports). https://datos.bancomundial.org/indicador/TM.VAL.ICTG.ZS.UN