Análisis de Componentes Principales y Clustering

Introducción

El presente informe analiza el Producto Interno Bruto (PIB) per cápita de los 32 departamentos y el Distrito Capital de Colombia para el año 2018, desagregado en 13 variables que representan las principales ramas de actividad económica medidas por el DANE. El objetivo es identificar, mediante Análisis de Componentes Principales, las estructuras latentes que caracterizan las capacidades productivas territoriales y explicar la heterogeneidad en la generación de riqueza entre departamentos. Posteriormente, se utilizarán técnicas de clustering para proponer una clasificación de departamentos con perfiles económicos similares, facilitando el diseño de políticas públicas diferenciadas que reconozcan las particularidades regionales. Este análisis permitirá caracterizar la estructura productiva de departamentos específicos como Bogotá, Antioquia, Valle del Cauca, Casanare, Arauca, Chocó, San Andrés y Vaupés, identificando sus fortalezas sectoriales y patrones de especialización económica.


1. Lectura y Preparación de Datos

El proceso de preparación de datos inicia con la lectura del archivo PIBpc.xlsx, que contiene información del PIB per cápita para los 33 departamentos y el Distrito Capital de Colombia. Posteriormente, se asignan las abreviaturas de los departamentos como nombres de fila para facilitar su identificación en análisis posteriores. Dado que los nombres originales de las variables económicas son extensos y dificultan la visualización en gráficos, se renombran las 13 columnas con etiquetas más concisas pero descriptivas que mantienen la esencia de cada sector (Agropecuario, Minas, Manufactura, Servicios_Pub, Construcción, Comercio, Info_Com, Financiero, Inmobiliario, Serv_Prof, Gobierno, Artístico e Impuestos). Finalmente, se seleccionan únicamente las variables numéricas excluyendo la columna de abreviaturas, y se genera una tabla resumen con las medias y desviaciones estándar de cada sector económico, lo cual proporciona una primera aproximación a la magnitud y variabilidad del PIB per cápita en cada rama de actividad a nivel nacional.

Tabla 1. Resumen PIB – Parte 1
Agropecuario Minas Manufactura Servicios_Pub Construccion Comercio Info_Com
Promedio 0.0013469 0.0015945 0.0011713 0.0003580 0.0009957 0.0025949 0.0002703
Desviación 0.0008834 0.0035367 0.0012374 0.0002938 0.0004403 0.0022128 0.0002503
Tabla 1. Resumen PIB – Parte 2
Financiero Inmobiliario Serv_Prof Gobierno Artistico Impuestos
Promedio 0.0003996 0.0008818 0.0006272 0.0024325 0.0002373 0.0009852
Desviación 0.0004475 0.0007583 0.0006044 0.0004701 0.0002120 0.0009070

2. Análisis Exploratorio de Datos

Lo primero a realizar en esta fase del informe es examinar la matriz de correlaciones entre las 13 variables económicas que componen el PIB per cápita departamental. Este análisis preliminar permite identificar la estructura de dependencia entre los sectores productivos y detectar posibles agrupaciones naturales de actividades económicas que tienden a desarrollarse conjuntamente en los territorios.

En este primer vistazo general se observan correlaciones moderadas a fuertes entre varios sectores económicos. Destacan las relaciones positivas entre Inmobiliario, Información y Comunicaciones (Info_Com) y Financiero, sugiriendo que departamentos con mayor actividad en servicios avanzados tienden a desarrollar estos sectores de manera conjunta. También se evidencian correlaciones entre Construcción, Comercio y Servicios Públicos, indicando complementariedad en la estructura productiva territorial. Por otro lado, el sector Agropecuario muestra correlaciones débiles o negativas con la mayoría de los sectores de servicios, reflejando una posible dicotomía entre departamentos con vocación rural versus aquellos especializados en actividades terciarias. El sector Minas presenta un patrón de correlaciones particulares que sugiere una estructura productiva distintiva en departamentos con economías extractivas. Para profundizar en estos patrones y facilitar su interpretación, a continuación se presentarán visualizaciones adicionales y el análisis formal de correlaciones.

Esta visualización mediante elipses de correlación permite confirmar y cuantificar los patrones identificados en la matriz de dispersión anterior. Se observa claramente un cluster de alta correlación entre los sectores de servicios avanzados: Información y Comunicaciones, Financiero, Inmobiliario y Servicios Profesionales presentan correlaciones superiores a 0.90, indicando que estos sectores tienden a coexistir en los mismos territorios. Asimismo, se identifican correlaciones moderadas a altas (0.40-0.77) entre Manufactura, Construcción, Comercio y Servicios Públicos, sugiriendo una estructura productiva complementaria. Por otro lado, el sector Agropecuario muestra correlaciones débiles o cercanas a cero con la mayoría de los demás sectores, mientras que Minas exhibe un patrón de correlaciones particulares que lo distingue del resto. Las correlaciones positivas generalizadas entre sectores (ausencia de elipses azules significativas) sugieren que departamentos con mayor PIB per cápita tienden a tener valores altos en múltiples sectores simultáneamente, evidenciando economías diversificadas en las regiones más desarrolladas.

Los diagramas de caja sobre datos estandarizados revelan la presencia de múltiples observaciones atípicas en prácticamente todas las variables económicas analizadas. Destacan particularmente los valores extremos en sectores como Agropecuario, Minas, Manufactura, Servicios Públicos, Información y Comunicaciones, Financiero, Inmobiliario, Servicios Profesionales y Gobierno, donde se identifican departamentos con valores superiores a 2 o incluso 4 veces la dispersión típica respecto al promedio nacional. Estas observaciones atípicas no representan errores en los datos, sino que reflejan la marcada diversidad en las estructuras productivas de los departamentos colombianos. Algunos territorios presentan especializaciones muy marcadas en sectores específicos, como departamentos con economías basadas en petróleo que registran valores extremos en Minas, o ciudades capitales que concentran actividades de servicios financieros y profesionales con valores muy superiores al resto del país. Esta variabilidad extrema entre departamentos es precisamente lo que caracteriza la realidad económica colombiana, donde coexisten territorios con vocaciones productivas completamente diferentes.


3. Análisis de Componentes Principales

A continuación se presenta el gráfico de sedimentación que permite visualizar la importancia relativa de cada componente principal en términos de su contribución a la variabilidad total de los datos. Este gráfico facilita la identificación del número óptimo de componentes a retener para el análisis posterior.

Tabla 2. Varianza explicada por componente principal
Desviación estándar Proporción de varianza Varianza acumulada
PC1 2.6627 0.5454 0.5454
PC2 1.4391 0.1593 0.7047
PC3 1.2120 0.1130 0.8177
PC4 0.9049 0.0630 0.8807
PC5 0.7415 0.0423 0.9230
PC6 0.5762 0.0255 0.9485
PC7 0.5508 0.0233 0.9719
PC8 0.3988 0.0122 0.9841
PC9 0.3038 0.0071 0.9912
PC10 0.2530 0.0049 0.9961
PC11 0.1527 0.0018 0.9979
PC12 0.1399 0.0015 0.9994
PC13 0.0871 0.0006 1.0000

El análisis de componentes principales muestra que la primera componente (PC1) explica el 54.5% de las diferencias en el PIB per cápita entre departamentos, siendo el factor más importante para entender la estructura productiva colombiana. Las dos primeras componentes juntas explican el 70.5% de las variaciones, mientras que las tres primeras alcanzan el 81.8%. Para capturar aproximadamente el 92% de la información original, se necesitan las primeras cinco componentes. Esto significa que, aunque hay 13 sectores económicos diferentes, la mayor parte de las diferencias entre departamentos se puede explicar con solo unos pocos factores principales que agrupan sectores que se desarrollan de manera similar. La concentración de información en las primeras componentes indica que existen patrones claros de especialización económica que caracterizan a los departamentos colombianos.

Ranking de Departamentos

A continuación se presenta el ranking de departamentos según sus puntuaciones en las dos primeras componentes principales, identificando aquellos territorios que presentan los valores más altos en cada dimensión. Este ordenamiento permite visualizar qué departamentos se destacan en las estructuras productivas subyacentes capturadas por cada componente.
Tabla 3. Ranking de Departamentos según PC1
Componente Principal 1 (PC1) Componente Principal 2 (PC2)
Vich 3.085 0.125
Choc 2.842 0.857
Vaup 2.452 1.587
Guai 2.290 1.006
Putu 2.088 0.935

Para el ranking de departamentos según su puntuación en las componentes principales, se identifican los cinco departamentos con mayores valores en PC1 y PC2. En la primera componente (PC1), que explica el 54.5% de la variabilidad, destacan Vichada (3.09), Chocó (2.84), Vaupés (2.45), Guainía (2.29) y Putumayo (2.09), todos con valores positivos considerablemente altos. En la segunda componente (PC2), que captura el 15.9% de la varianza, sobresalen Vaupés (1.59), Guainía (1.01), Putumayo (0.94), Chocó (0.86) y Vichada (0.12). Es notable que departamentos periféricos y con menor desarrollo económico aparecen en las primeras posiciones de ambas componentes, lo cual sugiere que estas dimensiones podrían estar capturando estructuras productivas particulares asociadas a economías menos diversificadas o con características especiales en su composición sectorial.

4. Caracterización Estructural (Biplot)

Análisis gráfico de la relación entre departamentos y ramas de actividad. Se destacan Casanare, Arauca, Bogotá, etc.

El biplot permite visualizar simultáneamente la posición de los departamentos y los sectores económicos en el espacio de las dos primeras componentes principales. Esta representación revela varios patrones importantes en la estructura productiva colombiana:

PC1 - Magnitud Económica (Tamaño): Separa departamentos con economías extractivas (lado derecho) de aquellos con economías de servicios avanzados (lado izquierdo). Casanare, Arauca, Meta y Vichada se ubican en el extremo derecho, fuertemente asociados con el sector Minas (petróleo y gas), mientras que Bogotá se posiciona en el extremo izquierdo, estrechamente vinculada con Financiero, Inmobiliario, Información y Comunicaciones y Servicios Profesionales.

PC2 - Vocación Productiva (Extractiva vs. Terciaria): Diferencia departamentos según su participación en sectores gubernamentales y de servicios públicos (parte superior) versus sectores productivos tradicionales (parte inferior). San Andrés destaca en la parte superior asociado con Gobierno, mientras que departamentos como Casanare, Meta y Arauca se ubican en la parte inferior relacionados con Agropecuario y Minas.

Caracterización de departamentos específicos:

Casanare y Arauca: Posicionados en el cuadrante inferior derecho, presentan economías fuertemente dependientes del sector Minas (petróleo), con presencia moderada de actividades Agropecuarias.

Bogotá: Situada en el extremo izquierdo superior, concentra la mayor parte de los servicios avanzados del país (Financiero, Inmobiliario, Info_Com, Serv_Prof) y actividades de Gobierno.

San Andrés: En el cuadrante superior derecho, se caracteriza por una alta participación del sector Gobierno en su economía. Valle del Cauca y Antioquia: Cercanos al centro con ligera inclinación hacia el lado izquierdo, presentan economías diversificadas con participación significativa en Manufactura, Comercio, Construcción y sectores de servicios.

Chocó y Vaupés: Ubicados en el extremo derecho, aunque con economías pequeñas, muestran estructuras particulares posiblemente relacionadas con sectores primarios o características socioeconómicas específicas.

El biplot evidencia una clara dicotomía en Colombia entre departamentos con economías extractivas especializadas versus territorios con economías terciarias diversificadas, siendo Bogotá y los departamentos petroleros los casos extremos de esta polarización.

5. Análisis de Cluster (Metodología K-Means)

Siguiendo la metodología de clase, utilizaremos las puntuaciones de las Componentes Principales para agrupar los departamentos, ya que estas resumen la varianza estructural de los datos.

Para los análisis gráficos se utilizó el plano factorial definido por las dos primeras componentes principales (PC1–PC2), al ser la representación bidimensional que maximiza la varianza explicada.

Para determinar cuántos grupos representan de manera adecuada la estructura productiva de los departamentos, se aplicó el Método del Codo utilizando las puntuaciones de las tres primeras Componentes Principales. Esta gráfica permite observar cómo disminuye la variabilidad interna de los clusters a medida que aumenta el número de grupos evaluados y, por tanto, ayuda a identificar el punto en el que agregar más clusters deja de aportar mejoras significativas al modelo de agrupación.

Este resultado sugiere que la realidad productiva departamental puede representarse adecuadamente mediante cuatro grandes perfiles económicos, sin necesidad de fragmentar excesivamente el análisis. Cada cluster agrupa departamentos con comportamientos similares en términos de especialización sectorial, nivel de desarrollo relativo y combinación de actividades económicas.

Por tanto, la selección de cuatro clusters permite:

  • Simplificar la estructura compleja del PIB departamental en un número manejable de tipologías regionales.

  • Facilitar la interpretación geoeconómica, identificando regiones dominadas por actividades extractivas, agropecuarias, manufactureras o de servicios.

  • Servir como base para la formulación de políticas públicas diferenciadas, al evidenciar que los departamentos no constituyen una unidad homogénea sino bloques territoriales con dinámicas productivas específicas.

La siguiente tabla presenta la distribución de los departamentos en los clusters obtenidos, mostrando el número de territorios que conforman cada grupo según el análisis realizado sobre las Componentes Principales. Esta información permite dimensionar el peso relativo de cada perfil productivo dentro del total nacional y facilita la interpretación de la heterogeneidad económica entre regiones.

Distribución de Departamentos por Cluster
Cluster Num. Departamentos
1 9
2 3
3 20
4 1

La distribución evidencia una marcada concentración de departamentos en un grupo mayoritario, junto con clusters más reducidos que representan perfiles productivos específicos o altamente diferenciados dentro del conjunto departamental.

La siguiente gráfica corresponde al análisis de silueta, utilizado como criterio de validación del agrupamiento obtenido con K-Means. Este gráfico permite evaluar qué tan bien asignado se encuentra cada departamento dentro de su cluster, comparando su proximidad al grupo propio respecto a los demás, lo que facilita verificar la consistencia interna y la separación entre los clusters definidos.

Los valores promedio de silueta confirman que la solución de cuatro clusters es estadísticamente adecuada, mostrando buena cohesión interna de los departamentos dentro de cada grupo y una separación clara entre perfiles económicos diferenciados, particularmente entre aquellos con economías orientadas a actividades extractivas, servicios avanzados y estructuras productivas mixtas, respaldando así la solidez del modelo empleado en el laboratorio.

El siguiente gráfico presenta la proyección de los departamentos en el plano definido por las dos primeras componentes principales del PCA, incorporando la segmentación obtenida mediante el análisis de clustering, lo que permite observar visualmente la estructura de los grupos formados. La dispersión de los puntos refleja la similitud entre departamentos según su perfil económico: aquellos cercanos tienden a compartir características, mientras que la separación entre elipses evidencia diferencias entre clusters. Se observa un grupo mayoritario concentrado en el sector derecho del plano, un segundo cluster diferenciado en la zona superior y un conjunto más compacto en el área central—izquierda, mientras que Bogotá se destaca como un caso atípico al ubicarse de forma aislada, mostrando un comportamiento claramente distinto al resto del país.

Cluster 1 - Bogotá (aislado):

La capital se separa completamente del resto de departamentos a una altura muy elevada, confirmando su estructura económica única y altamente especializada en servicios avanzados (financiero, inmobiliario, información, servicios profesionales).

Cluster 2 - Departamentos con economías extractivas:

Conformado por Casanare, Meta y Arauca, este grupo reúne departamentos cuyas economías dependen fuertemente del sector minero-energético, particularmente petróleo y gas. Estos territorios comparten perfiles productivos dominados por la extracción de recursos naturales.

Cluster 3 - Departamentos con economías diversificadas e intermedias:

Este es el grupo más numeroso e incluye a Valle, Antioquia, Santander, Atlántico, Risaralda, Caldas, Boyacá, Cundinamarca, entre otros. Estos departamentos presentan estructuras económicas más balanceadas con presencia significativa de manufactura, comercio, construcción, servicios públicos y alguna actividad agropecuaria. Son economías regionales con cierto nivel de diversificación sectorial.

Cluster 4 - Departamentos periféricos y de menor desarrollo:

Agrupa territorios como Vichada, Guainía, Vaupés, Chocó, Guaviare, Putumayo, Amazonas, San Andrés y La Guajira. Estos departamentos comparten características de economías menos diversificadas, con estructuras productivas particulares que pueden incluir alta participación gubernamental, actividades primarias básicas o economías de frontera. Muchos corresponden a territorios amazónicos, costeros o insulares con limitaciones de conectividad e infraestructura.

Esta clasificación refleja la heterogeneidad territorial colombiana y sugiere la necesidad de políticas diferenciadas: mientras Bogotá requiere estrategias propias de economías metropolitanas avanzadas, los departamentos petroleros necesitan diversificación productiva, las regiones intermedias políticas de fortalecimiento industrial y comercial, y los territorios periféricos inversiones básicas en conectividad y desarrollo de capacidades productivas fundamentales.

La siguiente figura presenta el perfilamiento de los clusters obtenidos, comparando el comportamiento de cada grupo frente a los principales sectores económicos mediante valores estandarizados, lo que permite identificar patrones de especialización productiva entre los departamentos.

Los diagramas de caja evidencian contrastes claros entre los clusters en la estructura sectorial de los departamentos. Se identifican grupos con fuerte especialización en actividades extractivas como minas y agropecuario, reflejando economías primarias altamente concentradas en la explotación de recursos naturales. Otro conjunto de clusters presenta mayores valores en sectores de servicios, comercio e intermediación financiera, característicos de territorios con mayor dinamismo urbano, comercial y administrativo. Asimismo, se observan clusters con perfiles más balanceados o con niveles moderados en la mayoría de sectores, lo que sugiere economías diversificadas pero de menor intensidad relativa. La presencia de valores extremos en algunos sectores —particularmente en minería, gobierno y financiero— refuerza la heterogeneidad entre los grupos, evidenciando que ciertos departamentos concentran actividades dominantes muy marcadas, mientras otros mantienen estructuras productivas más homogéneas o de baja especialización. En conjunto, este perfilamiento confirma que la segmentación obtenida captura diferencias reales en los modelos productivos territoriales, lo que valida la utilidad del análisis de clustering para comprender los patrones económicos regionales.

Conclusion

El análisis de componentes principales y clustering del PIB per cápita departamental de Colombia para 2018 revela una marcada heterogeneidad en las estructuras productivas territoriales. Las dos primeras componentes principales explican el 70.5% de la variabilidad, identificando dos dimensiones fundamentales: la primera separa economías extractivas de economías de servicios avanzados, mientras la segunda diferencia estructuras con alta participación gubernamental de aquellas con sectores productivos tradicionales. Se identificaron cuatro grupos claramente diferenciados: Bogotá como caso único con economía altamente especializada en servicios financieros y profesionales; departamentos petroleros (Casanare, Arauca, Meta) con fuerte dependencia del sector minero-energético; regiones intermedias (Valle, Antioquia, Santander, entre otros) con economías diversificadas en manufactura y comercio; y territorios periféricos (Vichada, Vaupés, Chocó, Guainía) con estructuras productivas menos desarrolladas. Esta clasificación evidencia la coexistencia de realidades económicas completamente distintas dentro del territorio colombiano, reflejando brechas significativas en desarrollo y diversificación productiva.

Recomendaciones

Para el gobierno nacional, se recomienda diseñar políticas públicas diferenciadas según las características de cada cluster identificado. Los departamentos petroleros requieren urgentemente estrategias de diversificación productiva que reduzcan su dependencia de recursos no renovables, promoviendo el desarrollo de sectores alternativos como agroindustria y servicios. Las regiones intermedias necesitan políticas de fortalecimiento de su base industrial y comercial, mejorando infraestructura logística y conectividad para aumentar su competitividad. Los territorios periféricos demandan inversiones prioritarias en infraestructura básica, educación y desarrollo de capacidades productivas fundamentales que permitan cerrar las brechas con el resto del país. Bogotá, como centro económico, debe continuar su especialización en servicios de alto valor agregado mientras se promueven políticas de descentralización que faciliten la transferencia de conocimiento y capacidades hacia otras regiones. Finalmente, es fundamental establecer mecanismos de redistribución y compensación que reconozcan las asimetrías territoriales identificadas, garantizando que los recursos generados por economías extractivas contribuyan al desarrollo equilibrado del país.