Introducción

El presente informe analiza el Producto Interno Bruto (PIB) per cápita de los 32 departamentos y el Distrito Capital de Colombia para el año 2018, desagregado en 13 variables que representan las principales ramas de actividad económica medidas por el DANE. El objetivo es identificar, mediante Análisis de Componentes Principales, las estructuras latentes que caracterizan las capacidades productivas territoriales y explicar la heterogeneidad en la generación de riqueza entre departamentos. Posteriormente, se utilizarán técnicas de clustering para proponer una clasificación de departamentos con perfiles económicos similares, facilitando el diseño de políticas públicas diferenciadas que reconozcan las particularidades regionales. Este análisis permitirá caracterizar la estructura productiva de departamentos específicos como Bogotá, Antioquia, Valle del Cauca, Casanare, Arauca, Chocó, San Andrés y Vaupés, identificando sus fortalezas sectoriales y patrones de especialización económica.

1. Lectura y Preparación de Datos

El proceso de preparación de datos inicia con la lectura del archivo PIBpc.xlsx, que contiene información del PIB per cápita para los 33 departamentos y el Distrito Capital de Colombia. Posteriormente, se asignan las abreviaturas de los departamentos como nombres de fila para facilitar su identificación en análisis posteriores. Dado que los nombres originales de las variables económicas son extensos y dificultan la visualización en gráficos, se renombran las 13 columnas con etiquetas más concisas pero descriptivas que mantienen la esencia de cada sector (Agropecuario, Minas, Manufactura, Servicios_Pub, Construcción, Comercio, Info_Com, Financiero, Inmobiliario, Serv_Prof, Gobierno, Artístico e Impuestos). Finalmente, se seleccionan únicamente las variables numéricas excluyendo la columna de abreviaturas, y se genera una tabla resumen con las medias y desviaciones estándar de cada sector económico, lo cual proporciona una primera aproximación a la magnitud y variabilidad del PIB per cápita en cada rama de actividad a nivel nacional.

# Lectura de los datos
Datos <- read_xlsx("PIBpc.xlsx", range = "A1:O34")

# Asignar nombres de filas (Abreviatura)
PIBpc <- column_to_rownames(Datos, var = "Abreviatura")

# Renombrar columnas para facilitar la lectura en los gráficos
PIBpc <- rename(PIBpc, 
                "Agropecuario"="Agricultura, ganadería, caza, silvicultura y pesca",
                "Minas"="Explotación de minas y canteras",
                "Manufactura"="Industrias manufactureras",
                "Servicios_Pub"="Suministro de electricidad, gas, vapor y aire acondicionado; distribución de agua; evacuación y tratamiento de aguas residuales, gestión de desechos y actividades de saneamiento ambiental" ,
                "Construccion" = "Construcción",
                "Comercio"="Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas; transporte y almacenamiento; alojamiento y servicios de comida" ,
                "Info_Com"="Información y comunicaciones" ,
                "Financiero"="Actividades financieras y de seguros" ,
                "Inmobiliario"="Actividades inmobiliarias",
                "Serv_Prof"="Actividades profesionales, científicas y técnicas; actividades de servicios administrativos y de apoyo" ,
                "Gobierno"="Administración pública y defensa; planes de seguridad social de afiliación obligatoria; educación; actividades de atención de la salud humana y de servicios sociales",
                "Artistico"="Actividades artísticas, de entretenimiento y recreación y otras actividades de servicios; actividades de los hogares individuales en calidad de empleadores; actividades no diferenciadas de los hogares individuales como productores de bienes y servicios para uso propio",
                "Impuestos"="Impuestos"
                )

# Selección de variables numéricas 
PIB_num <- PIBpc[, -1] 

# Tabla de Resumen
Resumen= rbind(apply(PIB_num,2,"mean"),
               apply(PIB_num,2,"sd"))
rownames(Resumen)=c("Promedio", "Desviación")

# Número de columnas
n <- ncol(Resumen)

# Punto de corte
mid <- ceiling(n/2)

# Dividir en dos bloques
tabla_1 <- Resumen[, 1:mid]
tabla_2 <- Resumen[, (mid+1):n]

# Imprimir primera mitad
kable(tabla_1, caption = "<center>Tabla 1. Resumen PIB – Parte 1</center>") %>%
  kable_styling(full_width = TRUE,
  bootstrap_options = c("striped", "hover", "condensed"))

Tabla 1. Resumen PIB – Parte 1
	Agropecuario	Minas	Manufactura	Servicios_Pub	Construccion	Comercio	Info_Com
Promedio	0.0013469	0.0015945	0.0011713	0.0003580	0.0009957	0.0025949	0.0002703
Desviación	0.0008834	0.0035367	0.0012374	0.0002938	0.0004403	0.0022128	0.0002503

# Imprimir segunda mitad
kable(tabla_2, caption = "<center>Tabla 1. Resumen PIB – Parte 2</center>") %>%
  kable_styling(full_width = TRUE,
  bootstrap_options = c("striped", "hover", "condensed"))

Tabla 1. Resumen PIB – Parte 2
	Financiero	Inmobiliario	Serv_Prof	Gobierno	Artistico	Impuestos
Promedio	0.0003996	0.0008818	0.0006272	0.0024325	0.0002373	0.0009852
Desviación	0.0004475	0.0007583	0.0006044	0.0004701	0.0002120	0.0009070

2. Análisis Exploratorio de Datos (Punto a)

Lo primero a realizar en esta fase del informe es examinar la matriz de correlaciones entre las 13 variables económicas que componen el PIB per cápita departamental. Este análisis preliminar permite identificar la estructura de dependencia entre los sectores productivos y detectar posibles agrupaciones naturales de actividades económicas que tienden a desarrollarse conjuntamente en los territorios.

# Matriz de correlaciones
M.cor = cor(PIB_num, method="pearson")
p.cor = corrplot::cor.mtest(PIB_num)$p


## Visualización de la correlacion  

# Matriz de correlaciones 
pairs(M.cor,pch=20,cex=1.5,lower.panel = NULL, main="Matriz de Correlaciones - Nube De Puntos")

En este primer vistazo general se observan correlaciones moderadas a fuertes entre varios sectores económicos. Destacan las relaciones positivas entre Inmobiliario, Información y Comunicaciones (Info_Com) y Financiero, sugiriendo que departamentos con mayor actividad en servicios avanzados tienden a desarrollar estos sectores de manera conjunta. También se evidencian correlaciones entre Construcción, Comercio y Servicios Públicos, indicando complementariedad en la estructura productiva territorial. Por otro lado, el sector Agropecuario muestra correlaciones débiles o negativas con la mayoría de los sectores de servicios, reflejando una posible dicotomía entre departamentos con vocación rural versus aquellos especializados en actividades terciarias. El sector Minas presenta un patrón de correlaciones particulares que sugiere una estructura productiva distintiva en departamentos con economías extractivas. Para profundizar en estos patrones y facilitar su interpretación, a continuación se presentarán visualizaciones adicionales y el análisis formal de correlaciones.

# Visualización con elipses y la relación
corrplot::corrplot(M.cor, method = "ellipse", type = "upper", insig = "blank",
                  p.mat = p.cor,tl.col = "black", tl.cex = 0.7,addCoef.col = "black",diag=FALSE,
                  col=c("blue","red"),title = "Matriz de Correlación del PIB", mar = c(0,0,1,0))

Esta visualización mediante elipses de correlación permite confirmar y cuantificar los patrones identificados en la matriz de dispersión anterior. Se observa claramente un cluster de alta correlación entre los sectores de servicios avanzados: Información y Comunicaciones, Financiero, Inmobiliario y Servicios Profesionales presentan correlaciones superiores a 0.90, indicando que estos sectores tienden a coexistir en los mismos territorios. Asimismo, se identifican correlaciones moderadas a altas (0.40-0.77) entre Manufactura, Construcción, Comercio y Servicios Públicos, sugiriendo una estructura productiva complementaria. Por otro lado, el sector Agropecuario muestra correlaciones débiles o cercanas a cero con la mayoría de los demás sectores, mientras que Minas exhibe un patrón de correlaciones particulares que lo distingue del resto. Las correlaciones positivas generalizadas entre sectores (ausencia de elipses azules significativas) sugieren que departamentos con mayor PIB per cápita tienden a tener valores altos en múltiples sectores simultáneamente, evidenciando economías diversificadas en las regiones más desarrolladas.

# Detección de puntos atípicos (Punto b - Puntos influyentes)
# Usamos Boxplots estandarizados para ver outliers rápidos
boxplot(scale(PIB_num), las=2, col="lightblue", 
        main="Detección de Atípicos (Datos Estandarizados)")

Los diagramas de caja sobre datos estandarizados revelan la presencia de múltiples observaciones atípicas en prácticamente todas las variables económicas analizadas. Destacan particularmente los valores extremos en sectores como Agropecuario, Minas, Manufactura, Servicios Públicos, Información y Comunicaciones, Financiero, Inmobiliario, Servicios Profesionales y Gobierno, donde se identifican departamentos con valores superiores a 2 o incluso 4 veces la dispersión típica respecto al promedio nacional. Estas observaciones atípicas no representan errores en los datos, sino que reflejan la marcada diversidad en las estructuras productivas de los departamentos colombianos. Algunos territorios presentan especializaciones muy marcadas en sectores específicos, como departamentos con economías basadas en petróleo que registran valores extremos en Minas, o ciudades capitales que concentran actividades de servicios financieros y profesionales con valores muy superiores al resto del país. Esta variabilidad extrema entre departamentos es precisamente lo que caracteriza la realidad económica colombiana, donde coexisten territorios con vocaciones productivas completamente diferentes.

3. Análisis de Componentes Principales (Punto b y c)

A continuación se presenta el gráfico de sedimentación que permite visualizar la importancia relativa de cada componente principal en términos de su contribución a la variabilidad total de los datos. Este gráfico facilita la identificación del número óptimo de componentes a retener para el análisis posterior.

# Cálculo del PCA
pca_pib <- prcomp(PIB_num, scale. = TRUE)

# Resumen de varianza explicada (Selección de Componentes)
resumen_pca <- summary(pca_pib)$importance

# Pasar a data.frame
resumen_pca_df <- as.data.frame(t(resumen_pca))

# Renombrar columnas
colnames(resumen_pca_df) <- c(
  "Desviación estándar",
  "Proporción de varianza",
  "Varianza acumulada"
)

# Redondear
resumen_pca_df <- round(resumen_pca_df, 4)

# Crear tabla 
kable(
  resumen_pca_df,
  caption = "<center>Tabla 2. Varianza explicada por componente principal</center>"
) %>%
kable_styling(
  full_width = TRUE,
  bootstrap_options = c("striped", "hover"),
  position = "center"
)

Tabla 2. Varianza explicada por componente principal
	Desviación estándar	Proporción de varianza	Varianza acumulada
PC1	2.6627	0.5454	0.5454
PC2	1.4391	0.1593	0.7047
PC3	1.2120	0.1130	0.8177
PC4	0.9049	0.0630	0.8807
PC5	0.7415	0.0423	0.9230
PC6	0.5762	0.0255	0.9485
PC7	0.5508	0.0233	0.9719
PC8	0.3988	0.0122	0.9841
PC9	0.3038	0.0071	0.9912
PC10	0.2530	0.0049	0.9961
PC11	0.1527	0.0018	0.9979
PC12	0.1399	0.0015	0.9994
PC13	0.0871	0.0006	1.0000

# Gráfico de sedimentación para decidir cuántas componentes retener
plot(pca_pib, type = "l", main = "Gráfico de Sedimentación")
abline(h = 1, col = "red", lty = 2)

El análisis de componentes principales muestra que la primera componente (PC1) explica el 54.5% de las diferencias en el PIB per cápita entre departamentos, siendo el factor más importante para entender la estructura productiva colombiana. Las dos primeras componentes juntas explican el 70.5% de las variaciones, mientras que las tres primeras alcanzan el 81.8%. Para capturar aproximadamente el 92% de la información original, se necesitan las primeras cinco componentes. Esto significa que, aunque hay 13 sectores económicos diferentes, la mayor parte de las diferencias entre departamentos se puede explicar con solo unos pocos factores principales que agrupan sectores que se desarrollan de manera similar. La concentración de información en las primeras componentes indica que existen patrones claros de especialización económica que caracterizan a los departamentos colombianos.

Ranking de Departamentos (Punto c)

A continuación se presenta el ranking de departamentos según sus puntuaciones en las dos primeras componentes principales, identificando aquellos territorios que presentan los valores más altos en cada dimensión. Este ordenamiento permite visualizar qué departamentos se destacan en las estructuras productivas subyacentes capturadas por cada componente.

# Extraemos las puntuaciones de las primeras componentes
scores <- as.data.frame(pca_pib$x)

# Ranking según la Componente 1 
ranking_c1 <- scores %>% 
  arrange(desc(PC1)) %>% 
  select(PC1, PC2) %>% 
  head(5)

kable(
  round(ranking_c1, 3),
  caption = "<center>Tabla 3. Ranking de Departamentos según PC1</center>",
  col.names = c("Componente Principal 1 (PC1)", "Componente Principal 2 (PC2)")
) %>%
kable_styling(
  full_width = FALSE,
  bootstrap_options = c("striped", "hover", "condensed"),
  position = "center"
)

Tabla 3. Ranking de Departamentos según PC1
	Componente Principal 1 (PC1)	Componente Principal 2 (PC2)
Vich	3.085	0.125
Choc	2.842	0.857
Vaup	2.452	1.587
Guai	2.290	1.006
Putu	2.088	0.935

Para el ranking de departamentos según su puntuación en las componentes principales, se identifican los cinco departamentos con mayores valores en PC1 y PC2. En la primera componente (PC1), que explica el 54.5% de la variabilidad, destacan Vichada (3.09), Chocó (2.84), Vaupés (2.45), Guainía (2.29) y Putumayo (2.09), todos con valores positivos considerablemente altos. En la segunda componente (PC2), que captura el 15.9% de la varianza, sobresalen Vaupés (1.59), Guainía (1.01), Putumayo (0.94), Chocó (0.86) y Vichada (0.12). Es notable que departamentos periféricos y con menor desarrollo económico aparecen en las primeras posiciones de ambas componentes, lo cual sugiere que estas dimensiones podrían estar capturando estructuras productivas particulares asociadas a economías menos diversificadas o con características especiales en su composición sectorial.

4. Caracterización Estructural (Biplot) (Punto d)

Análisis gráfico de la relación entre departamentos y ramas de actividad. Se destacan Casanare, Arauca, Bogotá, etc.

# Biplot 
biplot(pca_pib, scale = 0, cex = 0.7, 
       main = "Biplot: Departamentos vs Sectores Económicos")
abline(h=0, v=0, lty=2, col="gray")

El biplot permite visualizar simultáneamente la posición de los departamentos y los sectores económicos en el espacio de las dos primeras componentes principales. Esta representación revela varios patrones importantes en la estructura productiva colombiana:

Componente 1 (Eje horizontal - 54.5% de varianza): Separa departamentos con economías extractivas (lado derecho) de aquellos con economías de servicios avanzados (lado izquierdo). Casanare, Arauca, Meta y Vichada se ubican en el extremo derecho, fuertemente asociados con el sector Minas (petróleo y gas), mientras que Bogotá se posiciona en el extremo izquierdo, estrechamente vinculada con Financiero, Inmobiliario, Información y Comunicaciones y Servicios Profesionales.

Componente 2 (Eje vertical - 15.9% de varianza): Diferencia departamentos según su participación en sectores gubernamentales y de servicios públicos (parte superior) versus sectores productivos tradicionales (parte inferior). San Andrés destaca en la parte superior asociado con Gobierno, mientras que departamentos como Casanare, Meta y Arauca se ubican en la parte inferior relacionados con Agropecuario y Minas.

Caracterización de departamentos específicos:

Casanare y Arauca: Posicionados en el cuadrante inferior derecho, presentan economías fuertemente dependientes del sector Minas (petróleo), con presencia moderada de actividades Agropecuarias.

Bogotá: Situada en el extremo izquierdo superior, concentra la mayor parte de los servicios avanzados del país (Financiero, Inmobiliario, Info_Com, Serv_Prof) y actividades de Gobierno.

San Andrés: En el cuadrante superior derecho, se caracteriza por una alta participación del sector Gobierno en su economía. Valle del Cauca y Antioquia: Cercanos al centro con ligera inclinación hacia el lado izquierdo, presentan economías diversificadas con participación significativa en Manufactura, Comercio, Construcción y sectores de servicios.

Chocó y Vaupés: Ubicados en el extremo derecho, aunque con economías pequeñas, muestran estructuras particulares posiblemente relacionadas con sectores primarios o características socioeconómicas específicas.

El biplot evidencia una clara dicotomía en Colombia entre departamentos con economías extractivas especializadas versus territorios con economías terciarias diversificadas, siendo Bogotá y los departamentos petroleros los casos extremos de esta polarización.

5. Análisis de Cluster (Punto e y f)

Agrupación de departamentos sugerida al gobierno nacional basada en sus componentes principales.

# 1. Distancia Euclidiana sobre las primeras componentes
# Seleccionamos las componentes que expliquen aprox el 70-80% de varianza
dist_matrix <- dist(pca_pib$x[, 1:3]) 

# 2. Clustering Jerárquico (Método Ward para grupos compactos)
hc_pib <- hclust(dist_matrix, method = "ward.D2")

# 3. Dendrograma
plot(hc_pib, main = "Dendrograma de Departamentos", xlab = "", sub = "")
# Cortamos el árbol en 4 grupos 
rect.hclust(hc_pib, k = 4, border = "red")

# 4. Asignación de grupos
grupos <- cutree(hc_pib, k = 4)
PIB_num$Cluster <- as.factor(grupos)

El dendrograma resultante del análisis de conglomerados jerárquico sobre las componentes principales permite identificar grupos de departamentos con estructuras productivas similares. Observando la altura de fusión y los patrones de agrupamiento, se pueden distinguir cuatro clusters principales:

Cluster 1 - Bogotá (aislado):

La capital se separa completamente del resto de departamentos a una altura muy elevada, confirmando su estructura económica única y altamente especializada en servicios avanzados (financiero, inmobiliario, información, servicios profesionales).

Cluster 2 - Departamentos con economías extractivas:

Conformado por Casanare, Meta y Arauca, este grupo reúne departamentos cuyas economías dependen fuertemente del sector minero-energético, particularmente petróleo y gas. Estos territorios comparten perfiles productivos dominados por la extracción de recursos naturales.

Cluster 3 - Departamentos con economías diversificadas e intermedias:

Este es el grupo más numeroso e incluye a Valle, Antioquia, Santander, Atlántico, Risaralda, Caldas, Quindío, Huila, Tolima, Boyacá, Cundinamarca, entre otros. Estos departamentos presentan estructuras económicas más balanceadas con presencia significativa de manufactura, comercio, construcción, servicios públicos y alguna actividad agropecuaria. Son economías regionales con cierto nivel de diversificación sectorial.

Cluster 4 - Departamentos periféricos y de menor desarrollo:

Agrupa territorios como Vichada, Guainía, Vaupés, Chocó, Guaviare, Putumayo, Amazonas, San Andrés y La Guajira. Estos departamentos comparten características de economías menos diversificadas, con estructuras productivas particulares que pueden incluir alta participación gubernamental, actividades primarias básicas o economías de frontera. Muchos corresponden a territorios amazónicos, costeros o insulares con limitaciones de conectividad e infraestructura.

Esta clasificación refleja la heterogeneidad territorial colombiana y sugiere la necesidad de políticas diferenciadas: mientras Bogotá requiere estrategias propias de economías metropolitanas avanzadas, los departamentos petroleros necesitan diversificación productiva, las regiones intermedias políticas de fortalecimiento industrial y comercial, y los territorios periféricos inversiones básicas en conectividad y desarrollo de capacidades productivas fundamentales.

Visualización de los Grupos (Punto f)

Proyección de los clusters sobre el plano factorial.

# Plot sobre las dos primeras componentes coloreando por cluster
plot(pca_pib$x[,1], pca_pib$x[,2], 
     col = grupos, pch = 19, 
     xlab = "PC1 (Dimensión 1)", ylab = "PC2 (Dimensión 2)",
     main = "Agrupación de Departamentos en el espacio del PCA")
text(pca_pib$x[,1], pca_pib$x[,2], labels = rownames(PIB_num), 
     pos = 3, cex = 0.6, col = "black")
legend("topright", legend = unique(grupos), col = unique(grupos), pch = 19, title = "Grupo")

La visualización evidencia una clara dispersión de los departamentos colombianos en el espacio económico, con Bogotá como caso extremo, los departamentos petroleros agrupados en la zona inferior derecha, las regiones intermedias concentradas cerca del centro, y los territorios periféricos dispersos en el lado derecho y superior del plano factorial.

Laboratorio 3 - Análisis de Componentes Principales y Clustering

Daniel Escobar Cardona

2024-11-24