El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un periodo determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total).
La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB per cápita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodología estudiada en clase, se espera que usted:
Análisis Exploratorio de Datos a. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.
Análisis de Componentes Principales
b. Identifique, seleccione e interprete las estructuras latentes (Componentes Principales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes).
c. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.
d. Utilizando los resultados de la proyección de departamentos y variables en el espacio de las componentes (biplot), genere una caracterización de la estructura del PIB de los siguientes departamentos: Casanare, Arauca, Bogotá, San Andrés, Valle del Cauca, Antioquia, Chocó, Vaupés.
CLUSTER
e. Utilice las puntuaciones de las componentes principales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.
f. Utilice herramientas de visualización para describir de forma sintética las características globales de los grupos de departamentos sugeridos.
Resumen estadístico de los indicadores económicos por departamento
| Variable | Mínimo | Q1 | Mediana | Media | Q3 | Máximo |
|---|---|---|---|---|---|---|
| Abreviatura | Inf | NA | NA | NaN | NA | -Inf |
| Agricultura, ganadería, caza, silvicultura y pesca | 0.000002 | 0.000783 | 0.001226 | 0.001347 | 0.001923 | 0.003666 |
| Explotación de minas y canteras | 0.000015 | 0.000042 | 0.000145 | 0.001594 | 0.000758 | 0.014690 |
| Industrias manufactureras | 0.000010 | 0.000222 | 0.000636 | 0.001171 | 0.001974 | 0.004516 |
| Suministro de electricidad, gas, vapor y aire acondicionado; distribución de agua; evacuación y tratamiento de aguas residuales, gestión de desechos y actividades de saneamiento ambiental | 0.000014 | 0.000126 | 0.000293 | 0.000358 | 0.000526 | 0.001080 |
| Construcción | 0.000341 | 0.000691 | 0.000949 | 0.000996 | 0.001151 | 0.002255 |
| Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas; transporte y almacenamiento; alojamiento y servicios de comida | 0.000539 | 0.001498 | 0.002103 | 0.002595 | 0.002914 | 0.013094 |
| Información y comunicaciones | 0.000005 | 0.000119 | 0.000207 | 0.000270 | 0.000355 | 0.001321 |
| Actividades financieras y de seguros | 0.000065 | 0.000184 | 0.000238 | 0.000400 | 0.000432 | 0.002616 |
| Actividades inmobiliarias | 0.000138 | 0.000431 | 0.000726 | 0.000882 | 0.001044 | 0.004024 |
| Actividades profesionales, científicas y técnicas; actividades de servicios administrativos y de apoyo | 0.000007 | 0.000138 | 0.000545 | 0.000627 | 0.000978 | 0.002642 |
| Administración pública y defensa; planes de seguridad social de afiliación obligatoria; educación; actividades de atención de la salud humana y de servicios sociales | 0.001793 | 0.002152 | 0.002332 | 0.002433 | 0.002547 | 0.004482 |
| Actividades artísticas, de entretenimiento y recreación y otras actividades de servicios; actividades de los hogares individuales en calidad de empleadores; actividades no diferenciadas de los hogares individuales como productores de bienes y servicios para uso propio | 0.000043 | 0.000121 | 0.000188 | 0.000237 | 0.000311 | 0.001219 |
| Impuestos | 0.000138 | 0.000396 | 0.000690 | 0.000985 | 0.001320 | 0.004443 |
Histograma o boxplots para ver la dispersion y detectar valores atípicos
Cada histograma de una variable económica del PIB departamental.
Distribución asimétrica, al lado Izquierdo
Valores cercanos a 0, indica menos participacion.
Objetivo: Identificar relaciones entre las variables económicas, ver qué sectores están relacionados entre sí (positiva o negativamente).
🔴 Valores +1 Colores rojos intensos: correlaciones positivas altas (variables que crecen juntas).
🔵 Valores -1 Colores azules: correlaciones negativas (cuando una sube, la otra baja).
⚪ Valores 0 Blancos o claros: poca o ninguna relación.
Valores 1.00 Correlación perfecta
| Paso | Descripción | Objetivo |
|---|---|---|
| 1️⃣ Verificar estructura y columnas | Se revisan las dimensiones del dataset y la estructura de las variables. | Confirmar que el dataframe está correctamente preparado. |
| 2️⃣ Calcular varianzas | Calcula la varianza de cada variable para identificar variables constantes. | Evaluar la dispersión inicial de las variables. |
| 3️⃣ Detectar columnas con varianza cero o NA | Identifica columnas con varianza igual a 0 o con valores perdidos (NA). | Evitar errores de cálculo en el PCA por columnas sin variación. |
| 4️⃣ Detectar desviación estándar casi cero | Detecta variables con muy poca variabilidad (casi constantes). | Prevenir distorsiones en la varianza explicada del PCA. |
| 5️⃣ Eliminar columnas problemáticas | Elimina las columnas con problemas detectados para limpiar los datos. | Garantizar que los datos sean adecuados para el análisis multivariado. |
| 6️⃣ Confirmar número mínimo de variables | Comprueba que quedan al menos dos variables para realizar el PCA. | Asegurar condiciones mínimas para aplicar PCA correctamente. |
| 7️⃣ Escalar los datos | Estandariza los datos (media = 0, desviación estándar = 1). | Hacer que todas las variables sean comparables entre sí. |
| 8️⃣ Verificar desviaciones tras el escalado | Revisa que las variables escaladas tengan desviación estándar igual a 1. | Validar que la estandarización se realizó correctamente. |
Figura 1.
1. Desviación estándar
EL primer componente (PC1) tiene una desviación estándar de aproximadamente 2.6627, seguido por 1.4391 para PC2 y 1.2120 para PC3. Estos valores representan la magnitud de la variabilidad capturada por cada componente.
2. Proporción de varianza
Los tres primeros componentes explican aproximadamente el 81.77% de la variabilidad total, lo que indica que una gran parte de la información contenida en las variables originales puede resumirse en solo tres componentes principales.
3. Proporción acumulada
Utilizar los tres primeros componentes sería suficiente para representar fielmente la estructura del conjunto de datos sin perder información relevante.
🟢 Valores positivos
Características o indicadores se relacionan directamente con las variables que más pesan positivamente.
Presenta mayor presencia o intensidad de los factores representados
🔴 Valores negativos
Significa que se comporta de manera opuesta a lo que define el componente.
Los valores negativos indican que el departamento se aleja del patrón principal positivo definido por las variables más influyentes de PC
⚪ Valores cercanos a 0
Departamento no tiene una relación clara con la dimensión representada por PC.
No se destaca ni positiva ni negativamente.
El Eje 1 (horizontal) separa los departamentos según su estructura productiva dominante:
El Eje 2 (vertical) diferencia a los departamentos por la especialización en sectores sociales y de servicios comunitario.
Hacia la derecha (valores positivos):
Asociado a sectores primarios: agricultura, ganadería, pesca, minería y explotación de recursos naturales.
Casanare (Cas), Meta, Arauca (Ara) y Vaupés (Vau) tienen alta carga positiva porque su PIB depende fuertemente del sector extractivo y agropecuario.
Hacia la izquierda (valores negativos):
Asociado a sectores de servicios avanzados e industriales: educación, salud, administración pública, finanzas, manufacturas.
Bogotá (BogDC) se ubica en el extremo izquierdo, reflejando su fuerte peso en servicios públicos, financieros, educación y gobierno.
El codo indica el punto donde agregar más grupos deja de mejorar significativamente la compactación.
El codo suele estar alrededor de k = 6, lo que sugiere 6 grupos óptimos de departamentos.
Este número define cuántos “tipos de economías” regionales hay en el país.
Cluster 1: Departamentos con economías diversificadas (varios sectores fuertes).
Cluster 2: Departamentos especializados (e.g., minería o agricultura).
Cluster 3: Departamentos con menor productividad o economías pequeñas.
Permite ver el perfil promedio de cada grupo de departamentos
Los grupos con altos valores representan economías más desarrolladas y diversificadas.
Los grupos con valores bajos representan economías más dependientes de un solo sector o de baja productividad.
Cuanto más extendida esté una línea hacia afuera, mayor es la fortaleza promedio de ese grupo en ese componente.
Permite comparar la variabilidad interna de los grupos.
Si los boxplots no se solapan entre clusters → los grupos están bien diferenciados.
Si hay mucho solapamiento → los grupos comparten características similares en esa componente.