🎓Kelly Vanesa Loaiza López

🎓Javier Eduardo Prada Parra

🎓Carolina Solarte Franco



🔍 TALLER 3 - (Análisis de Componentes Principales + Cluster)

Analisis De Datos Y Interpretacion



1 🔍 🏅TALLER N°3

El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un periodo determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total).

La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB per cápita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodología estudiada en clase, se espera que usted:

Análisis Exploratorio de Datos a. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.

Análisis de Componentes Principales

b. Identifique, seleccione e interprete las estructuras latentes (Componentes Principales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes).

c. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.

d. Utilizando los resultados de la proyección de departamentos y variables en el espacio de las componentes (biplot), genere una caracterización de la estructura del PIB de los siguientes departamentos: Casanare, Arauca, Bogotá, San Andrés, Valle del Cauca, Antioquia, Chocó, Vaupés.

CLUSTER

e. Utilice las puntuaciones de las componentes principales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.

f. Utilice herramientas de visualización para describir de forma sintética las características globales de los grupos de departamentos sugeridos.



2 🧾Resumen estadistico

Resumen estadístico de los indicadores económicos por departamento

Variable Mínimo Q1 Mediana Media Q3 Máximo
Abreviatura Inf NA NA NaN NA -Inf
Agricultura, ganadería, caza, silvicultura y pesca 0.000002 0.000783 0.001226 0.001347 0.001923 0.003666
Explotación de minas y canteras 0.000015 0.000042 0.000145 0.001594 0.000758 0.014690
Industrias manufactureras 0.000010 0.000222 0.000636 0.001171 0.001974 0.004516
Suministro de electricidad, gas, vapor y aire acondicionado; distribución de agua; evacuación y tratamiento de aguas residuales, gestión de desechos y actividades de saneamiento ambiental 0.000014 0.000126 0.000293 0.000358 0.000526 0.001080
Construcción 0.000341 0.000691 0.000949 0.000996 0.001151 0.002255
Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas; transporte y almacenamiento; alojamiento y servicios de comida 0.000539 0.001498 0.002103 0.002595 0.002914 0.013094
Información y comunicaciones 0.000005 0.000119 0.000207 0.000270 0.000355 0.001321
Actividades financieras y de seguros 0.000065 0.000184 0.000238 0.000400 0.000432 0.002616
Actividades inmobiliarias 0.000138 0.000431 0.000726 0.000882 0.001044 0.004024
Actividades profesionales, científicas y técnicas; actividades de servicios administrativos y de apoyo 0.000007 0.000138 0.000545 0.000627 0.000978 0.002642
Administración pública y defensa; planes de seguridad social de afiliación obligatoria; educación; actividades de atención de la salud humana y de servicios sociales 0.001793 0.002152 0.002332 0.002433 0.002547 0.004482
Actividades artísticas, de entretenimiento y recreación y otras actividades de servicios; actividades de los hogares individuales en calidad de empleadores; actividades no diferenciadas de los hogares individuales como productores de bienes y servicios para uso propio 0.000043 0.000121 0.000188 0.000237 0.000311 0.001219
Impuestos 0.000138 0.000396 0.000690 0.000985 0.001320 0.004443





3 🧾Distribucion De Las Variables



Histograma o boxplots para ver la dispersion y detectar valores atípicos



Cada histograma de una variable económica del PIB departamental.

Distribución asimétrica, al lado Izquierdo

Valores cercanos a 0, indica menos participacion.





4 📈Matriz de correlación



Objetivo: Identificar relaciones entre las variables económicas, ver qué sectores están relacionados entre sí (positiva o negativamente).



🔴 Valores +1 Colores rojos intensos: correlaciones positivas altas (variables que crecen juntas).

🔵 Valores -1 Colores azules: correlaciones negativas (cuando una sube, la otra baja).

⚪ Valores 0 Blancos o claros: poca o ninguna relación.

Valores 1.00 Correlación perfecta



5 📈Analisis de componentes principales (PCA)

Paso Descripción Objetivo
1️⃣ Verificar estructura y columnas Se revisan las dimensiones del dataset y la estructura de las variables. Confirmar que el dataframe está correctamente preparado.
2️⃣ Calcular varianzas Calcula la varianza de cada variable para identificar variables constantes. Evaluar la dispersión inicial de las variables.
3️⃣ Detectar columnas con varianza cero o NA Identifica columnas con varianza igual a 0 o con valores perdidos (NA). Evitar errores de cálculo en el PCA por columnas sin variación.
4️⃣ Detectar desviación estándar casi cero Detecta variables con muy poca variabilidad (casi constantes). Prevenir distorsiones en la varianza explicada del PCA.
5️⃣ Eliminar columnas problemáticas Elimina las columnas con problemas detectados para limpiar los datos. Garantizar que los datos sean adecuados para el análisis multivariado.
6️⃣ Confirmar número mínimo de variables Comprueba que quedan al menos dos variables para realizar el PCA. Asegurar condiciones mínimas para aplicar PCA correctamente.
7️⃣ Escalar los datos Estandariza los datos (media = 0, desviación estándar = 1). Hacer que todas las variables sean comparables entre sí.
8️⃣ Verificar desviaciones tras el escalado Revisa que las variables escaladas tengan desviación estándar igual a 1. Validar que la estandarización se realizó correctamente.



Figura 1.

Figura 1.

1. Desviación estándar

EL primer componente (PC1) tiene una desviación estándar de aproximadamente 2.6627, seguido por 1.4391 para PC2 y 1.2120 para PC3. Estos valores representan la magnitud de la variabilidad capturada por cada componente.

2. Proporción de varianza

Los tres primeros componentes explican aproximadamente el 81.77% de la variabilidad total, lo que indica que una gran parte de la información contenida en las variables originales puede resumirse en solo tres componentes principales.

3. Proporción acumulada

Utilizar los tres primeros componentes sería suficiente para representar fielmente la estructura del conjunto de datos sin perder información relevante.



6 Tabla con varianza individual y acumulada



7 Ranking De Departamentos





🟢 Valores positivos

Características o indicadores se relacionan directamente con las variables que más pesan positivamente.

Presenta mayor presencia o intensidad de los factores representados



🔴 Valores negativos

Significa que se comporta de manera opuesta a lo que define el componente.

Los valores negativos indican que el departamento se aleja del patrón principal positivo definido por las variables más influyentes de PC



⚪ Valores cercanos a 0

Departamento no tiene una relación clara con la dimensión representada por PC.

No se destaca ni positiva ni negativamente.



8 biplotPCA (Análisis de Componentes Principales)





El Eje 1 (horizontal) separa los departamentos según su estructura productiva dominante:

El Eje 2 (vertical) diferencia a los departamentos por la especialización en sectores sociales y de servicios comunitario.

Hacia la derecha (valores positivos):

Asociado a sectores primarios: agricultura, ganadería, pesca, minería y explotación de recursos naturales.

Casanare (Cas), Meta, Arauca (Ara) y Vaupés (Vau) tienen alta carga positiva porque su PIB depende fuertemente del sector extractivo y agropecuario.

Hacia la izquierda (valores negativos):

Asociado a sectores de servicios avanzados e industriales: educación, salud, administración pública, finanzas, manufacturas.

Bogotá (BogDC) se ubica en el extremo izquierdo, reflejando su fuerte peso en servicios públicos, financieros, educación y gobierno.

9 Método del Codo para elegir número óptimo de grupos



El codo indica el punto donde agregar más grupos deja de mejorar significativamente la compactación.

El codo suele estar alrededor de k = 6, lo que sugiere 6 grupos óptimos de departamentos.

Este número define cuántos “tipos de economías” regionales hay en el país.





10 Agrupación de departamentos según sus puntuaciones del PCA



Cluster 1: Departamentos con economías diversificadas (varios sectores fuertes).

Cluster 2: Departamentos especializados (e.g., minería o agricultura).

Cluster 3: Departamentos con menor productividad o economías pequeñas.



11 Perfil promedio de los grupos (Gráfico Radar)

Permite ver el perfil promedio de cada grupo de departamentos

Los grupos con altos valores representan economías más desarrolladas y diversificadas.

Los grupos con valores bajos representan economías más dependientes de un solo sector o de baja productividad.

Cuanto más extendida esté una línea hacia afuera, mayor es la fortaleza promedio de ese grupo en ese componente.





12 Distribución de puntuaciones (Boxplots por componente)

Permite comparar la variabilidad interna de los grupos.

Si los boxplots no se solapan entre clusters → los grupos están bien diferenciados.

Si hay mucho solapamiento → los grupos comparten características similares en esa componente.