Introduccion

Este informe presenta un análisis del Producto Interno Bruto (PIB) per cápita de Colombia en el año 2018, utilizando la hoja de datos PIBpc.xlsx. El PIB, una medida clave de la actividad económica, refleja el valor total de la producción de bienes y servicios dentro de un país durante un año. En Colombia, el PIB es calculado por el DANE, considerando 13 sectores económicos, incluyendo la generación de impuestos. Este estudio se enfoca en las 33 divisiones administrativas del país, examinando cómo factores como la geografía, los recursos naturales, la cultura y la población influyen en la economía regional. Mediante el Análisis de Componentes Principales, se busca entender la heterogeneidad de las fortalezas productivas entre los departamentos

Analisis Exploratorio

Se utiliza gráficos Boxplot para examinar los datos por cada unidad administrativa y sector económico. El conjunto de datos proporcionado no muestra ninguna ausencia de información, lo que permite comenzar con la visualización de los datos del Producto Interno Bruto (PIB). Los gráficos revelan la presencia de varios valores atípicos en sectores como la minería, el comercio y las finanzas. Por ejemplo, Casanare genera la mayor parte del PIB en el sector minero, mientras que Amazonas registra el PIB per cápita más bajo para la misma actividad. De manera similar, en el sector financiero, Vaupés tiene el PIB per cápita más bajo y Bogotá el más alto.Bogotá representa un punto atípico en varias actividades económicas, de seguir con este dato es posible que se llegue a datos no coherentes en el análisis, por lo cual se decidió eliminar a Bogotá

##               Columna     Promedio    Desv.Est.
## 1         Agricultura 0.0013469318 0.0008833721
## 2               Minas 0.0015944798 0.0035367364
## 3      Manufactureras 0.0011712657 0.0012373528
## 4  Servicios_Publicos 0.0003579634 0.0002938338
## 5        Construcción 0.0009957049 0.0004403262
## 6            Comercio 0.0025948588 0.0022128334
## 7      Comunicaciones 0.0002702870 0.0002503212
## 8         Financieras 0.0003996166 0.0004475017
## 9       Inmobiliarias 0.0008817689 0.0007583465
## 10      Profesionales 0.0006272299 0.0006043944
## 11        Adm_publica 0.0024325172 0.0004701160
## 12    Entretenimiento 0.0002373464 0.0002119631
## 13          Impuestos 0.0009851726 0.0009069910

Boxtplot

Como se tomó la decisión de excluir a Bogotá se elaboraron dos gráficos de correlación para verificar cual es el cambio con el dato quitado. una de las diferencias más notables es que las actividades inmobiliarias y financieras ya no muestran la mayor correlación. Ahora, las actividades de información y comunicaciones junto con las actividades profesionales han tomado la delantera en términos de correlación.

La actividad económica de las comunicaciones muestra una correlación más fuerte con las demás actividades. Un patrón similar se observa con las actividades artísticas y de entretenimiento.

Matriz correlaciones entre variables teniendo en cuenta Bogotá

Matriz correlaciones entre variables sin Bogotá

Análisis de Componentes Principales

Siguiendo la teoría estadística, fue la normalización de los datos. Este proceso ajusta las variables para que todas tengan una media de cero y una desviación estándar de uno. Después de la normalización, se aplicó el criterio del porcentaje de varianza explicada para seleccionar las componentes principales del conjunto de datos.

En este caso, se seleccionaron las dos primeras componentes principales, que juntas explican el 67.14% de la varianza total del conjunto de datos. Estas dos componentes capturan más de la mitad de la información contenida en el conjunto de datos, lo que las convierte en una representación eficiente de los datos originales para su análisis posterior. la selección de componentes principales es un equilibrio entre la simplicidad (menos componentes) y la retención de información (más varianza explicada). En este caso, las dos primeras componentes proporcionan un buen equilibrio, ya que explican una gran parte de la varianza con solo dos dimensiones.

##  [1] 2.6303240 1.3453970 1.2664501 0.9121430 0.7462364 0.6024186 0.5819967
##  [8] 0.4528912 0.3725902 0.3267459 0.2670861 0.2118497 0.0999633

Primera Componente (PC1): Todas las barras son verdes y están por encima del eje horizontal, lo que indica valores positivos. Las actividades con valores positivos más altos representan manufactura, comunicaciones, finanzas e inmobiliaria, estas actividades son indicativas de departamentos con mayor desarrollo económico y capacidad de generación de riqueza. las actividades de minería y Administración pública muestran valores menos significativos o negativos barras rojas, lo que podría se puede deducir como una menor contribución al desarrollo económico en las regiones donde predominan.

Segunda Componente (PC2): Las barras rojas debajo del eje y barras verdes encima de él. La presencia de actividades económicas del sector primario, como la agricultura y la minería, que tienden a tener valores negativos en esta componente. La actividad con el valor positivo más alto, como actividades artísticas, de entretenimiento y recreación, así como otras actividades de servicios, que no representan al sector primario.

En el gráfico de la Componente 1 (PC1): se destaca que los departamentos de Antioquia, Santandery Valle del Cauca se ubican en la parte derecha, lo que indica que poseen un alto nivel de desarrollo global. Esto se debe a que estos departamentos son centros de actividades importantes como la manufactura, las comunicaciones, las finanzas y el sector inmobiliario.

En el gráfico de la Componente 1 (PC1): se destaca que los departamentos de Antioquia, Santander y Valle del Cauca se ubican en la parte derecha, lo que indica que poseen un alto nivel de desarrollo global. Esto se debe a que estos departamentos son centros de actividades importantes como la manufactura, las comunicaciones, las finanzas y el sector inmobiliario.

En el gráfico de la Componente 2 (CP2): se observa que los departamentos que se enfocan en el sector primario, como el Casanare, se destacan. Esto sugiere que estas regiones se dedican principalmente a actividades de agricultura o minería. Este hallazgo se ve respaldadopor el boxplot de Meta, que muestra un valor atípicamente alto para estas actividades

Se utiliza los resultados de la proyección de los departamentos y las variables en el espacio de las componentes para categorizar los departamentos de Colombia según su estructura del PIB.

En el cuadrante superior derecho: encontramos a los departamentos de Antioquia, Valle y Bogotá. Estos departamentos son conocidos por su alta generación de riqueza, la cual se atribuye a su rendimiento en sectores como la manufactura, el entretenimiento, los servicios profesionales y las comunicaciones.

En el cuadrante inferior derecho: se ubican San Andrés, Providencia y Santa Catalina. En estos departamentos, las actividades económicas principales son el comercio y la administración pública.

En el cuadrante superior izquierdo: se encuentran Chocó y Vaupés. Estos departamentos tienen un desarrollo económico y productividad menores debido a que no poseen fortalezas significativas en ninguna actividad económica

en el cuadrante inferior izquierdo: se ubican Casanare y Arauca. Estos departamentos son importantes en actividades como la agricultura, la minería y la administración pública, pero en términos generales, tienen un bajo nivel de generación de riqueza.

El gráfico clasifica los departamentos de Colombia según su estructura económica, utilizando el análisis de componentes principales basado en datos de actividad económica

Antioquia, Valle y Bogotá: Se destacan en el cuadrante superior derecho, indicando una alta generación de riqueza y un desempeño económico sólido en sectores como manufactura, entretenimiento, servicios profesionales y comunicaciones.

San Andrés, Providencia y Santa Catalina: Ubicados en el cuadrante inferior derecho, se enfocan en el comercio y la administración pública como actividades económicas principales.

Chocó y Vaupés: En el cuadrante superior izquierdo, muestran un menor desarrollo económico y productividad, sin sectores económicos destacados.

Casanare y Arauca: Ubicados en el cuadrante inferior izquierdo, son importantes en agricultura, minería y administración pública, pero su contribución a la riqueza general baja.

Comenzamos con un valor inicial de k=4 para el algoritmo de K-means, ya que inferimos que sería una buena elección. Esta inferencia se basó en la posibilidad de clasificar los departamentos en 4 cuadrantes, y también porque este valor estaba cerca del obtenido a través de las puntuaciones de las componentes principales.

También consideramos la opción de k=3. Para poder comparar ambos escenarios, utilizamos el gráfico de Silhouette para k=3 y k=4. Este gráfico nos permite evaluar la calidad de los clusters generados por el algoritmo de K-means, mostrando cuán cerca están los puntos en un cluster a los puntos en los clusters vecinos.

k=4 resulta ser el número de clusters en el que la suma de cuadrados del error parece estabilizarse. Esto es un indicativo de que hemos encontrado un número óptimo de clusters

## K-means clustering with 4 clusters of sizes 3, 10, 3, 16
## 
## Cluster means:
##          PC1        PC2
## 1  5.5553543  0.3817436
## 2  1.7195926  0.1682134
## 3 -0.3926474 -3.4232832
## 4 -2.0427529  0.4651553
## 
## Clustering vector:
## Anti Atla Boli Boya Cald Caqu Cauc Cesa Cord Cund Choc Huil La G Magd Meta Nari 
##    1    2    2    2    2    4    4    4    4    2    4    2    4    4    3    4 
## Nort Quin Risa Sant Sucr Toli Vall Arau Casa Putu  San Amaz Guai Guav Vaup Vich 
##    4    2    2    1    4    2    1    3    3    4    2    4    4    4    4    4 
## 
## Within cluster sum of squares by cluster:
## [1]  3.634813 15.569474  6.797260 15.865608
##  (between_SS / total_SS =  84.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Con el agrupamiento de k=4 se obtienen 4 grupos de tamaños 10, 3, 16, 3, con la siguiente distribución de componentes principales:

## K-means clustering with 4 clusters of sizes 6, 8, 3, 15
## 
## Cluster means:
##         [,1]
## 1  2.3451515
## 2  0.3310733
## 3  5.5553543
## 4 -2.2257039
## 
## Clustering vector:
## Anti Atla Boli Boya Cald Caqu Cauc Cesa Cord Cund Choc Huil La G Magd Meta Nari 
##    3    1    1    1    1    4    2    4    4    1    4    2    4    4    2    4 
## Nort Quin Risa Sant Sucr Toli Vall Arau Casa Putu  San Amaz Guai Guav Vaup Vich 
##    2    2    1    3    4    2    3    4    2    4    2    4    4    4    4    4 
## 
## Within cluster sum of squares by cluster:
## [1] 1.495928 3.275021 1.029043 7.909206
##  (between_SS / total_SS =  93.6 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

En el siguiente gráfico se puede observar la composición de los clústers, y el listado de los departamentos agrupados

Cluster 1: Atlántico - Bolívar - Boyacá - Caldas - Cundinamarca - Huila - Quindio - Risaralda - Tolima - San Andrés

Cluster 2: Meta - Arauca - Casanare Cluster 3: Caquetá - Cauca - Cesar - Córdoba - Chocó - La Guajira - Magdalena - Nariño - Norte de Santander - Sucre - Putumayo - Amazonas - Guainía - Guaviare - Vaupés - Vichada

Clúster 3: Este clúster agrupa a los departamentos con el menor desarrollo económico del país. Sus actividades se centran en los sectores primario y secundario, tales como la agricultura, la ganadería, la caza, la silvicultura, la pesca y la minería. A pesar de tener abundantes recursos naturales, estos departamentos enfrentan retos significativos en cuanto a infraestructura y servicios.

Cluster 4: Antioquia - Santander - Valle Finalmente para culminar con el análisis de los clúster, se realiza un gráfico de Boxplot de cada una de las actividades con los 4 clúster.

## Too few points to calculate an ellipse

Concluciones

Clúster 1: Este grupo está compuesto por departamentos que se concentran en el sector primario. Sus principales actividades económicas son la agricultura, la ganadería, la caza, la silvicultura, la pesca y la minería. En resumen, la explotación de recursos naturales es la base de su economía.

Clúster 2: Identificado por un desarrollo económico generalmente bajo, este clúster se dedica sobre todo a sectores primarios y secundarios, incluyendo la agricultura, la ganadería, la caza, la silvicultura, la pesca y la minería.

Clúster 3: Este clúster agrupa a los departamentos con el menor desarrollo económico del país. Sus actividades se centran en los sectores primario y secundario, tales como la agricultura, la ganadería, la caza, la silvicultura, la pesca y la minería. A pesar de tener abundantes recursos naturales, estos departamentos enfrentan retos significativos en cuanto a infraestructura y servicios.

Clúster 4: Este clúster incluye a los departamentos más desarrollados económicamente, con una participación predominante en el sector terciario. Engloba actividades económicas diversas como las financieras, inmobiliarias, profesionales, artísticas, de servicios, administrativas, y de información y comunicaciones. Bogotá es parte de este grupo debido a su desarrollo económico y diversificación. Los departamentos de este clúster disfrutan de un alto nivel de vida y una gran diversidad de sectores económicos.