A continuation se presenta el desarrollo del laboratorio 3, donde se nos entrega una base de datos que representa el aporte al pib para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá, y además, dividido por las 12 grandes ramas de la actividad económica en el país más el rubro de generación de impuestos.

En principio modificamos el nombre de las columnas del archivo en Excel por dos razones:

  1. Evitar que al cargar los datos en R los nombres que tuvieran tildes o espacios pudieran generar errores.
  2. Hacer más fácil la visualización de los datos en gráficos, dado que al tener nombres tan grandes se superponían unos sobre otros.

Adicional a esto, multiplicamos por 1000 cada uno de los valores de la tabla, esto con el fin de que la interpretación de los datos fuera mucho más fácil e intuitiva al momento de comparar unos con otros.

1. Análisis Exploratorio de Datos

Seguido esto cargamos la hoja de datos y realizamos un análisis exploratorio de los mismos, empezando con una visualización de los valores promedios por columnas y sus desviaciones correspondientes. Esta tabla se presenta a continuación:

Tabla 1. Resumen de datos
Agricultura Minas Manufactura Saneamiento Construccion Comercio Tecnologia ActFinancieras ActInmobiliarias ServProfesionales AdminpublicaDefensa Entretenimiento Impuestos
Promedio 1.3469318 1.594480 1.171266 0.3579634 0.9957049 2.594859 0.2702870 0.3996166 0.8817689 0.6272299 2.432517 0.2373464 0.9851726
Desviación 0.8833721 3.536736 1.237353 0.2938338 0.4403262 2.212833 0.2503212 0.4475017 0.7583465 0.6043944 0.470116 0.2119631 0.9069910

En esta tabla podemos evidenciar que el sector de la economía que en promedio tiene la mayor proporción de aporte al pib en comparación de los otros sectores es el del Comercio, mientras el que presenta un menor aporte es el sector del Entretenimiento.

Seguido esto realizamos un gráfico de boxplot para para cada una de las columnas del dataframe con el fin de visualizar el comportamiento de los datos para cada rama de la economía. Este se presenta a continuación:

Boxplot 1.

En este gráfico podemos evidenciar que en todos los sectores de la economía (a excepción de Manufactura y Saneamiento) existe siempre un valor atípico en los datos. Entendiendo el contexto del país deducimos que este valor seguramente podía ser Bogotá, esto lo verificaremos más adelante en el informe.

Se realizó adicional un análisis bivariado de la correlación para identificar las relaciones que podían existir entre los sectores de la economía.

Revisando esto, pasamos a realizar un análisis con el fin de validar el valor atípico en las variables, donde evaluamos el dato atípico para las columnas de ServProfesionales, ActInmobiliarias y Tecnología obteniendo efectivamente a Bogotá como representación del valor atípico más marcado.

valor.atipico=boxplot.stats(pib$ServProfesionales)$out
pib[which(pib$ServProfesionales==valor.atipico),1]

valor.atipico=boxplot.stats(pib$ActInmobiliarias)$out
pib[which(pib$ActInmobiliarias==valor.atipico),1]

valor.atipico=boxplot.stats(pib$Tecnologia)$out
pib[which(pib$Tecnologia==valor.atipico),1]

Ahora si pasamos a graficar nuevamente sin tener en cuenta el dato atípico, es mucho más fácil evidenciar la relación que puede existir entre sectores de la economía cuando antes no era tan evidente, como pasa con Entretenimiento, ServProfesionales, ActInmobiliarias entre otros, donde el valor atípico en el gráfico no permitía tener una mayor visual de la distribución de los demás datos. A continuación se evidencia:

Si graficamos nuevamente un boxplot por cada uno de los sectores económicos vemos que se han eliminado valores atípicos en distintos gráficos.

Boxplot 2.

Aunque aún se siguen presentando valores atípicos en distintos sectores de la economía se decidió pasar a realizar un análisis de componentes principales dejando por fuera únicamente a Bogotá como valor atípico. Se seleccionaron tres componentes principales y graficando los datos respecto a estas tres componentes, evidenciamos que la tercera componente únicamente castigaba a San Andrés y Providencia cuya economía se basa casi que completamente en el comercio. Es así que decidimos realizar un nuevo análisis de componentes principales excluyendo tanto a Bogotá como a San Andrés en este nuevo análisis, que se presenta a continuación.

2. Análisis de Componentes Principales

X=pib[-c(3, 28),3:15] 

PCA=prcomp(X,center=TRUE,scale=TRUE)

# Cuantas componentes retener? 
PCA$sdev      # Raiz cuadrad de los valores propios
##  [1] 2.7223814 1.4530067 1.0448593 0.8862195 0.6915674 0.5956192 0.5176743
##  [8] 0.3882133 0.3689517 0.3059705 0.2669939 0.1935562 0.1003896
Var_exp=cumsum(PCA$sdev^2)*100/sum(PCA$sdev^2)
Var_exp
##  [1]  57.01047  73.25069  81.64861  87.69004  91.36900  94.09794  96.15938
##  [8]  97.31868  98.36580  99.08594  99.63429  99.92248 100.00000

De acuerdo con el gráfico que se presenta a continuación, se decidió seleccionar únicamente dos componentes principales, las cuales recogen el 73.25% de la Varianza Explicada.

A continuación se presentan los coeficientes que estas dos componentes asignan a cada sector de la economía, donde se puede explicar lo siguiente:

  • La primera componente trata de explicarnos un comportamiento general del aporte al PIB de cada sector económico.
  • La segunda componente se puede dividir en dos categorías, donde las más negativas representa los departamentos en los cuales su economía puede estar más ligada al aprovechamiento de las tierras y del suelo, mientras que las más positivas hacen referencia a aquellos cuya economía está más ligada a la prestación de servicios.
PC1 PC2
Agricultura 0.0623737 -0.5767705
Minas 0.0081229 -0.6013397
Manufactura 0.3327469 0.0836186
Saneamiento 0.2906631 -0.0097087
Construccion 0.2823714 -0.1303444
Comercio 0.2664144 -0.3865795
Tecnologia 0.3504716 0.0625601
ActFinancieras 0.3322641 0.0188118
ActInmobiliarias 0.3313520 0.0206055
ServProfesionales 0.3370778 0.1537076
AdminpublicaDefensa -0.0592488 -0.1940011
Entretenimiento 0.2976524 0.2514565
Impuestos 0.3183945 -0.0549700

Ahora bien se analiza los 2 componentes principales seleccionados contra la proyección de aporte al PIB de cada departamento. (Aun sin incluir a Bogotá y San andrés)

PC1 PC2
Anti 5.7190514 1.1805495
Atla 3.1428209 1.4932790
Boli 1.5975046 0.4894589
Boya 2.8494919 -1.1509853
Cald 1.8486999 1.0049299
Caqu -1.5980564 0.1219680
Cauc -0.7457649 0.8624431
Cesa -1.3312810 -0.0731761
Cord -1.4560163 1.1571785
Cund 2.5729882 -0.2388162
Choc -3.3721562 0.4454797
Huil 0.4025688 -0.0848488
La G -1.9496552 0.4991702
Magd -1.5372901 0.4814805
Meta 1.1286545 -3.5837162
Nari -1.6579992 0.7722085
Nort -0.7272368 1.1412802
Quin 0.9143822 0.0671984
Risa 2.4417982 1.2447241
Sant 6.2669160 -0.5576650
Sucr -1.6643519 0.8759804
Toli 0.9013368 -0.1264901
Vall 4.8136344 1.2460720
Arau -1.9275212 -2.3493662
Casa 0.9281663 -5.3373413
Putu -2.5137542 0.2589198
Amaz -2.3746185 -0.3870378
Guai -3.1178703 0.3223959
Guav -2.7503471 -0.7196433
Vaup -3.4136648 0.3015593
Vich -3.3904302 0.6428104

Representar los individuos en las componentes principales

El grafico de la componente 1 nos presenta los departamentos que presentan mayor participación en general con las diferentes actividades economicas que aportan al PIB, de estas se pueden destacar las ciudades principales como lo son, Santander, Antioquia o el Valle del Cauca. En el caso contrario los departamentos con menos evaluación para esta componente, son relacionados con actividades de agricultura o minas, y que en general no demuestran un fuerte general de aporte para las diferentes actividades economicas.

Referente al componente 2, el cual representa los aportes provenientes de las actividades economicas basadas en el aprovechamiento de las tierras y suelo, se evidencia que el comportamiento para la mayoria de los departamentos se encuentre entre 1 y -1. Mientras que para los departamentos del Casanare, Arauca y Meta, se destaca su estrecha relación con estas actividades economicas.

Comparación de componentes en un mismo plano por departamentos

Esta comparación por componentes nos permitieron ir analizando los agrupamientos que se presentaban entre departamentos.

Representación simultánea de individuos y variables

A partir de el Biplot confirmacimos las relaciones que se tenian de ambas componentes. Sore todo de la componente dos que se destaca por relacionar las puntuaciones negativas a los departamentes que se relacionan con las agricultura- minas-comercio.

Ahora bien despues de haber analizado los departamentos, nos cuestionamos como se presentarian aquellos departamentos atipicos que eliminamos en principio, por tanto los incluimos al final de la siguiente tabla.

Bogota=predict(PCA,newdata=pib[3,])[1:2]
SAI=predict(PCA,newdata=pib[28,])[1:2]
F_PCA=rbind(F_PCA,Bogota,SAI)
knitr::kable(F_PCA, align = "c")
PC1 PC2
Anti 5.7190514 1.1805495
Atla 3.1428209 1.4932790
Boli 1.5975046 0.4894589
Boya 2.8494919 -1.1509853
Cald 1.8486999 1.0049299
Caqu -1.5980564 0.1219680
Cauc -0.7457649 0.8624431
Cesa -1.3312810 -0.0731761
Cord -1.4560163 1.1571785
Cund 2.5729882 -0.2388162
Choc -3.3721562 0.4454797
Huil 0.4025688 -0.0848488
La G -1.9496552 0.4991702
Magd -1.5372901 0.4814805
Meta 1.1286545 -3.5837162
Nari -1.6579992 0.7722085
Nort -0.7272368 1.1412802
Quin 0.9143822 0.0671984
Risa 2.4417982 1.2447241
Sant 6.2669160 -0.5576650
Sucr -1.6643519 0.8759804
Toli 0.9013368 -0.1264901
Vall 4.8136344 1.2460720
Arau -1.9275212 -2.3493662
Casa 0.9281663 -5.3373413
Putu -2.5137542 0.2589198
Amaz -2.3746185 -0.3870378
Guai -3.1178703 0.3223959
Guav -2.7503471 -0.7196433
Vaup -3.4136648 0.3015593
Vich -3.3904302 0.6428104
Bogota 14.0301894 1.5734190
SAI 3.1932164 -3.7899350

Para este analisis podemos adicionar el hecho de que Bogotá como capital es quien más actividades econmicas realiza y, su aporte al PIB es por mucho mayor al de otros departamentos. Para el caso de San Andrés, se puede evidenciar que destaca en la representación de la componente 2, dado que su principal actividad economica es Comercial.

Representación simultánea de individuos y variables - propongo eliminarla

3. Cluster - Departamentos con similaridad en su estructura de generación en valor agregado.

Para el análisis de los clúster partimos definiendo un K=3 para el número de clústers a evaluar, y un máximo de 1000 iteracciones.

## K-means clustering with 3 clusters of sizes 15, 1, 17
## 
## Cluster means:
##         PC1        PC2
## 1  2.581415 -0.5429057
## 2 14.030189  1.5734190
## 3 -2.089883  0.2560971
## 
## Clustering vector:
##   Anti   Atla   Boli   Boya   Cald   Caqu   Cauc   Cesa   Cord   Cund   Choc 
##      1      1      1      1      1      3      3      3      3      1      3 
##   Huil   La G   Magd   Meta   Nari   Nort   Quin   Risa   Sant   Sucr   Toli 
##      1      3      3      1      3      3      1      1      1      3      1 
##   Vall   Arau   Casa   Putu   Amaz   Guai   Guav   Vaup   Vich Bogota    SAI 
##      1      3      1      3      3      3      3      3      3      2      1 
## 
## Within cluster sum of squares by cluster:
## [1] 106.85733   0.00000  23.63944
##  (between_SS / total_SS =  73.9 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Las medias de los clusters indican las posiciones promedio de cada grupo en el espacio de los componentes principales. Por ejemplo, el Cluster 1 tiene una media positiva en PC1 y una media negativa en PC2, mientras que el Cluster 3 tiene una media negativa en PC1 y ligeramente positiva en PC2.

Ahora bien lo que respesta al analisis de la suma de sus cuadrados, el Cluster 2 tiene una suma de cuadrados dentro del cluster de 0, lo cual es esperable ya que contiene solo un elemento. La diferencia en las sumas de cuadrados dentro de los clusters (106.85733 para el Cluster 1 y 23.63944 para el Cluster 3) indica que el Cluster 1 tiene más variabilidad interna que el Cluster 3.

Los datos se han agrupado en tres clusters con tamaños variados, lo que sugiere que hay una diferenciación notable en los datos. El Cluster 2 contiene solo un elemento, Bogota, lo que representa que este dpartamento/ Capital es significativamente diferente de las demás en términos de los componentes principales.

Sin embargo, el hecho de que el 73.9% de la variación total se explique por los clusters indica que los clusters formados son bastante representativos de las diferencias en los datos.

Evaluación del Número adecuado de cluster

Para validar el número adecuado de cluster, se evalua las desvisación al cuadrado, y apartir de este se decide analizar los resultados con 4 y 5 clusters, en busqueda de mejorar el porcentaje de variación total.

Reagrupación considerando 4 clusters.

## K-means clustering with 4 clusters of sizes 11, 3, 18, 1
## 
## Cluster means:
##         PC1        PC2
## 1  3.006239  0.4229323
## 2  1.750012 -4.2369975
## 3 -1.951414  0.2371557
## 4 14.030189  1.5734190
## 
## Clustering vector:
##   Anti   Atla   Boli   Boya   Cald   Caqu   Cauc   Cesa   Cord   Cund   Choc 
##      1      1      1      1      1      3      3      3      3      1      3 
##   Huil   La G   Magd   Meta   Nari   Nort   Quin   Risa   Sant   Sucr   Toli 
##      3      3      3      2      3      3      1      1      1      3      1 
##   Vall   Arau   Casa   Putu   Amaz   Guai   Guav   Vaup   Vich Bogota    SAI 
##      1      3      2      3      3      3      3      3      3      4      2 
## 
## Within cluster sum of squares by cluster:
## [1] 41.659259  4.981752 29.616418  0.000000
##  (between_SS / total_SS =  84.8 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Los datos se han agrupado en cuatro clusters con tamaños variados, lo que sugiere que hay una diferenciación notable en los datos. El Cluster 4 contiene solo un elemento, Bogota, que ya reconocemos como atipico. La diferencia en las sumas de cuadrados dentro de los clusters, se ve notablemente reducida en comparación con el ejercicio con 3 cluster,(41.65 para el Cluster 1, 4.98 para el Cluster 2, 29.61 para el Cluster 3 y 0 para el Cluster 4 el cual es unicamente Bogotá) lo que nos presenta que hay una menor variablidad interna en los cluster.

Finalmente, el hecho de que el 84.8% de la variación total se explique por los clusters sugiere que los clusters formados son altamente representativos de las diferencias en los datos.

Reagrupación considerando 5 clusters.

## K-means clustering with 5 clusters of sizes 1, 3, 17, 3, 9
## 
## Cluster means:
##         PC1        PC2
## 1 14.030189  1.5734190
## 2  5.599867  0.6229855
## 3 -2.089883  0.2560971
## 4  1.750012 -4.2369975
## 5  1.852399  0.2998278
## 
## Clustering vector:
##   Anti   Atla   Boli   Boya   Cald   Caqu   Cauc   Cesa   Cord   Cund   Choc 
##      2      5      5      5      5      3      3      3      3      5      3 
##   Huil   La G   Magd   Meta   Nari   Nort   Quin   Risa   Sant   Sucr   Toli 
##      5      3      3      4      3      3      5      5      2      3      5 
##   Vall   Arau   Casa   Putu   Amaz   Guai   Guav   Vaup   Vich Bogota    SAI 
##      2      3      4      3      3      3      3      3      3      1      4 
## 
## Within cluster sum of squares by cluster:
## [1]  0.000000  3.170371 23.639444  4.981752 13.106530
##  (between_SS / total_SS =  91.0 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Finalmente se explorá la agrupación de 5 clusters. La alta proporción de variación explicada por los clusters (91.0%) sugiere que la agrupación es muy efectiva en capturar las diferencias presentes en los datos.

Evaluación de la adecuación de los grupos conformados

Con el fin de evaluar la adecuada selección de los cluster, se realiza la siguiente comparación:

La selección de cuatro clusters es una buena opción para explicar los grupos en el conjunto de datos F_PCA. Se obtiene un 84.8% de varianza explicada, los tamaños de los clusters son variados, con la mayoría de las observaciones agrupadas en tres clusters principales y un cluster adicional que captura una observación atípica (Bogota).La media de los componentes principales para cada cluster muestra una clara diferenciación entre los grupos. Esta distribución sugiere una buena diferenciación entre las observaciones sin crear clusters excesivamente pequeños o grandes

Con cuatro clusters, los resultados son más interpretables y manejables, permitiendo una mejor comprensión y análisis de los patrones subyacentes en los datos, que finalmente vienen siendo los grupos de departamentos que comparten una similaridad en su estructura de generación en valor agregado.

Actualización de la Hoja de Datos - visualizacion de grupos

A continuación se presenta una representación grafica univariante de los cluster en cada uno de los sectores de la economía.

Representación grafica multivariante de los cluster

En el siguiente gráfico podemos ver gráficamente cómo se separan los departamentos en los cuatro clústers. Podemos evidenciar los cuatro clústers en cuanto al aporte de los departamentos al PIB de Colombia, influidos además por los sectores de la economía donde cada departamento es más fuerte. Donde evidenciamos que existe un grupo de con departamentos representados en color naranja, que son aquellos más desarrollados y que por lo tanto tienen un mayor performance general en cuanto al aporte per cápita del PIB, que existe además un grupo mayor de departamentos representados en color azul cuyo aporte al PIB es más bien controlado y regular, en parte porque son departamentos que no están tan desarrollados y cuya aporte es mayor en sectores más específicos de la economía. Seguidos esto tenemos los departamentos del Meta, Casanare y San Andrés cuya economía se basa casi que completamente en la minería y comercio, y por último vemos a Bogotá D.C. como un clúster independiente, donde vemos que es necesario manejarlo como una entidad aparte por la coyuntura que presenta como capital del país.

Conclusiones

El análisis de componentes principales junto con los métodos de clustering nos permiten poder conocer el comportamiento de grandes cantidades de datos a través del uso de pocas variables y de la agrupación de elementos, que son métodologías que pueden aportar en gran medida el entendimiento de estos datos de una forma bastante visual y no tan compleja para el entendimiento del analista.

Dentro del análisis de componentes principales es importante tener en cuenta los puntos influyentes o valores atípicos dentro de la base de datos, dado que al momento de realizar el análisis de componentes principales, estos valores atípicos pueden generar componentes sesgadas por el comportamiento único de estos datos y que realmente no aporten mucho al entendimiento del comportamiento de los datos en general. Por ende para realizar el análisis de componentes principales es recomendable sacar estos datos de la base para luego incluirlos dentro del análisis como variables independientes.