A continuation se presenta el desarrollo del laboratorio 3, donde se nos entrega una base de datos que representa el aporte al pib para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá, y además, dividido por las 12 grandes ramas de la actividad económica en el país más el rubro de generación de impuestos.
En principio modificamos el nombre de las columnas del archivo en Excel por dos razones:
Adicional a esto, multiplicamos por 1000 cada uno de los valores de la tabla, esto con el fin de que la interpretación de los datos fuera mucho más fácil e intuitiva al momento de comparar unos con otros.
Seguido esto cargamos la hoja de datos y realizamos un análisis exploratorio de los mismos, empezando con una visualización de los valores promedios por columnas y sus desviaciones correspondientes. Esta tabla se presenta a continuación:
| Agricultura | Minas | Manufactura | Saneamiento | Construccion | Comercio | Tecnologia | ActFinancieras | ActInmobiliarias | ServProfesionales | AdminpublicaDefensa | Entretenimiento | Impuestos | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Promedio | 1.3469318 | 1.594480 | 1.171266 | 0.3579634 | 0.9957049 | 2.594859 | 0.2702870 | 0.3996166 | 0.8817689 | 0.6272299 | 2.432517 | 0.2373464 | 0.9851726 |
| Desviación | 0.8833721 | 3.536736 | 1.237353 | 0.2938338 | 0.4403262 | 2.212833 | 0.2503212 | 0.4475017 | 0.7583465 | 0.6043944 | 0.470116 | 0.2119631 | 0.9069910 |
En esta tabla podemos evidenciar que el sector de la economía que en promedio tiene la mayor proporción de aporte al pib en comparación de los otros sectores es el del Comercio, mientras el que presenta un menor aporte es el sector del Entretenimiento.
Seguido esto realizamos un gráfico de boxplot para para cada una de las columnas del dataframe con el fin de visualizar el comportamiento de los datos para cada rama de la economía. Este se presenta a continuación:
Boxplot 1.
En este gráfico podemos evidenciar que en todos los sectores de la economía (a excepción de Manufactura y Saneamiento) existe siempre un valor atípico en los datos. Entendiendo el contexto del país deducimos que este valor seguramente podía ser Bogotá, esto lo verificaremos más adelante en el informe.
Se realizó adicional un análisis bivariado de la correlación para identificar las relaciones que podían existir entre los sectores de la economía.
Revisando esto, pasamos a realizar un análisis con el fin de validar el valor atípico en las variables, donde evaluamos el dato atípico para las columnas de ServProfesionales, ActInmobiliarias y Tecnología obteniendo efectivamente a Bogotá como representación del valor atípico más marcado.
valor.atipico=boxplot.stats(pib$ServProfesionales)$out
pib[which(pib$ServProfesionales==valor.atipico),1]
valor.atipico=boxplot.stats(pib$ActInmobiliarias)$out
pib[which(pib$ActInmobiliarias==valor.atipico),1]
valor.atipico=boxplot.stats(pib$Tecnologia)$out
pib[which(pib$Tecnologia==valor.atipico),1]
Ahora si pasamos a graficar nuevamente sin tener en cuenta el dato atípico, es mucho más fácil evidenciar la relación que puede existir entre sectores de la economía cuando antes no era tan evidente, como pasa con Entretenimiento, ServProfesionales, ActInmobiliarias entre otros, donde el valor atípico en el gráfico no permitía tener una mayor visual de la distribución de los demás datos. A continuación se evidencia:
Si graficamos nuevamente un boxplot por cada uno de los sectores económicos vemos que se han eliminado valores atípicos en distintos gráficos.
Boxplot 2.
Aunque aún se siguen presentando valores atípicos en distintos sectores de la economía se decidió pasar a realizar un análisis de componentes principales dejando por fuera únicamente a Bogotá como valor atípico. Se seleccionaron tres componentes principales y graficando los datos respecto a estas tres componentes, evidenciamos que la tercera componente únicamente castigaba a San Andrés y Providencia cuya economía se basa casi que completamente en el comercio. Es así que decidimos realizar un nuevo análisis de componentes principales excluyendo tanto a Bogotá como a San Andrés en este nuevo análisis, que se presenta a continuación.
X=pib[-c(3, 28),3:15]
PCA=prcomp(X,center=TRUE,scale=TRUE)
# Cuantas componentes retener?
PCA$sdev # Raiz cuadrad de los valores propios
## [1] 2.7223814 1.4530067 1.0448593 0.8862195 0.6915674 0.5956192 0.5176743
## [8] 0.3882133 0.3689517 0.3059705 0.2669939 0.1935562 0.1003896
Var_exp=cumsum(PCA$sdev^2)*100/sum(PCA$sdev^2)
Var_exp
## [1] 57.01047 73.25069 81.64861 87.69004 91.36900 94.09794 96.15938
## [8] 97.31868 98.36580 99.08594 99.63429 99.92248 100.00000
De acuerdo con el gráfico que se presenta a continuación, se decidió seleccionar únicamente dos componentes principales, las cuales recogen el 73.25% de la Varianza Explicada.
A continuación se presentan los coeficientes que estas dos componentes asignan a cada sector de la economía, donde se puede explicar lo siguiente:
| PC1 | PC2 | |
|---|---|---|
| Agricultura | 0.0623737 | -0.5767705 |
| Minas | 0.0081229 | -0.6013397 |
| Manufactura | 0.3327469 | 0.0836186 |
| Saneamiento | 0.2906631 | -0.0097087 |
| Construccion | 0.2823714 | -0.1303444 |
| Comercio | 0.2664144 | -0.3865795 |
| Tecnologia | 0.3504716 | 0.0625601 |
| ActFinancieras | 0.3322641 | 0.0188118 |
| ActInmobiliarias | 0.3313520 | 0.0206055 |
| ServProfesionales | 0.3370778 | 0.1537076 |
| AdminpublicaDefensa | -0.0592488 | -0.1940011 |
| Entretenimiento | 0.2976524 | 0.2514565 |
| Impuestos | 0.3183945 | -0.0549700 |
Ahora bien se analiza los 2 componentes principales seleccionados contra la proyección de aporte al PIB de cada departamento. (Aun sin incluir a Bogotá y San andrés)
| PC1 | PC2 | |
|---|---|---|
| Anti | 5.7190514 | 1.1805495 |
| Atla | 3.1428209 | 1.4932790 |
| Boli | 1.5975046 | 0.4894589 |
| Boya | 2.8494919 | -1.1509853 |
| Cald | 1.8486999 | 1.0049299 |
| Caqu | -1.5980564 | 0.1219680 |
| Cauc | -0.7457649 | 0.8624431 |
| Cesa | -1.3312810 | -0.0731761 |
| Cord | -1.4560163 | 1.1571785 |
| Cund | 2.5729882 | -0.2388162 |
| Choc | -3.3721562 | 0.4454797 |
| Huil | 0.4025688 | -0.0848488 |
| La G | -1.9496552 | 0.4991702 |
| Magd | -1.5372901 | 0.4814805 |
| Meta | 1.1286545 | -3.5837162 |
| Nari | -1.6579992 | 0.7722085 |
| Nort | -0.7272368 | 1.1412802 |
| Quin | 0.9143822 | 0.0671984 |
| Risa | 2.4417982 | 1.2447241 |
| Sant | 6.2669160 | -0.5576650 |
| Sucr | -1.6643519 | 0.8759804 |
| Toli | 0.9013368 | -0.1264901 |
| Vall | 4.8136344 | 1.2460720 |
| Arau | -1.9275212 | -2.3493662 |
| Casa | 0.9281663 | -5.3373413 |
| Putu | -2.5137542 | 0.2589198 |
| Amaz | -2.3746185 | -0.3870378 |
| Guai | -3.1178703 | 0.3223959 |
| Guav | -2.7503471 | -0.7196433 |
| Vaup | -3.4136648 | 0.3015593 |
| Vich | -3.3904302 | 0.6428104 |
Representar los individuos en las componentes principales
Referente al componente 2, el cual representa los aportes provenientes de las actividades economicas basadas en el aprovechamiento de las tierras y suelo, se evidencia que el comportamiento para la mayoria de los departamentos se encuentre entre 1 y -1. Mientras que para los departamentos del Casanare, Arauca y Meta, se destaca su estrecha relación con estas actividades economicas.
Esta comparación por componentes nos permitieron ir analizando los agrupamientos que se presentaban entre departamentos.
Representación simultánea de individuos y variables
A partir de el Biplot confirmacimos las relaciones que se tenian de ambas componentes. Sore todo de la componente dos que se destaca por relacionar las puntuaciones negativas a los departamentes que se relacionan con las agricultura- minas-comercio.
Ahora bien despues de haber analizado los departamentos, nos cuestionamos como se presentarian aquellos departamentos atipicos que eliminamos en principio, por tanto los incluimos al final de la siguiente tabla.
Bogota=predict(PCA,newdata=pib[3,])[1:2]
SAI=predict(PCA,newdata=pib[28,])[1:2]
F_PCA=rbind(F_PCA,Bogota,SAI)
knitr::kable(F_PCA, align = "c")
| PC1 | PC2 | |
|---|---|---|
| Anti | 5.7190514 | 1.1805495 |
| Atla | 3.1428209 | 1.4932790 |
| Boli | 1.5975046 | 0.4894589 |
| Boya | 2.8494919 | -1.1509853 |
| Cald | 1.8486999 | 1.0049299 |
| Caqu | -1.5980564 | 0.1219680 |
| Cauc | -0.7457649 | 0.8624431 |
| Cesa | -1.3312810 | -0.0731761 |
| Cord | -1.4560163 | 1.1571785 |
| Cund | 2.5729882 | -0.2388162 |
| Choc | -3.3721562 | 0.4454797 |
| Huil | 0.4025688 | -0.0848488 |
| La G | -1.9496552 | 0.4991702 |
| Magd | -1.5372901 | 0.4814805 |
| Meta | 1.1286545 | -3.5837162 |
| Nari | -1.6579992 | 0.7722085 |
| Nort | -0.7272368 | 1.1412802 |
| Quin | 0.9143822 | 0.0671984 |
| Risa | 2.4417982 | 1.2447241 |
| Sant | 6.2669160 | -0.5576650 |
| Sucr | -1.6643519 | 0.8759804 |
| Toli | 0.9013368 | -0.1264901 |
| Vall | 4.8136344 | 1.2460720 |
| Arau | -1.9275212 | -2.3493662 |
| Casa | 0.9281663 | -5.3373413 |
| Putu | -2.5137542 | 0.2589198 |
| Amaz | -2.3746185 | -0.3870378 |
| Guai | -3.1178703 | 0.3223959 |
| Guav | -2.7503471 | -0.7196433 |
| Vaup | -3.4136648 | 0.3015593 |
| Vich | -3.3904302 | 0.6428104 |
| Bogota | 14.0301894 | 1.5734190 |
| SAI | 3.1932164 | -3.7899350 |
Para este analisis podemos adicionar el hecho de que Bogotá como capital es quien más actividades econmicas realiza y, su aporte al PIB es por mucho mayor al de otros departamentos. Para el caso de San Andrés, se puede evidenciar que destaca en la representación de la componente 2, dado que su principal actividad economica es Comercial.
Representación simultánea de individuos y variables - propongo eliminarla
Para el análisis de los clúster partimos definiendo un K=3 para el número de clústers a evaluar, y un máximo de 1000 iteracciones.
## K-means clustering with 3 clusters of sizes 15, 1, 17
##
## Cluster means:
## PC1 PC2
## 1 2.581415 -0.5429057
## 2 14.030189 1.5734190
## 3 -2.089883 0.2560971
##
## Clustering vector:
## Anti Atla Boli Boya Cald Caqu Cauc Cesa Cord Cund Choc
## 1 1 1 1 1 3 3 3 3 1 3
## Huil La G Magd Meta Nari Nort Quin Risa Sant Sucr Toli
## 1 3 3 1 3 3 1 1 1 3 1
## Vall Arau Casa Putu Amaz Guai Guav Vaup Vich Bogota SAI
## 1 3 1 3 3 3 3 3 3 2 1
##
## Within cluster sum of squares by cluster:
## [1] 106.85733 0.00000 23.63944
## (between_SS / total_SS = 73.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Las medias de los clusters indican las posiciones promedio de cada grupo en el espacio de los componentes principales. Por ejemplo, el Cluster 1 tiene una media positiva en PC1 y una media negativa en PC2, mientras que el Cluster 3 tiene una media negativa en PC1 y ligeramente positiva en PC2.
Ahora bien lo que respesta al analisis de la suma de sus cuadrados,
el Cluster 2 tiene una suma de cuadrados dentro del cluster de 0, lo
cual es esperable ya que contiene solo un elemento. La diferencia en las
sumas de cuadrados dentro de los clusters (106.85733 para el Cluster 1 y
23.63944 para el Cluster 3) indica que el Cluster 1 tiene más
variabilidad interna que el Cluster 3.
Los datos se han agrupado en tres clusters con tamaños variados, lo que sugiere que hay una diferenciación notable en los datos. El Cluster 2 contiene solo un elemento, Bogota, lo que representa que este dpartamento/ Capital es significativamente diferente de las demás en términos de los componentes principales.
Sin embargo, el hecho de que el 73.9% de la variación total se explique por los clusters indica que los clusters formados son bastante representativos de las diferencias en los datos.
Evaluación del Número adecuado de cluster
Para validar el número adecuado de cluster, se evalua las desvisación al cuadrado, y apartir de este se decide analizar los resultados con 4 y 5 clusters, en busqueda de mejorar el porcentaje de variación total.
Reagrupación considerando 4 clusters.
## K-means clustering with 4 clusters of sizes 11, 3, 18, 1
##
## Cluster means:
## PC1 PC2
## 1 3.006239 0.4229323
## 2 1.750012 -4.2369975
## 3 -1.951414 0.2371557
## 4 14.030189 1.5734190
##
## Clustering vector:
## Anti Atla Boli Boya Cald Caqu Cauc Cesa Cord Cund Choc
## 1 1 1 1 1 3 3 3 3 1 3
## Huil La G Magd Meta Nari Nort Quin Risa Sant Sucr Toli
## 3 3 3 2 3 3 1 1 1 3 1
## Vall Arau Casa Putu Amaz Guai Guav Vaup Vich Bogota SAI
## 1 3 2 3 3 3 3 3 3 4 2
##
## Within cluster sum of squares by cluster:
## [1] 41.659259 4.981752 29.616418 0.000000
## (between_SS / total_SS = 84.8 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Los datos se han agrupado en cuatro clusters con tamaños variados, lo que sugiere que hay una diferenciación notable en los datos. El Cluster 4 contiene solo un elemento, Bogota, que ya reconocemos como atipico. La diferencia en las sumas de cuadrados dentro de los clusters, se ve notablemente reducida en comparación con el ejercicio con 3 cluster,(41.65 para el Cluster 1, 4.98 para el Cluster 2, 29.61 para el Cluster 3 y 0 para el Cluster 4 el cual es unicamente Bogotá) lo que nos presenta que hay una menor variablidad interna en los cluster.
Finalmente, el hecho de que el 84.8% de la variación total se explique por los clusters sugiere que los clusters formados son altamente representativos de las diferencias en los datos.
Reagrupación considerando 5 clusters.
## K-means clustering with 5 clusters of sizes 1, 3, 17, 3, 9
##
## Cluster means:
## PC1 PC2
## 1 14.030189 1.5734190
## 2 5.599867 0.6229855
## 3 -2.089883 0.2560971
## 4 1.750012 -4.2369975
## 5 1.852399 0.2998278
##
## Clustering vector:
## Anti Atla Boli Boya Cald Caqu Cauc Cesa Cord Cund Choc
## 2 5 5 5 5 3 3 3 3 5 3
## Huil La G Magd Meta Nari Nort Quin Risa Sant Sucr Toli
## 5 3 3 4 3 3 5 5 2 3 5
## Vall Arau Casa Putu Amaz Guai Guav Vaup Vich Bogota SAI
## 2 3 4 3 3 3 3 3 3 1 4
##
## Within cluster sum of squares by cluster:
## [1] 0.000000 3.170371 23.639444 4.981752 13.106530
## (between_SS / total_SS = 91.0 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Finalmente se explorá la agrupación de 5 clusters. La alta proporción de variación explicada por los clusters (91.0%) sugiere que la agrupación es muy efectiva en capturar las diferencias presentes en los datos.
Evaluación de la adecuación de los grupos conformados
Con el fin de evaluar la adecuada selección de los cluster, se realiza la siguiente comparación:
La selección de cuatro clusters es una buena opción para explicar los grupos en el conjunto de datos F_PCA. Se obtiene un 84.8% de varianza explicada, los tamaños de los clusters son variados, con la mayoría de las observaciones agrupadas en tres clusters principales y un cluster adicional que captura una observación atípica (Bogota).La media de los componentes principales para cada cluster muestra una clara diferenciación entre los grupos. Esta distribución sugiere una buena diferenciación entre las observaciones sin crear clusters excesivamente pequeños o grandes
Con cuatro clusters, los resultados son más interpretables y manejables, permitiendo una mejor comprensión y análisis de los patrones subyacentes en los datos, que finalmente vienen siendo los grupos de departamentos que comparten una similaridad en su estructura de generación en valor agregado.
Actualización de la Hoja de Datos - visualizacion de grupos
A continuación se presenta una representación grafica univariante de los cluster en cada uno de los sectores de la economía.
Representación grafica multivariante de los cluster
En el siguiente gráfico podemos ver gráficamente cómo se separan los
departamentos en los cuatro clústers.
Podemos evidenciar los cuatro clústers en cuanto al aporte de los
departamentos al PIB de Colombia, influidos además por los sectores de
la economía donde cada departamento es más fuerte. Donde evidenciamos
que existe un grupo de con departamentos representados en color naranja,
que son aquellos más desarrollados y que por lo tanto tienen un mayor
performance general en cuanto al aporte per cápita del PIB, que existe
además un grupo mayor de departamentos representados en color azul cuyo
aporte al PIB es más bien controlado y regular, en parte porque son
departamentos que no están tan desarrollados y cuya aporte es mayor en
sectores más específicos de la economía. Seguidos esto tenemos los
departamentos del Meta, Casanare y San Andrés cuya economía se basa casi
que completamente en la minería y comercio, y por último vemos a Bogotá
D.C. como un clúster independiente, donde vemos que es necesario
manejarlo como una entidad aparte por la coyuntura que presenta como
capital del país.
El análisis de componentes principales junto con los métodos de clustering nos permiten poder conocer el comportamiento de grandes cantidades de datos a través del uso de pocas variables y de la agrupación de elementos, que son métodologías que pueden aportar en gran medida el entendimiento de estos datos de una forma bastante visual y no tan compleja para el entendimiento del analista.
Dentro del análisis de componentes principales es importante tener en cuenta los puntos influyentes o valores atípicos dentro de la base de datos, dado que al momento de realizar el análisis de componentes principales, estos valores atípicos pueden generar componentes sesgadas por el comportamiento único de estos datos y que realmente no aporten mucho al entendimiento del comportamiento de los datos en general. Por ende para realizar el análisis de componentes principales es recomendable sacar estos datos de la base para luego incluirlos dentro del análisis como variables independientes.