Este documento contiene el desarrollo del Laboratorio 3 (Análisis de Componentes Principales + Cluster) en la asignatura Métodos Cuantitativos para el Análisis de la Información de la Maestría en Analítica e Inteligencia de Negocios de la Universidad del Valle. Aquí pueden consultar el enunciado del ejercicio y el código empleado para generar los resultados en el software R.

Desarrollo económico según PIB

El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un período determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total). La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB percapita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodología estudiada en clase, se espera que usted:

1. Análisis Exploratorio de Datos

    1. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.

Visualización Univariada de datos:

## Warning: Setting row names on a tibble is deprecated.
##               Agro  Minas Manufactura Suministros Construccion Comercio
## Promedio   0.00135 0.0016      0.0012     0.00036      0.00100   0.0026
## Desviacion 0.00088 0.0035      0.0012     0.00029      0.00044   0.0022
##            Informacion Financieras Inmobiliarias Administrativo Gobierno
## Promedio       0.00027     0.00040       0.00088        0.00063  0.00243
## Desviacion     0.00025     0.00045       0.00076        0.00060  0.00047
##            Entretenimiento Impuestos
## Promedio           0.00024   0.00099
## Desviacion         0.00021   0.00091

De los datos puedo definir que
Las actividades económicas con mayor promedio son: Comercio, Minas, Agro y Manufactura.
Se evidencia que la mayoría de variables tienen datos atípicos. Las únicas actividades económicas que no tienen son: Manufactura y Suministros. Por tanto, por cada actividad hay al menos un departamento que está en los extremos
Finalmente, las actividades con mayor desviación son: Comercio, Minas y Manufactura, es decir, tienen mayor dispersión en los departamentos

Análisis Bivariado de la correlación:

Maximos atipicos por sector:

##                 Departamento Valor máximo
## Agro                    Casa  0.003666048
## Minas                   Casa  0.014689725
## Manufactura             Sant  0.004515763
## Suministros             Boya  0.001080112
## Construccion            Sant  0.002254678
## Comercio                 San  0.013094263
## Informacion             Bogo  0.001321444
## Financieras             Bogo  0.002615991
## Inmobiliarias           Bogo  0.004023524
## Administrativo          Bogo  0.002641694
## Gobierno                Bogo  0.004481686
## Entretenimiento         Bogo  0.001218857
## Impuestos               Sant  0.004443086

Bogotá tiene un gran impacto en 6 de las actividades económicas, y para obtener una mejor comprensión de las relaciones entre las variables, se realiza un análisis correlacional sin considerar a Bogotá.

En el primer gráfico, se observa una mayor correlación entre las variables en comparación con el segundo gráfico, ya que se establece una relación entre el grupo de puntos y el punto atípico, lo que afecta la estructura de correlación de las variables. Por lo tanto, se decide eliminar a Bogotá, ya que es un dato atípico, y al hacerlo, se ve que disminuye la correlación, lo que permite apreciar mejor la dispersión del conjunto de datos.

Al quitar el dato atípico de Bogotá, se reduce la correlación entre las variables y se puede observar con más claridad la dispersión de los datos restantes.

2. Análisis de Componentes Principales

  1. Identifique, seleccione e interprete las estructuras latentes (Componentes Prinicipales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes)
## Importance of components:
##                          PC1    PC2    PC3     PC4     PC5     PC6    PC7
## Standard deviation     2.491 1.3355 1.2630 0.86966 0.74614 0.59123 0.4812
## Proportion of Variance 0.517 0.1486 0.1329 0.06303 0.04639 0.02913 0.0193
## Cumulative Proportion  0.517 0.6657 0.7986 0.86162 0.90801 0.93714 0.9564
##                            PC8     PC9    PC10    PC11    PC12
## Standard deviation     0.45116 0.36456 0.27344 0.26327 0.20530
## Proportion of Variance 0.01696 0.01108 0.00623 0.00578 0.00351
## Cumulative Proportion  0.97341 0.98448 0.99071 0.99649 1.00000

El análisis de componentes principales permite identificar que las tres primeras componentes explican el 79,8% de la variabilidad observada, y a partir de la tercera componente, los valores propios disminuyen progresivamente.

##                     PC1      PC2     PC3
## Agro             0.0360 -0.59603  0.3384
## Minas           -0.0200 -0.64396  0.1636
## Manufactura      0.3543  0.05425  0.1447
## Suministros      0.3193 -0.05389  0.1032
## Construccion     0.2902 -0.16682  0.1369
## Comercio         0.1434 -0.28812 -0.5820
## Informacion      0.3843  0.00311  0.0251
## Financieras      0.3597 -0.05703 -0.2055
## Inmobiliarias    0.3618 -0.03783 -0.0895
## Administrativo   0.3780  0.10188 -0.0277
## Gobierno        -0.0559 -0.20538 -0.6432
## Entretenimiento  0.3347  0.23690  0.0651

la primera componente del análisis factorial identifica una estructura latente que explica las relaciones entre 9 actividades económicas de los sectores secundario, terciario y cuaternario, y presenta coeficientes positivos altos para cada uno de ellos.

la segunda componente del análisis factorial presenta una estructura latente que explica las relaciones entre las actividades económicas del sector primario, Agro y Minería, y exhibe coeficientes negativos sustanciales para cada una de ellas, lo que permite explicar este sector de la economía.

la tercera componente del análisis factorial presenta una estructura latente que explica las relaciones entre la actividad económica del sector Gobierno y su función en el surgimiento del sector quinario, el cual se encarga de mantener el funcionamiento de la sociedad, y exhibe un coeficiente negativo sustancial para dicha actividad económica.

  1. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.

A continuación, se representan los departamentos en las tres componentes principales:

En la primera componente, los departamentos más destacados en sectores económicos como manufactura, construcción y servicios son Antioquia, Santander, Valle, Atlántico y Boyacá. En la segunda componente, los departamentos que lideran en la explotación de recursos naturales son Casanare, Meta, Arauca, Boyacá y San Andrés. En la tercera componente, los departamentos con mayor presencia de actividades administrativas gubernamentales son San Andrés, Guaviare, Vaupés, Amazonas y Valle.

  1. Utilizando los resultados de la proyección de departamentos y variables en el espacio de las componentes (biplot), genere una caracterización de la estrutura del PIB de los siguientes departamentos: Casanare, Arauca, Bogota, San Andrés, Valle del Cauca, Antioquia,Choco, Vaupes.

Caracterización de la estrutura del PIB:

Casanare - aporta desde el sector económico 5 al PIB
Arauca - aporta desde el sector económico 1 al PIB
Bogota - aporta desde los sectores económicos 2,3,4 y un poco en el 5 al PIB
San Andrés - aporta desde el sector económico 5 al PIB
Valle del Cauca - aporta desde el sector económico 1 al PIB
Antioquia - aporta desde los sectores económicos 2,3,4 al PIB
Choco - aporta desde los sectores 1, 2, 3 y 4 al PIB

3. Cluster

  1. Utilice las puntuaciones de las componentes prinicipales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.
## Cargando paquete requerido: MASS
## Cargando paquete requerido: visdat
## Cargando paquete requerido: car
## Cargando paquete requerido: carData
## Cargando paquete requerido: HSAUR2
## Cargando paquete requerido: tools
## Cargando paquete requerido: corrplot
## corrplot 0.92 loaded
## Cargando paquete requerido: plotrix
## Cargando paquete requerido: cluster
## Cargando paquete requerido: factoextra
## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Cargando paquete requerido: FactoMineR
## All packages loaded successfully

f. Utilice herramientas de visualización para describir de forma sintetica las caracteristicas globales de los grupos de departamentos sugeridos.

## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse

Conclusion Es notorio que un grupo representa al sector primario en donde se encuentran los departamentos de Arauca, Meta y Casanares. Bogota al hacer atipico queda como un cluster solo pues de alguna forma aporta a muchas actividades economicas medidas en el PIB. Sectores de industrias y servicios podemos agrupar a los departamentos en el cluster 5 pues se encuentras departamentos de desarrollo en el pais