Este documento contiene el desarrollo del Laboratorio 3 (Análisis de Componentes Principales + Cluster) en la asignatura Métodos Cuantitativos para el Análisis de la Información de la MaestrÃa en AnalÃtica e Inteligencia de Negocios de la Universidad del Valle. Aquà pueden consultar el enunciado del ejercicio y el código empleado para generar los resultados en el software R.
El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un perÃodo determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de EstadÃstica (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el paÃs + el rubro de generación de impuestos (13 agrupaciones en total). La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB percapita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodologÃa estudiada en clase, se espera que usted:
Visualización Univariada de datos:
## Warning: Setting row names on a tibble is deprecated.
## Agro Minas Manufactura Suministros Construccion Comercio
## Promedio 0.00135 0.0016 0.0012 0.00036 0.00100 0.0026
## Desviacion 0.00088 0.0035 0.0012 0.00029 0.00044 0.0022
## Informacion Financieras Inmobiliarias Administrativo Gobierno
## Promedio 0.00027 0.00040 0.00088 0.00063 0.00243
## Desviacion 0.00025 0.00045 0.00076 0.00060 0.00047
## Entretenimiento Impuestos
## Promedio 0.00024 0.00099
## Desviacion 0.00021 0.00091
De los datos puedo definir que
Las actividades económicas con mayor promedio son: Comercio, Minas, Agro
y Manufactura.
Se evidencia que la mayorÃa de variables tienen datos atÃpicos. Las
únicas actividades económicas que no tienen son: Manufactura y
Suministros. Por tanto, por cada actividad hay al menos un departamento
que está en los extremos
Finalmente, las actividades con mayor desviación son: Comercio, Minas y
Manufactura, es decir, tienen mayor dispersión en los departamentos
Análisis Bivariado de la correlación:
Maximos atipicos por sector:
## Departamento Valor máximo
## Agro Casa 0.003666048
## Minas Casa 0.014689725
## Manufactura Sant 0.004515763
## Suministros Boya 0.001080112
## Construccion Sant 0.002254678
## Comercio San 0.013094263
## Informacion Bogo 0.001321444
## Financieras Bogo 0.002615991
## Inmobiliarias Bogo 0.004023524
## Administrativo Bogo 0.002641694
## Gobierno Bogo 0.004481686
## Entretenimiento Bogo 0.001218857
## Impuestos Sant 0.004443086
Bogotá tiene un gran impacto en 6 de las actividades económicas, y para obtener una mejor comprensión de las relaciones entre las variables, se realiza un análisis correlacional sin considerar a Bogotá.
En el primer gráfico, se observa una mayor correlación entre las variables en comparación con el segundo gráfico, ya que se establece una relación entre el grupo de puntos y el punto atÃpico, lo que afecta la estructura de correlación de las variables. Por lo tanto, se decide eliminar a Bogotá, ya que es un dato atÃpico, y al hacerlo, se ve que disminuye la correlación, lo que permite apreciar mejor la dispersión del conjunto de datos.
Al quitar el dato atÃpico de Bogotá, se reduce la correlación entre las variables y se puede observar con más claridad la dispersión de los datos restantes.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.491 1.3355 1.2630 0.86966 0.74614 0.59123 0.4812
## Proportion of Variance 0.517 0.1486 0.1329 0.06303 0.04639 0.02913 0.0193
## Cumulative Proportion 0.517 0.6657 0.7986 0.86162 0.90801 0.93714 0.9564
## PC8 PC9 PC10 PC11 PC12
## Standard deviation 0.45116 0.36456 0.27344 0.26327 0.20530
## Proportion of Variance 0.01696 0.01108 0.00623 0.00578 0.00351
## Cumulative Proportion 0.97341 0.98448 0.99071 0.99649 1.00000
El análisis de componentes principales permite identificar que las tres
primeras componentes explican el 79,8% de la variabilidad observada, y a
partir de la tercera componente, los valores propios disminuyen
progresivamente.
## PC1 PC2 PC3
## Agro 0.0360 -0.59603 0.3384
## Minas -0.0200 -0.64396 0.1636
## Manufactura 0.3543 0.05425 0.1447
## Suministros 0.3193 -0.05389 0.1032
## Construccion 0.2902 -0.16682 0.1369
## Comercio 0.1434 -0.28812 -0.5820
## Informacion 0.3843 0.00311 0.0251
## Financieras 0.3597 -0.05703 -0.2055
## Inmobiliarias 0.3618 -0.03783 -0.0895
## Administrativo 0.3780 0.10188 -0.0277
## Gobierno -0.0559 -0.20538 -0.6432
## Entretenimiento 0.3347 0.23690 0.0651
la primera componente del análisis factorial identifica una estructura latente que explica las relaciones entre 9 actividades económicas de los sectores secundario, terciario y cuaternario, y presenta coeficientes positivos altos para cada uno de ellos.
la segunda componente del análisis factorial presenta una estructura latente que explica las relaciones entre las actividades económicas del sector primario, Agro y MinerÃa, y exhibe coeficientes negativos sustanciales para cada una de ellas, lo que permite explicar este sector de la economÃa.
la tercera componente del análisis factorial presenta una estructura latente que explica las relaciones entre la actividad económica del sector Gobierno y su función en el surgimiento del sector quinario, el cual se encarga de mantener el funcionamiento de la sociedad, y exhibe un coeficiente negativo sustancial para dicha actividad económica.
A continuación, se representan los departamentos en las tres componentes principales:
En la primera componente, los departamentos más destacados en sectores económicos como manufactura, construcción y servicios son Antioquia, Santander, Valle, Atlántico y Boyacá. En la segunda componente, los departamentos que lideran en la explotación de recursos naturales son Casanare, Meta, Arauca, Boyacá y San Andrés. En la tercera componente, los departamentos con mayor presencia de actividades administrativas gubernamentales son San Andrés, Guaviare, Vaupés, Amazonas y Valle.
Caracterización de la estrutura del PIB:
Casanare - aporta desde el sector económico 5 al PIB
Arauca - aporta desde el sector económico 1 al PIB
Bogota - aporta desde los sectores económicos 2,3,4 y un poco en el 5 al
PIB
San Andrés - aporta desde el sector económico 5 al PIB
Valle del Cauca - aporta desde el sector económico 1 al PIB
Antioquia - aporta desde los sectores económicos 2,3,4 al PIB
Choco - aporta desde los sectores 1, 2, 3 y 4 al PIB
## Cargando paquete requerido: MASS
## Cargando paquete requerido: visdat
## Cargando paquete requerido: car
## Cargando paquete requerido: carData
## Cargando paquete requerido: HSAUR2
## Cargando paquete requerido: tools
## Cargando paquete requerido: corrplot
## corrplot 0.92 loaded
## Cargando paquete requerido: plotrix
## Cargando paquete requerido: cluster
## Cargando paquete requerido: factoextra
## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Cargando paquete requerido: FactoMineR
## All packages loaded successfully
f. Utilice herramientas de visualización para describir de forma
sintetica las caracteristicas globales de los grupos de departamentos
sugeridos.
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
## Too few points to calculate an ellipse
Conclusion Es notorio que un grupo representa al sector primario en donde se encuentran los departamentos de Arauca, Meta y Casanares. Bogota al hacer atipico queda como un cluster solo pues de alguna forma aporta a muchas actividades economicas medidas en el PIB. Sectores de industrias y servicios podemos agrupar a los departamentos en el cluster 5 pues se encuentras departamentos de desarrollo en el pais