El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un período determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total).
La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB percapita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodología estudiada en clase, se espera que usted:
Lectura de datos:
library(readxl)
library(grDevices)
library(cluster)
act=as.data.frame(read_excel("C:/Users/jhonf/OneDrive/Escritorio/Taller03/PIBpc.xlsx"))
nuenom=act$Departamento
act1=act[,-1]
rownames(act1)=nuenom
Revisar estructura de los datos:
## 'data.frame': 33 obs. of 13 variables:
## $ AGRI : num 1.06e-03 1.59e-04 1.77e-06 6.49e-04 2.06e-03 ...
## $ MINE : num 3.45e-04 4.16e-05 4.49e-05 3.49e-04 1.45e-03 ...
## $ MANU : num 0.00317 0.00236 0.00261 0.00235 0.00237 ...
## $ ELCT : num 0.000826 0.00097 0.000564 0.000404 0.00108 ...
## $ CONS : num 0.00162 0.00112 0.00148 0.00154 0.00212 ...
## $ TRAN : num 0.00316 0.00291 0.00577 0.00256 0.00343 ...
## $ COMU : num 0.000562 0.0004 0.001321 0.000284 0.000302 ...
## $ FINA : num 0.00097 0.000648 0.002616 0.000348 0.000368 ...
## $ INMO : num 0.0017 0.001061 0.004024 0.000968 0.001067 ...
## $ CIEN : num 0.001726 0.001084 0.002642 0.00101 0.000827 ...
## $ PUBL : num 0.0022 0.00225 0.00448 0.00255 0.00247 ...
## $ RECR : num 0.000465 0.000368 0.001219 0.000215 0.000209 ...
## $ Impuestos: num 0.00173 0.00146 0.00306 0.00166 0.00132 ...
De acuerdo con lo anterior, las variables son tipo númerico.
Verificar existencia de datos faltantes:
De acuerdo con lo anterior, NO hay datos faltantes.
Visualizar de forma univariada los datos:
## AGRI MINE MANU ELCT CONS
## Promedio 0.0013469318 0.001594480 0.001171266 0.0003579634 0.0009957049
## Desviación 0.0008833721 0.003536736 0.001237353 0.0002938338 0.0004403262
## TRAN COMU FINA INMO CIEN
## Promedio 0.002594859 0.0002702870 0.0003996166 0.0008817689 0.0006272299
## Desviación 0.002212833 0.0002503212 0.0004475017 0.0007583465 0.0006043944
## PUBL RECR Impuestos
## Promedio 0.002432517 0.0002373464 0.0009851726
## Desviación 0.000470116 0.0002119631 0.0009069910
Graficar un diagrama de cajas para cada variable:
Los diagramas de cajas indican la existencia de datos atípicos en las variables de medición. Por tanto, se calculan los datos atípicos en cada variable y se decide eliminar los registros de datos atípicos multivariables.
datos_atipicos=invisible(lapply(act1, function(columna) {
datos_atipicos=boxplot.stats(columna)$out
resultados_columna=list(
Columna = colnames(act1)[which(columna %in% datos_atipicos)],
DatosAtipicos = datos_atipicos,
RegistrosAtipicos = lapply(datos_atipicos, function(valor) which(columna == valor))
)
return(resultados_columna)
}))
Lo anterior indica que el registro correspondiente a Bogotá D.C es un dato atípico multivariable, por tanto se excluye del análisis.
act1=act1[-3,] #Se elimina el 3
Posteriormente, se grafica la matriz de correlación:
Los coeficientes de correlación y su significancia son calculados sin considerar el punto atípico, considerando un nivel de significancia de 0,01.
Se calculan las estructuras latentes de la siguiente manera:
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.6303 1.3454 1.2665 0.9121 0.74624 0.60242 0.58200
## Proportion of Variance 0.5322 0.1392 0.1234 0.0640 0.04284 0.02792 0.02606
## Cumulative Proportion 0.5322 0.6714 0.7948 0.8588 0.90165 0.92957 0.95562
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.45289 0.37259 0.32675 0.26709 0.21185 0.09996
## Proportion of Variance 0.01578 0.01068 0.00821 0.00549 0.00345 0.00077
## Cumulative Proportion 0.97140 0.98208 0.99029 0.99578 0.99923 1.00000
## [1] 53.22003 67.14383 79.48149 85.88152 90.16513 92.95673 95.56227
## [8] 97.14004 98.20792 99.02917 99.57790 99.92313 100.00000
De acuerdo con el criterio de varianza explicada, en las 3 primeras componentes principales se acumula el 79,5% de la variabilidad observada. Se puede observar que a partir de la 3da componente los valores propios decaen lentamente.
A continuación, se grafican las tres estructuras latentes seleccionadas (componentes prinicipales):
## PC1 PC2 PC3
## AGRI 0.0388 -0.5623 0.3866
## MINE -0.0149 -0.6173 0.2210
## MANU 0.3408 0.0694 0.1401
## ELCT 0.2980 -0.0221 0.1204
## CONS 0.2819 -0.1531 0.1484
## TRAN 0.1434 -0.3154 -0.5482
## COMU 0.3652 0.0235 0.0344
## FINA 0.3377 -0.0410 -0.1818
## INMO 0.3433 -0.0226 -0.0742
## CIEN 0.3528 0.1263 -0.0202
## PUBL -0.0427 -0.2590 -0.6291
## RECR 0.3062 0.2701 0.0639
## Impuestos 0.3287 -0.1258 -0.0715
La estructura latente PC1 indica las actividades económicas que influyen significativamente (+) en la generación de riqueza en Colombia para el año 2018. Exceptuando las actividades relacionadas con la explotación de la tierra y el gasto público, se puede afirmar que las actividades económicas del sector secundario, terciario, cuaternario y quinario aportan altamente a la producción económica del país
Por su parte la estructura latente PC2 indica el contraste entre el sector primario-gasto público (alto -) con el sector cuaterniario-quintano (alto +).
Finalmente, la estructura latente PC3 indica el contraste entre el sector terciario (alto -) con el sector primario-secundario (alto +).
A continuación, se proyectan los departamentos en el espacio de las
componentes principales:
Utilice herramientas de visualización para describir de forma sintetica las caracteristicas globales de los grupos de departamentos sugeridos.
Considerando la formación de tres clusters, que reflejan la clasificación de los sectores primarios clásicos, e incluyendo el resgitro de Bogotá, se conforman las siguientes agrupaciones:
## Loading required package: MASS
## Loading required package: visdat
## Loading required package: car
## Loading required package: carData
## Loading required package: HSAUR2
## Loading required package: tools
## Loading required package: corrplot
## corrplot 0.92 loaded
## Loading required package: plotrix
## Loading required package: factoextra
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Loading required package: FactoMineR
## All packages loaded successfully
## Too few points to calculate an ellipse
Al incluir el registro de Bogotá el silhouette conforma una sola agrupación para este dato en el ánalisis bivariado entre las tres componente. Por tranto, se considera el cálculo sin incluir a Bogotá para analizar las característias de los cluster solo con departamentos.
## All packages loaded successfully
## Too few points to calculate an ellipse
El cluster número 1 establece que las características de los departamentos de Arauca, Guaviare, Amazonas, Cauca, Cesar, Huila, Putumayo, Caquetá, Guajira, Choco, Magdalena, Sucre, Córdoba y Vaupés se encuentra relacionada con las actividades económicas de explotación de recursos naturales: Agricultura, ganadería y minería.
El cluster número 2 establece que los departamentos de Casanare, Meta y San Andrés se encuentran relacionados. Incialmente, Casanare y Meta son conocidos por su importancia en la industria petrolera y ganadera, mientras que San Andrés tiene una economía diversa que incluye turismo y pesca. Las conexiones económicas entre estos departamentos estan principalmente orientadas a las actividades del sector primario.
Finalmente, el cluster 3 agrupa los departamentos de Boyaca, Tolima, Cundinamarca, Caldas, Santander, Bolivar, Valle, Risaralda y Atlantico considerando la gran agricultura e industria manufacturera en estos, lo cual indica que estos departamentos realizan explotacion de recursos naturales y latransformación de estos. A diferencia del cluster 1 donde solo predonamia la extracción o aprovechamiento de los recursos naturales.