El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un período determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total).

La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB percapita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos. A través del Análisis de Componentes Principales, y siguiendo la metodología estudiada en clase, se espera que usted:

Análisis exploratorio de datos.

  1. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.
  2. Lectura de datos:

    library(readxl)
    library(grDevices)
    library(cluster)
    act=as.data.frame(read_excel("C:/Users/jhonf/OneDrive/Escritorio/Taller03/PIBpc.xlsx"))
    nuenom=act$Departamento
    act1=act[,-1]
    rownames(act1)=nuenom

    Revisar estructura de los datos:

    ## 'data.frame':    33 obs. of  13 variables:
    ##  $ AGRI     : num  1.06e-03 1.59e-04 1.77e-06 6.49e-04 2.06e-03 ...
    ##  $ MINE     : num  3.45e-04 4.16e-05 4.49e-05 3.49e-04 1.45e-03 ...
    ##  $ MANU     : num  0.00317 0.00236 0.00261 0.00235 0.00237 ...
    ##  $ ELCT     : num  0.000826 0.00097 0.000564 0.000404 0.00108 ...
    ##  $ CONS     : num  0.00162 0.00112 0.00148 0.00154 0.00212 ...
    ##  $ TRAN     : num  0.00316 0.00291 0.00577 0.00256 0.00343 ...
    ##  $ COMU     : num  0.000562 0.0004 0.001321 0.000284 0.000302 ...
    ##  $ FINA     : num  0.00097 0.000648 0.002616 0.000348 0.000368 ...
    ##  $ INMO     : num  0.0017 0.001061 0.004024 0.000968 0.001067 ...
    ##  $ CIEN     : num  0.001726 0.001084 0.002642 0.00101 0.000827 ...
    ##  $ PUBL     : num  0.0022 0.00225 0.00448 0.00255 0.00247 ...
    ##  $ RECR     : num  0.000465 0.000368 0.001219 0.000215 0.000209 ...
    ##  $ Impuestos: num  0.00173 0.00146 0.00306 0.00166 0.00132 ...

    De acuerdo con lo anterior, las variables son tipo númerico.

    Verificar existencia de datos faltantes:

    De acuerdo con lo anterior, NO hay datos faltantes.

    Visualizar de forma univariada los datos:

    ##                    AGRI        MINE        MANU         ELCT         CONS
    ## Promedio   0.0013469318 0.001594480 0.001171266 0.0003579634 0.0009957049
    ## Desviación 0.0008833721 0.003536736 0.001237353 0.0002938338 0.0004403262
    ##                   TRAN         COMU         FINA         INMO         CIEN
    ## Promedio   0.002594859 0.0002702870 0.0003996166 0.0008817689 0.0006272299
    ## Desviación 0.002212833 0.0002503212 0.0004475017 0.0007583465 0.0006043944
    ##                   PUBL         RECR    Impuestos
    ## Promedio   0.002432517 0.0002373464 0.0009851726
    ## Desviación 0.000470116 0.0002119631 0.0009069910

    Graficar un diagrama de cajas para cada variable:

    Los diagramas de cajas indican la existencia de datos atípicos en las variables de medición. Por tanto, se calculan los datos atípicos en cada variable y se decide eliminar los registros de datos atípicos multivariables.

    datos_atipicos=invisible(lapply(act1, function(columna) {
      datos_atipicos=boxplot.stats(columna)$out
      resultados_columna=list(
        Columna = colnames(act1)[which(columna %in% datos_atipicos)],
        DatosAtipicos = datos_atipicos,
        RegistrosAtipicos = lapply(datos_atipicos, function(valor) which(columna == valor))
      )
        return(resultados_columna)
    }))

    Lo anterior indica que el registro correspondiente a Bogotá D.C es un dato atípico multivariable, por tanto se excluye del análisis.

    act1=act1[-3,] #Se elimina el 3

    Posteriormente, se grafica la matriz de correlación:

    Los coeficientes de correlación y su significancia son calculados sin considerar el punto atípico, considerando un nivel de significancia de 0,01.

Análisis de componentes principales.

  1. Identifique, seleccione e interprete las estructuras latentes (Componentes Prinicipales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes)
  2. Se calculan las estructuras latentes de la siguiente manera:

    ## Importance of components:
    ##                           PC1    PC2    PC3    PC4     PC5     PC6     PC7
    ## Standard deviation     2.6303 1.3454 1.2665 0.9121 0.74624 0.60242 0.58200
    ## Proportion of Variance 0.5322 0.1392 0.1234 0.0640 0.04284 0.02792 0.02606
    ## Cumulative Proportion  0.5322 0.6714 0.7948 0.8588 0.90165 0.92957 0.95562
    ##                            PC8     PC9    PC10    PC11    PC12    PC13
    ## Standard deviation     0.45289 0.37259 0.32675 0.26709 0.21185 0.09996
    ## Proportion of Variance 0.01578 0.01068 0.00821 0.00549 0.00345 0.00077
    ## Cumulative Proportion  0.97140 0.98208 0.99029 0.99578 0.99923 1.00000
    ##  [1]  53.22003  67.14383  79.48149  85.88152  90.16513  92.95673  95.56227
    ##  [8]  97.14004  98.20792  99.02917  99.57790  99.92313 100.00000

    De acuerdo con el criterio de varianza explicada, en las 3 primeras componentes principales se acumula el 79,5% de la variabilidad observada. Se puede observar que a partir de la 3da componente los valores propios decaen lentamente.

    A continuación, se grafican las tres estructuras latentes seleccionadas (componentes prinicipales):

    ##               PC1     PC2     PC3
    ## AGRI       0.0388 -0.5623  0.3866
    ## MINE      -0.0149 -0.6173  0.2210
    ## MANU       0.3408  0.0694  0.1401
    ## ELCT       0.2980 -0.0221  0.1204
    ## CONS       0.2819 -0.1531  0.1484
    ## TRAN       0.1434 -0.3154 -0.5482
    ## COMU       0.3652  0.0235  0.0344
    ## FINA       0.3377 -0.0410 -0.1818
    ## INMO       0.3433 -0.0226 -0.0742
    ## CIEN       0.3528  0.1263 -0.0202
    ## PUBL      -0.0427 -0.2590 -0.6291
    ## RECR       0.3062  0.2701  0.0639
    ## Impuestos  0.3287 -0.1258 -0.0715

    La estructura latente PC1 indica las actividades económicas que influyen significativamente (+) en la generación de riqueza en Colombia para el año 2018. Exceptuando las actividades relacionadas con la explotación de la tierra y el gasto público, se puede afirmar que las actividades económicas del sector secundario, terciario, cuaternario y quinario aportan altamente a la producción económica del país

    Por su parte la estructura latente PC2 indica el contraste entre el sector primario-gasto público (alto -) con el sector cuaterniario-quintano (alto +).

    Finalmente, la estructura latente PC3 indica el contraste entre el sector terciario (alto -) con el sector primario-secundario (alto +).

  3. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.
  4. A continuación, se proyectan los departamentos en el espacio de las componentes principales:

  5. Utilizando los resultados de la proyección de departamentos y variables en el espacio de las componentes (biplot), genere una caracterización de la estrutura del PIB de los siguientes departamentos: Casanare, Arauca, Bogota, San Andrés, Valle del Cauca, Antioquia,Choco, Vaupes.

Cluster.

  1. Utilice las puntuaciones de las componentes prinicipales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.
  2. Utilice herramientas de visualización para describir de forma sintetica las caracteristicas globales de los grupos de departamentos sugeridos.

    Considerando la formación de tres clusters, que reflejan la clasificación de los sectores primarios clásicos, e incluyendo el resgitro de Bogotá, se conforman las siguientes agrupaciones:

    ## Loading required package: MASS
    ## Loading required package: visdat
    ## Loading required package: car
    ## Loading required package: carData
    ## Loading required package: HSAUR2
    ## Loading required package: tools
    ## Loading required package: corrplot
    ## corrplot 0.92 loaded
    ## Loading required package: plotrix
    ## Loading required package: factoextra
    ## Loading required package: ggplot2
    ## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
    ## Loading required package: FactoMineR
    ## All packages loaded successfully

    ## Too few points to calculate an ellipse

    Al incluir el registro de Bogotá el silhouette conforma una sola agrupación para este dato en el ánalisis bivariado entre las tres componente. Por tranto, se considera el cálculo sin incluir a Bogotá para analizar las característias de los cluster solo con departamentos.

    ## All packages loaded successfully

    ## Too few points to calculate an ellipse

    El cluster número 1 establece que las características de los departamentos de Arauca, Guaviare, Amazonas, Cauca, Cesar, Huila, Putumayo, Caquetá, Guajira, Choco, Magdalena, Sucre, Córdoba y Vaupés se encuentra relacionada con las actividades económicas de explotación de recursos naturales: Agricultura, ganadería y minería.

    El cluster número 2 establece que los departamentos de Casanare, Meta y San Andrés se encuentran relacionados. Incialmente, Casanare y Meta son conocidos por su importancia en la industria petrolera y ganadera, mientras que San Andrés tiene una economía diversa que incluye turismo y pesca. Las conexiones económicas entre estos departamentos estan principalmente orientadas a las actividades del sector primario.

    Finalmente, el cluster 3 agrupa los departamentos de Boyaca, Tolima, Cundinamarca, Caldas, Santander, Bolivar, Valle, Risaralda y Atlantico considerando la gran agricultura e industria manufacturera en estos, lo cual indica que estos departamentos realizan explotacion de recursos naturales y latransformación de estos. A diferencia del cluster 1 donde solo predonamia la extracción o aprovechamiento de los recursos naturales.