Laboratorio 3 - Producto Interno Bruto Colombia

El Producto Interno Bruto (PIB) es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un período determinado de tiempo, regularmente un año o periodo fiscal. En Colombia, la medición del PIB es realizada por el Departamento Administrativo Nacional de Estadística (DANE), quien considera 12 grandes agrupaciones para las ramas de la actividad económica en el país + el rubro de generación de impuestos (13 agrupaciones en total). La hoja de datos PIBpc.xlsx contiene, para el año 2018, la medición del PIB percapita (Cociente entre el PIB y el número de habitantes), medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia el año 2018: 32 departamentos y el distrito capital, Bogotá. Las diferencias en la ubicación geográfica, la variedad de los recursos naturales, aspectos culturales y de tamaño de población, pueden generar heterogeneidad en las fortalezas productivas de los departamentos.

Análisis Exploratorio de Datos.

a. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.

## character(0)
## character(0)
## Warning: package 'stringr' was built under R version 4.4.2
## Warning: package 'patchwork' was built under R version 4.4.2
## Warning: package 'factoextra' was built under R version 4.4.2
## # A tibble: 6 × 15
##   Departamento Abreviatura Agricultura, ganadería, caza…¹ Explotación de minas…²
##   <chr>        <chr>                                <dbl>                  <dbl>
## 1 Antioquia    Anti                            0.00106                 0.000345 
## 2 Atlantico    Atla                            0.000159                0.0000416
## 3 Bogota D.C.  Bogo                            0.00000177              0.0000449
## 4 Bolivar      Boli                            0.000649                0.000349 
## 5 Boyaca       Boya                            0.00206                 0.00145  
## 6 Caldas       Cald                            0.00128                 0.000166 
## # ℹ abbreviated names: ¹​`Agricultura, ganadería, caza, silvicultura y pesca`,
## #   ²​`Explotación de minas y canteras`
## # ℹ 11 more variables: `Industrias manufactureras` <dbl>,
## #   `Suministro de electricidad, gas, vapor y aire acondicionado; distribución de agua; evacuación y tratamiento de aguas residuales, gestión de desechos y actividades de saneamiento ambiental` <dbl>,
## #   Construcción <dbl>,
## #   `Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas; transporte y almacenamiento; alojamiento y servicios de comida` <dbl>,
## #   `Información y comunicaciones` <dbl>, …

Renombramiento de columnas

##  [1] "Departamento"    "Abrev"           "Agricultura"     "Mineria"        
##  [5] "Industria"       "Servicios"       "Construccion"    "Comercio"       
##  [9] "Informacion"     "Finanzas"        "Inmobiliarias"   "Profesionales"  
## [13] "Administracion"  "Servicios_Otros" "Impuestos"
## # A tibble: 6 × 15
##   Departamento Abrev Agricultura   Mineria Industria Servicios Construccion
##   <chr>        <chr>       <dbl>     <dbl>     <dbl>     <dbl>        <dbl>
## 1 Antioquia    Anti   0.00106    0.000345    0.00317  0.000826     0.00162 
## 2 Atlantico    Atla   0.000159   0.0000416   0.00236  0.000970     0.00112 
## 3 Bogota D.C.  Bogo   0.00000177 0.0000449   0.00261  0.000564     0.00148 
## 4 Bolivar      Boli   0.000649   0.000349    0.00235  0.000404     0.00154 
## 5 Boyaca       Boya   0.00206    0.00145     0.00237  0.00108      0.00212 
## 6 Caldas       Cald   0.00128    0.000166    0.00180  0.000697     0.000953
## # ℹ 8 more variables: Comercio <dbl>, Informacion <dbl>, Finanzas <dbl>,
## #   Inmobiliarias <dbl>, Profesionales <dbl>, Administracion <dbl>,
## #   Servicios_Otros <dbl>, Impuestos <dbl>
## tibble [33 × 15] (S3: tbl_df/tbl/data.frame)
##  $ Departamento   : chr [1:33] "Antioquia" "Atlantico" "Bogota D.C." "Bolivar" ...
##  $ Abrev          : chr [1:33] "Anti" "Atla" "Bogo" "Boli" ...
##  $ Agricultura    : num [1:33] 1.06e-03 1.59e-04 1.77e-06 6.49e-04 2.06e-03 ...
##  $ Mineria        : num [1:33] 3.45e-04 4.16e-05 4.49e-05 3.49e-04 1.45e-03 ...
##  $ Industria      : num [1:33] 0.00317 0.00236 0.00261 0.00235 0.00237 ...
##  $ Servicios      : num [1:33] 0.000826 0.00097 0.000564 0.000404 0.00108 ...
##  $ Construccion   : num [1:33] 0.00162 0.00112 0.00148 0.00154 0.00212 ...
##  $ Comercio       : num [1:33] 0.00316 0.00291 0.00577 0.00256 0.00343 ...
##  $ Informacion    : num [1:33] 0.000562 0.0004 0.001321 0.000284 0.000302 ...
##  $ Finanzas       : num [1:33] 0.00097 0.000648 0.002616 0.000348 0.000368 ...
##  $ Inmobiliarias  : num [1:33] 0.0017 0.001061 0.004024 0.000968 0.001067 ...
##  $ Profesionales  : num [1:33] 0.001726 0.001084 0.002642 0.00101 0.000827 ...
##  $ Administracion : num [1:33] 0.0022 0.00225 0.00448 0.00255 0.00247 ...
##  $ Servicios_Otros: num [1:33] 0.000465 0.000368 0.001219 0.000215 0.000209 ...
##  $ Impuestos      : num [1:33] 0.00173 0.00146 0.00306 0.00166 0.00132 ...
##  Departamento          Abrev            Agricultura           Mineria         
##  Length:33          Length:33          Min.   :1.765e-06   Min.   :1.473e-05  
##  Class :character   Class :character   1st Qu.:7.835e-04   1st Qu.:4.160e-05  
##  Mode  :character   Mode  :character   Median :1.226e-03   Median :1.454e-04  
##                                        Mean   :1.347e-03   Mean   :1.594e-03  
##                                        3rd Qu.:1.923e-03   3rd Qu.:7.585e-04  
##                                        Max.   :3.666e-03   Max.   :1.469e-02  
##    Industria           Servicios          Construccion      
##  Min.   :9.823e-06   Min.   :1.427e-05   Min.   :0.0003409  
##  1st Qu.:2.221e-04   1st Qu.:1.256e-04   1st Qu.:0.0006911  
##  Median :6.365e-04   Median :2.926e-04   Median :0.0009486  
##  Mean   :1.171e-03   Mean   :3.580e-04   Mean   :0.0009957  
##  3rd Qu.:1.974e-03   3rd Qu.:5.256e-04   3rd Qu.:0.0011514  
##  Max.   :4.516e-03   Max.   :1.080e-03   Max.   :0.0022547  
##     Comercio          Informacion           Finanzas        
##  Min.   :0.0005394   Min.   :5.420e-06   Min.   :6.479e-05  
##  1st Qu.:0.0014976   1st Qu.:1.191e-04   1st Qu.:1.842e-04  
##  Median :0.0021030   Median :2.068e-04   Median :2.381e-04  
##  Mean   :0.0025949   Mean   :2.703e-04   Mean   :3.996e-04  
##  3rd Qu.:0.0029135   3rd Qu.:3.552e-04   3rd Qu.:4.321e-04  
##  Max.   :0.0130943   Max.   :1.321e-03   Max.   :2.616e-03  
##  Inmobiliarias       Profesionales       Administracion     Servicios_Otros    
##  Min.   :0.0001378   Min.   :6.620e-06   Min.   :0.001793   Min.   :4.282e-05  
##  1st Qu.:0.0004307   1st Qu.:1.384e-04   1st Qu.:0.002152   1st Qu.:1.209e-04  
##  Median :0.0007258   Median :5.452e-04   Median :0.002332   Median :1.881e-04  
##  Mean   :0.0008818   Mean   :6.272e-04   Mean   :0.002433   Mean   :2.373e-04  
##  3rd Qu.:0.0010445   3rd Qu.:9.783e-04   3rd Qu.:0.002547   3rd Qu.:3.111e-04  
##  Max.   :0.0040235   Max.   :2.642e-03   Max.   :0.004482   Max.   :1.219e-03  
##    Impuestos        
##  Min.   :0.0001378  
##  1st Qu.:0.0003962  
##  Median :0.0006899  
##  Mean   :0.0009852  
##  3rd Qu.:0.0013203  
##  Max.   :0.0044431

Matriz de correlación

En general se observa una alta correlación ente las actividades económicas de Servicios_profesionales. Fiananzas_seguros, Arte_entretenimiento, comunicaciones y el sector inmobiliario. Las relaciones entre los otros sectores son moderadas, bajas o negativas. • Comunicaciones y Finanzas_Seguros, Inmobiliarias y Arte_Entretenimiento: Alli se observan las correlaciones positivas más fuertes con valores que se mueven en el rango de 0.92 a 0.94. Se hace notoria la fuerte correlación entre Arte_entretenimieto y Finanzas_seguros y con el sector inmobiliario. Esto puede sugerir que la industria del entretenimiento moviliza capital financiero y motiva las inversiones inmobiliarias, utilizando el sector de comunicaciones que presenta una alta correlación positiva con el sector inmobiliario. • Impuestos y Manufactura. Presentan una fuerte correlación positiva de 0.84, que evidente la incidencia de las políticas fiscales sobre el sector.

• Inmobiliarias y Servicios Profesionales: Con una correlación de 0.8943 que es alta lo que sugiere el fortalecimiento del sector inmobiliario como actividad económica que utiliza permanentemente arquitectos, abogados, y demás servicios especializados.

• Manufactura y Servicios Públicos, Manufactura y Servicios Profesionales y Manufactura y Construcción : Presentan una correlación positiva alta que es de 0.75, 0.78 y 0.74 respectivamente. El nivel de correlación de la manufactura con los servicios públicos se puede explicar por los altos consumos de estos servicios que requiere el sector industrial, para el desarrollo de su actividad productiva. Adicionalmente la manufactura demanda permanentemente servicios profesionales y motiva proyectos de construcción en infraestructura, como medios para mejorar aspectos operativos.

• Minería y Agricultura. Se observa una correlación positiva moderada entre estos dos sectores que alcanza el 0.616. Existe una correlación positiva moderada entre estos dos sectores, lo que puede explicarse posiblemente por los fertilizantes usados en las actividades agrícolas, como fosfatos y potasio. A mayor actividad agrícola, tiende a haber también una mayor actividad minera.

• Agricultura y Comercio/Transporte, presenta una correlación débil y negativa de -0.06 con el comercio_transporte, lo que puede sugerir que el sector agrícola tiene un limitado uso de medios de transporte y de comercialización en el país.

• Servicios Públicos y Administración Pública (-0.0407): Hay una correlación muy débil negativa, lo que sugiere que estos sectores no están fuertemente relacionados.

• Agricultura y los sectores de comunicaciones, arte, impuestos: Las correlaciones entre la agricultura y comunicaciones (-0.1233), arte y entretenimiento (-0.2911), o impuestos (0.0133) son bastante bajas o negativas. Se puede plantear que estos sectores no se desarrollan de manera conjunta con la actividad agricola.

• Agricultura y Arte/Entretenimiento. Reporta una correlación negativa de -0.29, lo que refleja la falta de un vínculo directo entre estos sectores, lo que se puede explicar debido a que el arte y entretenimiento se desarrolla en espacios urbanos.

Histogramas de las principales variables numéricas

Con respecto a lo que se observa en el histograma se puede platear lo siguiente por sectores económicos.

Minería: Los valores oscilan principalmente entre valores muy pequeños con valores de hasta alrededor de 0.0147. Se observa una tendencia a tener valores más pequeños, con picos ocasionales muy altos en términos relativos.

Manufactura: Los valores en este sector también están distribuidos entre pequeños valores y picos más altos de hasta 0. 0045.El rango es más uniforme, con varios valores en torno a 0.001 o menores.

Servicios Públicos: Este sector muestra una gran variabilidad, con valores que se extienden entre 0.00001 y valores más altos como 0. 0011.La mayoría de los valores son pequeños, con algunos picos.

Construcción: Los datos están distribuidos entre valores pequeños (0.0005 a 0.003) y algunos picos más altos de cerca de 0.0024. Comercio y Transporte: Este sector tiene varios picos altos, especialmente con valores alrededor de 0.005 o incluso hasta 0.013. La distribución muestra valores que tienden a ser mayores que los de otros sectores.

Comunicaciones: Los valores en este sector son en su mayoría pequeños, con algunos picos cercanos a 0. 001.Tienen poca variabilidad en comparación con sectores como Comercio y Transporte.

Finanzas y Seguros: Este sector tiene valores mayormente pequeños se puede evidenciar que está en un rango medio entre minería y comercio. Los valores pequeños son más frecuentes con picos moderados.

Inmobiliarias: Aquí hay una mezcla de valores pequeños y medianos, con varios picos alrededor de 0.001 y algunos valores más altos como 0.004. Los valores son mayormente pequeños.

Servicios Profesionales: La mayoría son valores pequeños, pero también hay algunos picos. Se observa una alta dispersión.

Administración Pública: Tiene varios valores más consistentes en un rango medio entre 0.002 a 0.003. Sugiere datos más estables y moderados.

Arte y Entretenimiento: Los valores son en su mayoría bajos, en el rango de 0.0001 a 0.0012. No tiene picos significativos en comparación con otros sectores.

Impuestos: El sector de impuestos tiene valores dispersos, con varios picos altos, como 0.0017 y 0.0015.

De acuerdo con los histogramas se puede decir que los sectores Comercio y Transporte y Minería tienen los valores más altos en comparación con otros sectores. En minería existen valores muy altos en términos relativos. Sectores como Arte y Entretenimiento y Comunicaciones tienden a tener valores más bajos. Algunos sectores como Servicios Públicos y Construcción presentan una variabilidad considerable en los datos.

Relación entre Agricultura y Explotación de Minas

Outliers y Valores Atípicos (Boxplots)

Este grafico boxplot se utiliza para realizar una evaluación comparativa de la distribución de datos para cada uno de los sectores económicos en torno al aporte en el PIB per cápita. Permite identificar características de simetría y validar la presencia de valores atípicos.

Distribución de la Productividad en los Top 3 Sectores (Mediana)

Comparación de Productividad Económica por Sector y Departamento

b. Identifique, seleccione e interprete las estructuras latentes (Componentes Prinicipales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes).

Remover valores atípicos

Se remueven los valores atípicos con base en los valores observados en el gráfico (boxplot). Para este fin, son considerados como atípicos aquellos valores que tienen un valor superior a 0.005 en su productividad per capita.

## Tamaño de datos filtrados: 27
## Tamaño de filas excluidas: 6
## [1] "Datos filtrados:"
## # A tibble: 27 × 15
##    Departamento Abrev Agricultura   Mineria Industria Servicios Construccion
##    <chr>        <chr>       <dbl>     <dbl>     <dbl>     <dbl>        <dbl>
##  1 Antioquia    Anti     0.00106  0.000345  0.00317   0.000826      0.00162 
##  2 Atlantico    Atla     0.000159 0.0000416 0.00236   0.000970      0.00112 
##  3 Bolivar      Boli     0.000649 0.000349  0.00235   0.000404      0.00154 
##  4 Boyaca       Boya     0.00206  0.00145   0.00237   0.00108       0.00212 
##  5 Caldas       Cald     0.00128  0.000166  0.00180   0.000697      0.000953
##  6 Caqueta      Caqu     0.00127  0.0000328 0.000252  0.0000615     0.000988
##  7 Cauca        Cauc     0.00125  0.000116  0.00181   0.000284      0.000917
##  8 Cordoba      Cord     0.000853 0.000132  0.000825  0.000308      0.000536
##  9 Cundinamarca Cund     0.00253  0.000145  0.00377   0.000954      0.00131 
## 10 Choco        Choc     0.00123  0.000627  0.0000573 0.0000602     0.000341
## # ℹ 17 more rows
## # ℹ 8 more variables: Comercio <dbl>, Informacion <dbl>, Finanzas <dbl>,
## #   Inmobiliarias <dbl>, Profesionales <dbl>, Administracion <dbl>,
## #   Servicios_Otros <dbl>, Impuestos <dbl>
## [1] "Filas excluidas:"
## # A tibble: 6 × 15
##   Departamento        Abrev Agricultura Mineria Industria Servicios Construccion
##   <chr>               <chr>       <dbl>   <dbl>     <dbl>     <dbl>        <dbl>
## 1 Bogota D.C.         Bogo   0.00000177 4.49e-5  0.00261   0.000564     0.00148 
## 2 Cesar               Cesa   0.00106    5.07e-3  0.000470  0.000274     0.000601
## 3 Meta                Meta   0.00299    1.34e-2  0.000657  0.000293     0.00146 
## 4 Arauca              Arau   0.00330    5.76e-3  0.000515  0.000126     0.000691
## 5 Casanare            Casa   0.00367    1.47e-2  0.000778  0.000511     0.000971
## 6 San Andrés, Provid… San    0.000244   1.95e-5  0.000274  0.000388     0.000623
## # ℹ 8 more variables: Comercio <dbl>, Informacion <dbl>, Finanzas <dbl>,
## #   Inmobiliarias <dbl>, Profesionales <dbl>, Administracion <dbl>,
## #   Servicios_Otros <dbl>, Impuestos <dbl>

Cálculo de componentes principales

Identificación, selección e interpretación de las estructuras latentes: para esta identificación se hizo la estimación de los valores propios y la varianza acumulada.

Valores Propios Significativos: Las componentes principales con valores propios mayores que 1 que expliquen un porcentaje significativo de la varianza total son los que se consideran importantes. En el gráfico de codo se muestra los valores propios de las componentes principales. Se seleccionan las componentes que están antes del punto donde el gráfico empieza a tomar una tendencia de nivelación. Para este caso se toman PC1 y PC2.

Análisis de Varianza Explicada: La Primera Componente Principal (PCA1), captura la mayor parte de la varianza en los datos como se observa en la gráfica y lo que representa la estructura latente más importante. La Componente Principal (PCA2) captura una porción adicional y decreciente de la varianza, convirtiéndose en la segunda estructura latente incluida en el análisis. Interpretación de la Cargas altas: Para la interpretación de los sectores económicos con cargas altas en cada una las dos componentes principales, se realiza el gráfico de coeficientes estimados para PCA1 y PCA2.

## Standard deviations (1, .., p=13):
##  [1] 2.7996806 1.1288141 1.0854639 1.0610371 0.6973957 0.6768031 0.4521967
##  [8] 0.3783782 0.3337949 0.2969093 0.2381796 0.1576692 0.1014762
## 
## Rotation (n x k) = (13 x 13):
##                         PC1         PC2         PC3         PC4         PC5
## Agricultura      0.09683342 -0.57119438  0.06897049 -0.58202550  0.41107278
## Mineria         -0.03115855 -0.07389376 -0.81406124  0.34876859  0.20717344
## Industria        0.32913949 -0.11063756 -0.03726984 -0.06648254 -0.42663755
## Servicios        0.28329109 -0.02699019 -0.26933853 -0.11161587  0.22132336
## Construccion     0.27523601 -0.40373381 -0.16952386  0.13061595 -0.12421478
## Comercio         0.32278044 -0.12059867  0.06342483  0.15935990  0.32714338
## Informacion      0.34391751  0.03007738  0.03640159 -0.08734614 -0.03780705
## Finanzas         0.32161297  0.24265340  0.10194764  0.14235663  0.16086704
## Inmobiliarias    0.32275483  0.07899529  0.09074537  0.10465440  0.06788573
## Profesionales    0.33080278  0.21450124  0.09252308 -0.03390533 -0.05275889
## Administracion  -0.05353603 -0.42207892  0.43518789  0.65956639  0.16854189
## Servicios_Otros  0.29707239  0.36879732  0.06545169  0.03873678  0.32688908
## Impuestos        0.30771789 -0.22707726 -0.06056375  0.06121618 -0.51447081
##                         PC6         PC7         PC8          PC9         PC10
## Agricultura      0.27052710  0.13375534  0.03211008 -0.177124838 -0.035969745
## Mineria          0.25917637  0.24136355  0.04960283 -0.168558794  0.053571132
## Industria       -0.15599235  0.25868162 -0.03640529 -0.175336793  0.180739357
## Servicios       -0.70682390  0.09498988 -0.01156016  0.040293563 -0.249309270
## Construccion    -0.04440664 -0.80725645 -0.06005187 -0.139395067  0.092926325
## Comercio        -0.17659221  0.11371050 -0.17737665  0.582552998  0.263218000
## Informacion      0.11386431  0.14103975  0.51264321 -0.001952841 -0.072696493
## Finanzas         0.09693794 -0.11016501  0.03193238 -0.190590019 -0.720823307
## Inmobiliarias    0.39845960  0.07772774 -0.66370648  0.064810328 -0.072454418
## Profesionales   -0.11125564  0.16278989 -0.16439005 -0.578010480  0.360332850
## Administracion  -0.09133553  0.20058398  0.16780709 -0.226654230  0.001393085
## Servicios_Otros  0.21276436 -0.22191134  0.40659923  0.079038390  0.376489137
## Impuestos        0.23543902  0.17108936  0.18747144  0.341767629 -0.146249886
##                         PC11        PC12        PC13
## Agricultura     -0.047731115  0.14093700 -0.07038348
## Mineria         -0.077548407  0.01006505  0.03204056
## Industria       -0.016149717  0.47428460  0.55714130
## Servicios        0.418560544  0.02356009 -0.19169999
## Construccion    -0.018782609 -0.11111084  0.04483442
## Comercio        -0.493448872 -0.08388007  0.10035407
## Informacion      0.118615552 -0.65712872  0.35156159
## Finanzas        -0.388734034  0.21839554  0.06223311
## Inmobiliarias    0.475045126 -0.12819495  0.09446449
## Profesionales   -0.270421393 -0.22883587 -0.42039652
## Administracion   0.184555790  0.05290421 -0.03451788
## Servicios_Otros  0.272570526  0.41444938 -0.09594388
## Impuestos        0.008644895  0.11077590 -0.55790788
## Importance of components:
##                           PC1     PC2     PC3    PC4     PC5     PC6     PC7
## Standard deviation     2.7997 1.12881 1.08546 1.0610 0.69740 0.67680 0.45220
## Proportion of Variance 0.6029 0.09802 0.09063 0.0866 0.03741 0.03524 0.01573
## Cumulative Proportion  0.6029 0.70096 0.79159 0.8782 0.91560 0.95084 0.96657
##                            PC8     PC9    PC10    PC11    PC12    PC13
## Standard deviation     0.37838 0.33379 0.29691 0.23818 0.15767 0.10148
## Proportion of Variance 0.01101 0.00857 0.00678 0.00436 0.00191 0.00079
## Cumulative Proportion  0.97758 0.98615 0.99293 0.99730 0.99921 1.00000
##  [1] 2.7996806 1.1288141 1.0854639 1.0610371 0.6973957 0.6768031 0.4521967
##  [8] 0.3783782 0.3337949 0.2969093 0.2381796 0.1576692 0.1014762
##  [1]  60.29393  70.09563  79.15896  87.81896  91.56019  95.08375  96.65669
##  [8]  97.75799  98.61506  99.29318  99.72956  99.92079 100.00000
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Se puede observar los sectores económicos con carga alta en el PCA1 van desde Servicios_Otros hasta Impuestos, incluye además Construcción y con una menor carga Agricultura. Los de carga negativa son Minería y Administración. Se hace la salvedad de que se hizo necesario excluir los varios datos atípicos que alteraban el análisis, que se incluirán posteriormente. En el componente PCA1, los sectores con mayor carga son Servicio_Otros, Finanzas, Profesionales, Inmobiliarias e información. El resto representa cargas negativas. El análisis de estos componentes principales permite entender que los sectores de la economía el país que mayor aportan al PIBpercapita, corresponden a Servicio_Otros, Finanzas, Profesionales, Inmobiliarias e información, debido a que tanto en PCA1 y PCA2 reportan una carga positiva y alta. En el resto de los sectores en diferentes proporciones, se puede decir que existen factores adicionales que hacen que su aporte sea menor. Esto se pude observar con la carga negativa que muestran en el PCA2.

##                     PC1     PC2
## Agricultura      0.0968 -0.5712
## Mineria         -0.0312 -0.0739
## Industria        0.3291 -0.1106
## Servicios        0.2833 -0.0270
## Construccion     0.2752 -0.4037
## Comercio         0.3228 -0.1206
## Informacion      0.3439  0.0301
## Finanzas         0.3216  0.2427
## Inmobiliarias    0.3228  0.0790
## Profesionales    0.3308  0.2145
## Administracion  -0.0535 -0.4221
## Servicios_Otros  0.2971  0.3688
## Impuestos        0.3077 -0.2271
## Warning: The `guide` argument in `scale_*()` cannot be `FALSE`. This was deprecated in
## ggplot2 3.3.4.
## ℹ Please use "none" instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretación de componentes

c. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.

Se presenta los gráficos por cada uno de los componentes PCA1 Y PCA2. Como se observa el ranking de departamento en función a su capacidad productiva esta en el PCA1 encabezado por Santander, seguido de Antioquia y Valle del Cauca.

Para el PCA2 el ranking lo encabeza Atlántico, seguido de Valle del Cauca, Risaralda y Antioquia.

## # A tibble: 27 × 15
##    Departamento Abrev Agricultura   Mineria Industria Servicios Construccion
##    <chr>        <chr>       <dbl>     <dbl>     <dbl>     <dbl>        <dbl>
##  1 Antioquia    Anti     0.00106  0.000345  0.00317   0.000826      0.00162 
##  2 Atlantico    Atla     0.000159 0.0000416 0.00236   0.000970      0.00112 
##  3 Bolivar      Boli     0.000649 0.000349  0.00235   0.000404      0.00154 
##  4 Boyaca       Boya     0.00206  0.00145   0.00237   0.00108       0.00212 
##  5 Caldas       Cald     0.00128  0.000166  0.00180   0.000697      0.000953
##  6 Caqueta      Caqu     0.00127  0.0000328 0.000252  0.0000615     0.000988
##  7 Cauca        Cauc     0.00125  0.000116  0.00181   0.000284      0.000917
##  8 Cordoba      Cord     0.000853 0.000132  0.000825  0.000308      0.000536
##  9 Cundinamarca Cund     0.00253  0.000145  0.00377   0.000954      0.00131 
## 10 Choco        Choc     0.00123  0.000627  0.0000573 0.0000602     0.000341
## # ℹ 17 more rows
## # ℹ 8 more variables: Comercio <dbl>, Informacion <dbl>, Finanzas <dbl>,
## #   Inmobiliarias <dbl>, Profesionales <dbl>, Administracion <dbl>,
## #   Servicios_Otros <dbl>, Impuestos <dbl>

Agregar los datos excluidos inicialmente

##             PC1        PC2
## [1,] 13.5268695  3.2810364
## [2,] -1.5294497  0.2830686
## [3,]  0.8993384 -3.1599008
## [4,] -1.8874335 -3.0093672
## [5,]  1.0571850 -4.3941342
## [6,]  4.5460663 -1.5770385

d. Utilizando los resultados de la proyección de departamentos y variables en el espacio de las componentes (biplot), genere una caracterización de la estrutura del PIB de los siguientes departamentos: Casanare, Arauca, Bogota, San Andrés, Valle del Cauca, Antioquia,Choco, Vaupes.

De acuerdo con la gráfica de las componentes principales para estos departamentos, se puede decir que los departamentos del Valle, Antioquia y la ciudad de Bogotá, se ubican en el cuadrante superior derecho, lo que sugiere que la estructura del PIBpercapita este compuesto de manera más fuerte por los sectores de Servicios_Otros, Finanzas, Profesionales, inmobiliarios e Información. Se debe hacer claridad que Bogotá resulta ser el que más aporta al PIBpercapita.

Por otra parte, los departamentos ubicados en cuadrante inferior derecho, muestra una componente fuerte en los sectores de económicos con Carga alta en el PCA1, pero con carga negativa en PCA2. Esto sugiere que le PIBpercapita para estos departamentos pueden estar constituidor por Impuestos, Construcción y Agricultura. Lo Departamentos del Vaupés y Arauca, están en cuadrante negativo, lo que sugiere una estructura del PIB compuesta por Minería y Administración. Por ultimo el PIB para el Choco esta compuesto principalmente por Minería.

## # A tibble: 6 × 15
##   Departamento    Abrev Agricultura   Mineria Industria Servicios Construccion
##   <chr>           <chr>       <dbl>     <dbl>     <dbl>     <dbl>        <dbl>
## 1 Antioquia       Anti   0.00106    0.000345  0.00317   0.000826      0.00162 
## 2 Bogota D.C.     Bogo   0.00000177 0.0000449 0.00261   0.000564      0.00148 
## 3 Choco           Choc   0.00123    0.000627  0.0000573 0.0000602     0.000341
## 4 Valle del Cauca Vall   0.00102    0.0000296 0.00310   0.000585      0.000874
## 5 Arauca          Arau   0.00330    0.00576   0.000515  0.000126      0.000691
## 6 Casanare        Casa   0.00367    0.0147    0.000778  0.000511      0.000971
## # ℹ 8 more variables: Comercio <dbl>, Informacion <dbl>, Finanzas <dbl>,
## #   Inmobiliarias <dbl>, Profesionales <dbl>, Administracion <dbl>,
## #   Servicios_Otros <dbl>, Impuestos <dbl>

Cluster

e. Utilice las puntuaciones de las componentes prinicipales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.

En una primera iteración, se selecciona K=2.

## K-means clustering with 2 clusters of sizes 10, 23
## 
## Cluster means:
##         PC1        PC2
## 1  4.658605  0.2398157
## 2 -1.303195 -0.4771518
## 
## Clustering vector:
##  [1] 1 1 2 1 1 2 2 2 1 2 2 2 2 2 2 2 1 1 2 2 1 2 2 2 2 2 2 1 2 2 2 2 1
## 
## Within cluster sum of squares by cluster:
## [1] 141.60332  96.57407
##  (between_SS / total_SS =  51.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Mejor valor de K

Para este análisis se hace la gráfica del método del codo, que busca el punto de inflexión, donde la tasa de disminución comienza a disminuir. A partir de allí se define el valor de k que corresponde al punto de inflexión que es donde se considera el número óptimo de clústeres.

De acuerdo con el gráfico del método del codo, el mejor valor de K es 3.

Segunda iteración - K=3

Posteriormente se hace el gráfico Silhouette Plot para revisar la coherencia de los clústeres en el análisis de agrupamiento definido. Permite establecer una medida de que tan cerca están los datos de un mismo cluster y qué tan bien separados están los diferentes de los otros. Se observa que el agrupamiento es coherente y que Bogotá por su valor extremo queda independiente.

## K-means clustering with 3 clusters of sizes 15, 17, 1
## 
## Cluster means:
##         PC1        PC2
## 1  2.589244 -0.6726738
## 2 -2.103115 -0.1039567
## 3 13.526869  3.2810364
## 
## Clustering vector:
##  [1] 1 1 1 1 1 2 2 2 1 2 1 2 2 2 2 1 1 1 2 1 1 2 2 2 2 2 2 3 2 1 2 1 1
## 
## Within cluster sum of squares by cluster:
## [1] 94.40146 29.20707  0.00000
##  (between_SS / total_SS =  74.7 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

f. Utilice herramientas de visualización para describir de forma sintetica las caracteristicas globales de los grupos de departamentos sugeridos.

Representación gráfica univariante y multivariantede los clusters

El gráfico de clustering K-means, permite visualizar los tres clústeres definidos. Como se ha mostrado en los análisis anteriores Bogotá se encuentra como un solo grupo en la parte superior derecha por el alto aporte que hace al PIB. Por otra el segundo grupo, vincula los departamentos que se encuentran en los cuadrantes superior e inferior derecha, es decir, donde el aporte al PIB se relaciona con las actividades con mayor carga en el PCA1 y de menor carga en PCA2. Por último, en el tercer clúster incluye los departamentos donde el PIB lo confirman sectores que tienen mayor carga en PCA2 y menor carga en PC1.