Este indicador es una magnitud macroeconómica que expresa el valor monetario del acumulado de producción de bienes y servicios de demanda final en una población durante un período determinado de tiempo. En este informe se muestra inicialmente el análisis exploratorio de los datos del PIB en Colombia para el año 2018 medido en miles de millones de pesos, para las 33 unidades administrativas en que se divide Colombia; 32 departamentos y el distrito capital, Bogotá. Una vez realizado un primer acercamiento a los datos, se procedera a indentificar las ‘Componentes Prinicipales’. Los componentes principales servirán para proyectar la productividad, con lo cual se genera un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes. Posteriormente a esto se genera una caracterización de la estrutura del PIB de los departamentos: Casanare, Arauca, Bogota, San Andrés, Valle del Cauca, Antioquia,Choco, Vaupes. Finalmente se realiza una una agrupación de departamentos con similaridad en su estructura de generación en valor agregado.
Se grafican cada uno de los indicadores del PIB. Con estas primeras graficas de Interquartile Range podemos observar la presencia de datos atípicos o outliers.
En este ánalisis, se correlacionan cada una de las actividades de los datos del PIB. La magnitud de la correlación, que varía entre -1 y 1, proporciona información sobre la fuerza de la relación: valores cercanos a 1 o -1 indican una correlación fuerte, mientras que valores cercanos a 0 indican una correlación débil. Dado que se ha asignado un valor minimo de correlación de 0.05 o el 5%, los espacios en blanco dan a entender que la correlación es muy baja para tenerlas en cuenta.
En el gráfico del boxplot las variables “Ad.publica(Administración pública y defensa)” y “Act.prof(Actividades profesionales y tecnicas)” presentan valores atípicos que se identifican para la ciudad de Bogotá el cual se identifica en la posición 3 de la tabla. Este valor atípico puede afectar los resultados de las componentes principales.
Al observar la graficas de correlación, se puede evindenciar que los datos atípicos pueden afectar los resultados de las componentes principale dado que los valores atípicos pueden distorsionar la estructura de covarianza de los datos, lo que a su vez puede afectar las componentes principales identificadas por PCA. En particular, los valores atípicos pueden influir en la dirección y la magnitud de las componentes principales, lo que puede llevar a una interpretación errónea de la variabilidad en los datos.
Se realiza el mismo proceso y se observa que en la grafica de comercio existe un dato outlier, para lo que se encuentra que perntenece a “San Andres”, por lo que no se considera este dato.
De las graficas de la varianza se observa que hasta la componente 3 se recoge un 81.65% de la varinza por lo que se toman 3 componentes principales. Con la primer grafica y el criterio del codo teniendo encuenta el aporte de las componentes, se toma la decisión de elegir tres componentes principales.
Al realizar el ánalisis entre las varibales para las 3 componentes principales escogidas se llega a la conclusión que la primera componente principal PCA1: es un performance general de todas las areas del PIB, PCA2: es un contraste entre el sector primario vs sector terciario,