Taller 3


Análisis Exploratorio de Datos.

a. Realice un análisis exploratorio previo de los datos disponible, haciendo énfasis en la estructura de correlación entre las variables de productividad económica.

Inicialmente se calculan los estadisticos descriptivos de cada componente de productividad economica, para ayudar a entender un poco mas facil el comportamientos de estos componentes y la posible relacion estre ellos se procede a realizar los graficos descriptivos de digrama de cajas y correlaciones.



Análisis Exploratorio de Datos

Con el objetivo de simplificar los nombres de las categorías, se opta por cambiarlos a etiquetas más cortas, ya que los nombres originales son extensos. Además, se asigna el valor de la abreviatura como etiqueta representativa de cada fila para facilitar su identificación.

Nombre Nuevo Nombre
Departamento Departamento
Agricultura, ganadería, caza, silvicultura y pesca Agropecuaria
Explotación de minas y canteras Mineria
Industrias manufactureras Manufacturas
Suministro de electricidad, gas, vapor y aire acondicionado; distribución de agua; evacuación y tratamiento de aguas residuales, gestión de desechos y actividades de saneamiento ambiental SP
Construcción Construcción
Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas; transporte y almacenamiento; alojamiento y servicios de comida CSV
Información y comunicaciones IC
Actividades financieras y de seguros Financiero
Actividades inmobiliarias AI
Actividades profesionales, científicas y técnicas; actividades de servicios administrativos y de apoyo APCTA
Administración pública y defensa; planes de seguridad social de afiliación obligatoria; educación; actividades de atención de la salud humana y de servicios sociales Bienestar publico
Actividades artísticas, de entretenimiento y recreación y otras actividades de servicios; actividades de los hogares individuales en calidad de empleadores; actividades no diferenciadas de los hogares individuales como productores de bienes y servicios para uso propio SCR
Impuestos Impuestos


La estructura de las variables no es adecuada, para obtener un conjunto de datos más apropiado se ha eliminado la información referente a los nombres de los departamentos, creando un nuevo dataset denominado PIBpc_sin_departamento. En la fase inicial, se asignaron abreviaturas a cada registro, lo que hace que la columna ‘Departamento’ carezca de relevancia para nuestro análisis.”


Se lleva a cabo una validación en busca de datos faltantes, concluyendo que no se encontraron registros sin información.

Visualización Univariada de datos

##            Agropecuaria Mineria Manufacturas      SP Construcción    CSV
## Promedio        0.00135  0.0016       0.0012 0.00036      0.00100 0.0026
## Desviación      0.00088  0.0035       0.0012 0.00029      0.00044 0.0022
##                 IC Financiero      AI   APCTA Bienestar publico     SCR
## Promedio   0.00027    0.00040 0.00088 0.00063           0.00243 0.00024
## Desviación 0.00025    0.00045 0.00076 0.00060           0.00047 0.00021
##            Impuestos
## Promedio     0.00099
## Desviación   0.00091


De acuerdo a la grafica anterior, se puede observar que el PIB mas alto lo tiene Bienestar publico que corresponde a Administración pública y defensa; planes de seguridad social de afiliación obligatoria; educación; actividades de atención de la salud humana y de servicios sociales, tambien se puede observar que Mineria presentan un amplio rango de datos atipicos


Seguidamente, se realizaran el diagrama de correlación de Pearson, con el fin de reducir la dimensión del dataset.

Análisis Bivariado de la correlación


Este gráfico muestra la presencia de al menos un punto atípico en todas las categorías, lo que requerirá una evaluación detallada en etapas posteriores.


Test Hipotesis de correlaciones con datos atipicos


De acuerdo con el grafico anterior, en la prueba de hipótesis de las correlaciones, muestra que existe correlación significativa entre varios sectores tales como Manufacturas, SP, construcción, IC, Financiero, AI, APCTA y Bienestar público, sin embargo, el sector minero y agropecuario solo relacionan entre ellos.

Es importante mencionar que en grafico (Correlación de Pearson), se observa que en casi todos los sectores existen datos atípicos los cuales tienen efecto en las correlaciones encontradas, es por ello por lo que a continuación se realizara un análisis de datos atípicos para establecer si es eliminan o se mantienen.

## $Agropecuaria
## $Agropecuaria[[1]]
## [1] "Casa"
## 
## 
## $Mineria
## $Mineria[[1]]
## [1] "Cesa" "La G" "Meta" "Arau" "Casa" "Putu"
## 
## 
## $Manufacturas
## $Manufacturas[[1]]
## character(0)
## 
## 
## $SP
## $SP[[1]]
## character(0)
## 
## 
## $Construcción
## $Construcción[[1]]
## [1] "Boya" "Sant"
## 
## 
## $CSV
## $CSV[[1]]
## [1] "Bogo" "Casa" "San" 
## 
## 
## $IC
## $IC[[1]]
## [1] "Bogo"
## 
## 
## $Financiero
## $Financiero[[1]]
## [1] "Anti" "Bogo"
## 
## 
## $AI
## $AI[[1]]
## [1] "Bogo" "Vall"
## 
## 
## $APCTA
## $APCTA[[1]]
## [1] "Bogo"
## 
## 
## $`Bienestar publico`
## $`Bienestar publico`[[1]]
## [1] "Bogo" "San" 
## 
## 
## $SCR
## $SCR[[1]]
## [1] "Bogo"


De acuerdo al resultado anterior de datos atípicos se tiene que SP y Manufactura son los únicos dos sectores que no presentan atípicos, las demás categorías si presentan outliers, sin embargo la región más recurrente en la mayoría de los sectores es Bogotá, es por ello que se decide eliminar estos registros, también es importante mencionar que Bogotá propiamente no es un departamento en Colombia es la capital por tanto es diciente que pueda tener un comportamiento diferente a los demás departamentos, especialmente en sectores de servicios administrativos y financieros. Por otro lado, San Andres tambien es otro departamento que presenta recurrencia y esto pordria atribuirse a que en la isla la economia esta basada principalmente en el turismo y esto puede jalar las correlaciones y el analisis posterior de componentes principales y clusters. Por tanto, en los siguientes analisis no tendremos en cuenta Bogota y San Andres.

Realizamos nuevamente el analisis sin los datos atipicos.

Test Hipotesis de correlaciones sin datos atipicos

En terminos generales, podemos osbservar que aparecen las elipses lo que quiere decir que las correlaciones son significativas y que al no tener en cuenta San Andres y Bogota los sectores economicos muestran una mayor relacion entre ellos.

Análisis de Componentes Principales


b. Identifique, seleccione e interprete las estructuras latentes (Componentes Prinicipales) que caracterizan las capacidades de generación de riqueza de los departamentos en Colombia. (Recuerde manejar adecuadamente los puntos influyentes)

Sabiendo que existe correclacion significativa en los sectores evaluados, se proceede a realizar el analisis de componentes priciaples sin considerar “Impuestos” ni los registros atípicos


Se seleccionan 3 componentes, recogen el 82.15% de la Varianza Explicada

##                        PC1      PC2     PC3
## Agropecuaria       0.06184 -0.57962  0.1590
## Mineria            0.00736 -0.60579  0.2282
## Manufacturas       0.34341  0.08076 -0.0450
## SP                 0.31036 -0.02024  0.1776
## Construcción       0.28944 -0.13181 -0.2319
## CSV                0.28035 -0.39608 -0.0679
## IC                 0.36743  0.05486  0.0247
## Financiero         0.35442  0.00687 -0.0557
## AI                 0.34858  0.01236 -0.1129
## APCTA              0.35943  0.14279  0.0421
## Bienestar publico -0.06867 -0.18711 -0.9010
## SCR                0.32165  0.23930  0.0249

Interpretacion de las componentes

De acuerdo a las graficas (metricas de selección), se decide trabajar con 3 componentes principales las cuales representan el 82.2% de la varinza del dataset y un valor propio casi en 1. Acontinuacion se relacionan las componentes con los sectores que representaran.

Componente PC1 = Desempeño Economico genereal:

Esta componente comprende todas las categorias del dataset, es decir, que esta sera como una forma de medir el desempeño economico general de los departamentos.Es importante mencionar que aunque la categoria de Bienestar publico esta levemente negativa (ver grafico BARRAS), esta componenta se sigue considerando como desempeño general dado que en Colombia la mayoria de proyectos de inversion publica generan mas gatos y no podria verse como un aporte al PIB.

Interpretacion de coeficiene (Desempeño Economico genereal) : Los coeficientes positivos reflejan sectores con desempeño general más prominente.

Componente PC2 = Desarrollo tecnologico y servicios

Esta componente reflejara el desarrollo tecnologico y servicios dado que las categorias de Manufacturas, IC, APCTA y SCR comprende los coeficientes positivos.

Interpretacion de coeficiene (Desarrollo tecnologico y servicios) : Los coeficientes positivos reflejan categorias mas fuertes en Desarrollo tecnologico y servicios.

Componente PC3 = Desarrollo Aagroindustrial y suministros publicos

Esta componente reflejara el desarrollo agroindustrial y suministro publicos dado que las categorias de Aagropecuaria, Mineria, SP, IC, APCTA Y SCR comprende los coeficientes positivos.

Interpretacion de coeficiene (Desarrollo Aagroindustrial y suministros publicos) : Los coeficientes positivos reflejan ategorias mas fuertes en Desarrollo Aagroindustrial y suministros publicos.



c. Proyecte la productividad de los departamentos en el espacio de las componentes principales y genere un ranking de los departamentos en función de su capacidad productiva en cada una de las componentes.

Representacion de los individuos en las componentes principales

Interpretacion de las componentes

Casanare, Valle, Tolima, Santander, Risaralda, Quindio, Meta, Huila, Cundinamarca, Caldas, Boyaca, Bolivar, Atlantico y Antioquia son los departamentos que tienen un mejor desarrollo economico destacandose Antioquia, Santander y Valle como los regiones donde se tiene mejor desarollo economico en terminos generales, por otro se observa que departamentos como Vichada, Vaupes, Guavina, Amazonas, Putumayo, Arauca, Sucre,Nariño, Norte de Santander, Magdalena, La Guajira, Choco, Cordoba, Cesar,Cauca y Caqueta son los departamentos con desempeño economico negativo indicando que son las regiones de menor desarrollo economico, esto es muy pertinente dado que el Colombia la mayoria de estos departamentos tienen problematicas de orden publico y las condiciones de vida son precarias.

En cuanto al Desarrollo tecnologico y servicios, se observa que el departamento de Casanare es el menos desarrollado en este sector esto se puede debr a que la economia de este departamento radica mas en el sector agroindustrial como seobsevar en el ranking de la componente de Desarrollo Aagroindustrial y suministros publicos. Tambien se puede observar que la mayoria de departamentos tienen desarrollo Desarrollo tecnologico y servicios, destacado unos regiones mas que otras.

En cuanto a la componente 3, Desarrollo Aagroindustrial y suministros publicos se destacam departamento como Vichada, Casanare, Cundinamarca, Cordoba, Cesar entre otros. Asi como tambien se observa que en el caso de Guainía no es tan fuerte en este sector.

d. Utilizando los resultados de la proyección de departamentos y variables en el espaciode las componentes (biplot), genere una caracterización de la estrutura del PIB de los siguientes departamentos: Casanare, Arauca, Bogota, San Andrés, Valle del Cauca, Antioquia,Choco, Vaupes.

Representación simultánea de individuos y variables


De acuerdo a los graficos anteriores,

Casanare: De acuerdo a los graficos generados, se puede observar que este departamento tiene un desempeño economico general positivo, lo que indica que aunque no es el mejor en comparacion a otros deparatamentos es bueno, siendo su mayor desarrollo economico la agroindustria y suministrios publicos, esto concuerda mucho con la realidad dado que en esta region la economia gira entorno a la agricultura, el petroleo y la gadaneria.

Arauca: Para esta region, se observa que en terminos generales su desempeño economico es negativo, lo que indica que no tiene un buen desarrollo economico, pues este departamento no se destaca ni en Desarrollo tecnologico y servicios ni en Desarrollo Aagroindustrial y suministros publicos, esto puede deberse a que este departamento a lo largo de la hisoria ha sido afectado por contabando, reclutamiento infantil y grupos armados lo que afecta en gran medida este tipo de indicadores economicos.

Bogota: Aunque esta region no se tuvo encuenta en tabla de ranking, se puede observar en el grafico (Grafico Representación simultánea de individuos y variables con datos atipicos), se puede observar que Bogota se desataca por el Desarrollo tecnologico y servicios y esto es muy coherente con la realidad dado que es la capital de Colombia y alli radican los servicios financieros y tecnologicos.

San Andrés:Aunque esta region no se tuvo encuenta en tabla de ranking, se puede observar en el grafico (Grafico Representación simultánea de individuos y variables con datos atipicos), se puede observar que San Andres, se desataca por el Desarrollo tecnologico y servicios y esto es muy coherente con la realidad dado que esta isla es muy turistica en Colombia.

Valle del Cauca: Muestra un Desarrollo general superior se encuentra en el Top 3, esto sin tener en cuenta los dos puntos atipicos en el Ranking. Aunque no se destaca como uno de los departamentos más fuertes del país en términos generales de desarrollo agroindustrial y suministros públicos, su enfoque y fortaleza residen principalmente en el componente de desarrollo tecnológico y la calidad de los servicios que ofrece

Antioquia: Destaca por un rendimiento que supera ampliamente la mayoría de los otros departamentos, evidenciando un equilibrio notable entre el progreso en el ámbito del desarrollo tecnológico y de servicios, así como en el sector de la agroindustria y los suministros públicos. Su gestion para mantener este equilibrio es la razon del porque su desempeño es de los mejores.

Choco: A pesar de mantener un equilibrio entre el “desarrollo tecnologico y servicios” y la “agroindustria con suministros públicos”, su desempeño se sitúa por debajo del promedio. Al analizar su posición general, parece carecer de fortaleza en áreas clave del desarrollo general.

Vaupes: Su desempeño, por debajo del promedio, se inclina hacia el sector de “desarrollo tecnológico y servicios”, dejando en segundo plano la agroindustria y los suministros públicos..


Se puede observar que a medida que un departamento está mejor posicionado en el componente de Desarrollo General, el costo de los impuestos tiende a ser más alto. Al analizar la relación entre los impuestos y los sectores ‘Desarrollo Tecnológico y Servicios’ así como ‘Agroindustria y Suministros Públicos’, se evidencia que estas variables no tienen un impacto significativo en dichos costos por si solos.

Representación simultánea de individuos y variables con datos atipicos

Cluster - Conglomerados - Competidoras con similaridad de perfil


e. Utilice las puntuaciones de las componentes prinicipales para sugerir al gobierno nacional una agrupación de departamentos con similaridad en su estructura de generación en valor agregado


De acuerdo a las metricas de Silhouette y SEE, se decide trabajar con 6 clusters, dado que la distancia de Silhouette con 6 agrupaciones es de 0.43 y el SEE oscilaria alrededor de 60.

f. Utilice herramientas de visualización para describir de forma sintetica las caracteristicas globales de los grupos de departamentos sugeridos.


Se recomienda al estado nacional establecer 6 agrupaciones de departamentos en el cual el gupo 1 representados en la elipse naranja de los garficos anteriores se caracterizan por tener un desempeño economico normal inclinandose un mas su economia mas haci el sector de Desarollo tecnologico y de servicios.

En el caso del grupo 2, esta solo Bogota destacandose por un desempeño economico general bueno en comparacion a los demas departamentos destacando su economia hacia el desarollo tecnologico y de servicios

Para el grupo 3, son departamentos que en terminos generales no presentan un buen desempeño economico y su economia se inclina mas hacia al Desarrollo Agroindustrial y suministros publicos

Para el grupo 4, Departamentos que tiene buen desempeño economico y su economia se inclina hacia al Desarrollo Agroindustrial y suministros publicos

Para el grupo 5, este departamento queda solo porque aunque su desempeño economico general no es muy bueno, este presenta aporte en su economica en los dos sectores estudiados, sin embargo destaca mas el sector agroindustrial y de suministros publicos

Para el grupo 6, se tienen departamentos como Antioquia, Valle y Santander que tienen buen desempeño economico en terminos generales e inclinan mas su economia en el sector de Desarrollo tecnologico y servicio.