Introducción y descripción de variables

Utilizando una base de datos extraída del portal SER Pacífico, se seleccionaron 16 variables a nuestro parecer relevantes en el año 2012 relacionadas con los municipios del Valle del Cauca. posteriormente se armo una nueva base de datos

Metodologia

Este trabajo se realizo utilizando la técnica estadística ACP que sirve para reducir la dimensionalidad de un conjunto de datos, conservando la mayor cantidad de información posible. Consiste en transformar variables correlacionadas en un conjunto más pequeño de variables no correlacionadas, llamadas componentes principales. Esto facilita la visualización y la interpretación de la estructura subyacente de los datos. Y tambien la clusterización Ward es un método jerárquico para agrupar datos en clusters y evaluar la proximidad a nivel de individuos. los clusters se construyen fusionando iterativamente los pares de clusters más cercanos. Es una técnica eficaz para identificar grupos compactos y bien definidos en conjuntos de datos, y la idea de esta técnica es minimizar la varianza dentro de cada cluster.

Nombre de las varibles:

  • PEMC: participación de la explotación de minas y canteras(Valor en miles de Millones de Pesos)
  • PC: participación en construcción(Valor en Miles de Millones de Pesos)
  • PSEGA: participación de suministros de energía gas y agua(Valor en Miles de Millones de Pesos)
  • PAGCSP: participación de la agricultura,ganadería,caza,silvicultura y pesca(Valor en Miles de Millones de Pesos)
  • PIM: participación de la industria manufacturera(Valor en Miles de Millones de Pesos)
  • PCRRH: participación de comercio,reparación,restaurantes y hoteles(Valor en Miles de Millones de Pesos)
  • PTAC: Participación de transporte, almacenamiento y comunicaciones(Valor en Miles de Millones de Pesos)
  • PEFSOS: Participacion de establecimientos financieros,seguros y otros(Valor en Miles de Millones de Pesos)
  • PASSP: Participacion de actividades de servicios sociales y personales(Valor en Miles de Millones de Pesos)
  • PVAMD: Participacion del valor agregado municipal en el va departamental(Valor en Miles de Millones de Pesos)
  • GIE: Grado de importancia economica(Ordenamiento jerárquico de siete categorías que describe la posición de un municipio con base al nivel de su valor agregado y de su peso relativo.
  • UAS: Uso adecuado del suelo(porcentaje)
  • IDI: Indicador de desempeño integral(porcentaje)
  • BB: Bibliotecas(unidad por territorio)
  • VAPC: Valor agregado perca pura(miles de millones de pesos corrientes)
  • VAM: Valor agregado municipal(Se obtiene como diferencia entre el valor de la producción bruta y los consumos intermedios empleados. valor en miles de millones de pesos)

Estadisticas descriptivas

summary(datos2)
##       PEMC            PSEGA              PC            PAGCSP     
##  Min.   :0.2400   Min.   : 0.200   Min.   :6.300   Min.   : 0.13  
##  1st Qu.:0.2400   1st Qu.: 0.945   1st Qu.:6.350   1st Qu.: 8.68  
##  Median :0.2400   Median : 1.590   Median :6.350   Median :23.54  
##  Mean   :0.2738   Mean   : 2.755   Mean   :6.348   Mean   :24.82  
##  3rd Qu.:0.2400   3rd Qu.: 2.125   3rd Qu.:6.350   3rd Qu.:33.45  
##  Max.   :0.8700   Max.   :41.980   Max.   :6.350   Max.   :71.98  
##       PIM            PCRRH             PTAC            PEFSOS     
##  Min.   : 0.25   Min.   : 0.570   Min.   : 2.320   Min.   : 8.47  
##  1st Qu.: 2.31   1st Qu.: 9.885   1st Qu.: 6.035   1st Qu.:16.38  
##  Median : 4.77   Median :11.980   Median : 7.650   Median :20.93  
##  Mean   :12.63   Mean   :11.834   Mean   : 7.570   Mean   :21.37  
##  3rd Qu.:15.56   3rd Qu.:14.660   3rd Qu.: 9.175   3rd Qu.:25.93  
##  Max.   :59.03   Max.   :23.420   Max.   :12.610   Max.   :36.30  
##      PASSP            PVAMD             GIE            UAS        
##  Min.   : 5.100   Min.   : 0.150   Min.   :1.00   Min.   : 3.734  
##  1st Qu.: 8.945   1st Qu.: 0.275   1st Qu.:3.00   1st Qu.:24.561  
##  Median :11.420   Median : 0.540   Median :5.00   Median :30.904  
##  Mean   :12.403   Mean   : 2.539   Mean   :4.59   Mean   :33.133  
##  3rd Qu.:13.720   3rd Qu.: 1.210   3rd Qu.:6.00   3rd Qu.:38.812  
##  Max.   :27.950   Max.   :47.840   Max.   :7.00   Max.   :93.176  
##       IDI              BB              VAM                VAPC         
##  Min.   :45.48   Min.   : 1.000   Min.   :   64.88   Min.   : 6907165  
##  1st Qu.:60.77   1st Qu.: 1.000   1st Qu.:  143.17   1st Qu.: 9605179  
##  Median :66.39   Median : 1.000   Median :  311.13   Median :11622839  
##  Mean   :66.41   Mean   : 2.487   Mean   : 1429.78   Mean   :13432525  
##  3rd Qu.:72.67   3rd Qu.: 1.000   3rd Qu.:  769.25   3rd Qu.:14939582  
##  Max.   :84.79   Max.   :50.000   Max.   :26362.63   Max.   :43528473

Graficos para visualizar

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PEMC)) +
  geom_bar(stat = "identity", fill = "red", color = "black") +
  labs(title = "Participación de la explotación de minas y canteras",
       x = "Municipio",
       y = "PEMC") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

## Participación en construcción de cada municipio.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PC)) +
  geom_bar(stat = "identity", fill = "blue", color = "black") +
  labs(title = "Participación en construcción de cada municipio",
       x = "Municipio",
       y = "PC") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

## Participación de suministros de energía gas y agua.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PSEGA)) +
  geom_bar(stat = "identity", fill = "gray", color = "black") +
  labs(title = "Participación de suministros de energía gas y agua",
       x = "Municipio",
       y = "PSEGA") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participación de la agricultura, ganadería, caza, silvicultura y pesca.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PAGCSP)) +
  geom_bar(stat = "identity", fill = "green", color = "black") +
  labs(title = "Participación de la agricultura, ganadería, caza, silvicultura y pesca",
       x = "Municipio",
       y = "PAGCSP") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participación de la industria manufacturera.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PIM)) +
  geom_bar(stat = "identity", fill = "pink", color = "black") +
  labs(title = "Participación de la industria manufacturera",
       x = "Municipio",
       y = "PIM") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participación de comercio, reparación, restaurantes y hoteles.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PCRRH)) +
  geom_bar(stat = "identity", fill = "purple", color = "black") +
  labs(title = "Participación de comercio, reparación, restaurantes y hoteles",
       x = "Municipio",
       y = "PCRRH") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participación de transporte, almacenamiento y comunicaciones.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PTAC)) +
  geom_bar(stat = "identity", fill = "yellow", color = "black") +
  labs(title = "Participación de transporte, almacenamiento y comunicaciones",
       x = "Municipio",
       y = "PTAC") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participacion de establecimientos financieros, seguros y otros.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PEFSOS)) +
  geom_bar(stat = "identity", fill = "turquoise", color = "black") +
  labs(title = "Participacion de establecimientos financieros, seguros y otros",
       x = "Municipio",
       y = "PEFSOS") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participacion de actividades de servicios sociales y personales.

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PASSP)) +
  geom_bar(stat = "identity", fill = "violetred4", color = "black") +
  labs(title = "Participacion de actividades de servicios sociales y personales",
       x = "Municipio",
       y = "PASSP") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Participacion del valor agregado municipal en el va departamental

ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PVAMD)) +
  geom_bar(stat = "identity", fill = "tan2", color = "black") +
  labs(title = "Participacion del valor agregado municipal en el va departamental",
       x = "Municipio",
       y = "PVAMD") +

  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Cantidad de Municipios por grado de importancia economica.

ggplot(datos2, aes(x = GIE)) +
  geom_bar(fill = "mediumorchid1", color = "black") +
  labs(title = "Cantidad de Municipios por grado de importancia economica",
       x = "GRADO DE IMPORTANCIA",
       y = "CANTIDAD DE MUNICIPIOS") +
  scale_x_continuous(breaks = 1:7) +
  theme(axis.text.x = element_text(angle =90, hjust = 1))

Graficos de Dimensiones

En el siguiente gráfico nos muestra un diagrama de scree plot que podemos utilizar para visualizar una medida de la varianza explicada por cada componente principal y para determinar el número de componentes principales que se deben utilizar en el análisis.

El gráfico nos muestra que los primeros dos componentes principales explican la mayor parte de la varianza en un (30 y 21 %) respectivamente de los datos. Esto sugiere que los datos pueden ser reducidos a dos dimensiones sin perder mucha información.

También podemos observar que los valores propios disminuyen rápidamente después de los primeros dos componentes principales, lo que sugiere que los componentes restantes no explican mucha varianza en los datos por lo cual se excluyen algunos datos que no son tan representativos.

fviz_eig(PCA)

fviz_pca_ind(PCA,
             col.ind = "cos2", # Color by the quality of representation
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE    # Avoid text overlapping
)

fviz_pca_var(PCA,
             col.var = "contrib", # Color by contributions to the PC
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             axes = c(1,2)# Avoid text overlapping
)

El gráfico ilustra un análisis de componentes principales (PCA) de un conjunto de datos, una técnica estadística para reducir su dimensionalidad proyectándolos en un espacio de menor dimensión. Las etiquetas “Dim1” y “Dim2” representan estas dimensiones, y los puntos muestran las observaciones. El esquema de color, azul y naranja, indica los valores altos en cada dimensión. Se observan tendencias de agrupamiento que sugieren la existencia de grupos de observaciones similares, así como valores más comunes en ambas dimensiones. Estas tendencias son valiosas para analistas de datos en la formulación de estrategias, como dirigir campañas de marketing o ventas. En resumen, el gráfico ofrece una visión útil de la estructura de los datos y sus posibles implicaciones estratégicas.

fviz_pca_biplot(PCA, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969",
                axes=c(1,2)# Individuals color
)

Cómo podemos evidenciar es una combinación de los dos gráficos anteriores donde se muestra la relación entre las variables, los factores y cómo influyen en cada dimensión.

Clusters

En la siguiente gráfica se puede observar como se distribuye los datos y como se agruparon en los respectivos 3 clusters seleccionado:

Division en tres clusters

Datos de cada cluster

Según el resultado que nos arroja, las variables que indican un buen desempeño en cada clase son:

  • CLASE 1: Grado de Importancia Económica (GIE), Participación de la agricultura, ganadería, caza, silvicultura y pesca (PAGCSP), Participación de transporte, almacenamiento y comunicaciones (PTAC), Participación del valor agregado municipal en el valor departamental (PVAMD).
  • CLASE 2: Participación de la industria manufacturera (PIM), Uso adecuado del suelo (UAS).
  • CLASE 3: Bibliotecas (BB), Participación del valor agregado municipal en el valor departamental (PVAMD), Participación de establecimientos financieros, seguros y otros (PRFSOS), Participación de actividades de servicios sociales y personales (PASSP).

Y las variables con medias bajas en cada clase son:

  • CLASE 1: Valor agregado percapita (VAPC), Uso adecuado del suelo (UAS).
  • CLASE 2: Participación de transporte, almacenamiento y comunicaciones (PTAC), Participación de actividades de servicios sociales y personales (PASSP), Participación de la agricultura, ganadería, caza, silvicultura y pesca (PAGCSP), Grado de Importancia Económica (GIE).
  • CLASE 3: Grado de Importancia Económica (GIE).

Las medias que son significativamente más altas que la media global muestran qué factores son claves para el desempeño en esta clase.