Utilizando una base de datos extraída del portal SER Pacífico, se seleccionaron 16 variables a nuestro parecer relevantes en el año 2012 relacionadas con los municipios del Valle del Cauca. posteriormente se armo una nueva base de datos
Este trabajo se realizo utilizando la técnica estadística ACP que sirve para reducir la dimensionalidad de un conjunto de datos, conservando la mayor cantidad de información posible. Consiste en transformar variables correlacionadas en un conjunto más pequeño de variables no correlacionadas, llamadas componentes principales. Esto facilita la visualización y la interpretación de la estructura subyacente de los datos. Y tambien la clusterización Ward es un método jerárquico para agrupar datos en clusters y evaluar la proximidad a nivel de individuos. los clusters se construyen fusionando iterativamente los pares de clusters más cercanos. Es una técnica eficaz para identificar grupos compactos y bien definidos en conjuntos de datos, y la idea de esta técnica es minimizar la varianza dentro de cada cluster.
Nombre de las varibles:
summary(datos2)
## PEMC PSEGA PC PAGCSP
## Min. :0.2400 Min. : 0.200 Min. :6.300 Min. : 0.13
## 1st Qu.:0.2400 1st Qu.: 0.945 1st Qu.:6.350 1st Qu.: 8.68
## Median :0.2400 Median : 1.590 Median :6.350 Median :23.54
## Mean :0.2738 Mean : 2.755 Mean :6.348 Mean :24.82
## 3rd Qu.:0.2400 3rd Qu.: 2.125 3rd Qu.:6.350 3rd Qu.:33.45
## Max. :0.8700 Max. :41.980 Max. :6.350 Max. :71.98
## PIM PCRRH PTAC PEFSOS
## Min. : 0.25 Min. : 0.570 Min. : 2.320 Min. : 8.47
## 1st Qu.: 2.31 1st Qu.: 9.885 1st Qu.: 6.035 1st Qu.:16.38
## Median : 4.77 Median :11.980 Median : 7.650 Median :20.93
## Mean :12.63 Mean :11.834 Mean : 7.570 Mean :21.37
## 3rd Qu.:15.56 3rd Qu.:14.660 3rd Qu.: 9.175 3rd Qu.:25.93
## Max. :59.03 Max. :23.420 Max. :12.610 Max. :36.30
## PASSP PVAMD GIE UAS
## Min. : 5.100 Min. : 0.150 Min. :1.00 Min. : 3.734
## 1st Qu.: 8.945 1st Qu.: 0.275 1st Qu.:3.00 1st Qu.:24.561
## Median :11.420 Median : 0.540 Median :5.00 Median :30.904
## Mean :12.403 Mean : 2.539 Mean :4.59 Mean :33.133
## 3rd Qu.:13.720 3rd Qu.: 1.210 3rd Qu.:6.00 3rd Qu.:38.812
## Max. :27.950 Max. :47.840 Max. :7.00 Max. :93.176
## IDI BB VAM VAPC
## Min. :45.48 Min. : 1.000 Min. : 64.88 Min. : 6907165
## 1st Qu.:60.77 1st Qu.: 1.000 1st Qu.: 143.17 1st Qu.: 9605179
## Median :66.39 Median : 1.000 Median : 311.13 Median :11622839
## Mean :66.41 Mean : 2.487 Mean : 1429.78 Mean :13432525
## 3rd Qu.:72.67 3rd Qu.: 1.000 3rd Qu.: 769.25 3rd Qu.:14939582
## Max. :84.79 Max. :50.000 Max. :26362.63 Max. :43528473
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PEMC)) +
geom_bar(stat = "identity", fill = "red", color = "black") +
labs(title = "Participación de la explotación de minas y canteras",
x = "Municipio",
y = "PEMC") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
## Participación en construcción de cada municipio.
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PC)) +
geom_bar(stat = "identity", fill = "blue", color = "black") +
labs(title = "Participación en construcción de cada municipio",
x = "Municipio",
y = "PC") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
## Participación de suministros de energía gas y
agua.
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PSEGA)) +
geom_bar(stat = "identity", fill = "gray", color = "black") +
labs(title = "Participación de suministros de energía gas y agua",
x = "Municipio",
y = "PSEGA") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PAGCSP)) +
geom_bar(stat = "identity", fill = "green", color = "black") +
labs(title = "Participación de la agricultura, ganadería, caza, silvicultura y pesca",
x = "Municipio",
y = "PAGCSP") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PIM)) +
geom_bar(stat = "identity", fill = "pink", color = "black") +
labs(title = "Participación de la industria manufacturera",
x = "Municipio",
y = "PIM") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PCRRH)) +
geom_bar(stat = "identity", fill = "purple", color = "black") +
labs(title = "Participación de comercio, reparación, restaurantes y hoteles",
x = "Municipio",
y = "PCRRH") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PTAC)) +
geom_bar(stat = "identity", fill = "yellow", color = "black") +
labs(title = "Participación de transporte, almacenamiento y comunicaciones",
x = "Municipio",
y = "PTAC") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PEFSOS)) +
geom_bar(stat = "identity", fill = "turquoise", color = "black") +
labs(title = "Participacion de establecimientos financieros, seguros y otros",
x = "Municipio",
y = "PEFSOS") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(BASEDATOSPACIFICO, aes(x = Municipio, y = PVAMD)) +
geom_bar(stat = "identity", fill = "tan2", color = "black") +
labs(title = "Participacion del valor agregado municipal en el va departamental",
x = "Municipio",
y = "PVAMD") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(datos2, aes(x = GIE)) +
geom_bar(fill = "mediumorchid1", color = "black") +
labs(title = "Cantidad de Municipios por grado de importancia economica",
x = "GRADO DE IMPORTANCIA",
y = "CANTIDAD DE MUNICIPIOS") +
scale_x_continuous(breaks = 1:7) +
theme(axis.text.x = element_text(angle =90, hjust = 1))
En el siguiente gráfico nos muestra un diagrama de scree plot que podemos utilizar para visualizar una medida de la varianza explicada por cada componente principal y para determinar el número de componentes principales que se deben utilizar en el análisis.
El gráfico nos muestra que los primeros dos componentes principales explican la mayor parte de la varianza en un (30 y 21 %) respectivamente de los datos. Esto sugiere que los datos pueden ser reducidos a dos dimensiones sin perder mucha información.
También podemos observar que los valores propios disminuyen rápidamente después de los primeros dos componentes principales, lo que sugiere que los componentes restantes no explican mucha varianza en los datos por lo cual se excluyen algunos datos que no son tan representativos.
fviz_eig(PCA)
fviz_pca_ind(PCA,
col.ind = "cos2", # Color by the quality of representation
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE # Avoid text overlapping
)
fviz_pca_var(PCA,
col.var = "contrib", # Color by contributions to the PC
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
axes = c(1,2)# Avoid text overlapping
)
El gráfico ilustra un análisis de componentes principales (PCA) de un conjunto de datos, una técnica estadística para reducir su dimensionalidad proyectándolos en un espacio de menor dimensión. Las etiquetas “Dim1” y “Dim2” representan estas dimensiones, y los puntos muestran las observaciones. El esquema de color, azul y naranja, indica los valores altos en cada dimensión. Se observan tendencias de agrupamiento que sugieren la existencia de grupos de observaciones similares, así como valores más comunes en ambas dimensiones. Estas tendencias son valiosas para analistas de datos en la formulación de estrategias, como dirigir campañas de marketing o ventas. En resumen, el gráfico ofrece una visión útil de la estructura de los datos y sus posibles implicaciones estratégicas.
fviz_pca_biplot(PCA, repel = TRUE,
col.var = "#2E9FDF", # Variables color
col.ind = "#696969",
axes=c(1,2)# Individuals color
)
Cómo podemos evidenciar es una combinación de los dos gráficos anteriores donde se muestra la relación entre las variables, los factores y cómo influyen en cada dimensión.
En la siguiente gráfica se puede observar como se distribuye los datos y como se agruparon en los respectivos 3 clusters seleccionado:
Según el resultado que nos arroja, las variables que indican un buen desempeño en cada clase son:
Y las variables con medias bajas en cada clase son:
Las medias que son significativamente más altas que la media global muestran qué factores son claves para el desempeño en esta clase.