Para la ultima actividad del curso de programación en R se realiza un analisis de cluster jerarquico con el método hclust con la base de datos de Calidad de Vida a nivel departamental, analizando las siguientes variables:
-ICV: indice de calidad de vida -TURB: tasa de urbanización -NBI: indice de necesidades basicas insatisfechas -GENREPRO: generaciónn de recursos propios -IDESFISCAL: indice de desarrollo fiscal
Primero cargo la base de datos y la renombro para comodidad
library(readxl)
## Warning: package 'readxl' was built under R version 3.6.3
Datos_Calidad_Vida_12_34_39_PM <- read_excel("Datos_Calidad_Vida-12.34.39-PM.xlsx")
datos<- Datos_Calidad_Vida_12_34_39_PM
Transformo a data frame y selecciono las variables a trabajar y los grafico
datos=data.frame(datos)
datos_cluster=datos[,2:6]
row.names(datos_cluster)=datos[,1]
datos_cluster
## ICV TURB NBI GENREPRO IDESFISCAL
## Amazonas 43.85634 0.08127555 76.18182 3.4790909 11.070000
## Antioquia 65.64685 0.46176600 38.02400 16.6234400 59.105680
## Arauca 67.78770 0.58431471 57.00000 6.5800000 57.025714
## Atlantico 68.86762 0.80095217 42.47826 8.8530435 44.773913
## Bogota 86.91610 0.99771800 9.00000 40.0800000 70.080000
## Bolivar 55.43014 0.51702129 66.73333 6.3031111 54.629111
## Boyaca 59.93566 0.29256215 42.59350 9.9321951 57.524634
## Caldas 68.30256 0.47541693 24.44444 14.6666667 57.565556
## Caqueta 58.37309 0.40371163 51.18750 11.9537500 56.434375
## Casanare 63.81670 0.53208011 44.73684 7.1963158 66.564737
## Cauca 53.95316 0.23892944 58.60976 12.1341463 57.729268
## Cesar 63.08935 0.56948432 53.56000 12.1780000 55.866000
## Choco 47.10964 0.35395290 73.03333 10.8520000 52.577000
## Cordoba 55.68296 0.39559436 65.46429 8.2889286 50.315357
## Cundinamarc 66.30601 0.36703221 30.25000 21.0354310 62.502328
## Guainia 28.59563 0.06712311 95.11111 0.3444444 6.233333
## Guaviare 51.81430 0.42649300 53.75000 10.7800000 48.902500
## Huila 61.63438 0.42723586 41.29730 10.0805405 58.226216
## LaGuajira 59.66957 0.53908213 61.26667 7.6133333 58.642667
## Magdalena 56.85169 0.50017700 62.83333 6.3086667 54.503000
## Meta 65.39329 0.47129321 46.10345 15.7306897 59.856207
## Nariño 56.89282 0.28241383 56.51562 8.5879687 61.962969
## NorteDeSa 60.52032 0.38644782 45.12500 8.0347500 56.141000
## Putumayo 60.13390 0.43772462 39.30769 10.5715385 57.753846
## Quindio 75.45042 0.66785200 20.58333 19.0200000 58.284167
## Risaralda 68.85400 0.50557357 27.00000 16.3900000 58.707143
## Santander 60.95274 0.32881697 38.05747 10.7971264 59.207471
## Sucre 59.01998 0.50432177 61.96154 5.5792308 51.429231
## Tolima 63.85698 0.44398536 39.59574 14.1151064 57.189149
## ValleDelC 74.77488 0.59419133 21.52381 28.3842857 60.495000
## Vaupes 39.37890 0.13720233 85.50000 5.9000000 30.093333
## Vichada 52.71475 0.48322975 71.50000 6.7575000 54.372500
plot(datos_cluster)
Estandarizo los datos, calculo la distancias, utilizo el metodo hclust y grafico dendograma
datos_cluster2=scale(datos_cluster)
distancia=dist(datos_cluster2)
cluster=hclust(distancia)
cluster
##
## Call:
## hclust(d = distancia)
##
## Cluster method : complete
## Distance : euclidean
## Number of objects: 32
plot(cluster)
Para ver el numero de saltos o cortes
plot(cluster$height,type="b")
Se presentan 5 saltos grandes en los datos
grupos=cutree(cluster,k = 5)
grupos
## Amazonas Antioquia Arauca Atlantico Bogota Bolivar
## 1 2 3 3 4 3
## Boyaca Caldas Caqueta Casanare Cauca Cesar
## 5 2 5 3 5 3
## Choco Cordoba Cundinamarc Guainia Guaviare Huila
## 5 5 2 1 5 5
## LaGuajira Magdalena Meta Nariño NorteDeSa Putumayo
## 3 3 2 5 5 5
## Quindio Risaralda Santander Sucre Tolima ValleDelC
## 2 2 5 3 2 2
## Vaupes Vichada
## 1 5
plot(datos_cluster,col=grupos)
datos_cluster3=data.frame(datos_cluster,grupos)
datos_cluster3$grupos=as.factor(datos_cluster3$grupos)
Realizo caracterización
require(ggplot2)
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.6.3
ggplot(datos_cluster3,aes(x=grupos,y=ICV,fill=grupos))+geom_boxplot()+theme_bw()
Respecto a la calidad de vida, medida con el Indice de Calidad de Vida -ICV- el grupo 4 comprendido por Bogotá presenta el mejor nivel de calidad de vida (con undice por encima de 80) superando ampliamente al resto de grupos. El grupo 1 (Amazonas, Guainia y Vaupes) corresponde a los departamentos con menor calidad de vida. Los grupos 2, 3 y 5 presentan un comportamiento similar y tienen un indice de calidad de vida entre 50 y 70.
ggplot(datos_cluster3,aes(x=grupos,y=NBI,fill=grupos))+geom_boxplot()+theme_bw()
En cuanto a las necesidad basicas insatisfechas, vemos que la relación descrita por la grafica anterior se invierte. Bogotá es el grupo que menos NBI presenta, mientras que el grupo 1, es el que mayor puntaje tiene en este aspecto. Es importante destacar que los grupos 5 y 3 presentan NBI por encima de 50.
ggplot(datos_cluster3,aes(x=grupos,y=TURB,fill=grupos))+geom_boxplot()+theme_bw()
En cuanto a la tasa de urbanización, el grupo correspondiente a Bogotá es aquel que presenta mayor grado de urbanizacion (debido a que es la capital). Encontramos que en terminos generales la urbanizacion de los departamentos en su mayoria esta por debajo de 50%.Los datos atipicos pueden ser las ciudades principales o capitales de los departamentos.
Es posible detecatar posible correlacion entre calidad de vida y NBI con el grado de urbanizacion puesto que a mayor Urbanizacion menor NBI y mayor ICV.
ggplot(datos_cluster3,aes(x=grupos,y=GENREPRO,fill=grupos))+geom_boxplot()+theme_bw()
Respecto a la generacion de recursos propios, vemos que solamente bogotá supera el 30% lo que nos indica que los grupos de departamentos y en general los departamentos generan muy poca proporcion de recursos propios. Donde el que mas genera es Bogotá y no alcanza a generar ni la mitad del total de recursos.
ggplot(datos_cluster3,aes(x=grupos,y=IDESFISCAL,fill=grupos))+geom_boxplot()+theme_bw()
Respecto al Indice de Desarrollo Fiscal, Bogotá sigue encabezando las calificaciones pero esta vez con una diferencia menos notoria respecto al grueso de grupos de departamentos puesto que Bogotá presenta un indice aproximado de 70 mientras que los grupos 2,3,y 5 presentan indices cercanos a 60. Nuevamente el grupo 1 es el menor calificado, esta vez con un Indice por debajo d 20
Finalmente, es posible concluir que los departamentos del grupo 1 son los que peor comportamiento presentan en las variables abordadas mientras Bogota -grupo 1- es el que mejor resultados reporta. Los grupos 2,3 y 5 presentan comportamientos heterogeneos pero siempre en un rango intermedio con tendencia hacia puntuaciones altas en las variables estudiadas.
Los departamentos de Colombia presentan baja urbanizacion, niveles medios de calidad de vida, baja generacion de recursos propios y un mediano desempeño fiscal.