Para la ultima actividad del curso de programación en R se realiza un analisis de cluster jerarquico con el método hclust con la base de datos de Calidad de Vida a nivel departamental, analizando las siguientes variables:

-ICV: indice de calidad de vida -TURB: tasa de urbanización -NBI: indice de necesidades basicas insatisfechas -GENREPRO: generaciónn de recursos propios -IDESFISCAL: indice de desarrollo fiscal

Primero cargo la base de datos y la renombro para comodidad

library(readxl)
## Warning: package 'readxl' was built under R version 3.6.3
Datos_Calidad_Vida_12_34_39_PM <- read_excel("Datos_Calidad_Vida-12.34.39-PM.xlsx")
datos<- Datos_Calidad_Vida_12_34_39_PM

Transformo a data frame y selecciono las variables a trabajar y los grafico

datos=data.frame(datos)
datos_cluster=datos[,2:6]
row.names(datos_cluster)=datos[,1]
datos_cluster
##                  ICV       TURB      NBI   GENREPRO IDESFISCAL
## Amazonas    43.85634 0.08127555 76.18182  3.4790909  11.070000
## Antioquia   65.64685 0.46176600 38.02400 16.6234400  59.105680
## Arauca      67.78770 0.58431471 57.00000  6.5800000  57.025714
## Atlantico   68.86762 0.80095217 42.47826  8.8530435  44.773913
## Bogota      86.91610 0.99771800  9.00000 40.0800000  70.080000
## Bolivar     55.43014 0.51702129 66.73333  6.3031111  54.629111
## Boyaca      59.93566 0.29256215 42.59350  9.9321951  57.524634
## Caldas      68.30256 0.47541693 24.44444 14.6666667  57.565556
## Caqueta     58.37309 0.40371163 51.18750 11.9537500  56.434375
## Casanare    63.81670 0.53208011 44.73684  7.1963158  66.564737
## Cauca       53.95316 0.23892944 58.60976 12.1341463  57.729268
## Cesar       63.08935 0.56948432 53.56000 12.1780000  55.866000
## Choco       47.10964 0.35395290 73.03333 10.8520000  52.577000
## Cordoba     55.68296 0.39559436 65.46429  8.2889286  50.315357
## Cundinamarc 66.30601 0.36703221 30.25000 21.0354310  62.502328
## Guainia     28.59563 0.06712311 95.11111  0.3444444   6.233333
## Guaviare    51.81430 0.42649300 53.75000 10.7800000  48.902500
## Huila       61.63438 0.42723586 41.29730 10.0805405  58.226216
## LaGuajira   59.66957 0.53908213 61.26667  7.6133333  58.642667
## Magdalena   56.85169 0.50017700 62.83333  6.3086667  54.503000
## Meta        65.39329 0.47129321 46.10345 15.7306897  59.856207
## Nariño      56.89282 0.28241383 56.51562  8.5879687  61.962969
## NorteDeSa   60.52032 0.38644782 45.12500  8.0347500  56.141000
## Putumayo    60.13390 0.43772462 39.30769 10.5715385  57.753846
## Quindio     75.45042 0.66785200 20.58333 19.0200000  58.284167
## Risaralda   68.85400 0.50557357 27.00000 16.3900000  58.707143
## Santander   60.95274 0.32881697 38.05747 10.7971264  59.207471
## Sucre       59.01998 0.50432177 61.96154  5.5792308  51.429231
## Tolima      63.85698 0.44398536 39.59574 14.1151064  57.189149
## ValleDelC   74.77488 0.59419133 21.52381 28.3842857  60.495000
## Vaupes      39.37890 0.13720233 85.50000  5.9000000  30.093333
## Vichada     52.71475 0.48322975 71.50000  6.7575000  54.372500
plot(datos_cluster)

Estandarizo los datos, calculo la distancias, utilizo el metodo hclust y grafico dendograma

datos_cluster2=scale(datos_cluster)

distancia=dist(datos_cluster2)
cluster=hclust(distancia)
cluster
## 
## Call:
## hclust(d = distancia)
## 
## Cluster method   : complete 
## Distance         : euclidean 
## Number of objects: 32
plot(cluster)

Para ver el numero de saltos o cortes

plot(cluster$height,type="b")

Se presentan 5 saltos grandes en los datos

grupos=cutree(cluster,k = 5)
grupos
##    Amazonas   Antioquia      Arauca   Atlantico      Bogota     Bolivar 
##           1           2           3           3           4           3 
##      Boyaca      Caldas     Caqueta    Casanare       Cauca       Cesar 
##           5           2           5           3           5           3 
##       Choco     Cordoba Cundinamarc     Guainia    Guaviare       Huila 
##           5           5           2           1           5           5 
##   LaGuajira   Magdalena        Meta      Nariño   NorteDeSa    Putumayo 
##           3           3           2           5           5           5 
##     Quindio   Risaralda   Santander       Sucre      Tolima   ValleDelC 
##           2           2           5           3           2           2 
##      Vaupes     Vichada 
##           1           5
plot(datos_cluster,col=grupos)

datos_cluster3=data.frame(datos_cluster,grupos)
datos_cluster3$grupos=as.factor(datos_cluster3$grupos)

Realizo caracterización

require(ggplot2)
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.6.3
ggplot(datos_cluster3,aes(x=grupos,y=ICV,fill=grupos))+geom_boxplot()+theme_bw()

Respecto a la calidad de vida, medida con el Indice de Calidad de Vida -ICV- el grupo 4 comprendido por Bogotá presenta el mejor nivel de calidad de vida (con undice por encima de 80) superando ampliamente al resto de grupos. El grupo 1 (Amazonas, Guainia y Vaupes) corresponde a los departamentos con menor calidad de vida. Los grupos 2, 3 y 5 presentan un comportamiento similar y tienen un indice de calidad de vida entre 50 y 70.

ggplot(datos_cluster3,aes(x=grupos,y=NBI,fill=grupos))+geom_boxplot()+theme_bw()

En cuanto a las necesidad basicas insatisfechas, vemos que la relación descrita por la grafica anterior se invierte. Bogotá es el grupo que menos NBI presenta, mientras que el grupo 1, es el que mayor puntaje tiene en este aspecto. Es importante destacar que los grupos 5 y 3 presentan NBI por encima de 50.

ggplot(datos_cluster3,aes(x=grupos,y=TURB,fill=grupos))+geom_boxplot()+theme_bw()

En cuanto a la tasa de urbanización, el grupo correspondiente a Bogotá es aquel que presenta mayor grado de urbanizacion (debido a que es la capital). Encontramos que en terminos generales la urbanizacion de los departamentos en su mayoria esta por debajo de 50%.Los datos atipicos pueden ser las ciudades principales o capitales de los departamentos.

Es posible detecatar posible correlacion entre calidad de vida y NBI con el grado de urbanizacion puesto que a mayor Urbanizacion menor NBI y mayor ICV.

ggplot(datos_cluster3,aes(x=grupos,y=GENREPRO,fill=grupos))+geom_boxplot()+theme_bw()

Respecto a la generacion de recursos propios, vemos que solamente bogotá supera el 30% lo que nos indica que los grupos de departamentos y en general los departamentos generan muy poca proporcion de recursos propios. Donde el que mas genera es Bogotá y no alcanza a generar ni la mitad del total de recursos.

ggplot(datos_cluster3,aes(x=grupos,y=IDESFISCAL,fill=grupos))+geom_boxplot()+theme_bw()

Respecto al Indice de Desarrollo Fiscal, Bogotá sigue encabezando las calificaciones pero esta vez con una diferencia menos notoria respecto al grueso de grupos de departamentos puesto que Bogotá presenta un indice aproximado de 70 mientras que los grupos 2,3,y 5 presentan indices cercanos a 60. Nuevamente el grupo 1 es el menor calificado, esta vez con un Indice por debajo d 20

Finalmente, es posible concluir que los departamentos del grupo 1 son los que peor comportamiento presentan en las variables abordadas mientras Bogota -grupo 1- es el que mejor resultados reporta. Los grupos 2,3 y 5 presentan comportamientos heterogeneos pero siempre en un rango intermedio con tendencia hacia puntuaciones altas en las variables estudiadas.

Los departamentos de Colombia presentan baja urbanizacion, niveles medios de calidad de vida, baja generacion de recursos propios y un mediano desempeño fiscal.