Tarea_7

Tarea 7

library(ggplot2)
library(pander)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readxl)

Se desea hacer un cluster jerarquico con la base de datos de Calidad de vida de los departamentos de Colombia. Para esto, primero se organiza la base de datos.

Datos <-read_excel("D:/ENAR/UNIVERSIDAD/6TO SEMESTRE/programacion R/YDRAY-Datos_Calidad_Vida.xlsx")
View(Datos)
Datos = data.frame(Datos)

# Teniendo en cuenta las variables:
     #Calidad de vida (ICV)
     #Tasa de urbanización (TURB)
     #Índice de necesidades básicas insatisfechas (NBI)
     #Generación de recursos propios (GENREPRO)
     #Índice de desarrollo fiscal (IDESFISCAL)

Datos_cluster = Datos[,2:6]
row.names(Datos_cluster)=Datos[,1]
pander(Datos_cluster)

	ICV	TURB	NBI	GENREPRO	IDESFISCAL
Amazonas	43.86	0.08128	76.18	3.479	11.07
Antioquia	65.65	0.4618	38.02	16.62	59.11
Arauca	67.79	0.5843	57	6.58	57.03
Atlantico	68.87	0.801	42.48	8.853	44.77
Bogota	86.92	0.9977	9	40.08	70.08
Bolivar	55.43	0.517	66.73	6.303	54.63
Boyaca	59.94	0.2926	42.59	9.932	57.52
Caldas	68.3	0.4754	24.44	14.67	57.57
Caqueta	58.37	0.4037	51.19	11.95	56.43
Casanare	63.82	0.5321	44.74	7.196	66.56
Cauca	53.95	0.2389	58.61	12.13	57.73
Cesar	63.09	0.5695	53.56	12.18	55.87
Choco	47.11	0.354	73.03	10.85	52.58
Cordoba	55.68	0.3956	65.46	8.289	50.32
Cundinamarc	66.31	0.367	30.25	21.04	62.5
Guainia	28.6	0.06712	95.11	0.3444	6.233
Guaviare	51.81	0.4265	53.75	10.78	48.9
Huila	61.63	0.4272	41.3	10.08	58.23
LaGuajira	59.67	0.5391	61.27	7.613	58.64
Magdalena	56.85	0.5002	62.83	6.309	54.5
Meta	65.39	0.4713	46.1	15.73	59.86
NariÃ±o	56.89	0.2824	56.52	8.588	61.96
NorteDeSa	60.52	0.3864	45.12	8.035	56.14
Putumayo	60.13	0.4377	39.31	10.57	57.75
Quindio	75.45	0.6679	20.58	19.02	58.28
Risaralda	68.85	0.5056	27	16.39	58.71
Santander	60.95	0.3288	38.06	10.8	59.21
Sucre	59.02	0.5043	61.96	5.579	51.43
Tolima	63.86	0.444	39.6	14.12	57.19
ValleDelC	74.77	0.5942	21.52	28.38	60.49
Vaupes	39.38	0.1372	85.5	5.9	30.09
Vichada	52.71	0.4832	71.5	6.757	54.37

Procedemos a la parte gráfica

plot(Datos_cluster)

Datos_cluster2=scale(Datos_cluster)

Ahora, hacemos el cluster

Distan = dist(Datos_cluster2) 
Cluster1 = hclust(Distan)
plot(Cluster1)

Después de realizar el cluster, necesitamos verificar el número de grupos optimos de los datos en cuestión. Es decir, sin hacer agrupaciones forzadas.

plot(Cluster1$height, type = "b")

grupos=cutree(Cluster1,k = 3)
grupos

##    Amazonas   Antioquia      Arauca   Atlantico      Bogota     Bolivar 
##           1           2           2           2           3           2 
##      Boyaca      Caldas     Caqueta    Casanare       Cauca       Cesar 
##           2           2           2           2           2           2 
##       Choco     Cordoba Cundinamarc     Guainia    Guaviare       Huila 
##           2           2           2           1           2           2 
##   LaGuajira   Magdalena        Meta      Nariño   NorteDeSa    Putumayo 
##           2           2           2           2           2           2 
##     Quindio   Risaralda   Santander       Sucre      Tolima   ValleDelC 
##           2           2           2           2           2           2 
##      Vaupes     Vichada 
##           1           2

grupos=cutree(Cluster1, k=5)
grupos

##    Amazonas   Antioquia      Arauca   Atlantico      Bogota     Bolivar 
##           1           2           3           3           4           3 
##      Boyaca      Caldas     Caqueta    Casanare       Cauca       Cesar 
##           5           2           5           3           5           3 
##       Choco     Cordoba Cundinamarc     Guainia    Guaviare       Huila 
##           5           5           2           1           5           5 
##   LaGuajira   Magdalena        Meta      Nariño   NorteDeSa    Putumayo 
##           3           3           2           5           5           5 
##     Quindio   Risaralda   Santander       Sucre      Tolima   ValleDelC 
##           2           2           5           3           2           2 
##      Vaupes     Vichada 
##           1           5

plot(Datos_cluster, col= grupos)

datos_cluster3=data.frame(Datos_cluster,grupos)
datos_cluster3$grupos=as.factor(datos_cluster3$grupos)

p1=ggplot(datos_cluster3,aes(x=grupos,y=ICV,fill=grupos))+geom_boxplot()+theme_bw()+ggtitle(" Calidad de vida (ICV)") +theme(legend.position = "bottom", plot.title = element_text(hjust= 0.5)) 
p1

p2=ggplot(datos_cluster3,aes(x=grupos,y=TURB,fill=grupos))+geom_boxplot()+theme_bw()+ggtitle("Tasa de urbanicación (TURB)") +theme(legend.position = "bottom", plot.title = element_text(hjust= 0.5))
p2

p3=ggplot(datos_cluster3,aes(x=grupos,y=NBI,fill=grupos))+geom_boxplot()+theme_bw()+ggtitle("Índice de necesidades básicas insatisfechas (NBI)") +theme(legend.position = "bottom", plot.title = element_text(hjust= 0.5))
  p3

p4=ggplot(datos_cluster3,aes(x=grupos,y=GENREPRO,fill=grupos))+geom_boxplot()+theme_bw()+ggtitle(" Genreación de recursos propios (GENREPRO) ") +theme(legend.position = "bottom", plot.title = element_text(hjust= 0.5)) 
p4

p5=ggplot(datos_cluster3,aes(x=grupos,y=IDESFISCAL,fill=grupos))+geom_boxplot()+theme_bw()+ggtitle(" Índice de desarrollo fiscal (IDESFISCAL) ") +theme(legend.position = "bottom", plot.title = element_text(hjust= 0.5)) 

p5

Con base en los resultados obtenidos podemos decir:

El grupo con mejor calidad de vida es el grupo 4, seguido del grupo 2 en el cual se encuentran regiones que normalmente suele prestarselemás atención. Así también se observa que el grupo 1, en el cual se encuentran las regiones más vulnerables, no solo en este aspecto sino que además presenta el mayor índice de necesidades insatisfechas, una tasa de urbanización baja, como es de esperarse,pues suelen ser regiones un poco olvidadas. En el caso de la generación de recursos propios este grupo también presenta un valor bajo al igual que el índice de desarrollo fiscal, el cul es bajo también. Por otro lado, el grupo cuatro, como era de esperarse, ya que es la capital, presentó los mejores resultados, teniendo encuenta que es entre las ciudades que más atención se le brinda.

Tarea_7

Enar Rodriguez Nupan

1/12/2020

Tarea 7