setwd("C:/Users/julip/Downloads")
library(rio)
data=import("dataOK_all.xlsx")
## New names:
## • `` -> `...1`

#Utilizando el porcentaje de viviendas que tiene agua de red publica dentro de la vivienda, la razón de votacion de keiko entre castillo, y la tasa fallecidos por cada 1000 contagiados,

#Agua de red pública

# Calcular el porcentaje de viviendas con agua de red pública
data$agua1_Red <- (data$agua1_Red / data$agua10_Total) * 100

#Razon de votacion de Keiko entre Castillo

# Calcular la razón de votación Keiko/Castillo
data$razon_votacion <- data$Keiko / data$Castillo

#Tasa de fallecidos por cada 1000 contagiados

# Calcular la tasa de fallecidos por cada 1000 contagiados
data$tasa_fallecidos <- (data$covidFallecidos / data$covidPositivos) * 1000
boxplot(data[,c(31, 51,52)],horizontal = F,las=2,cex.axis = 0.5)

cor(data[,c(31,51,52)])
##                 agua1_Red razon_votacion tasa_fallecidos
## agua1_Red       1.0000000     0.13114185      0.10121042
## razon_votacion  0.1311419     1.00000000     -0.09936357
## tasa_fallecidos 0.1012104    -0.09936357      1.00000000
# Filtrar el dataframe eliminando las filas donde la columna "Provincia" contiene "LIMA"
data <- data[!grepl("LIMA", data$key), ]
dataClus=data[,c(31,51,52)]
row.names(dataClus)=data$key
library(cluster)
g.dist = daisy(dataClus, metric="gower")
## para PAM

library(factoextra)
## Warning: package 'factoextra' was built under R version 4.4.2
## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_nbclust(dataClus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)

## PARA JERARQUICO AGLOMERATIVA

fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "agnes")

## PARA JERARQUICO DIVISIVA

fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "diana")