setwd("C:/Users/julip/Downloads")
library(rio)
data=import("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
#Utilizando el porcentaje de viviendas que tiene agua de red publica dentro de la vivienda, la razón de votacion de keiko entre castillo, y la tasa fallecidos por cada 1000 contagiados,
#Agua de red pública
# Calcular el porcentaje de viviendas con agua de red pública
data$agua1_Red <- (data$agua1_Red / data$agua10_Total) * 100
#Razon de votacion de Keiko entre Castillo
# Calcular la razón de votación Keiko/Castillo
data$razon_votacion <- data$Keiko / data$Castillo
#Tasa de fallecidos por cada 1000 contagiados
# Calcular la tasa de fallecidos por cada 1000 contagiados
data$tasa_fallecidos <- (data$covidFallecidos / data$covidPositivos) * 1000
boxplot(data[,c(31, 51,52)],horizontal = F,las=2,cex.axis = 0.5)
cor(data[,c(31,51,52)])
## agua1_Red razon_votacion tasa_fallecidos
## agua1_Red 1.0000000 0.13114185 0.10121042
## razon_votacion 0.1311419 1.00000000 -0.09936357
## tasa_fallecidos 0.1012104 -0.09936357 1.00000000
# Filtrar el dataframe eliminando las filas donde la columna "Provincia" contiene "LIMA"
data <- data[!grepl("LIMA", data$key), ]
dataClus=data[,c(31,51,52)]
row.names(dataClus)=data$key
library(cluster)
g.dist = daisy(dataClus, metric="gower")
## para PAM
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.4.2
## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_nbclust(dataClus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)
## PARA JERARQUICO AGLOMERATIVA
fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "agnes")
## PARA JERARQUICO DIVISIVA
fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "diana")