library(readxl)
data <- read_excel("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
View(data)

#PREGUNTA 1: Índice de pobreza Se quiere organizar un indicador complejo de probreza, asumiendo que las variables de calidad de techo, pared,piso y la disponibilidad de agua representa cada una un concepto o variable latente.

dontselect=c("pared9_Otro", "pared9_Total", "techo8_Otro", "techo9_Total","piso7_Otro","piso8_Total", "agua8_Otro", "agua10total","elec3_Total", "departamento", "provincia", "Castillo","Keiko", "ganaCastillo", "countPositivos", "countFallecidos", "Código", "key", "...1")
select=setdiff(names(data),dontselect) 
data=data[,select]

library(magrittr)
head(data)%>%
    rmarkdown::paged_table()
library(polycor)
#library(psych)
#psych::KMO(cor_matrix) 

#Creación del índice

#as.data.frame(resfa$scores)%>%head()

#PREGUNTA 2 Utilizando el porcentaje de viviendas que tiene electricidad, la razón de votacion de castillo entre keiko, y la tasa fallecidos por cada 1000 contagiados, agruparlo sin Lima.

Volvemos a cargar la data

datapre2 <- read_excel("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
View(datapre2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
columnasinclu <- c("provincia", "departamento", "elec1_Sí", "Keiko", "countFallecidos", "countPositivos")
datapre2 <- datapre2 %>% select(all_of(columnasinclu))
datanoLim <- datapre2 %>% 
  filter(departamento != "LIMA")
datanoLim <- datanoLim %>% 
  mutate(tasa_fallecidos = (countFallecidos / countPositivos) * 1000)
dataclus <- datanoLim %>% 
 select(provincia, elec1_Sí, Keiko, tasa_fallecidos)
dataclus=datanoLim[,c(4:7)]
row.names(dataclus)=datanoLim$provincia
## Warning: Setting row names on a tibble is deprecated.
library(cluster)
g.dist = daisy(dataclus, metric="gower")
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_nbclust(dataclus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)

RESULTADO: solo aparece 1 cluster

library(kableExtra)
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
set.seed(123)
res.pam=pam(g.dist,3,cluster.only = F)

dataclus$pam=res.pam$cluster
head(dataclus,15)%>%kbl()%>%kable_styling()
Keiko countFallecidos countPositivos tasa_fallecidos pam
10770 462 8126 56.85454 1
5209 72 389 185.08997 1
10473 281 2174 129.25483 1
1446 111 3481 31.88739 1
7840 88 456 192.98246 1
5491 60 110 545.45455 2
19222 336 3749 89.62390 1
1413 26 79 329.11392 2
788 31 54 574.07407 2
827 21 59 355.93220 2
3994 96 242 396.69421 2
8590 163 552 295.28986 1
1697 34 56 607.14286 2
15546 362 963 375.90862 2
1460 19 37 513.51351 2

#PREGUNTA3 Ud plantea que el hecho que Castillo gane en una provincia está relacionado con el porcentaje de viviendas que tiene electricidad, y la tasa fallecidos por cada 1000 contagiados de covid.