recuperación2.knit

library(readxl)
data <- read_excel("dataOK_all.xlsx")

## New names:
## • `` -> `...1`

View(data)

#PREGUNTA 1: Índice de pobreza Se quiere organizar un indicador complejo de probreza, asumiendo que las variables de calidad de techo, pared,piso y la disponibilidad de agua representa cada una un concepto o variable latente.

dontselect=c("pared9_Otro", "pared9_Total", "techo8_Otro", "techo9_Total","piso7_Otro","piso8_Total", "agua8_Otro", "agua10total","elec3_Total", "departamento", "provincia", "Castillo","Keiko", "ganaCastillo", "countPositivos", "countFallecidos", "Código", "key", "...1")
select=setdiff(names(data),dontselect) 
data=data[,select]

library(magrittr)
head(data)%>%
    rmarkdown::paged_table()

library(polycor)

#library(psych)
#psych::KMO(cor_matrix)

#Creación del índice

#as.data.frame(resfa$scores)%>%head()

#PREGUNTA 2 Utilizando el porcentaje de viviendas que tiene electricidad, la razón de votacion de castillo entre keiko, y la tasa fallecidos por cada 1000 contagiados, agruparlo sin Lima.

Volvemos a cargar la data

datapre2 <- read_excel("dataOK_all.xlsx")

## New names:
## • `` -> `...1`

View(datapre2)

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

columnasinclu <- c("provincia", "departamento", "elec1_Sí", "Keiko", "countFallecidos", "countPositivos")
datapre2 <- datapre2 %>% select(all_of(columnasinclu))

datanoLim <- datapre2 %>% 
  filter(departamento != "LIMA")

datanoLim <- datanoLim %>% 
  mutate(tasa_fallecidos = (countFallecidos / countPositivos) * 1000)

dataclus <- datanoLim %>% 
 select(provincia, elec1_Sí, Keiko, tasa_fallecidos)

dataclus=datanoLim[,c(4:7)]
row.names(dataclus)=datanoLim$provincia

## Warning: Setting row names on a tibble is deprecated.

library(cluster)
g.dist = daisy(dataclus, metric="gower")

library(factoextra)

## Loading required package: ggplot2

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

fviz_nbclust(dataclus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)

RESULTADO: solo aparece 1 cluster

library(kableExtra)

## 
## Attaching package: 'kableExtra'

## The following object is masked from 'package:dplyr':
## 
##     group_rows

set.seed(123)
res.pam=pam(g.dist,3,cluster.only = F)

dataclus$pam=res.pam$cluster
head(dataclus,15)%>%kbl()%>%kable_styling()

Keiko	countFallecidos	countPositivos	tasa_fallecidos	pam
10770	462	8126	56.85454	1
5209	72	389	185.08997	1
10473	281	2174	129.25483	1
1446	111	3481	31.88739	1
7840	88	456	192.98246	1
5491	60	110	545.45455	2
19222	336	3749	89.62390	1
1413	26	79	329.11392	2
788	31	54	574.07407	2
827	21	59	355.93220	2
3994	96	242	396.69421	2
8590	163	552	295.28986	1
1697	34	56	607.14286	2
15546	362	963	375.90862	2
1460	19	37	513.51351	2

#PREGUNTA3 Ud plantea que el hecho que Castillo gane en una provincia está relacionado con el porcentaje de viviendas que tiene electricidad, y la tasa fallecidos por cada 1000 contagiados de covid.