library(readxl)
data <- read_excel("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
View(data)
#PREGUNTA 1: Índice de pobreza Se quiere organizar un indicador complejo de probreza, asumiendo que las variables de calidad de techo, pared,piso y la disponibilidad de agua representa cada una un concepto o variable latente.
dontselect=c("pared9_Otro", "pared9_Total", "techo8_Otro", "techo9_Total","piso7_Otro","piso8_Total", "agua8_Otro", "agua10total","elec3_Total", "departamento", "provincia", "Castillo","Keiko", "ganaCastillo", "countPositivos", "countFallecidos", "Código", "key", "...1")
select=setdiff(names(data),dontselect)
data=data[,select]
library(magrittr)
head(data)%>%
rmarkdown::paged_table()
library(polycor)
#library(psych)
#psych::KMO(cor_matrix)
#Creación del índice
#as.data.frame(resfa$scores)%>%head()
#PREGUNTA 2 Utilizando el porcentaje de viviendas que tiene electricidad, la razón de votacion de castillo entre keiko, y la tasa fallecidos por cada 1000 contagiados, agruparlo sin Lima.
Volvemos a cargar la data
datapre2 <- read_excel("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
View(datapre2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
columnasinclu <- c("provincia", "departamento", "elec1_Sí", "Keiko", "countFallecidos", "countPositivos")
datapre2 <- datapre2 %>% select(all_of(columnasinclu))
datanoLim <- datapre2 %>%
filter(departamento != "LIMA")
datanoLim <- datanoLim %>%
mutate(tasa_fallecidos = (countFallecidos / countPositivos) * 1000)
dataclus <- datanoLim %>%
select(provincia, elec1_Sí, Keiko, tasa_fallecidos)
dataclus=datanoLim[,c(4:7)]
row.names(dataclus)=datanoLim$provincia
## Warning: Setting row names on a tibble is deprecated.
library(cluster)
g.dist = daisy(dataclus, metric="gower")
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_nbclust(dataclus, pam,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F)
RESULTADO: solo aparece 1 cluster
library(kableExtra)
##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
set.seed(123)
res.pam=pam(g.dist,3,cluster.only = F)
dataclus$pam=res.pam$cluster
head(dataclus,15)%>%kbl()%>%kable_styling()
| Keiko | countFallecidos | countPositivos | tasa_fallecidos | pam |
|---|---|---|---|---|
| 10770 | 462 | 8126 | 56.85454 | 1 |
| 5209 | 72 | 389 | 185.08997 | 1 |
| 10473 | 281 | 2174 | 129.25483 | 1 |
| 1446 | 111 | 3481 | 31.88739 | 1 |
| 7840 | 88 | 456 | 192.98246 | 1 |
| 5491 | 60 | 110 | 545.45455 | 2 |
| 19222 | 336 | 3749 | 89.62390 | 1 |
| 1413 | 26 | 79 | 329.11392 | 2 |
| 788 | 31 | 54 | 574.07407 | 2 |
| 827 | 21 | 59 | 355.93220 | 2 |
| 3994 | 96 | 242 | 396.69421 | 2 |
| 8590 | 163 | 552 | 295.28986 | 1 |
| 1697 | 34 | 56 | 607.14286 | 2 |
| 15546 | 362 | 963 | 375.90862 | 2 |
| 1460 | 19 | 37 | 513.51351 | 2 |
#PREGUNTA3 Ud plantea que el hecho que Castillo gane en una provincia está relacionado con el porcentaje de viviendas que tiene electricidad, y la tasa fallecidos por cada 1000 contagiados de covid.