Prueba 2

###Limpieza de data

###Data 1: Censo 2017

library(rio)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

censo = import("data_censo.xlsx")

## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
## • `` -> `...12`
## • `` -> `...13`
## • `` -> `...14`
## • `` -> `...15`
## • `` -> `...16`
## • `` -> `...17`
## • `` -> `...18`
## • `` -> `...19`
## • `` -> `...20`
## • `` -> `...21`
## • `` -> `...22`
## • `` -> `...23`
## • `` -> `...24`
## • `` -> `...25`
## • `` -> `...26`
## • `` -> `...27`
## • `` -> `...28`
## • `` -> `...29`
## • `` -> `...30`
## • `` -> `...31`
## • `` -> `...32`
## • `` -> `...33`
## • `` -> `...34`
## • `` -> `...35`
## • `` -> `...36`
## • `` -> `...37`
## • `` -> `...38`
## • `` -> `...39`
## • `` -> `...40`
## • `` -> `...41`
## • `` -> `...42`
## • `` -> `...43`

names(censo)=censo[5,]
head(censo,10)%>%
    rmarkdown::paged_table()

censo=censo[-c(1:5),]

head(censo,10)%>%
    rmarkdown::paged_table()

censo <- censo[, -1]

censo$Provincia_fija <- sub(".*: ", "", censo$Provincia)

censo$Departamento <- sapply(strsplit(censo$Provincia, ",\\s*"), function(x) x[1])

censo <- censo[, c(1:2, 43:44, 3:42:ncol(censo))]

## Warning in 3:42:ncol(censo): numerical expression has 40 elements: only the
## first used

censo <- subset(censo, select = -c(45, 46))

censo=censo[-c(197:199),]

names(censo)

##  [1] "Código"                                                         
##  [2] "Provincia"                                                      
##  [3] "Provincia_fija"                                                 
##  [4] "Departamento"                                                   
##  [5] "Ladrillo o bloque de cemento"                                   
##  [6] "Piedra o sillar con cal o cemento"                              
##  [7] "Adobe"                                                          
##  [8] "Tapia"                                                          
##  [9] "Quincha (caña con barro)"                                       
## [10] "Piedra con barro"                                               
## [11] "Madera (pona, tornillo etc.)"                                   
## [12] "Triplay / calamina / estera"                                    
## [13] "Otro material"                                                  
## [14] "Total"                                                          
## [15] "Concreto armado"                                                
## [16] "Madera"                                                         
## [17] "Tejas"                                                          
## [18] "Planchas de calamina, fibra de cemento o similares"             
## [19] "Caña o estera con torta de barro o cemento"                     
## [20] "Triplay / estera / carrizo"                                     
## [21] "Paja, hoja de palmera y similares"                              
## [22] "Otro material.1"                                                
## [23] "Total.1"                                                        
## [24] "Parquet o madera pulida"                                        
## [25] "Láminas asfálticas, vinílicos o similares"                      
## [26] "Losetas, terrazos, cerámicos o similares"                       
## [27] "Madera (pona, tornillo, etc.)"                                  
## [28] "Cemento"                                                        
## [29] "Tierra"                                                         
## [30] "Otro material.2"                                                
## [31] "Total.2"                                                        
## [32] "Red pública dentro de la vivienda"                              
## [33] "Red pública fuera de la vivienda, pero dentro de la edificación"
## [34] "Pilón o pileta de uso público"                                  
## [35] "Camión - cisterna u otro similar"                               
## [36] "Pozo (agua subterránea)"                                        
## [37] "Manantial o puquio"                                             
## [38] "Río, acequia, lago, laguna"                                     
## [39] "Otro"                                                           
## [40] "Vecino"                                                         
## [41] "Total.3"                                                        
## [42] "Sí tiene alumbrado eléctrico"                                   
## [43] "No tiene alumbrado eléctrico"                                   
## [44] "Total.4"

nombres_columnas <- names(censo)

# Modificar los nombres de las columnas según las categorías
for (i in 5:14) {
  nombres_columnas[i] <- paste0("pa.", nombres_columnas[i])
}

for (i in 15:23) {
  nombres_columnas[i] <- paste0("te.", nombres_columnas[i])
}

for (i in 24:31) {
  nombres_columnas[i] <- paste0("pi.", nombres_columnas[i])
}

for (i in 32:41) {
  nombres_columnas[i] <- paste0("a.", nombres_columnas[i])
}

for (i in 42:44) {
  nombres_columnas[i] <- paste0("luz.", nombres_columnas[i])
}

# Asignar los nuevos nombres al dataframe
names(censo) <- nombres_columnas

str(censo)

## 'data.frame':    196 obs. of  44 variables:
##  $ Código                                                           : chr  "101" "102" "103" "104" ...
##  $ Provincia                                                        : chr  "Amazonas, provincia: Chachapoyas" "Amazonas, provincia: Bagua" "Amazonas, provincia: Bongara" "Amazonas, provincia: Condorcanqui" ...
##  $ Provincia_fija                                                   : chr  "Chachapoyas" "Bagua" "Bongara" "Condorcanqui" ...
##  $ Departamento                                                     : chr  "Amazonas" "Amazonas" "Amazonas" "Amazonas" ...
##  $ pa.Ladrillo o bloque de cemento                                  : chr  "3782" "4633" "1602" "291" ...
##  $ pa.Piedra o sillar con cal o cemento                             : chr  "22" "46" "9" "7" ...
##  $ pa.Adobe                                                         : chr  "5881" "6639" "2729" "672" ...
##  $ pa.Tapia                                                         : chr  "2476" "222" "240" "8" ...
##  $ pa.Quincha (caña con barro)                                      : chr  "309" "2518" "157" "386" ...
##  $ pa.Piedra con barro                                              : chr  "168" "127" "36" "7" ...
##  $ pa.Madera (pona, tornillo etc.)                                  : chr  "1270" "4484" "2505" "8145" ...
##  $ pa.Triplay / calamina / estera                                   : chr  "91" "851" "30" "200" ...
##  $ pa.Otro material                                                 : chr  "0" "0" "0" "0" ...
##  $ pa.Total                                                         : chr  "13999" "19520" "7308" "9716" ...
##  $ te.Concreto armado                                               : chr  "2262" "2187" "692" "56" ...
##  $ te.Madera                                                        : chr  "160" "294" "75" "188" ...
##  $ te.Tejas                                                         : chr  "3393" "179" "382" "177" ...
##  $ te.Planchas de calamina, fibra de cemento o similares            : chr  "8005" "13186" "6084" "2036" ...
##  $ te.Caña o estera con torta de barro o cemento                    : chr  "50" "160" "38" "15" ...
##  $ te.Triplay / estera / carrizo                                    : chr  "14" "106" "5" "10" ...
##  $ te.Paja, hoja de palmera y similares                             : chr  "115" "3408" "32" "7234" ...
##  $ te.Otro material.1                                               : chr  "0" "0" "0" "0" ...
##  $ te.Total.1                                                       : chr  "13999" "19520" "7308" "9716" ...
##  $ pi.Parquet o madera pulida                                       : chr  "23" "6" "5" "2" ...
##  $ pi.Láminas asfálticas, vinílicos o similares                     : chr  "36" "19" "2" "0" ...
##  $ pi.Losetas, terrazos, cerámicos o similares                      : chr  "1077" "647" "165" "20" ...
##  $ pi.Madera (pona, tornillo, etc.)                                 : chr  "240" "157" "132" "1523" ...
##  $ pi.Cemento                                                       : chr  "6189" "7121" "2917" "943" ...
##  $ pi.Tierra                                                        : chr  "6434" "11569" "4087" "7228" ...
##  $ pi.Otro material.2                                               : chr  "0" "1" "0" "0" ...
##  $ pi.Total.2                                                       : chr  "13999" "19520" "7308" "9716" ...
##  $ a.Red pública dentro de la vivienda                              : chr  "10647" "9429" "4569" "1307" ...
##  $ a.Red pública fuera de la vivienda, pero dentro de la edificación: chr  "1619" "4392" "1497" "867" ...
##  $ a.Pilón o pileta de uso público                                  : chr  "184" "793" "215" "1003" ...
##  $ a.Camión - cisterna u otro similar                               : chr  "49" "59" "0" "2" ...
##  $ a.Pozo (agua subterránea)                                        : chr  "876" "1792" "474" "2564" ...
##  $ a.Manantial o puquio                                             : chr  "92" "270" "67" "431" ...
##  $ a.Río, acequia, lago, laguna                                     : chr  "488" "2648" "388" "3428" ...
##  $ a.Otro                                                           : chr  "24" "56" "61" "80" ...
##  $ a.Vecino                                                         : chr  "20" "81" "37" "34" ...
##  $ a.Total.3                                                        : chr  "13999" "19520" "7308" "9716" ...
##  $ luz.Sí tiene alumbrado eléctrico                                 : chr  "12248" "13204" "6025" "1792" ...
##  $ luz.No tiene alumbrado eléctrico                                 : chr  "1751" "6316" "1283" "7924" ...
##  $ luz.Total.4                                                      : chr  "13999" "19520" "7308" "9716" ...

censo <- censo %>%
  mutate_at(vars("pa.Ladrillo o bloque de cemento":"luz.Total.4"), as.numeric)

str(censo)

## 'data.frame':    196 obs. of  44 variables:
##  $ Código                                                           : chr  "101" "102" "103" "104" ...
##  $ Provincia                                                        : chr  "Amazonas, provincia: Chachapoyas" "Amazonas, provincia: Bagua" "Amazonas, provincia: Bongara" "Amazonas, provincia: Condorcanqui" ...
##  $ Provincia_fija                                                   : chr  "Chachapoyas" "Bagua" "Bongara" "Condorcanqui" ...
##  $ Departamento                                                     : chr  "Amazonas" "Amazonas" "Amazonas" "Amazonas" ...
##  $ pa.Ladrillo o bloque de cemento                                  : num  3782 4633 1602 291 430 ...
##  $ pa.Piedra o sillar con cal o cemento                             : num  22 46 9 7 7 7 35 40 1 0 ...
##  $ pa.Adobe                                                         : num  5881 6639 2729 672 5217 ...
##  $ pa.Tapia                                                         : num  2476 222 240 8 6052 ...
##  $ pa.Quincha (caña con barro)                                      : num  309 2518 157 386 346 ...
##  $ pa.Piedra con barro                                              : num  168 127 36 7 54 28 518 106 65 7 ...
##  $ pa.Madera (pona, tornillo etc.)                                  : num  1270 4484 2505 8145 606 ...
##  $ pa.Triplay / calamina / estera                                   : num  91 851 30 200 45 24 210 340 18 0 ...
##  $ pa.Otro material                                                 : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ pa.Total                                                         : num  13999 19520 7308 9716 12757 ...
##  $ te.Concreto armado                                               : num  2262 2187 692 56 187 ...
##  $ te.Madera                                                        : num  160 294 75 188 43 48 340 515 57 12 ...
##  $ te.Tejas                                                         : num  3393 179 382 177 3071 ...
##  $ te.Planchas de calamina, fibra de cemento o similares            : num  8005 13186 6084 2036 9343 ...
##  $ te.Caña o estera con torta de barro o cemento                    : num  50 160 38 15 26 15 196 326 10 8 ...
##  $ te.Triplay / estera / carrizo                                    : num  14 106 5 10 12 5 62 312 17 4 ...
##  $ te.Paja, hoja de palmera y similares                             : num  115 3408 32 7234 75 ...
##  $ te.Otro material.1                                               : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ te.Total.1                                                       : num  13999 19520 7308 9716 12757 ...
##  $ pi.Parquet o madera pulida                                       : num  23 6 5 2 4 3 20 585 0 0 ...
##  $ pi.Láminas asfálticas, vinílicos o similares                     : num  36 19 2 0 0 4 32 323 0 0 ...
##  $ pi.Losetas, terrazos, cerámicos o similares                      : num  1077 647 165 20 46 ...
##  $ pi.Madera (pona, tornillo, etc.)                                 : num  240 157 132 1523 295 ...
##  $ pi.Cemento                                                       : num  6189 7121 2917 943 1911 ...
##  $ pi.Tierra                                                        : num  6434 11569 4087 7228 10501 ...
##  $ pi.Otro material.2                                               : num  0 1 0 0 0 0 0 0 0 0 ...
##  $ pi.Total.2                                                       : num  13999 19520 7308 9716 12757 ...
##  $ a.Red pública dentro de la vivienda                              : num  10647 9429 4569 1307 7172 ...
##  $ a.Red pública fuera de la vivienda, pero dentro de la edificación: num  1619 4392 1497 867 3097 ...
##  $ a.Pilón o pileta de uso público                                  : num  184 793 215 1003 1112 ...
##  $ a.Camión - cisterna u otro similar                               : num  49 59 0 2 0 0 117 40 0 0 ...
##  $ a.Pozo (agua subterránea)                                        : num  876 1792 474 2564 819 ...
##  $ a.Manantial o puquio                                             : num  92 270 67 431 132 211 471 286 121 61 ...
##  $ a.Río, acequia, lago, laguna                                     : num  488 2648 388 3428 369 ...
##  $ a.Otro                                                           : num  24 56 61 80 9 29 104 72 2 1 ...
##  $ a.Vecino                                                         : num  20 81 37 34 47 8 177 121 9 4 ...
##  $ a.Total.3                                                        : num  13999 19520 7308 9716 12757 ...
##  $ luz.Sí tiene alumbrado eléctrico                                 : num  12248 13204 6025 1792 10886 ...
##  $ luz.No tiene alumbrado eléctrico                                 : num  1751 6316 1283 7924 1871 ...
##  $ luz.Total.4                                                      : num  13999 19520 7308 9716 12757 ...

names(censo)[2]='GENERAL'
names(censo)[3]='PROVINCIA'
names(censo)[4]='DEPARTAMENTO'

quitar_tildes <- function(x) {
  chartr("áéíóúÁÉÍÓÚüÜñÑ", "aeiouAEIOUuUnN", x)
}


censo <- censo %>%
  mutate_all(funs(toupper(quitar_tildes(.))))

## Warning: `funs()` was deprecated in dplyr 0.8.0.
## ℹ Please use a list of either functions or lambdas:
## 
## # Simple named list: list(mean = mean, median = median)
## 
## # Auto named with `tibble::lst()`: tibble::lst(mean, median)
## 
## # Using lambdas list(~ mean(., trim = .2), ~ median(., na.rm = TRUE))
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

###Data 2: Elecciones

elecciones = import("elecciones_resultados.csv")

## Warning in (function (input = "", file = NULL, text = NULL, cmd = NULL, :
## Detected 15 column names but the data has 16 columns (i.e. invalid file). Added
## 1 extra default column name for the first column which is guessed to be row
## names or an index. Use setnames() afterwards if this guess is not correct, or
## fix the file write command that created the file to create a valid file.

names(elecciones)[1] <- ""

# Obtener los nombres de las columnas
column_elecciones <- names(elecciones)

# Desplazar los nombres de las variables hacia la izquierda
for (i in 2:length(column_elecciones)) {
  names(elecciones)[i - 1] <- column_elecciones[i]
}

elecciones <- elecciones[, -16]

elec <- names(elecciones)

# Modificar los nombres de las columnas según las categorías
for (i in 5:15) {
  elec[i] <- paste0("ELEC.", elec[i])
}

names(elecciones) <- elec

str(elecciones)

## 'data.frame':    86488 obs. of  15 variables:
##  $ UBIGEO                  : int  10101 10101 10101 10101 10101 10201 10101 10107 10112 10112 ...
##  $ DEPARTAMENTO            : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ PROVINCIA               : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ DISTRITO                : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ ELEC.TIPO_ELECCION      : chr  "PRESIDENCIAL" "PRESIDENCIAL" "PRESIDENCIAL" "PRESIDENCIAL" ...
##  $ ELEC.MESA_DE_VOTACION   : int  13 26 30 36 40 148 59 90 117 119 ...
##  $ ELEC.DESCRIP_ESTADO_ACTA: chr  "CONTABILIZADA" "CONTABILIZADA" "CONTABILIZADA" "CONTABILIZADA" ...
##  $ ELEC.TIPO_OBSERVACION   : logi  NA NA NA NA NA NA ...
##  $ ELEC.N_CVAS             : int  220 144 129 202 228 171 220 138 178 185 ...
##  $ ELEC.N_ELEC_HABIL       : int  300 300 300 252 300 300 300 213 240 240 ...
##  $ ELEC.VOTOS_P1           : int  115 71 71 66 125 112 90 93 113 116 ...
##  $ ELEC.VOTOS_P2           : int  87 58 50 105 87 51 101 34 54 58 ...
##  $ ELEC.VOTOS_VB           : int  NA NA NA 5 NA 4 7 3 3 3 ...
##  $ ELEC.VOTOS_VN           : int  18 15 8 26 16 4 22 8 8 8 ...
##  $ ELEC.VOTOS_VI           : int  NA NA NA NA NA NA NA NA NA NA ...

###Data 3: Positivo por covid

positivos = import("data_positivos_covid.csv")

str(positivos)

## 'data.frame':    4585360 obs. of  10 variables:
##  $ FECHA_CORTE    : int  20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 ...
##  $ DEPARTAMENTO   : chr  "TUMBES" "LIMA" "SAN MARTIN" "AREQUIPA" ...
##  $ PROVINCIA      : chr  "TUMBES" "LIMA" "MOYOBAMBA" "CAYLLOMA" ...
##  $ DISTRITO       : chr  "TUMBES" "JESUS MARIA" "MOYOBAMBA" "COPORAQUE" ...
##  $ METODODX       : chr  "AG" "AG" "AG" "AG" ...
##  $ EDAD           : int  46 69 55 50 58 21 49 72 45 52 ...
##  $ SEXO           : chr  "FEMENINO" "FEMENINO" "FEMENINO" "MASCULINO" ...
##  $ FECHA_RESULTADO: int  20221207 20230822 20240108 20230824 20221217 20220111 20221207 20231010 20221216 20201229 ...
##  $ UBIGEO         : int  240101 150113 220101 40506 150113 40101 220910 200601 230101 240302 ...
##  $ id_persona     : int  203499 221397 295651 851625 287786 222704 240360 853074 206939 233066 ...

positivos$FECHA_RESULTADO <- as.numeric(positivos$FECHA_RESULTADO)

str(positivos)

## 'data.frame':    4585360 obs. of  10 variables:
##  $ FECHA_CORTE    : int  20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 ...
##  $ DEPARTAMENTO   : chr  "TUMBES" "LIMA" "SAN MARTIN" "AREQUIPA" ...
##  $ PROVINCIA      : chr  "TUMBES" "LIMA" "MOYOBAMBA" "CAYLLOMA" ...
##  $ DISTRITO       : chr  "TUMBES" "JESUS MARIA" "MOYOBAMBA" "COPORAQUE" ...
##  $ METODODX       : chr  "AG" "AG" "AG" "AG" ...
##  $ EDAD           : int  46 69 55 50 58 21 49 72 45 52 ...
##  $ SEXO           : chr  "FEMENINO" "FEMENINO" "FEMENINO" "MASCULINO" ...
##  $ FECHA_RESULTADO: num  20221207 20230822 20240108 20230824 20221217 ...
##  $ UBIGEO         : int  240101 150113 220101 40506 150113 40101 220910 200601 230101 240302 ...
##  $ id_persona     : int  203499 221397 295651 851625 287786 222704 240360 853074 206939 233066 ...

positivos_filtrado <- subset(positivos, FECHA_RESULTADO > 20199999 & FECHA_RESULTADO < 20210000)

str(positivos_filtrado)

## 'data.frame':    1022620 obs. of  10 variables:
##  $ FECHA_CORTE    : int  20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 20241203 ...
##  $ DEPARTAMENTO   : chr  "TUMBES" "TUMBES" "SAN MARTIN" "PIURA" ...
##  $ PROVINCIA      : chr  "ZARUMILLA" "ZARUMILLA" "SAN MARTIN" "SULLANA" ...
##  $ DISTRITO       : chr  "AGUAS VERDES" "ZARUMILLA" "TARAPOTO" "IGNACIO ESCUDERO" ...
##  $ METODODX       : chr  "AG" "AG" "AG" "AG" ...
##  $ EDAD           : int  52 42 48 43 42 83 47 55 51 57 ...
##  $ SEXO           : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ FECHA_RESULTADO: num  20201229 20201229 20201230 20201216 20201230 ...
##  $ UBIGEO         : int  240302 240301 220901 200603 200603 220901 200603 200801 200603 230101 ...
##  $ id_persona     : int  233066 307679 301845 1063754 909317 524671 924272 716456 775082 126119 ...

posi <- names(positivos_filtrado)

# Modificar los nombres de las columnas según las categorías
for (i in 5:10) {
  posi[i] <- paste0("posi.", posi[i])
}

names(positivos_filtrado) <- posi

###Data 4: Fallecidos

fallecidos = import("data_fallecidos_covid.csv")

str(fallecidos)

## 'data.frame':    220918 obs. of  10 variables:
##  $ FECHA_CORTE        : int  20240317 20240317 20240317 20240317 20240317 20240317 20240317 20240317 20240317 20240317 ...
##  $ FECHA_FALLECIMIENTO: int  20220219 20210529 20210623 20210824 20210627 20210423 20210401 20220914 20210409 20211030 ...
##  $ EDAD_DECLARADA     : int  63 74 72 85 46 58 73 92 66 64 ...
##  $ SEXO               : chr  "MASCULINO" "MASCULINO" "FEMENINO" "MASCULINO" ...
##  $ CLASIFICACION_DEF  : chr  "Criterio virológico" "Criterio virológico" "Criterio SINADEF" "Criterio investigación Epidemiológica" ...
##  $ DEPARTAMENTO       : chr  "TUMBES" "TUMBES" "TACNA" "TUMBES" ...
##  $ PROVINCIA          : chr  "TUMBES" "TUMBES" "TACNA" "TUMBES" ...
##  $ DISTRITO           : chr  "TUMBES" "TUMBES" "ALTO DE LA ALIANZA" "TUMBES" ...
##  $ UBIGEO             : int  240101 240101 230102 240101 230102 240301 240301 240102 200104 210901 ...
##  $ UUID               : int  203506 203532 203584 212541 203665 221184 221211 229901 846032 846152 ...

fallecidos_filtrado <- subset(fallecidos, FECHA_FALLECIMIENTO > 20199999 & FECHA_FALLECIMIENTO < 20210000)

falle <- names(fallecidos_filtrado)

# Modificar los nombres de las columnas según las categorías
for (i in 1:5) {
  falle[i] <- paste0("falle.", falle[i])
}

names(fallecidos_filtrado) <- falle

#MERGE

###Comparación previa

sort(setdiff(censo$PROVINCIA,elecciones$PROVINCIA))

##  [1] "ANTONIO RAYMONDI"                    "CANETE"                             
##  [3] "DATEM DEL MARANON"                   "FERRENAFE"                          
##  [5] "MADRE DE DIOS PROV. DE MANU"         "MADRE DE DIOS PROV. DE TAHUAMANU"   
##  [7] "MADRE DE DIOS PROV. DE TAMBOPATA"    "MARANON"                            
##  [9] "NAZCA"                               "PROVINCIA CONSTITUCIONAL DEL CALLAO"

censo[censo$PROVINCIA=='ANTONIO RAYMONDI','PROVINCIA']='ANTONIO RAIMONDI'
censo[censo$PROVINCIA=='CANETE','PROVINCIA']='CAÑETE'
censo[censo$PROVINCIA=='DATEM DEL MARANON','PROVINCIA']='DATEM MARAÑON'
censo[censo$PROVINCIA=='FERRENAFE','PROVINCIA']='FERREÑAFE'
censo[censo$PROVINCIA=='MADRE DE DIOS PROV. DE MANU','PROVINCIA']='MANU'
censo[censo$PROVINCIA=='MADRE DE DIOS PROV. DE TAHUAMANU','PROVINCIA']='TAHUAMANU'
censo[censo$PROVINCIA=='MADRE DE DIOS PROV. DE TAMBOPATA','PROVINCIA']='TAMBOPATA'
censo[censo$PROVINCIA=='MARANON','PROVINCIA']='MARAÑON'
censo[censo$PROVINCIA=='PROVINCIA CONSTITUCIONAL DEL CALLAO','PROVINCIA']='CALLAO'

sort(setdiff(elecciones$PROVINCIA,censo$PROVINCIA))

##  [1] "CA\xbf\xbfETE"              "FERRE\xbf\xbfAFE"          
##  [3] "DATEM DEL MARA\xbf\xbfON"   "GRAN BRETA\xbf\xbfA"       
##  [5] "ESPA\xbf\xbfA"              "MARA\xbf\xbfON"            
##  [7] "ALEMANIA"                   "ANTILLAS HOLANDESAS"       
##  [9] "ARABIA SAUDITA"             "ARGELIA"                   
## [11] "ARGENTINA"                  "AUSTRALIA"                 
## [13] "AUSTRIA"                    "BELGICA"                   
## [15] "BIELORRUSIA"                "BOLIVIA"                   
## [17] "BRASIL"                     "CANADA"                    
## [19] "CHILE"                      "COLOMBIA"                  
## [21] "COSTA RICA"                 "CROACIA"                   
## [23] "CUBA"                       "DINAMARCA"                 
## [25] "ECUADOR"                    "EL SALVADOR"               
## [27] "EMIRATOS ARABES UNIDOS"     "ESTADOS UNIDOS DE AMERICA" 
## [29] "FILIPINAS"                  "FINLANDIA"                 
## [31] "FRANCIA"                    "GRAN DUCADO DE LUXEMBURGO" 
## [33] "GRECIA"                     "GUATEMALA"                 
## [35] "GUAYANA FRANCESA"           "HAITI"                     
## [37] "HOLANDA"                    "HONDURAS"                  
## [39] "HUNGRIA"                    "INDIA"                     
## [41] "INDONESIA"                  "IRAN"                      
## [43] "IRLANDA"                    "ISRAEL"                    
## [45] "ITALIA"                     "JAPON"                     
## [47] "JORDANIA"                   "KUWAIT"                    
## [49] "LIBANO"                     "MACEDONIA DEL NORTE"       
## [51] "MALASIA"                    "MARRUECOS"                 
## [53] "MEXICO"                     "NASCA"                     
## [55] "NICARAGUA"                  "NORUEGA"                   
## [57] "NUEVA ZELANDA"              "PANAMA"                    
## [59] "PARAGUAY"                   "POLONIA"                   
## [61] "PORTUGAL"                   "PRINCIPADO DE ANDORRA"     
## [63] "PUERTO RICO"                "QATAR"                     
## [65] "REPUBLICA ARABE DE EGIPTO"  "REPUBLICA CHECA"           
## [67] "REPUBLICA DE COREA DEL SUR" "REPUBLICA DOMINICANA"      
## [69] "REPUBLICA POPULAR CHINA"    "RUMANIA"                   
## [71] "RUSIA"                      "SINGAPUR"                  
## [73] "SUDAFRICA"                  "SUECIA"                    
## [75] "SUIZA"                      "TAILANDIA"                 
## [77] "TRINIDAD TOBAGO"            "TURQUIA"                   
## [79] "UCRANIA"                    "URUGUAY"                   
## [81] "VENEZUELA"                  "VIETNAM"

elecciones[elecciones$PROVINCIA=='CA\xbf\xbfETE','PROVINCIA']='CAÑETE'
elecciones[elecciones$PROVINCIA=='FERRE\xbf\xbfAFE','PROVINCIA']='FERREÑAFE'
elecciones[elecciones$PROVINCIA=='DATEM DEL MARA\xbf\xbfON','PROVINCIA']='DATEM MARAÑON'
elecciones[elecciones$PROVINCIA=='MARA\xbf\xbfON','PROVINCIA']='MARAÑON'

sort(setdiff(positivos_filtrado$PROVINCIA,censo$PROVINCIA))

## [1] "DATEM DEL MARAÑON" "EN INVESTIGACIÓN"

positivos_filtrado[positivos_filtrado$PROVINCIA=='DATEM DEL MARAÑON','PROVINCIA']='DATEM MARAÑON'

sort(setdiff(fallecidos_filtrado$PROVINCIA,censo$PROVINCIA))

## [1] ""                  "DATEM DEL MARAÑON"

fallecidos_filtrado[fallecidos_filtrado$PROVINCIA=='DATEM DEL MARAÑON','PROVINCIA']='DATEM MARAÑON'

###Descargamos las bases de datos

write.csv(censo,"censo_final.csv",row.names = F)
write.csv(elecciones,"elecciones_final.csv",row.names = F)
write.csv(fallecidos_filtrado,"fallecidos_final.csv",row.names = F)
write.csv(positivos_filtrado,"positivos_final.csv",row.names = F)

Prueba 2

Alfredo Ludmir Aro Terleira

2024-06-18