rm(list = ls())
setwd("C:/Users/moren/OneDrive/2024-2/ESTADÍSTICA 2/FINAL")
library(rio)
## Warning: package 'rio' was built under R version 4.3.3
datamateriales=import("reporte.xlsx")
## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
## • `` -> `...12`
## • `` -> `...13`
## • `` -> `...14`
## • `` -> `...15`
## • `` -> `...16`
## • `` -> `...17`
## • `` -> `...18`
## • `` -> `...19`
## • `` -> `...20`
## • `` -> `...21`
## • `` -> `...22`
## • `` -> `...23`
## • `` -> `...24`
## • `` -> `...25`
## • `` -> `...26`
## • `` -> `...27`
## • `` -> `...28`
## • `` -> `...29`
## • `` -> `...30`
## • `` -> `...31`
## • `` -> `...32`
## • `` -> `...33`
## • `` -> `...34`
## • `` -> `...35`
## • `` -> `...36`
## • `` -> `...37`
## • `` -> `...38`
## • `` -> `...39`
## • `` -> `...40`
## • `` -> `...41`
## • `` -> `...42`
## • `` -> `...43`
dataenergía=import("reporte (1).xlsx")
## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`
## • `` -> `...10`
## • `` -> `...11`
## • `` -> `...12`
## • `` -> `...13`
## • `` -> `...14`
## • `` -> `...15`
data2= "fallecidos_covid.csv"
datafallecidos = read.csv(data2)
data3= "positivos_covid.csv"
datacovid = read.csv(data3)
data4="Resultados_2da_vuelta_Version_PCM .csv"
dataresultados= read.csv(data4)

Fallecidos:

data2 = "fallecidos_covid.csv"
datafallecidos = read.csv(data2, sep = ";", header = TRUE, stringsAsFactors = FALSE)

COVID:

data3 = "positivos_covid.csv"
datacovid = read.csv(data3, sep = ";", header = TRUE, stringsAsFactors = FALSE)

Resultados:

dataresultados = read.csv(data4, sep = ";", header = TRUE, stringsAsFactors = FALSE, row.names = NULL)
# Eliminar filas completamente vacías
dataresultados <- dataresultados[rowSums(is.na(dataresultados)) != ncol(dataresultados), ]

# Eliminar columnas completamente vacías
dataresultados <- dataresultados[, colSums(is.na(dataresultados)) != nrow(dataresultados)]


# Mostrar las primeras filas de la data limpia
head(dataresultados)
##   row.names   UBIGEO DEPARTAMENTO   PROVINCIA     DISTRITO TIPO_ELECCION
## 1    010101 AMAZONAS  CHACHAPOYAS CHACHAPOYAS PRESIDENCIAL            13
## 2    010101 AMAZONAS  CHACHAPOYAS CHACHAPOYAS PRESIDENCIAL            26
## 3    010101 AMAZONAS  CHACHAPOYAS CHACHAPOYAS PRESIDENCIAL            30
## 4    010101 AMAZONAS  CHACHAPOYAS CHACHAPOYAS PRESIDENCIAL            36
## 5    010101 AMAZONAS  CHACHAPOYAS CHACHAPOYAS PRESIDENCIAL            40
## 6    010201 AMAZONAS        BAGUA     LA PECA PRESIDENCIAL           148
##   MESA_DE_VOTACION TIPO_OBSERVACION N_CVAS N_ELEC_HABIL VOTOS_P1 VOTOS_P2
## 1    CONTABILIZADA              220    300          115       87       NA
## 2    CONTABILIZADA              144    300           71       58       NA
## 3    CONTABILIZADA              129    300           71       50       NA
## 4    CONTABILIZADA              202    252           66      105        5
## 5    CONTABILIZADA              228    300          125       87       NA
## 6    CONTABILIZADA              171    300          112       51        4
##   VOTOS_VB VOTOS_VN
## 1       18       NA
## 2       15       NA
## 3        8       NA
## 4       26       NA
## 5       16       NA
## 6        4       NA

MATERIALES:

datamateriales <- datamateriales[-c(1), ]
# Asignar nombres claros a las columnas
colnames(datamateriales) <- c("Título", "Codigo", "Provincia", "Piso_con_cal", "Piso_cemento", 
                    "Ducha", "Medidor", "Tripley", "Otro_material", "Concreto", "Columna_extra") # Cambiar nombres según corresponda

# Eliminar filas y columnas completamente vacías
datamateriales <- datamateriales[rowSums(is.na(datamateriales)) != ncol(datamateriales), ]
datamateriales <- datamateriales[, colSums(is.na(datamateriales)) != nrow(datamateriales)]

# Convertir columnas específicas a tipo numérico
cols_to_numeric <- c("Piso_con_cal", "Piso_cemento", "Ducha", "Medidor", "Tripley", "Otro_material", "Concreto")
datamateriales[cols_to_numeric] <- lapply(datamateriales[cols_to_numeric], function(x) as.numeric(as.character(x)))
## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción

## Warning in FUN(X[[i]], ...): NAs introducidos por coerción
# Mostrar las primeras filas de la dataenerg limpia
head(datamateriales)
##                  Título Codigo                        Provincia Piso_con_cal
## 2       Área Geográfica   <NA>                             <NA>           NA
## 3 Toda la Base de Datos   <NA>                             <NA>           NA
## 5                  <NA> Código                        Provincia           NA
## 6                  <NA>    101 Amazonas, provincia: Chachapoyas         3782
## 7                  <NA>    102       Amazonas, provincia: Bagua         4633
## 8                  <NA>    103     Amazonas, provincia: Bongara         1602
##   Piso_cemento Ducha Medidor Tripley Otro_material Concreto
## 2           NA    NA      NA      NA            NA       NA
## 3           NA    NA      NA      NA            NA       NA
## 5           NA    NA      NA      NA            NA       NA
## 6           22  5881    2476     309           168     1270
## 7           46  6639     222    2518           127     4484
## 8            9  2729     240     157            36     2505
##                 Columna_extra            NA  NA.1            NA.2   NA.3  NA.4
## 2                        <NA>          <NA>  <NA>            <NA>   <NA>  <NA>
## 3                        <NA>          <NA>  <NA>            <NA>   <NA>  <NA>
## 5 Triplay / calamina / estera Otro material Total Concreto armado Madera Tejas
## 6                          91             0 13999            2262    160  3393
## 7                         851             0 19520            2187    294   179
## 8                          30             0  7308             692     75   382
##                                                 NA.5
## 2                                               <NA>
## 3                                               <NA>
## 5 Planchas de calamina, fibra de cemento o similares
## 6                                               8005
## 7                                              13186
## 8                                               6084
##                                         NA.6                       NA.7
## 2                                       <NA>                       <NA>
## 3                                       <NA>                       <NA>
## 5 Caña o estera con torta de barro o cemento Triplay / estera / carrizo
## 6                                         50                         14
## 7                                        160                        106
## 8                                         38                          5
##                                NA.8          NA.9 NA.10                   NA.11
## 2                              <NA>          <NA>  <NA>                    <NA>
## 3                              <NA>          <NA>  <NA>                    <NA>
## 5 Paja, hoja de palmera y similares Otro material Total Parquet o madera pulida
## 6                               115             0 13999                      23
## 7                              3408             0 19520                       6
## 8                                32             0  7308                       5
##                                       NA.12
## 2                                      <NA>
## 3                                      <NA>
## 5 Láminas asfálticas, vinílicos o similares
## 6                                        36
## 7                                        19
## 8                                         2
##                                      NA.13                         NA.14
## 2                                     <NA>                          <NA>
## 3                                     <NA>                          <NA>
## 5 Losetas, terrazos, cerámicos o similares Madera (pona, tornillo, etc.)
## 6                                     1077                           240
## 7                                      647                           157
## 8                                      165                           132
##     NA.15  NA.16         NA.17 NA.18                             NA.19
## 2    <NA>   <NA>          <NA>  <NA>                              <NA>
## 3    <NA>   <NA>          <NA>  <NA>                              <NA>
## 5 Cemento Tierra Otro material Total Red pública dentro de la vivienda
## 6    6189   6434             0 13999                             10647
## 7    7121  11569             1 19520                              9429
## 8    2917   4087             0  7308                              4569
##                                                             NA.20
## 2                                                            <NA>
## 3                                                            <NA>
## 5 Red pública fuera de la vivienda, pero dentro de la edificación
## 6                                                            1619
## 7                                                            4392
## 8                                                            1497
##                           NA.21                            NA.22
## 2                          <NA>                             <NA>
## 3                          <NA>                             <NA>
## 5 Pilón o pileta de uso público Camión - cisterna u otro similar
## 6                           184                               49
## 7                           793                               59
## 8                           215                                0
##                     NA.23              NA.24                      NA.25 NA.26
## 2                    <NA>               <NA>                       <NA>  <NA>
## 3                    <NA>               <NA>                       <NA>  <NA>
## 5 Pozo (agua subterránea) Manantial o puquio Río, acequia, lago, laguna  Otro
## 6                     876                 92                        488    24
## 7                    1792                270                       2648    56
## 8                     474                 67                        388    61
##    NA.27 NA.28                        NA.29                        NA.30 NA.31
## 2   <NA>  <NA>                         <NA>                         <NA>  <NA>
## 3   <NA>  <NA>                         <NA>                         <NA>  <NA>
## 5 Vecino Total Sí tiene alumbrado eléctrico No tiene alumbrado eléctrico Total
## 6     20 13999                        12248                         1751 13999
## 7     81 19520                        13204                         6316 19520
## 8     37  7308                         6025                         1283  7308
# Eliminar las columnas "Título" y "Codigo" si existen
datamateriales <- datamateriales[, !names(datamateriales) %in% c("Título", "Codigo")]

datamateriales <- datamateriales[-c(1:3), ]

# Verificar los resultados
head(datamateriales)
##                                    Provincia Piso_con_cal Piso_cemento Ducha
## 6           Amazonas, provincia: Chachapoyas         3782           22  5881
## 7                 Amazonas, provincia: Bagua         4633           46  6639
## 8               Amazonas, provincia: Bongara         1602            9  2729
## 9          Amazonas, provincia: Condorcanqui          291            7   672
## 10                 Amazonas, provincia: Luya          430            7  5217
## 11 Amazonas, provincia: Rodríguez de Mendoza         1546            7  2778
##    Medidor Tripley Otro_material Concreto Columna_extra NA  NA.1 NA.2 NA.3 NA.4
## 6     2476     309           168     1270            91  0 13999 2262  160 3393
## 7      222    2518           127     4484           851  0 19520 2187  294  179
## 8      240     157            36     2505            30  0  7308  692   75  382
## 9        8     386             7     8145           200  0  9716   56  188  177
## 10    6052     346            54      606            45  0 12757  187   43 3071
## 11     155     720            28     3646            24  0  8904  480   48 2810
##     NA.5 NA.6 NA.7 NA.8 NA.9 NA.10 NA.11 NA.12 NA.13 NA.14 NA.15 NA.16 NA.17
## 6   8005   50   14  115    0 13999    23    36  1077   240  6189  6434     0
## 7  13186  160  106 3408    0 19520     6    19   647   157  7121 11569     1
## 8   6084   38    5   32    0  7308     5     2   165   132  2917  4087     0
## 9   2036   15   10 7234    0  9716     2     0    20  1523   943  7228     0
## 10  9343   26   12   75    0 12757     4     0    46   295  1911 10501     0
## 11  5495   15    5   51    0  8904     3     4   264   176  2974  5483     0
##    NA.18 NA.19 NA.20 NA.21 NA.22 NA.23 NA.24 NA.25 NA.26 NA.27 NA.28 NA.29
## 6  13999 10647  1619   184    49   876    92   488    24    20 13999 12248
## 7  19520  9429  4392   793    59  1792   270  2648    56    81 19520 13204
## 8   7308  4569  1497   215     0   474    67   388    61    37  7308  6025
## 9   9716  1307   867  1003     2  2564   431  3428    80    34  9716  1792
## 10 12757  7172  3097  1112     0   819   132   369     9    47 12757 10886
## 11  8904  5256  1278   154     0  1020   211   948    29     8  8904  6895
##    NA.30 NA.31
## 6   1751 13999
## 7   6316 19520
## 8   1283  7308
## 9   7924  9716
## 10  1871 12757
## 11  2009  8904
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

ENERGÍA:

dataenergía <- dataenergía[-c(1), ]
# Asignar nombres claros a las columnas
colnames(dataenergía) <- c("Titulo", "Codigo", "Provincia", "No_usa_electricidad", "Si_usa_electricidad",
                           "Total_electricidad", "No_usa_gas_GLP", "Si_usa_gas_GLP", "Total_gas_GLP",
                           "No_usa_carbon", "Si_usa_carbon", "Total_carbon", 
                           "No_usa_lena", "Si_usa_lena", "Total_lena")


# Eliminar filas y columnas completamente vacías
dataenergía <- dataenergía[rowSums(is.na(dataenergía)) != ncol(dataenergía), ]
dataenergía <- dataenergía[, colSums(is.na(dataenergía)) != nrow(dataenergía)]

# Convertir columnas específicas a numéricas
cols_to_numeric <- c("No_usa_electricidad", "Si_usa_electricidad", "Total_electricidad",
                     "No_usa_gas_GLP", "Si_usa_gas_GLP", "Total_gas_GLP", 
                     "No_usa_carbon", "Si_usa_carbon", "Total_carbon", 
                     "No_usa_lena", "Si_usa_lena", "Total_lena")

dataenergía[cols_to_numeric] <- lapply(dataenergía[cols_to_numeric], as.numeric)
## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción

## Warning in lapply(dataenergía[cols_to_numeric], as.numeric): NAs introducidos
## por coerción
# Mostrar las primeras filas del conjunto de datos limpio
head(dataenergía)
##                  Titulo Codigo                        Provincia
## 2       Área Geográfica   <NA>                             <NA>
## 3 Toda la Base de Datos   <NA>                             <NA>
## 5                  <NA> Código                        Provincia
## 6                  <NA>    101 Amazonas, provincia: Chachapoyas
## 7                  <NA>    102       Amazonas, provincia: Bagua
## 8                  <NA>    103     Amazonas, provincia: Bongara
##   No_usa_electricidad Si_usa_electricidad Total_electricidad No_usa_gas_GLP
## 2                  NA                  NA                 NA             NA
## 3                  NA                  NA                 NA             NA
## 5                  NA                  NA                 NA             NA
## 6               14763                 574              15337           4696
## 7               20313                 161              20474          10557
## 8                7689                 124               7813           3154
##   Si_usa_gas_GLP Total_gas_GLP No_usa_carbon Si_usa_carbon Total_carbon
## 2             NA            NA            NA            NA           NA
## 3             NA            NA            NA            NA           NA
## 5             NA            NA            NA            NA           NA
## 6          10641         15337         15161           176        15337
## 7           9917         20474         20185           289        20474
## 8           4659          7813          7755            58         7813
##   No_usa_lena Si_usa_lena Total_lena
## 2          NA          NA         NA
## 3          NA          NA         NA
## 5          NA          NA         NA
## 6        7236        8101      15337
## 7        7357       13117      20474
## 8        2345        5468       7813
# Eliminar las columnas "Codigo" y "No_usa_electricidad"
dataenergía <- dataenergía[, !(colnames(dataenergía) %in% c("Titulo", "Codigo"))]

dataenergía <- dataenergía[-c(1), ]
# Mostrar las primeras filas del conjunto de datos limpio
head(dataenergía)
##                           Provincia No_usa_electricidad Si_usa_electricidad
## 3                              <NA>                  NA                  NA
## 5                         Provincia                  NA                  NA
## 6  Amazonas, provincia: Chachapoyas               14763                 574
## 7        Amazonas, provincia: Bagua               20313                 161
## 8      Amazonas, provincia: Bongara                7689                 124
## 9 Amazonas, provincia: Condorcanqui                9853                  14
##   Total_electricidad No_usa_gas_GLP Si_usa_gas_GLP Total_gas_GLP No_usa_carbon
## 3                 NA             NA             NA            NA            NA
## 5                 NA             NA             NA            NA            NA
## 6              15337           4696          10641         15337         15161
## 7              20474          10557           9917         20474         20185
## 8               7813           3154           4659          7813          7755
## 9               9867           8331           1536          9867          9841
##   Si_usa_carbon Total_carbon No_usa_lena Si_usa_lena Total_lena
## 3            NA           NA          NA          NA         NA
## 5            NA           NA          NA          NA         NA
## 6           176        15337        7236        8101      15337
## 7           289        20474        7357       13117      20474
## 8            58         7813        2345        5468       7813
## 9            26         9867        1059        8808       9867

FILTRO POR AÑO:

# Filtrar las filas donde FECHA_CORTE y FECHA_FALLECIMIENTO comienzan con "2020"
datafallecidos<- subset(datafallecidos, 
                        grepl("^2020", FECHA_FALLECIMIENTO))


# Mostrar las primeras filas de los datos filtrados
head(datafallecidos)
##     FECHA_CORTE FECHA_FALLECIMIENTO EDAD_DECLARADA      SEXO
## 21     20240317            20200711             64 MASCULINO
## 93     20240317            20200505             50 MASCULINO
## 120    20240317            20200803             92  FEMENINO
## 133    20240317            20200622             56 MASCULINO
## 138    20240317            20200626             85 MASCULINO
## 257    20240317            20200829             72 MASCULINO
##                         CLASIFICACION_DEF  DEPARTAMENTO               PROVINCIA
## 21                       Criterio SINADEF          LIMA                    LIMA
## 93  Criterio investigación Epidemiológica        LORETO MARISCAL RAMON CASTILLA
## 120                      Criterio SINADEF MADRE DE DIOS               TAMBOPATA
## 133 Criterio investigación Epidemiológica    SAN MARTIN              BELLAVISTA
## 138                      Criterio clínico    SAN MARTIN              SAN MARTIN
## 257                  Criterio radiológico         PIURA                MORROPON
##       DISTRITO UBIGEO    UUID
## 21  LOS OLIVOS 150117  846252
## 93      YAVARI 160403  278625
## 120   INAMBARI 170102  846841
## 133 BELLAVISTA 220201  204560
## 138   TARAPOTO 220901  297348
## 257 CHULUCANAS 200401 1016628
datacovid<- subset(datacovid, 
                        grepl("^2020", FECHA_RESULTADO))
head(datacovid)
##    FECHA_CORTE DEPARTAMENTO  PROVINCIA         DISTRITO METODODX EDAD      SEXO
## 10    20241203       TUMBES  ZARUMILLA     AGUAS VERDES       AG   52 MASCULINO
## 11    20241203       TUMBES  ZARUMILLA        ZARUMILLA       AG   42  FEMENINO
## 32    20241203   SAN MARTIN SAN MARTIN         TARAPOTO       AG   48 MASCULINO
## 45    20241203        PIURA    SULLANA IGNACIO ESCUDERO       AG   43  FEMENINO
## 75    20241203        PIURA    SULLANA IGNACIO ESCUDERO       AG   42  FEMENINO
## 79    20241203   SAN MARTIN SAN MARTIN         TARAPOTO       AG   83  FEMENINO
##    FECHA_RESULTADO UBIGEO id_persona
## 10        20201229 240302     233066
## 11        20201229 240301     307679
## 32        20201230 220901     301845
## 45        20201216 200603    1063754
## 75        20201230 200603     909317
## 79        20201230 220901     524671

PROVINCIA Y MERGE:

names(dataenergía)[names(dataenergía) == "Provincia"] <- "PROVINCIA"
names(datamateriales)[names(datamateriales) == "Provincia"] <- "PROVINCIA"

head(datamateriales)
##                                    PROVINCIA Piso_con_cal Piso_cemento Ducha
## 6           Amazonas, provincia: Chachapoyas         3782           22  5881
## 7                 Amazonas, provincia: Bagua         4633           46  6639
## 8               Amazonas, provincia: Bongara         1602            9  2729
## 9          Amazonas, provincia: Condorcanqui          291            7   672
## 10                 Amazonas, provincia: Luya          430            7  5217
## 11 Amazonas, provincia: Rodríguez de Mendoza         1546            7  2778
##    Medidor Tripley Otro_material Concreto Columna_extra NA  NA.1 NA.2 NA.3 NA.4
## 6     2476     309           168     1270            91  0 13999 2262  160 3393
## 7      222    2518           127     4484           851  0 19520 2187  294  179
## 8      240     157            36     2505            30  0  7308  692   75  382
## 9        8     386             7     8145           200  0  9716   56  188  177
## 10    6052     346            54      606            45  0 12757  187   43 3071
## 11     155     720            28     3646            24  0  8904  480   48 2810
##     NA.5 NA.6 NA.7 NA.8 NA.9 NA.10 NA.11 NA.12 NA.13 NA.14 NA.15 NA.16 NA.17
## 6   8005   50   14  115    0 13999    23    36  1077   240  6189  6434     0
## 7  13186  160  106 3408    0 19520     6    19   647   157  7121 11569     1
## 8   6084   38    5   32    0  7308     5     2   165   132  2917  4087     0
## 9   2036   15   10 7234    0  9716     2     0    20  1523   943  7228     0
## 10  9343   26   12   75    0 12757     4     0    46   295  1911 10501     0
## 11  5495   15    5   51    0  8904     3     4   264   176  2974  5483     0
##    NA.18 NA.19 NA.20 NA.21 NA.22 NA.23 NA.24 NA.25 NA.26 NA.27 NA.28 NA.29
## 6  13999 10647  1619   184    49   876    92   488    24    20 13999 12248
## 7  19520  9429  4392   793    59  1792   270  2648    56    81 19520 13204
## 8   7308  4569  1497   215     0   474    67   388    61    37  7308  6025
## 9   9716  1307   867  1003     2  2564   431  3428    80    34  9716  1792
## 10 12757  7172  3097  1112     0   819   132   369     9    47 12757 10886
## 11  8904  5256  1278   154     0  1020   211   948    29     8  8904  6895
##    NA.30 NA.31
## 6   1751 13999
## 7   6316 19520
## 8   1283  7308
## 9   7924  9716
## 10  1871 12757
## 11  2009  8904
head(dataenergía)
##                           PROVINCIA No_usa_electricidad Si_usa_electricidad
## 3                              <NA>                  NA                  NA
## 5                         Provincia                  NA                  NA
## 6  Amazonas, provincia: Chachapoyas               14763                 574
## 7        Amazonas, provincia: Bagua               20313                 161
## 8      Amazonas, provincia: Bongara                7689                 124
## 9 Amazonas, provincia: Condorcanqui                9853                  14
##   Total_electricidad No_usa_gas_GLP Si_usa_gas_GLP Total_gas_GLP No_usa_carbon
## 3                 NA             NA             NA            NA            NA
## 5                 NA             NA             NA            NA            NA
## 6              15337           4696          10641         15337         15161
## 7              20474          10557           9917         20474         20185
## 8               7813           3154           4659          7813          7755
## 9               9867           8331           1536          9867          9841
##   Si_usa_carbon Total_carbon No_usa_lena Si_usa_lena Total_lena
## 3            NA           NA          NA          NA         NA
## 5            NA           NA          NA          NA         NA
## 6           176        15337        7236        8101      15337
## 7           289        20474        7357       13117      20474
## 8            58         7813        2345        5468       7813
## 9            26         9867        1059        8808       9867
library(dplyr)
# Eliminar duplicados conservando la primera fila
datamateriales <- datamateriales %>% distinct(PROVINCIA, .keep_all = TRUE)
dataenergía <- dataenergía %>% distinct(PROVINCIA, .keep_all = TRUE)
datafallecidos <- datafallecidos %>% distinct(PROVINCIA, .keep_all = TRUE)
datacovid <- datacovid %>% distinct(PROVINCIA, .keep_all = TRUE)
dataresultados <- dataresultados %>% distinct(PROVINCIA, .keep_all = TRUE)

merged_data <- datamateriales %>%
  full_join(dataenergía, by = "PROVINCIA") %>%
  full_join(datafallecidos, by = "PROVINCIA") %>%
  full_join(datacovid, by = "PROVINCIA") %>%
  full_join(dataresultados, by = "PROVINCIA")


head(merged_data)
##                                   PROVINCIA Piso_con_cal Piso_cemento Ducha
## 1          Amazonas, provincia: Chachapoyas         3782           22  5881
## 2                Amazonas, provincia: Bagua         4633           46  6639
## 3              Amazonas, provincia: Bongara         1602            9  2729
## 4         Amazonas, provincia: Condorcanqui          291            7   672
## 5                 Amazonas, provincia: Luya          430            7  5217
## 6 Amazonas, provincia: Rodríguez de Mendoza         1546            7  2778
##   Medidor Tripley Otro_material Concreto Columna_extra NA  NA.1 NA.2 NA.3 NA.4
## 1    2476     309           168     1270            91  0 13999 2262  160 3393
## 2     222    2518           127     4484           851  0 19520 2187  294  179
## 3     240     157            36     2505            30  0  7308  692   75  382
## 4       8     386             7     8145           200  0  9716   56  188  177
## 5    6052     346            54      606            45  0 12757  187   43 3071
## 6     155     720            28     3646            24  0  8904  480   48 2810
##    NA.5 NA.6 NA.7 NA.8 NA.9 NA.10 NA.11 NA.12 NA.13 NA.14 NA.15 NA.16 NA.17
## 1  8005   50   14  115    0 13999    23    36  1077   240  6189  6434     0
## 2 13186  160  106 3408    0 19520     6    19   647   157  7121 11569     1
## 3  6084   38    5   32    0  7308     5     2   165   132  2917  4087     0
## 4  2036   15   10 7234    0  9716     2     0    20  1523   943  7228     0
## 5  9343   26   12   75    0 12757     4     0    46   295  1911 10501     0
## 6  5495   15    5   51    0  8904     3     4   264   176  2974  5483     0
##   NA.18 NA.19 NA.20 NA.21 NA.22 NA.23 NA.24 NA.25 NA.26 NA.27 NA.28 NA.29 NA.30
## 1 13999 10647  1619   184    49   876    92   488    24    20 13999 12248  1751
## 2 19520  9429  4392   793    59  1792   270  2648    56    81 19520 13204  6316
## 3  7308  4569  1497   215     0   474    67   388    61    37  7308  6025  1283
## 4  9716  1307   867  1003     2  2564   431  3428    80    34  9716  1792  7924
## 5 12757  7172  3097  1112     0   819   132   369     9    47 12757 10886  1871
## 6  8904  5256  1278   154     0  1020   211   948    29     8  8904  6895  2009
##   NA.31 No_usa_electricidad Si_usa_electricidad Total_electricidad
## 1 13999               14763                 574              15337
## 2 19520               20313                 161              20474
## 3  7308                7689                 124               7813
## 4  9716                9853                  14               9867
## 5 12757               13112                  90              13202
## 6  8904                9103                  65               9168
##   No_usa_gas_GLP Si_usa_gas_GLP Total_gas_GLP No_usa_carbon Si_usa_carbon
## 1           4696          10641         15337         15161           176
## 2          10557           9917         20474         20185           289
## 3           3154           4659          7813          7755            58
## 4           8331           1536          9867          9841            26
## 5           6863           6339         13202         13169            33
## 6           5387           3781          9168          9142            26
##   Total_carbon No_usa_lena Si_usa_lena Total_lena FECHA_CORTE.x
## 1        15337        7236        8101      15337            NA
## 2        20474        7357       13117      20474            NA
## 3         7813        2345        5468       7813            NA
## 4         9867        1059        8808       9867            NA
## 5        13202        1833       11369      13202            NA
## 6         9168        1824        7344       9168            NA
##   FECHA_FALLECIMIENTO EDAD_DECLARADA SEXO.x CLASIFICACION_DEF DEPARTAMENTO.x
## 1                  NA             NA   <NA>              <NA>           <NA>
## 2                  NA             NA   <NA>              <NA>           <NA>
## 3                  NA             NA   <NA>              <NA>           <NA>
## 4                  NA             NA   <NA>              <NA>           <NA>
## 5                  NA             NA   <NA>              <NA>           <NA>
## 6                  NA             NA   <NA>              <NA>           <NA>
##   DISTRITO.x UBIGEO.x UUID FECHA_CORTE.y DEPARTAMENTO.y DISTRITO.y METODODX
## 1       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 2       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 3       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 4       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 5       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 6       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
##   EDAD SEXO.y FECHA_RESULTADO UBIGEO.y id_persona row.names UBIGEO DEPARTAMENTO
## 1   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 2   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 3   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 4   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 5   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 6   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
##   DISTRITO TIPO_ELECCION MESA_DE_VOTACION TIPO_OBSERVACION N_CVAS N_ELEC_HABIL
## 1     <NA>            NA             <NA>               NA     NA           NA
## 2     <NA>            NA             <NA>               NA     NA           NA
## 3     <NA>            NA             <NA>               NA     NA           NA
## 4     <NA>            NA             <NA>               NA     NA           NA
## 5     <NA>            NA             <NA>               NA     NA           NA
## 6     <NA>            NA             <NA>               NA     NA           NA
##   VOTOS_P1 VOTOS_P2 VOTOS_VB VOTOS_VN
## 1       NA       NA       NA       NA
## 2       NA       NA       NA       NA
## 3       NA       NA       NA       NA
## 4       NA       NA       NA       NA
## 5       NA       NA       NA       NA
## 6       NA       NA       NA       NA
# Eliminar las filas de 197 a 2176
merged_data <- merged_data[-c(197:2176), ]

# Verificar el resultado
head(merged_data)
##                                   PROVINCIA Piso_con_cal Piso_cemento Ducha
## 1          Amazonas, provincia: Chachapoyas         3782           22  5881
## 2                Amazonas, provincia: Bagua         4633           46  6639
## 3              Amazonas, provincia: Bongara         1602            9  2729
## 4         Amazonas, provincia: Condorcanqui          291            7   672
## 5                 Amazonas, provincia: Luya          430            7  5217
## 6 Amazonas, provincia: Rodríguez de Mendoza         1546            7  2778
##   Medidor Tripley Otro_material Concreto Columna_extra NA  NA.1 NA.2 NA.3 NA.4
## 1    2476     309           168     1270            91  0 13999 2262  160 3393
## 2     222    2518           127     4484           851  0 19520 2187  294  179
## 3     240     157            36     2505            30  0  7308  692   75  382
## 4       8     386             7     8145           200  0  9716   56  188  177
## 5    6052     346            54      606            45  0 12757  187   43 3071
## 6     155     720            28     3646            24  0  8904  480   48 2810
##    NA.5 NA.6 NA.7 NA.8 NA.9 NA.10 NA.11 NA.12 NA.13 NA.14 NA.15 NA.16 NA.17
## 1  8005   50   14  115    0 13999    23    36  1077   240  6189  6434     0
## 2 13186  160  106 3408    0 19520     6    19   647   157  7121 11569     1
## 3  6084   38    5   32    0  7308     5     2   165   132  2917  4087     0
## 4  2036   15   10 7234    0  9716     2     0    20  1523   943  7228     0
## 5  9343   26   12   75    0 12757     4     0    46   295  1911 10501     0
## 6  5495   15    5   51    0  8904     3     4   264   176  2974  5483     0
##   NA.18 NA.19 NA.20 NA.21 NA.22 NA.23 NA.24 NA.25 NA.26 NA.27 NA.28 NA.29 NA.30
## 1 13999 10647  1619   184    49   876    92   488    24    20 13999 12248  1751
## 2 19520  9429  4392   793    59  1792   270  2648    56    81 19520 13204  6316
## 3  7308  4569  1497   215     0   474    67   388    61    37  7308  6025  1283
## 4  9716  1307   867  1003     2  2564   431  3428    80    34  9716  1792  7924
## 5 12757  7172  3097  1112     0   819   132   369     9    47 12757 10886  1871
## 6  8904  5256  1278   154     0  1020   211   948    29     8  8904  6895  2009
##   NA.31 No_usa_electricidad Si_usa_electricidad Total_electricidad
## 1 13999               14763                 574              15337
## 2 19520               20313                 161              20474
## 3  7308                7689                 124               7813
## 4  9716                9853                  14               9867
## 5 12757               13112                  90              13202
## 6  8904                9103                  65               9168
##   No_usa_gas_GLP Si_usa_gas_GLP Total_gas_GLP No_usa_carbon Si_usa_carbon
## 1           4696          10641         15337         15161           176
## 2          10557           9917         20474         20185           289
## 3           3154           4659          7813          7755            58
## 4           8331           1536          9867          9841            26
## 5           6863           6339         13202         13169            33
## 6           5387           3781          9168          9142            26
##   Total_carbon No_usa_lena Si_usa_lena Total_lena FECHA_CORTE.x
## 1        15337        7236        8101      15337            NA
## 2        20474        7357       13117      20474            NA
## 3         7813        2345        5468       7813            NA
## 4         9867        1059        8808       9867            NA
## 5        13202        1833       11369      13202            NA
## 6         9168        1824        7344       9168            NA
##   FECHA_FALLECIMIENTO EDAD_DECLARADA SEXO.x CLASIFICACION_DEF DEPARTAMENTO.x
## 1                  NA             NA   <NA>              <NA>           <NA>
## 2                  NA             NA   <NA>              <NA>           <NA>
## 3                  NA             NA   <NA>              <NA>           <NA>
## 4                  NA             NA   <NA>              <NA>           <NA>
## 5                  NA             NA   <NA>              <NA>           <NA>
## 6                  NA             NA   <NA>              <NA>           <NA>
##   DISTRITO.x UBIGEO.x UUID FECHA_CORTE.y DEPARTAMENTO.y DISTRITO.y METODODX
## 1       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 2       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 3       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 4       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 5       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
## 6       <NA>       NA   NA            NA           <NA>       <NA>     <NA>
##   EDAD SEXO.y FECHA_RESULTADO UBIGEO.y id_persona row.names UBIGEO DEPARTAMENTO
## 1   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 2   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 3   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 4   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 5   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
## 6   NA   <NA>              NA       NA         NA      <NA>   <NA>         <NA>
##   DISTRITO TIPO_ELECCION MESA_DE_VOTACION TIPO_OBSERVACION N_CVAS N_ELEC_HABIL
## 1     <NA>            NA             <NA>               NA     NA           NA
## 2     <NA>            NA             <NA>               NA     NA           NA
## 3     <NA>            NA             <NA>               NA     NA           NA
## 4     <NA>            NA             <NA>               NA     NA           NA
## 5     <NA>            NA             <NA>               NA     NA           NA
## 6     <NA>            NA             <NA>               NA     NA           NA
##   VOTOS_P1 VOTOS_P2 VOTOS_VB VOTOS_VN
## 1       NA       NA       NA       NA
## 2       NA       NA       NA       NA
## 3       NA       NA       NA       NA
## 4       NA       NA       NA       NA
## 5       NA       NA       NA       NA
## 6       NA       NA       NA       NA
write.csv(merged_data, "merged_data_clean.csv", row.names = FALSE)