library(rio)
data=import("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
# Cálculo del porcentaje de viviendas con agua de red pública dentro de la vivienda
data$porcentaje_agua_red <- ((data$agua10_Total - data$agua2_Red_fueraVivienda) / data$agua10_Total) * 100

# Cálculo de la razón de votación de Keiko entre castillo
data_num <- data$keiko/data$castillo


data$tasa_fallecidos_1000 <- (data$covidFallecidos / data$covidPositivos) * 1000

# Ver las primeras filas del dataset con los nuevos cálculos
head(data)
##   ...1                           key Código pared1_Ladrillo pared2_Piedra
## 1    1                AMAZONAS+BAGUA    102            4633            46
## 2    2              AMAZONAS+BONGARA    103            1602             9
## 3    3          AMAZONAS+CHACHAPOYAS    101            3782            22
## 4    4         AMAZONAS+CONDORCANQUI    104             291             7
## 5    5                 AMAZONAS+LUYA    105             430             7
## 6    6 AMAZONAS+RODRIGUEZ DE MENDOZA    106            1546             7
##   pared3_Adobe pared4_Tapia pared5_Quincha pared6_Piedra pared7_Madera
## 1         6639          222           2518           127          4484
## 2         2729          240            157            36          2505
## 3         5881         2476            309           168          1270
## 4          672            8            386             7          8145
## 5         5217         6052            346            54           606
## 6         2778          155            720            28          3646
##   pared8_Triplay pared9_Otro pared10_Total techo1_Concreto techo2_Madera
## 1            851           0         19520            2187           294
## 2             30           0          7308             692            75
## 3             91           0         13999            2262           160
## 4            200           0          9716              56           188
## 5             45           0         12757             187            43
## 6             24           0          8904             480            48
##   techo3_Tejas techo4_Planchas techo5_Caña techo6_Triplay techo7_Paja
## 1          179           13186         160            106        3408
## 2          382            6084          38              5          32
## 3         3393            8005          50             14         115
## 4          177            2036          15             10        7234
## 5         3071            9343          26             12          75
## 6         2810            5495          15              5          51
##   techo8_Otro techo9_Total piso1_Parquet piso2_Láminas piso3_Losetas
## 1           0        19520             6            19           647
## 2           0         7308             5             2           165
## 3           0        13999            23            36          1077
## 4           0         9716             2             0            20
## 5           0        12757             4             0            46
## 6           0         8904             3             4           264
##   piso4_Madera piso5_Cemento piso6_Tierra piso7_Otro piso8_Total agua1_Red
## 1          157          7121        11569          1       19520      9429
## 2          132          2917         4087          0        7308      4569
## 3          240          6189         6434          0       13999     10647
## 4         1523           943         7228          0        9716      1307
## 5          295          1911        10501          0       12757      7172
## 6          176          2974         5483          0        8904      5256
##   agua2_Red_fueraVivienda agua3_Pilón agua4_Camión agua5_Pozo agua6_Manantial
## 1                    4392         793           59       1792             270
## 2                    1497         215            0        474              67
## 3                    1619         184           49        876              92
## 4                     867        1003            2       2564             431
## 5                    3097        1112            0        819             132
## 6                    1278         154            0       1020             211
##   agua7_Río agua8_Otro agua9_Vecino agua10_Total elec1_Sí elec2_No elec3_Total
## 1      2648         56           81        19520    13204     6316       19520
## 2       388         61           37         7308     6025     1283        7308
## 3       488         24           20        13999    12248     1751       13999
## 4      3428         80           34         9716     1792     7924        9716
## 5       369          9           47        12757    10886     1871       12757
## 6       948         29            8         8904     6895     2009        8904
##   departamento            provincia Castillo Keiko ganaCastillo covidPositivos
## 1     AMAZONAS                BAGUA    25629 10770            1           8126
## 2     AMAZONAS              BONGARA     8374  5209            1            389
## 3     AMAZONAS          CHACHAPOYAS    15671 10473            1           2174
## 4     AMAZONAS         CONDORCANQUI    13154  1446            1           3481
## 5     AMAZONAS                 LUYA    12606  7840            1            456
## 6     AMAZONAS RODRÍGUEZ DE MENDOZA     7967  5491            1            110
##   covidFallecidos porcentaje_agua_red tasa_fallecidos_1000
## 1             462            77.50000             56.85454
## 2              72            79.51560            185.08997
## 3             281            88.43489            129.25483
## 4             111            91.07657             31.88739
## 5              88            75.72313            192.98246
## 6              60            85.64690            545.45455
# Filtrar para excluir la provincia de Lima
data_sin_lima <- subset(data, provincia != "Lima")
# Normalizar todas las columnas numéricas
data_normalizada <- data_sin_lima
data_normalizada[, sapply(data_normalizada, is.numeric)] <- scale(data_sin_lima[, sapply(data_sin_lima, is.numeric)])
# Agrupamiento k-medias con 3 grupos (clusters)
set.seed(123)  # Para hacer el resultado reproducible
kmeans_result <- kmeans(data_normalizada[, sapply(data_normalizada, is.numeric)], centers = 3)

# Agregar los resultados de agrupamiento al dataset original
data_sin_lima$grupo_kmeans <- kmeans_result$cluster

# Ver las primeras filas con los grupos asignados
head(data_sin_lima)
##   ...1                           key Código pared1_Ladrillo pared2_Piedra
## 1    1                AMAZONAS+BAGUA    102            4633            46
## 2    2              AMAZONAS+BONGARA    103            1602             9
## 3    3          AMAZONAS+CHACHAPOYAS    101            3782            22
## 4    4         AMAZONAS+CONDORCANQUI    104             291             7
## 5    5                 AMAZONAS+LUYA    105             430             7
## 6    6 AMAZONAS+RODRIGUEZ DE MENDOZA    106            1546             7
##   pared3_Adobe pared4_Tapia pared5_Quincha pared6_Piedra pared7_Madera
## 1         6639          222           2518           127          4484
## 2         2729          240            157            36          2505
## 3         5881         2476            309           168          1270
## 4          672            8            386             7          8145
## 5         5217         6052            346            54           606
## 6         2778          155            720            28          3646
##   pared8_Triplay pared9_Otro pared10_Total techo1_Concreto techo2_Madera
## 1            851           0         19520            2187           294
## 2             30           0          7308             692            75
## 3             91           0         13999            2262           160
## 4            200           0          9716              56           188
## 5             45           0         12757             187            43
## 6             24           0          8904             480            48
##   techo3_Tejas techo4_Planchas techo5_Caña techo6_Triplay techo7_Paja
## 1          179           13186         160            106        3408
## 2          382            6084          38              5          32
## 3         3393            8005          50             14         115
## 4          177            2036          15             10        7234
## 5         3071            9343          26             12          75
## 6         2810            5495          15              5          51
##   techo8_Otro techo9_Total piso1_Parquet piso2_Láminas piso3_Losetas
## 1           0        19520             6            19           647
## 2           0         7308             5             2           165
## 3           0        13999            23            36          1077
## 4           0         9716             2             0            20
## 5           0        12757             4             0            46
## 6           0         8904             3             4           264
##   piso4_Madera piso5_Cemento piso6_Tierra piso7_Otro piso8_Total agua1_Red
## 1          157          7121        11569          1       19520      9429
## 2          132          2917         4087          0        7308      4569
## 3          240          6189         6434          0       13999     10647
## 4         1523           943         7228          0        9716      1307
## 5          295          1911        10501          0       12757      7172
## 6          176          2974         5483          0        8904      5256
##   agua2_Red_fueraVivienda agua3_Pilón agua4_Camión agua5_Pozo agua6_Manantial
## 1                    4392         793           59       1792             270
## 2                    1497         215            0        474              67
## 3                    1619         184           49        876              92
## 4                     867        1003            2       2564             431
## 5                    3097        1112            0        819             132
## 6                    1278         154            0       1020             211
##   agua7_Río agua8_Otro agua9_Vecino agua10_Total elec1_Sí elec2_No elec3_Total
## 1      2648         56           81        19520    13204     6316       19520
## 2       388         61           37         7308     6025     1283        7308
## 3       488         24           20        13999    12248     1751       13999
## 4      3428         80           34         9716     1792     7924        9716
## 5       369          9           47        12757    10886     1871       12757
## 6       948         29            8         8904     6895     2009        8904
##   departamento            provincia Castillo Keiko ganaCastillo covidPositivos
## 1     AMAZONAS                BAGUA    25629 10770            1           8126
## 2     AMAZONAS              BONGARA     8374  5209            1            389
## 3     AMAZONAS          CHACHAPOYAS    15671 10473            1           2174
## 4     AMAZONAS         CONDORCANQUI    13154  1446            1           3481
## 5     AMAZONAS                 LUYA    12606  7840            1            456
## 6     AMAZONAS RODRÍGUEZ DE MENDOZA     7967  5491            1            110
##   covidFallecidos porcentaje_agua_red tasa_fallecidos_1000 grupo_kmeans
## 1             462            77.50000             56.85454            3
## 2              72            79.51560            185.08997            3
## 3             281            88.43489            129.25483            3
## 4             111            91.07657             31.88739            3
## 5              88            75.72313            192.98246            3
## 6              60            85.64690            545.45455            3
# Agrupamiento jerárquico
distancia <- dist(data_normalizada[, sapply(data_normalizada, is.numeric)])  # Matriz de distancias
hclust_result <- hclust(distancia)

# Cortar el árbol en 3 grupos (clusters)
grupos_hclust <- cutree(hclust_result, k = 3)

# Agregar los resultados de agrupamiento jerárquico al dataset
data_sin_lima$grupo_hclust <- grupos_hclust

# Ver las primeras filas con los grupos asignados
head(data_sin_lima)
##   ...1                           key Código pared1_Ladrillo pared2_Piedra
## 1    1                AMAZONAS+BAGUA    102            4633            46
## 2    2              AMAZONAS+BONGARA    103            1602             9
## 3    3          AMAZONAS+CHACHAPOYAS    101            3782            22
## 4    4         AMAZONAS+CONDORCANQUI    104             291             7
## 5    5                 AMAZONAS+LUYA    105             430             7
## 6    6 AMAZONAS+RODRIGUEZ DE MENDOZA    106            1546             7
##   pared3_Adobe pared4_Tapia pared5_Quincha pared6_Piedra pared7_Madera
## 1         6639          222           2518           127          4484
## 2         2729          240            157            36          2505
## 3         5881         2476            309           168          1270
## 4          672            8            386             7          8145
## 5         5217         6052            346            54           606
## 6         2778          155            720            28          3646
##   pared8_Triplay pared9_Otro pared10_Total techo1_Concreto techo2_Madera
## 1            851           0         19520            2187           294
## 2             30           0          7308             692            75
## 3             91           0         13999            2262           160
## 4            200           0          9716              56           188
## 5             45           0         12757             187            43
## 6             24           0          8904             480            48
##   techo3_Tejas techo4_Planchas techo5_Caña techo6_Triplay techo7_Paja
## 1          179           13186         160            106        3408
## 2          382            6084          38              5          32
## 3         3393            8005          50             14         115
## 4          177            2036          15             10        7234
## 5         3071            9343          26             12          75
## 6         2810            5495          15              5          51
##   techo8_Otro techo9_Total piso1_Parquet piso2_Láminas piso3_Losetas
## 1           0        19520             6            19           647
## 2           0         7308             5             2           165
## 3           0        13999            23            36          1077
## 4           0         9716             2             0            20
## 5           0        12757             4             0            46
## 6           0         8904             3             4           264
##   piso4_Madera piso5_Cemento piso6_Tierra piso7_Otro piso8_Total agua1_Red
## 1          157          7121        11569          1       19520      9429
## 2          132          2917         4087          0        7308      4569
## 3          240          6189         6434          0       13999     10647
## 4         1523           943         7228          0        9716      1307
## 5          295          1911        10501          0       12757      7172
## 6          176          2974         5483          0        8904      5256
##   agua2_Red_fueraVivienda agua3_Pilón agua4_Camión agua5_Pozo agua6_Manantial
## 1                    4392         793           59       1792             270
## 2                    1497         215            0        474              67
## 3                    1619         184           49        876              92
## 4                     867        1003            2       2564             431
## 5                    3097        1112            0        819             132
## 6                    1278         154            0       1020             211
##   agua7_Río agua8_Otro agua9_Vecino agua10_Total elec1_Sí elec2_No elec3_Total
## 1      2648         56           81        19520    13204     6316       19520
## 2       388         61           37         7308     6025     1283        7308
## 3       488         24           20        13999    12248     1751       13999
## 4      3428         80           34         9716     1792     7924        9716
## 5       369          9           47        12757    10886     1871       12757
## 6       948         29            8         8904     6895     2009        8904
##   departamento            provincia Castillo Keiko ganaCastillo covidPositivos
## 1     AMAZONAS                BAGUA    25629 10770            1           8126
## 2     AMAZONAS              BONGARA     8374  5209            1            389
## 3     AMAZONAS          CHACHAPOYAS    15671 10473            1           2174
## 4     AMAZONAS         CONDORCANQUI    13154  1446            1           3481
## 5     AMAZONAS                 LUYA    12606  7840            1            456
## 6     AMAZONAS RODRÍGUEZ DE MENDOZA     7967  5491            1            110
##   covidFallecidos porcentaje_agua_red tasa_fallecidos_1000 grupo_kmeans
## 1             462            77.50000             56.85454            3
## 2              72            79.51560            185.08997            3
## 3             281            88.43489            129.25483            3
## 4             111            91.07657             31.88739            3
## 5              88            75.72313            192.98246            3
## 6              60            85.64690            545.45455            3
##   grupo_hclust
## 1            1
## 2            1
## 3            1
## 4            1
## 5            1
## 6            1

```