PREGUNTA 1
library(readxl)
# Importar el archivo Excel
data <- read_excel("reporte.xlsx")
# Ver las primeras filas del dataframe
head(data)
## # A tibble: 6 × 10
## Código Provincia `No usa electricidad` `Sí usa electricidad`
## <chr> <chr> <dbl> <dbl>
## 1 101 Amazonas, provincia: Chach… 14763 574
## 2 102 Amazonas, provincia: Bagua 20313 161
## 3 103 Amazonas, provincia: Bonga… 7689 124
## 4 104 Amazonas, provincia: Condo… 9853 14
## 5 105 Amazonas, provincia: Luya 13112 90
## 6 106 Amazonas, provincia: Rodrí… 9103 65
## # ℹ 6 more variables: `No usa gas (balón GLP)` <dbl>,
## # `Sí usa gas (balón GLP)` <dbl>, `No usa carbón` <dbl>,
## # `Sí usa carbón` <dbl>, `No usa leña` <dbl>, `Sí usa leña` <dbl>
# Lista de las columnas que deseas analizar
columnas_binarias <- c("Sí usa electricidad", "Sí usa gas (balón GLP)", "Sí usa carbón", "Sí usa leña")
# Calcular los porcentajes
porcentajes <- sapply(data[columnas_binarias], function(x) mean(x == 1) * 100)
# Imprimir los resultados
print(porcentajes)
## Sí usa electricidad Sí usa gas (balón GLP) Sí usa carbón
## 0.5076142 0.0000000 0.0000000
## Sí usa leña
## 0.0000000
names(data)
## [1] "Código" "Provincia" "No usa electricidad"
## [4] "Sí usa electricidad" "No usa gas (balón GLP)" "Sí usa gas (balón GLP)"
## [7] "No usa carbón" "Sí usa carbón" "No usa leña"
## [10] "Sí usa leña"
# Seleccionar las columnas por índice
variables_seleccionadas <- data[, c(4,6, 8, 10)]
# Verificar las primeras filas de las variables seleccionadas
head(variables_seleccionadas)
## # A tibble: 6 × 4
## `Sí usa electricidad` `Sí usa gas (balón GLP)` `Sí usa carbón` `Sí usa leña`
## <dbl> <dbl> <dbl> <dbl>
## 1 574 10641 176 8101
## 2 161 9917 289 13117
## 3 124 4659 58 5468
## 4 14 1536 26 8808
## 5 90 6339 33 11369
## 6 65 3781 26 7344
library(polycor)
## Warning: package 'polycor' was built under R version 4.4.2
PREGUNTA 2
library(readxl)
# Importar el archivo Excel
data2<- read_excel("dataOK_all.xlsx")
## New names:
## • `` -> `...1`
# Ver las primeras filas del dataframe
head(data)
## # A tibble: 6 × 10
## Código Provincia `No usa electricidad` `Sí usa electricidad`
## <chr> <chr> <dbl> <dbl>
## 1 101 Amazonas, provincia: Chach… 14763 574
## 2 102 Amazonas, provincia: Bagua 20313 161
## 3 103 Amazonas, provincia: Bonga… 7689 124
## 4 104 Amazonas, provincia: Condo… 9853 14
## 5 105 Amazonas, provincia: Luya 13112 90
## 6 106 Amazonas, provincia: Rodrí… 9103 65
## # ℹ 6 more variables: `No usa gas (balón GLP)` <dbl>,
## # `Sí usa gas (balón GLP)` <dbl>, `No usa carbón` <dbl>,
## # `Sí usa carbón` <dbl>, `No usa leña` <dbl>, `Sí usa leña` <dbl>
names(data2)
## [1] "...1" "key"
## [3] "Código" "pared1_Ladrillo"
## [5] "pared2_Piedra" "pared3_Adobe"
## [7] "pared4_Tapia" "pared5_Quincha"
## [9] "pared6_Piedra" "pared7_Madera"
## [11] "pared8_Triplay" "pared9_Otro"
## [13] "pared10_Total" "techo1_Concreto"
## [15] "techo2_Madera" "techo3_Tejas"
## [17] "techo4_Planchas" "techo5_Caña"
## [19] "techo6_Triplay" "techo7_Paja"
## [21] "techo8_Otro" "techo9_Total"
## [23] "piso1_Parquet" "piso2_Láminas"
## [25] "piso3_Losetas" "piso4_Madera"
## [27] "piso5_Cemento" "piso6_Tierra"
## [29] "piso7_Otro" "piso8_Total"
## [31] "agua1_Red" "agua2_Red_fueraVivienda"
## [33] "agua3_Pilón" "agua4_Camión"
## [35] "agua5_Pozo" "agua6_Manantial"
## [37] "agua7_Río" "agua8_Otro"
## [39] "agua9_Vecino" "agua10_Total"
## [41] "elec1_Sí" "elec2_No"
## [43] "elec3_Total" "departamento"
## [45] "provincia" "Castillo"
## [47] "Keiko" "ganaCastillo"
## [49] "covidPositivos" "covidFallecidos"
# Seleccionar las columnas por índice
variables_seleccionadas <- data2[, c(2,31, 50, 47,46)]
# Verificar las primeras filas de las variables seleccionadas
head(variables_seleccionadas)
## # A tibble: 6 × 5
## key agua1_Red covidFallecidos Keiko Castillo
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 AMAZONAS+BAGUA 9429 462 10770 25629
## 2 AMAZONAS+BONGARA 4569 72 5209 8374
## 3 AMAZONAS+CHACHAPOYAS 10647 281 10473 15671
## 4 AMAZONAS+CONDORCANQUI 1307 111 1446 13154
## 5 AMAZONAS+LUYA 7172 88 7840 12606
## 6 AMAZONAS+RODRIGUEZ DE MENDOZA 5256 60 5491 7967
# Verificar los nombres de las columnas
colnames(variables_seleccionadas)
## [1] "key" "agua1_Red" "covidFallecidos" "Keiko"
## [5] "Castillo"
# Asegurarse de que las columnas a normalizar sean numéricas
variables_seleccionadas$agua_red <- as.numeric(variables_seleccionadas$agua1_Red)
variables_seleccionadas$razon_votacionKeiko <- as.numeric(variables_seleccionadas$Keiko)
variables_seleccionadas$tasa_fallecidos <- as.numeric(variables_seleccionadas$covidFallecidos)
variables_seleccionadas$razon_votacionCastillo <- as.numeric(variables_seleccionadas$Castillo)
variables_seleccionadas$provincias <- as.numeric(variables_seleccionadas$key)
## Warning: NAs introducidos por coerción
# Eliminar filas con NA en las variables seleccionadas
variables_seleccionadas <- na.omit(variables_seleccionadas)
# Verificar si se eliminaron correctamente los NA
head(variables_seleccionadas)
## # A tibble: 0 × 10
## # ℹ 10 variables: key <chr>, agua1_Red <dbl>, covidFallecidos <dbl>,
## # Keiko <dbl>, Castillo <dbl>, agua_red <dbl>, razon_votacionKeiko <dbl>,
## # tasa_fallecidos <dbl>, razon_votacionCastillo <dbl>, provincias <dbl>
# Normalizar las variables seleccionadas
data_normalizada <- scale(variables_seleccionadas[c("agua_red", "tasa_fallecidos", "razon_votacionKeiko", "razon_votacionCastillo")])
# Ver las primeras filas de los datos normalizados
head(data_normalizada)
## agua_red tasa_fallecidos razon_votacionKeiko razon_votacionCastillo
cor(variables_seleccionadas[,c(2:4)])
## agua1_Red covidFallecidos Keiko
## agua1_Red NA NA NA
## covidFallecidos NA NA NA
## Keiko NA NA NA
dataClus=variables_seleccionadas[,c(2:4)]
row.names(dataClus)=variables_seleccionadas$key
## Warning: Setting row names on a tibble is deprecated.