Ejercicio 1

PREGUNTA 1

library(readxl)

# Importar el archivo Excel
data <- read_excel("reporte.xlsx")

# Ver las primeras filas del dataframe
head(data)

## # A tibble: 6 × 10
##   Código Provincia                   `No usa electricidad` `Sí usa electricidad`
##   <chr>  <chr>                                       <dbl>                 <dbl>
## 1 101    Amazonas, provincia: Chach…                 14763                   574
## 2 102    Amazonas, provincia: Bagua                  20313                   161
## 3 103    Amazonas, provincia: Bonga…                  7689                   124
## 4 104    Amazonas, provincia: Condo…                  9853                    14
## 5 105    Amazonas, provincia: Luya                   13112                    90
## 6 106    Amazonas, provincia: Rodrí…                  9103                    65
## # ℹ 6 more variables: `No usa gas (balón GLP)` <dbl>,
## #   `Sí usa gas (balón GLP)` <dbl>, `No usa carbón` <dbl>,
## #   `Sí usa carbón` <dbl>, `No usa leña` <dbl>, `Sí usa leña` <dbl>

# Lista de las columnas que deseas analizar
columnas_binarias <- c("Sí usa electricidad", "Sí usa gas (balón GLP)", "Sí usa carbón", "Sí usa leña")

# Calcular los porcentajes
porcentajes <- sapply(data[columnas_binarias], function(x) mean(x == 1) * 100)

# Imprimir los resultados
print(porcentajes)

##    Sí usa electricidad Sí usa gas (balón GLP)          Sí usa carbón 
##              0.5076142              0.0000000              0.0000000 
##            Sí usa leña 
##              0.0000000

names(data)

##  [1] "Código"                 "Provincia"              "No usa electricidad"   
##  [4] "Sí usa electricidad"    "No usa gas (balón GLP)" "Sí usa gas (balón GLP)"
##  [7] "No usa carbón"          "Sí usa carbón"          "No usa leña"           
## [10] "Sí usa leña"

# Seleccionar las columnas por índice
variables_seleccionadas <- data[, c(4,6, 8, 10)]  

# Verificar las primeras filas de las variables seleccionadas
head(variables_seleccionadas)

## # A tibble: 6 × 4
##   `Sí usa electricidad` `Sí usa gas (balón GLP)` `Sí usa carbón` `Sí usa leña`
##                   <dbl>                    <dbl>           <dbl>         <dbl>
## 1                   574                    10641             176          8101
## 2                   161                     9917             289         13117
## 3                   124                     4659              58          5468
## 4                    14                     1536              26          8808
## 5                    90                     6339              33         11369
## 6                    65                     3781              26          7344

library(polycor)

## Warning: package 'polycor' was built under R version 4.4.2

PREGUNTA 2

library(readxl)

# Importar el archivo Excel
data2<- read_excel("dataOK_all.xlsx")

## New names:
## • `` -> `...1`

# Ver las primeras filas del dataframe
head(data)

## # A tibble: 6 × 10
##   Código Provincia                   `No usa electricidad` `Sí usa electricidad`
##   <chr>  <chr>                                       <dbl>                 <dbl>
## 1 101    Amazonas, provincia: Chach…                 14763                   574
## 2 102    Amazonas, provincia: Bagua                  20313                   161
## 3 103    Amazonas, provincia: Bonga…                  7689                   124
## 4 104    Amazonas, provincia: Condo…                  9853                    14
## 5 105    Amazonas, provincia: Luya                   13112                    90
## 6 106    Amazonas, provincia: Rodrí…                  9103                    65
## # ℹ 6 more variables: `No usa gas (balón GLP)` <dbl>,
## #   `Sí usa gas (balón GLP)` <dbl>, `No usa carbón` <dbl>,
## #   `Sí usa carbón` <dbl>, `No usa leña` <dbl>, `Sí usa leña` <dbl>

names(data2)

##  [1] "...1"                    "key"                    
##  [3] "Código"                  "pared1_Ladrillo"        
##  [5] "pared2_Piedra"           "pared3_Adobe"           
##  [7] "pared4_Tapia"            "pared5_Quincha"         
##  [9] "pared6_Piedra"           "pared7_Madera"          
## [11] "pared8_Triplay"          "pared9_Otro"            
## [13] "pared10_Total"           "techo1_Concreto"        
## [15] "techo2_Madera"           "techo3_Tejas"           
## [17] "techo4_Planchas"         "techo5_Caña"            
## [19] "techo6_Triplay"          "techo7_Paja"            
## [21] "techo8_Otro"             "techo9_Total"           
## [23] "piso1_Parquet"           "piso2_Láminas"          
## [25] "piso3_Losetas"           "piso4_Madera"           
## [27] "piso5_Cemento"           "piso6_Tierra"           
## [29] "piso7_Otro"              "piso8_Total"            
## [31] "agua1_Red"               "agua2_Red_fueraVivienda"
## [33] "agua3_Pilón"             "agua4_Camión"           
## [35] "agua5_Pozo"              "agua6_Manantial"        
## [37] "agua7_Río"               "agua8_Otro"             
## [39] "agua9_Vecino"            "agua10_Total"           
## [41] "elec1_Sí"                "elec2_No"               
## [43] "elec3_Total"             "departamento"           
## [45] "provincia"               "Castillo"               
## [47] "Keiko"                   "ganaCastillo"           
## [49] "covidPositivos"          "covidFallecidos"

# Seleccionar las columnas por índice
variables_seleccionadas <- data2[, c(2,31, 50, 47,46)]  

# Verificar las primeras filas de las variables seleccionadas
head(variables_seleccionadas)

## # A tibble: 6 × 5
##   key                           agua1_Red covidFallecidos Keiko Castillo
##   <chr>                             <dbl>           <dbl> <dbl>    <dbl>
## 1 AMAZONAS+BAGUA                     9429             462 10770    25629
## 2 AMAZONAS+BONGARA                   4569              72  5209     8374
## 3 AMAZONAS+CHACHAPOYAS              10647             281 10473    15671
## 4 AMAZONAS+CONDORCANQUI              1307             111  1446    13154
## 5 AMAZONAS+LUYA                      7172              88  7840    12606
## 6 AMAZONAS+RODRIGUEZ DE MENDOZA      5256              60  5491     7967

# Verificar los nombres de las columnas
colnames(variables_seleccionadas)

## [1] "key"             "agua1_Red"       "covidFallecidos" "Keiko"          
## [5] "Castillo"

# Asegurarse de que las columnas a normalizar sean numéricas
variables_seleccionadas$agua_red <- as.numeric(variables_seleccionadas$agua1_Red)
variables_seleccionadas$razon_votacionKeiko <- as.numeric(variables_seleccionadas$Keiko)
variables_seleccionadas$tasa_fallecidos <- as.numeric(variables_seleccionadas$covidFallecidos)
variables_seleccionadas$razon_votacionCastillo <- as.numeric(variables_seleccionadas$Castillo)
variables_seleccionadas$provincias <- as.numeric(variables_seleccionadas$key)

## Warning: NAs introducidos por coerción

# Eliminar filas con NA en las variables seleccionadas
variables_seleccionadas <- na.omit(variables_seleccionadas)

# Verificar si se eliminaron correctamente los NA
head(variables_seleccionadas)

## # A tibble: 0 × 10
## # ℹ 10 variables: key <chr>, agua1_Red <dbl>, covidFallecidos <dbl>,
## #   Keiko <dbl>, Castillo <dbl>, agua_red <dbl>, razon_votacionKeiko <dbl>,
## #   tasa_fallecidos <dbl>, razon_votacionCastillo <dbl>, provincias <dbl>

# Normalizar las variables seleccionadas
data_normalizada <- scale(variables_seleccionadas[c("agua_red", "tasa_fallecidos", "razon_votacionKeiko", "razon_votacionCastillo")])

# Ver las primeras filas de los datos normalizados
head(data_normalizada)

##      agua_red tasa_fallecidos razon_votacionKeiko razon_votacionCastillo

cor(variables_seleccionadas[,c(2:4)])

##                 agua1_Red covidFallecidos Keiko
## agua1_Red              NA              NA    NA
## covidFallecidos        NA              NA    NA
## Keiko                  NA              NA    NA

dataClus=variables_seleccionadas[,c(2:4)]
row.names(dataClus)=variables_seleccionadas$key

## Warning: Setting row names on a tibble is deprecated.

Ejercicio 1

2024-11-28