0.Configuración inicial-Librerias requeridas

library("easypackages")

lib_req<-c("lubridate","dplyr","visdat","missMDA","mice","DMwR2","editrules", "corrplot")# Listado de librerias requeridas por el script
easypackages::packages(lib_req) # Verificación, instalación y carga de librerias.

1. Preprocesamiento de datos con R, Huella Hídrica

1.1 Lectura de Datos en R

1.2 Lectura de Datos(Completo)

# Verificar el directorio de trabajo actual
getwd()
## [1] "C:/Users/toshiba/Desktop/Universidad/Procesamientos de datos/LAB 1 DATOS"
# Establecer el directorio de trabajo en el directorio que contiene el archivo "BD_huella.xlsx"
setwd("/Users/toshiba/Desktop/Universidad/Procesamientos de datos/LAB 1 DATOS/datos")


# Cargar los datos desde el archivo "BD_huella.xlsx"
library(readxl)
datosBD <- read_excel("BD_huella.xlsx", range = "A1:J121")
View(datosBD)

names(datosBD) 
##  [1] "ID"       "edad"     "genero"   "zona"     "grado"    "HHD"     
##  [7] "HHI"      "comp_HHD" "comp_HHI" "per.hog"
dim(datosBD)
## [1] 120  10
str(datosBD)
## tibble [120 × 10] (S3: tbl_df/tbl/data.frame)
##  $ ID      : num [1:120] 1 2 3 4 5 6 7 8 9 10 ...
##  $ edad    : num [1:120] 18 11 11 12 11 14 12 15 13 14 ...
##  $ genero  : chr [1:120] "femenino" "femenino" "1" "Femenino" ...
##  $ zona    : chr [1:120] "URBANO" "1" "Urbano" "Rural" ...
##  $ grado   : chr [1:120] "10" "6" "sexto" "SEXTO" ...
##  $ HHD     : num [1:120] 152 117 276 273 92 NA 102 93 56 98 ...
##  $ HHI     : num [1:120] 1848 1387 567 1356 1344 ...
##  $ comp_HHD: chr [1:120] "Uso.baño" "Uso_baño" "USO.BAÑO" "Uso.baño" ...
##  $ comp_HHI: chr [1:120] "Carne" "Carne" "Carne" "Carne" ...
##  $ per.hog : num [1:120] 3 2 7 5 1 7 4 2 6 5 ...

1.3Observando las etiquetas en algunas de las variables tipo Factor

table(datosBD $genero)
## 
##         1         2  femenino  Femenino  FEMENINO masculino Masculino MASCULINO 
##        10        12         9        35         8        12        25         9
table(datosBD $zona)
## 
##      1      2  Rural  RURAL Urbano URBANO 
##      7     10     33      6     55      9
table(datosBD $grado)
## 
##      10      11       6       7       8       9  decimo  DECIMO  noveno  NOVENO 
##      12       5      10      11      13      10       6       5       3       5 
##  octavo  OCTAVO    once    ONCE septimo SEPTIMO   sexto   SEXTO 
##       5       7       6       3       8       3       4       4
table(datosBD $comp_HHD)
## 
##  Lavado.ropa Riego.jardin     Uso.baño     USO.BAÑO   Uso.cocina     Uso_baño 
##            1            1          104            6            2            6
table(datosBD $comp_HHI)
## 
##  Café  CAFÉ Carne CARNE Fruta 
##     3     2    95     9    11

1.4 Declaración de niveles correctos para las variables tipo Factor

level_genero <- c(femenino="1", masculino="2", Femenino="1", Masculino="2", FEMENINO="1", MASCULINO="2")
level_zona <- c(Urbano="1", Rural="2", URBANO="1", RURAL="2")
level_grado<- c(sexto="6", SEXTO="6", septimo="7", SEPTIMO="7", octavo="8", OCTAVO="8", noveno="9", NOVENO="9", decimo="10", DECIMO="10", once="11", ONCE="11")
level_comp_HHD <- c(Uso_baño="Uso.baño", USO.BAÑO="Uso.baño")
level_comp_HHI <- c(CAFÉ="Café", Cafe="Café", CARNE="Carne")

1.5 Modificación del formato y transformación de variables

datosBD <- transform(datosBD,
                     genero=factor(dplyr::recode(genero, !!!level_genero)),
                     zona=factor(dplyr::recode(zona, !!!level_zona)),
                     grado=factor(dplyr::recode(grado, !!!level_grado)),
                     comp_HHD=factor(dplyr::recode(comp_HHD, !!!level_comp_HHD)),
                     comp_HHI=factor(dplyr::recode(comp_HHI, !!!level_comp_HHI))
                     
)

str(datosBD)
## 'data.frame':    120 obs. of  10 variables:
##  $ ID      : num  1 2 3 4 5 6 7 8 9 10 ...
##  $ edad    : num  18 11 11 12 11 14 12 15 13 14 ...
##  $ genero  : Factor w/ 2 levels "1","2": 1 1 1 1 1 2 2 2 2 2 ...
##  $ zona    : Factor w/ 2 levels "1","2": 1 1 1 2 1 1 1 1 1 2 ...
##  $ grado   : Factor w/ 6 levels "10","11","6",..: 1 3 3 3 3 4 4 4 4 4 ...
##  $ HHD     : num  152 117 276 273 92 NA 102 93 56 98 ...
##  $ HHI     : num  1848 1387 567 1356 1344 ...
##  $ comp_HHD: Factor w/ 4 levels "Lavado.ropa",..: 3 3 3 3 3 3 2 3 3 3 ...
##  $ comp_HHI: Factor w/ 3 levels "Café","Carne",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ per.hog : num  3 2 7 5 1 7 4 2 6 5 ...
summary(datosBD) 
##        ID              edad       genero zona   grado        HHD       
##  Min.   :  1.00   Min.   :11.00   1:62   1:71   10:23   Min.   :  1.0  
##  1st Qu.: 30.75   1st Qu.:13.00   2:58   2:49   11:14   1st Qu.: 75.0  
##  Median : 60.50   Median :14.00                 6 :18   Median :109.0  
##  Mean   : 60.50   Mean   :14.28                 7 :22   Mean   :130.2  
##  3rd Qu.: 90.25   3rd Qu.:16.00                 8 :25   3rd Qu.:157.8  
##  Max.   :120.00   Max.   :20.00                 9 :18   Max.   :401.0  
##                                                         NA's   :8      
##       HHI                 comp_HHD    comp_HHI      per.hog       
##  Min.   :   0.0   Lavado.ropa :  1   Café :  5   Min.   :  1.000  
##  1st Qu.: 401.0   Riego.jardin:  1   Carne:104   1st Qu.:  3.000  
##  Median : 777.0   Uso.baño    :116   Fruta: 11   Median :  4.000  
##  Mean   : 812.8   Uso.cocina  :  2               Mean   :  4.947  
##  3rd Qu.:1325.0                                  3rd Qu.:  5.000  
##  Max.   :2631.0                                  Max.   :102.000  
##  NA's   :7                                       NA's   :6
View(datosBD)

2.Reglas

Rules <- editrules::editfile("consistencia.txt")

2.1 # Conexión entre las reglas

windows()
plot(Rules)

2.2 Verificación de las reglas sobres los datos

editrules::violatedEdits(Rules, datosBD)
##       edit
## record  num1  dat1  dat2  dat3
##    1   FALSE FALSE FALSE FALSE
##    2   FALSE FALSE FALSE FALSE
##    3   FALSE FALSE FALSE FALSE
##    4   FALSE FALSE FALSE FALSE
##    5   FALSE FALSE FALSE FALSE
##    6   FALSE FALSE FALSE FALSE
##    7   FALSE FALSE FALSE FALSE
##    8   FALSE FALSE FALSE FALSE
##    9   FALSE FALSE FALSE FALSE
##    10  FALSE FALSE FALSE FALSE
##    11  FALSE FALSE FALSE FALSE
##    12  FALSE FALSE FALSE FALSE
##    13  FALSE FALSE FALSE FALSE
##    14     NA FALSE FALSE FALSE
##    15  FALSE FALSE FALSE FALSE
##    16  FALSE FALSE FALSE FALSE
##    17  FALSE FALSE FALSE FALSE
##    18  FALSE FALSE FALSE FALSE
##    19  FALSE FALSE FALSE FALSE
##    20  FALSE FALSE FALSE FALSE
##    21  FALSE FALSE FALSE FALSE
##    22  FALSE FALSE FALSE FALSE
##    23  FALSE FALSE FALSE FALSE
##    24  FALSE FALSE FALSE FALSE
##    25  FALSE FALSE FALSE FALSE
##    26  FALSE FALSE FALSE FALSE
##    27  FALSE FALSE FALSE FALSE
##    28  FALSE FALSE FALSE FALSE
##    29  FALSE FALSE FALSE FALSE
##    30     NA FALSE FALSE FALSE
##    31  FALSE FALSE FALSE FALSE
##    32  FALSE FALSE FALSE FALSE
##    33  FALSE FALSE FALSE FALSE
##    34  FALSE FALSE FALSE FALSE
##    35  FALSE FALSE FALSE FALSE
##    36  FALSE FALSE FALSE FALSE
##    37  FALSE FALSE FALSE FALSE
##    38  FALSE FALSE FALSE FALSE
##    39  FALSE FALSE FALSE FALSE
##    40  FALSE FALSE FALSE FALSE
##    41  FALSE FALSE FALSE FALSE
##    42  FALSE FALSE FALSE FALSE
##    43  FALSE FALSE FALSE FALSE
##    44  FALSE FALSE FALSE FALSE
##    45  FALSE FALSE FALSE FALSE
##    46  FALSE FALSE FALSE FALSE
##    47  FALSE FALSE FALSE FALSE
##    48     NA FALSE FALSE FALSE
##    49  FALSE FALSE FALSE FALSE
##    50  FALSE FALSE FALSE FALSE
##    51  FALSE FALSE FALSE FALSE
##    52  FALSE FALSE FALSE FALSE
##    53  FALSE FALSE FALSE FALSE
##    54  FALSE FALSE FALSE FALSE
##    55  FALSE FALSE FALSE FALSE
##    56  FALSE FALSE FALSE FALSE
##    57  FALSE FALSE FALSE FALSE
##    58  FALSE FALSE FALSE FALSE
##    59  FALSE FALSE FALSE FALSE
##    60  FALSE FALSE FALSE FALSE
##    61  FALSE FALSE FALSE FALSE
##    62  FALSE FALSE FALSE FALSE
##    63  FALSE FALSE FALSE FALSE
##    64  FALSE FALSE FALSE FALSE
##    65  FALSE FALSE FALSE FALSE
##    66  FALSE FALSE FALSE FALSE
##    67  FALSE FALSE FALSE FALSE
##    68     NA FALSE FALSE FALSE
##    69  FALSE FALSE FALSE FALSE
##    70  FALSE FALSE FALSE FALSE
##    71  FALSE FALSE FALSE FALSE
##    72  FALSE FALSE FALSE FALSE
##    73  FALSE FALSE FALSE FALSE
##    74  FALSE FALSE FALSE FALSE
##    75  FALSE FALSE FALSE FALSE
##    76  FALSE FALSE FALSE FALSE
##    77  FALSE FALSE FALSE FALSE
##    78  FALSE FALSE FALSE FALSE
##    79  FALSE FALSE FALSE FALSE
##    80  FALSE FALSE FALSE FALSE
##    81  FALSE FALSE FALSE FALSE
##    82  FALSE FALSE FALSE FALSE
##    83  FALSE FALSE FALSE FALSE
##    84  FALSE FALSE FALSE FALSE
##    85  FALSE FALSE FALSE FALSE
##    86     NA FALSE FALSE FALSE
##    87  FALSE FALSE FALSE FALSE
##    88  FALSE FALSE FALSE FALSE
##    89  FALSE FALSE FALSE FALSE
##    90  FALSE FALSE FALSE FALSE
##    91  FALSE FALSE FALSE FALSE
##    92  FALSE FALSE FALSE FALSE
##    93  FALSE FALSE FALSE FALSE
##    94  FALSE FALSE FALSE FALSE
##    95  FALSE FALSE FALSE FALSE
##    96  FALSE FALSE FALSE FALSE
##    97  FALSE FALSE FALSE FALSE
##    98  FALSE FALSE FALSE FALSE
##    99  FALSE FALSE FALSE FALSE
##    100 FALSE FALSE FALSE FALSE
##    101 FALSE FALSE FALSE FALSE
##    102 FALSE FALSE FALSE FALSE
##    103 FALSE FALSE FALSE FALSE
##    104 FALSE FALSE FALSE FALSE
##    105 FALSE FALSE FALSE FALSE
##    106 FALSE FALSE FALSE FALSE
##    107    NA FALSE FALSE FALSE
##    108 FALSE FALSE FALSE FALSE
##    109 FALSE FALSE FALSE FALSE
##    110  TRUE FALSE FALSE FALSE
##    111 FALSE FALSE FALSE FALSE
##    112 FALSE FALSE FALSE FALSE
##    113 FALSE FALSE FALSE FALSE
##    114 FALSE FALSE FALSE FALSE
##    115 FALSE FALSE FALSE FALSE
##    116 FALSE FALSE FALSE FALSE
##    117 FALSE FALSE FALSE FALSE
##    118 FALSE FALSE FALSE FALSE
##    119 FALSE FALSE FALSE FALSE
##    120 FALSE FALSE FALSE FALSE
Valid_Data = editrules::violatedEdits(Rules, datosBD)
summary(Valid_Data)
## Edit violations, 120 observations, 0 completely missing (0%):
## 
##  editname freq  rel
##      num1    1 0.8%
## 
## Edit violations per record:
## 
##  errors freq   rel
##       0  113 94.2%
##       1    7  5.8%

2.3 Visualizacion del diagnostico

windows()
plot(Valid_Data)

3-4 Datos NA

is.na(datosBD)
##           ID  edad genero  zona grado   HHD   HHI comp_HHD comp_HHI per.hog
##   [1,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [2,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [3,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [4,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [5,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [6,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##   [7,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [8,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##   [9,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [10,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [11,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [12,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [13,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [14,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
##  [15,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [16,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [17,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [18,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [19,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [20,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [21,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [22,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [23,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [24,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [25,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [26,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [27,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [28,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [29,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [30,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
##  [31,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [32,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [33,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [34,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [35,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [36,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [37,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [38,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [39,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [40,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [41,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [42,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [43,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [44,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [45,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [46,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [47,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [48,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
##  [49,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [50,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [51,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [52,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [53,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [54,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [55,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [56,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [57,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [58,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [59,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [60,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [61,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [62,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [63,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [64,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [65,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [66,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [67,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [68,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
##  [69,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [70,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [71,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [72,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [73,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [74,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [75,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [76,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [77,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [78,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [79,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [80,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [81,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [82,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [83,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [84,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [85,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [86,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
##  [87,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [88,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [89,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [90,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [91,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [92,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [93,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [94,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
##  [95,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [96,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [97,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
##  [98,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
##  [99,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [100,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [101,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [102,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [103,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [104,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [105,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [106,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [107,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE    TRUE
## [108,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [109,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [110,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [111,] FALSE FALSE  FALSE FALSE FALSE FALSE  TRUE    FALSE    FALSE   FALSE
## [112,] FALSE FALSE  FALSE FALSE FALSE  TRUE FALSE    FALSE    FALSE   FALSE
## [113,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [114,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [115,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [116,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [117,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [118,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [119,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
## [120,] FALSE FALSE  FALSE FALSE FALSE FALSE FALSE    FALSE    FALSE   FALSE
visdat::vis_miss(datosBD)

5.Datos atípicos

boxplot(datosBD$edad)

boxplot(datosBD$grado)

boxplot(datosBD$HHD)

boxplot(datosBD$HHI)

boxplot(datosBD$per.hog)

Podemos notar que los datos atípicos se presentan en las variables HHD Y per.hog

6.Imputación

# Imputación por la media.
mean(datosBD $HHD, na.rm=T)
## [1] 130.2321
mean(datosBD $HHI,na.rm=T)
## [1] 812.8407
mean(datosBD $per.hog,na.rm=T)
## [1] 4.947368
imputM = mice::mice(datosBD, maxit = 1, method = "mean")
## 
##  iter imp variable
##   1   1  HHD  HHI  per.hog
##   1   2  HHD  HHI  per.hog
##   1   3  HHD  HHI  per.hog
##   1   4  HHD  HHI  per.hog
##   1   5  HHD  HHI  per.hog
## Warning: Number of logged events: 5
clean_huella = mice::complete(imputM)
windows(height=10,width=15); visdat::vis_miss(clean_huella) 


write.table(clean_huella, "clean_huella.txt", sep="\t", dec=".",row.names=TRUE)

8-9 Creación de variables y gráficos

library(readxl)
datosC <- read_excel("datos/clean_huella.xlsx", range = "A1:J121")
View(datosC)

8.1 Cree las siguientes variables

datosC$HHT <- datosC$HHD + datosC$HHI
View(datosC)

8.2 Clasifique

datosC$HHT_clas <- ifelse(datosC$HHT <= 1789, "bajo",
                          ifelse(datosC$HHT <= 1887, "medio", "alto"))

9.1

Presente en una sola ventana gráfica las distribuciones de: - Clasificación de la huella hídrica total, - Componente de la huella hídrica directa, - Componente de la huella hídrica indirecta

## 
##  alto  bajo medio 
##     4   115     1
## 
##        alto        bajo       medio 
## 0.033333333 0.958333333 0.008333333
## 
##  Lavado.ropa Riego.jardin     Uso.baño   Uso.cocina 
##            1            1          116            2
## 
##  Lavado.ropa Riego.jardin     Uso.baño   Uso.cocina 
##  0.008333333  0.008333333  0.966666667  0.016666667
## 
##  Café Carne Fruta 
##     5   104    11
## 
##       Café      Carne      Fruta 
## 0.04166667 0.86666667 0.09166667

Análisis: De acuerdo al gráfico, podemos observar que, en la clasificación de la huella hídrica total HHT, la mayor frecuencia la obtiene el grupo ‘‘bajo’’, es decir, aquellos que su HHT es menor o igual a 1789. Seguido de este se encuentra el grupo ‘‘alto’’ (con HHT superiores a 1887) y, por último, el grupo ‘‘medio’’ (su HHT está entre 1789 y 1887).

En el componente de la HHD, el mayor exponente es el Uso.baño, en segundo lugar, Uso.cocina, y como últimos, Riego.jardin y Lavado.ropa respectivamente.

Finalmente, en el último gráfico, tenemos al componente de la HHI donde en primer lugar se encuentra la carne, luego la fruta y por último el café. Según la frecuencia con que se presentan.

9.2

Presente en una sola ventana grafica el comportamiento de los puntajes de la huella hídrica directa e indirecta por cada uno de los factores de estudio (sexo, grado escolar y zona).

Análisis: Teniendo el comportamiento del HHD respecto al género, podemos notar que hay una mayor cantidad del género femenino; sin embargo, se presentan más números de datos atípicos en el género masculino. Algo que no ocurre con HHI, ya que en esta no hay tales datos atípicos.

Por otro lado, el comportamiento de la HHD en referencia al grado, nos muestra una mayor diferencia entre los datos si lo comparamos con la HHI, la cual parece un poco más estable. Teniendo más datos atípicos la inicial (HHD). En cuanto a la zona, podemos ver como los intervalos de los datos aumentan y en HHI intentan ser más similares; por otra parte, los datos atípicos se encuentran presentes en HHD.

9.3

Presente un resumen de los principales indicadores descriptivos de las variables cuantitativa por cada uno de los factores (sexo, grado escolar y zona).

summary(datosC)
##        ID              edad           genero           zona      
##  Min.   :  1.00   Min.   :11.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 30.75   1st Qu.:13.00   1st Qu.:1.000   1st Qu.:1.000  
##  Median : 60.50   Median :14.00   Median :1.000   Median :1.000  
##  Mean   : 60.50   Mean   :14.28   Mean   :1.483   Mean   :1.408  
##  3rd Qu.: 90.25   3rd Qu.:16.00   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :120.00   Max.   :20.00   Max.   :2.000   Max.   :2.000  
##      grado           HHD              HHI           comp_HHD        
##  Min.   : 6.0   Min.   :  1.00   Min.   :   0.0   Length:120        
##  1st Qu.: 7.0   1st Qu.: 78.25   1st Qu.: 410.0   Class :character  
##  Median : 8.0   Median :113.50   Median : 807.5   Mode  :character  
##  Mean   : 8.4   Mean   :130.22   Mean   : 812.9                     
##  3rd Qu.:10.0   3rd Qu.:154.00   3rd Qu.:1309.2                     
##  Max.   :11.0   Max.   :401.00   Max.   :2631.0                     
##    comp_HHI            per.hog           HHT           HHT_clas        
##  Length:120         Min.   :1.000   Min.   :   3.0   Length:120        
##  Class :character   1st Qu.:3.000   1st Qu.: 518.8   Class :character  
##  Mode  :character   Median :4.000   Median : 906.5   Mode  :character  
##                     Mean   :4.142   Mean   : 943.1                     
##                     3rd Qu.:5.000   3rd Qu.:1378.0                     
##                     Max.   :9.000   Max.   :2840.0

9.4

Adicionalmente se requiere visualizar, la estructura de correlación entre las variables huella hídrica total y edad del estudiante. ¿Cree usted que la edad está relacionada con la cantidad de huella hídrica?

# Coeficiente de correlación entre HHT y edad
cor(datosC$edad, datosC$HHT)
## [1] -0.07329914

Análisis: Un coeficiente de correlación de -0.07329914 indica una correlación negativa muy débil entre las dos variables HHT y edad. Esto sugiere que hay una tendencia muy leve hacia una relación inversa entre las variables, lo que significa que cuando una variable aumenta, la otra tiende a disminuir ligeramente. Sin embargo, la fuerza de esta relación es muy débil y es posible que no sea significativa en términos estadísticos.