Orden random forest y naive bayes

NUMERO DE CELUDA SUMDO DOS DIGITOS DE NACIMIENTO DIA Y SUMA DE ANO DE MACIMIENTO Y REDUCIR LOS DOS PRIMEROS DIGITOSS

INTRODUCCIÓN

Con el objetivo de comprender mejor las condiciones de vida en los cantones de la provincia de Chimborazo, se llevará a cabo un estudio basado en una extensa base de datos que abarca a residentes de las parroquias urbanas y rurales. Esta base proporcionará información detallada sobre aspectos clave, como la composición de los hogares, características de las viviendas y patrones de alimentación. El análisis de estos datos permitirá obtener una visión integral de las condiciones socioeconómicas y de vida en la ciudad, identificando áreas de mejora y proponiendo posibles soluciones. Este estudio no solo contribuirá al conocimiento de la realidad local, sino que también servirá como base para el diseño de políticas y programas que puedan abordar de manera efectiva las necesidades de la comunidad de Riobamba.

IMPORTACIÓN DE NUESTRA BASE DE DATOS

library(readxl)
data <- read_excel("DATA_PARCIAL2.xlsx")
#View(data)

# nombres de las variables
names(data)
##  [1] "UBICACIÓN"                                                                                                                                                                                                   
##  [2] "¿En qué cantón de la provincia de Chimborazo vive?"                                                                                                                                                          
##  [3] "Edad del encuestado"                                                                                                                                                                                         
##  [4] "Sexo"                                                                                                                                                                                                        
##  [5] "Estado civil"                                                                                                                                                                                                
##  [6] "Cantidad de personas que conforman el hogar"                                                                                                                                                                 
##  [7] "¿Qué parentesco tiene con el representante del hogar?"                                                                                                                                                       
##  [8] "¿Cuál es el tipo de vivienda?"                                                                                                                                                                               
##  [9] "El material predominante de las paredes exteriores de la vivienda es de:"                                                                                                                                    
## [10] "EL material predominante del piso de la vivienda es de:"                                                                                                                                                     
## [11] "¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar?"                                                                                                                                       
## [12] "Tipo de servicio higiénico con que cuenta este hogar"                                                                                                                                                        
## [13] "¿Cuenta con servicio de internet?"                                                                                                                                                                           
## [14] "¿Cuenta con computadora de escritorio?"                                                                                                                                                                      
## [15] "¿Cuenta con computadora portátil?"                                                                                                                                                                           
## [16] "¿Cuántos celulares activados tiene en este hogar?"                                                                                                                                                           
## [17] "¿Tiene su hogar servicio de teléfono convencional?"                                                                                                                                                          
## [18] "¿Tiene en su hogar cocina con horno?"                                                                                                                                                                        
## [19] "¿Tiene refrigeradora?"                                                                                                                                                                                       
## [20] "¿Tiene lavadora?"                                                                                                                                                                                            
## [21] "¿Tiene equipo de sonido?"                                                                                                                                                                                    
## [22] "¿Cuántas TV a color tienen en este hogar?"                                                                                                                                                                   
## [23] "¿Cuántos vehículos de uso exclusivo tiene este hogar?"                                                                                                                                                       
## [24] "¿Alguien en el hogar compra vestimenta en centros comerciales?"                                                                                                                                              
## [25] "¿En el hogar alguien ha usado internet en los últimos 6 meses?"                                                                                                                                              
## [26] "¿En el hogar alguien utiliza correo electrónico que no es del trabajo?"                                                                                                                                      
## [27] "¿En el hogar alguien está registrado en una red social?"                                                                                                                                                     
## [28] "Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?"                                                         
## [29] "¿Cuál es el nivel de instrucción del Jefe del hogar?"                                                                                                                                                        
## [30] "¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?"                                                                       
## [31] "¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?"
## [32] "¿Cuál es la ocupación del Representante del hogar?"                                                                                                                                                          
## [33] "NSE_2023_CUALI"                                                                                                                                                                                              
## [34] "¿Para qué sector trabaja?"                                                                                                                                                                                   
## [35] "¿Consume usted arroz?"                                                                                                                                                                                       
## [36] "¿Consume usted queso industrial (CON MARCA)"                                                                                                                                                                 
## [37] "¿Consume usted huevos?"                                                                                                                                                                                      
## [38] "¿Consume frutas?"

DESCRIPCIÓN DE LAS VARIABLES

En este estudio, se seleccionan un total de 577 participantes, en los cuales se pidió a los participantes que respondieran un cuestionario que se va a describir a continuación:

Variable cualitativa nominal. Cuenta con 2 niveles: sí y no

clases <- sapply(data, class)
clases
##                                                                                                                                                                                                    UBICACIÓN 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                           ¿En qué cantón de la provincia de Chimborazo vive? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                          Edad del encuestado 
##                                                                                                                                                                                                    "numeric" 
##                                                                                                                                                                                                         Sexo 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                                 Estado civil 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                  Cantidad de personas que conforman el hogar 
##                                                                                                                                                                                                    "numeric" 
##                                                                                                                                                        ¿Qué parentesco tiene con el representante del hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                ¿Cuál es el tipo de vivienda? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                     El material predominante de las paredes exteriores de la vivienda es de: 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                      EL material predominante del piso de la vivienda es de: 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                        ¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                         Tipo de servicio higiénico con que cuenta este hogar 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                            ¿Cuenta con servicio de internet? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                       ¿Cuenta con computadora de escritorio? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                            ¿Cuenta con computadora portátil? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                            ¿Cuántos celulares activados tiene en este hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                           ¿Tiene su hogar servicio de teléfono convencional? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                         ¿Tiene en su hogar cocina con horno? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                        ¿Tiene refrigeradora? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                             ¿Tiene lavadora? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                     ¿Tiene equipo de sonido? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                    ¿Cuántas TV a color tienen en este hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                        ¿Cuántos vehículos de uso exclusivo tiene este hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                               ¿Alguien en el hogar compra vestimenta en centros comerciales? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                               ¿En el hogar alguien ha usado internet en los últimos 6 meses? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                       ¿En el hogar alguien utiliza correo electrónico que no es del trabajo? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                      ¿En el hogar alguien está registrado en una red social? 
##                                                                                                                                                                                                  "character" 
##                                                          Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                         ¿Cuál es el nivel de instrucción del Jefe del hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                        ¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL? 
##                                                                                                                                                                                                  "character" 
## ¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                           ¿Cuál es la ocupación del Representante del hogar? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                               NSE_2023_CUALI 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                    ¿Para qué sector trabaja? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                        ¿Consume usted arroz? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                  ¿Consume usted queso industrial (CON MARCA) 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                       ¿Consume usted huevos? 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                             ¿Consume frutas? 
##                                                                                                                                                                                                  "character"

Limpieza de la data

Detección de Na’s

which(is.na(data))
##   [1]  1182  1205  1207  1313  1319  1345  1410  1438  1450  1451  1482  1599
##  [13]  1653 20200 20201 20202 20208 20216 20217 20218 20220 20221 20228 20240
##  [25] 20261 20263 20269 20281 20282 20290 20297 20305 20310 20313 20317 20318
##  [37] 20323 20335 20341 20344 20345 20347 20348 20349 20350 20359 20366 20370
##  [49] 20372 20375 20376 20381 20383 20388 20394 20407 20417 20427 20437 20440
##  [61] 20444 20448 20451 20464 20465 20468 20470 20471 20474 20475 20476 20477
##  [73] 20479 20480 20493 20494 20495 20497 20498 20499 20500 20503 20506 20509
##  [85] 20511 20513 20514 20515 20516 20517 20518 20519 20521 20527 20528 20529
##  [97] 20530 20533 20545 20554 20555 20567 20568 20569 20575 20576 20577 20578
## [109] 20579 20580 20581 20582 20585 20589 20590 20591 20592 20593 20595 20600
## [121] 20602 20603 20606 20609 20611 20613 20617 20618 20623 20624 20625 20626
## [133] 20627 20629 20632 20635 20641 20645 20651 20652 20653 20659 20661 20667
## [145] 20672 20677 20679 20681 20682 20684 20686 20689 20690 20693 20694 20697
## [157] 20704 20706 20707 20713 20714 20716 20717 20719 20721 20723 20726 20728
## [169] 20729 20730 20733 20736 20738 20739 20742 20745 20746 20747 20748 20750
## [181] 20751 20753 20754 20756 20757 20758 20759 20760 20761 20762 20764 20765
## [193] 20766 20767 20769 20770 20772
sum(is.na(data))
## [1] 197

Interpretación

Se verifica que la base de datos contiene 197 datos faltantes, por lo cual se debe hacer la debida imputación.

Omitir na’s**

BASE <- na.omit(data)
#View(BASE)

Interpretación

Se obtiene que al utilizar el na.omit permite ejecutar funciones numéricas sobre datos NA, algunos análisis devolverán un error ante la existencia de valores NA o vacíos (““). Por lo que, al correr nuevamente la data, ya no aparecen aquellos datos.

Conversión del tipo de variable (char a factor)

Transformar la variable Ubicación

BASE$UBICACIÓN <- factor(BASE$UBICACIÓN)
levels(BASE$UBICACIÓN) = c("Alausí","Cacha","Calpi","Chambo","Chunchi","Colta","Cubijíes","Cumanda","Flores","Guamote","Guano","Licán","Licto","Lizarzaburu","Maldonado","Pallatanga","Penipe","Pungalá","Punín","Quimiag","San Juan","San Luis","Velasco","Veloz","Yaruquíes")
class(BASE$UBICACIÓN)
## [1] "factor"

Transformar la variable Cantón

BASE$`¿En qué cantón de la provincia de Chimborazo vive?` <- factor(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)
levels(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)= c("Alausí","Chambo","Chunchi","Colta","Cumanda","Guamote","Guano","Pallatanga","Penipe","Riobamba")
class(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)
## [1] "factor"

Transformar la variable sexo

BASE$Sexo <- factor(BASE$Sexo)
levels(BASE$Sexo) = c("Masculino","Femenino")
class(BASE$Sexo) 
## [1] "factor"

Transformar la variable estado civil de caracter a factor

BASE$`Estado civil` <- factor(BASE$`Estado civil`)
levels(BASE$`Estado civil`) <- c("Casado","Divorciado","Otro","Soltero","Viudo")
class(BASE$`Estado civil`)
## [1] "factor"

Transformar la variable tipo de vivienda de caracter a facto

BASE$`¿Qué parentesco tiene con el representante del hogar?` <- factor(BASE$`¿Qué parentesco tiene con el representante del hogar?`)
levels(BASE$`¿Qué parentesco tiene con el representante del hogar?`) <- c("Cónyugue o conviviente","Otros parientes","Yo soy el representante del Hogar","Hijo o hija","Padres o suegros","Otros no parientes","Yerno o nuera")

Transformar la variable tipo de vivienda

BASE$`¿Cuál es el tipo de vivienda?` <-   factor(BASE$`¿Cuál es el tipo de vivienda?`)
levels(BASE$`¿Cuál es el tipo de vivienda?`) <- c("Casa/Villa","Departamento en casa o edificio","Suite de lujo","Cuarto(s) en casa de inquilinato ","Choza/Covacha/Otro","Rancho"," Mediagua")

Transformar la variable tipo de material del piso

BASE$`EL material predominante del piso de la vivienda es de:` <-   factor(BASE$`EL material predominante del piso de la vivienda es de:`)
levels(BASE$`EL material predominante del piso de la vivienda es de:`) <- c("Duela, parquet, tablón o piso flotante"," Cerámica, baldosa, vinil o marmetón","Tabla sin tratar","Tierra/ Caña/ Otros materiales","Ladrillo o cemento")

Transformar la variable tipo de material de las paredes

Transformar la variable tipo de cuartos de baño con ducha de uso exclusivo tiene este hogar

Transformar la variable tipo de Tipo de servicio higiénico de caracter a factor

Transformar la variable tipo de Cuenta con servicio de internet

BASE$`¿Cuenta con servicio de internet?` <-   factor(BASE$`¿Cuenta con servicio de internet?`)
levels(BASE$`¿Cuenta con servicio de internet?`) <- c("Si","No")

Transformar la variable tipo de Cuenta con computadora de escritorio

Transformar la variable tipo de Cuenta con computadora portátil

Transformar la variable tipo de Cuántos celulares activados tiene en este hogar de caracter a factor

Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional

Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional

Transformar la variable tipo de vehículos de uso exclusivo tiene este hogar

Transformar la variable tipo de en el hogar compra vestimenta en centros comerciales?

Transformar la variable tipo de alguien ha usado internet en los últimos 6 meses

Transformar la variable tipo de utiliza correo electrónico que no es del trabajo

Transformar la variable tipo de está registrado en una red social

BASE$`¿En el hogar alguien está registrado en una red social?` <-   factor(BASE$`¿En el hogar alguien está registrado en una red social?`)
levels(BASE$`¿En el hogar alguien está registrado en una red social?`) <- c("Si","No")

Transformar la variable tipo de libros de texto o manuales de estudio y lecturas de trabajo

Transformar la variable tipo de ocupación del Representante del hogar

Transformar la variable tipo de nivel de instrucción del Jefe del hogar

Transformar la variable tipo de Alguien en el hogar está afiliado o cubierto por el seguro del IESS

Transformar la variable tipo de nivel de instrucción del Jefe del hogar de caracter a factor

Tranformar a factor la variable ¿Para qué sector trabaja?

BASE$`¿Para qué sector trabaja?`= factor(BASE$`¿Para qué sector trabaja?`)
levels(BASE$`¿Para qué sector trabaja?`) = c("Sector público", "Sector privado", "Ninguno")
class(BASE$`¿Para qué sector trabaja?`)
## [1] "factor"

Tranformar a factor la variable “Consume usted arroz”

BASE$`¿Consume usted arroz?`= factor(BASE$`¿Consume usted arroz?`)
levels(BASE$`¿Consume usted arroz?`)= c("Si", "No")
class(BASE$`¿Consume usted arroz?`)
## [1] "factor"

Tranformar a factor la variable “¿Consume usted queso industrial (CON MARCA)”

BASE$`¿Consume usted queso industrial (CON MARCA)`= factor(BASE$`¿Consume usted queso industrial (CON MARCA)`)
levels(BASE$`¿Consume usted queso industrial (CON MARCA)`)=c("Si", "No")
class(BASE$`¿Consume usted queso industrial (CON MARCA)`)
## [1] "factor"

Transformar a factor la variable “¿Consume usted huevos?”

BASE$`¿Consume usted huevos?`= factor(BASE$`¿Consume usted huevos?`)
levels(BASE$`¿Consume usted huevos?`)=c("Si", "No")
class(BASE$`¿Consume usted huevos?`)
## [1] "factor"

Transformar a factor la variable “¿Consume frutas?”

BASE$`¿Consume frutas?`= factor (BASE$`¿Consume frutas?`)
levels(BASE$`¿Consume frutas?`) =c("Si", "No")
class(BASE$`¿Consume frutas?`)
## [1] "factor"

Unión de las variables ya transformadas

classes=sapply(BASE,class)
for(i in 1:ncol(data))
  if(classes[i]=="integer")
    data[[i]]=as.numeric(BASE[[i]])
classes=sapply(BASE,class)
classes
##                                                                                                                                                                                                    UBICACIÓN 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                           ¿En qué cantón de la provincia de Chimborazo vive? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                          Edad del encuestado 
##                                                                                                                                                                                                    "numeric" 
##                                                                                                                                                                                                         Sexo 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                                 Estado civil 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                  Cantidad de personas que conforman el hogar 
##                                                                                                                                                                                                    "numeric" 
##                                                                                                                                                        ¿Qué parentesco tiene con el representante del hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                ¿Cuál es el tipo de vivienda? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                     El material predominante de las paredes exteriores de la vivienda es de: 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                      EL material predominante del piso de la vivienda es de: 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                        ¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                         Tipo de servicio higiénico con que cuenta este hogar 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                            ¿Cuenta con servicio de internet? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                       ¿Cuenta con computadora de escritorio? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                            ¿Cuenta con computadora portátil? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                            ¿Cuántos celulares activados tiene en este hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                           ¿Tiene su hogar servicio de teléfono convencional? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                         ¿Tiene en su hogar cocina con horno? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                        ¿Tiene refrigeradora? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                             ¿Tiene lavadora? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                     ¿Tiene equipo de sonido? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                    ¿Cuántas TV a color tienen en este hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                        ¿Cuántos vehículos de uso exclusivo tiene este hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                               ¿Alguien en el hogar compra vestimenta en centros comerciales? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                               ¿En el hogar alguien ha usado internet en los últimos 6 meses? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                       ¿En el hogar alguien utiliza correo electrónico que no es del trabajo? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                      ¿En el hogar alguien está registrado en una red social? 
##                                                                                                                                                                                                     "factor" 
##                                                          Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                         ¿Cuál es el nivel de instrucción del Jefe del hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                        ¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL? 
##                                                                                                                                                                                                     "factor" 
## ¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                           ¿Cuál es la ocupación del Representante del hogar? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                               NSE_2023_CUALI 
##                                                                                                                                                                                                  "character" 
##                                                                                                                                                                                    ¿Para qué sector trabaja? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                        ¿Consume usted arroz? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                  ¿Consume usted queso industrial (CON MARCA) 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                       ¿Consume usted huevos? 
##                                                                                                                                                                                                     "factor" 
##                                                                                                                                                                                             ¿Consume frutas? 
##                                                                                                                                                                                                     "factor"

ANALISIS DESCRIPTIVO

summary(BASE[, clases ==  "numeric"])
##  Edad del encuestado Cantidad de personas que conforman el hogar
##  Min.   :15.00       Min.   : 1.000                             
##  1st Qu.:26.00       1st Qu.: 3.000                             
##  Median :37.00       Median : 4.000                             
##  Mean   :38.16       Mean   : 4.319                             
##  3rd Qu.:47.00       3rd Qu.: 5.000                             
##  Max.   :81.00       Max.   :37.000
apply(BASE[,clases == "numeric"], 2, sd)
##                         Edad del encuestado 
##                                   13.983034 
## Cantidad de personas que conforman el hogar 
##                                    2.343052

La mediana de la muestra se sitúa en 37 años, lo que indica que la mitad de los participantes tienen menos de esta edad y la otra mitad, más. Al considerar el primer cuartil, se revela que el 25% de la población estudiada tiene 26 años, mientras que el tercer cuartil, representando el 75%, corresponde a una edad de 47 años. Además, la desviación estándar de la muestra es de 13.98 años.

Estos datos sugieren que la mayoría de los participantes se encuentran en la etapa adulta, ubicándose en un rango de edad promedio.

La mediana de la muestra es de 4 personas por hogar. Además, al observar el primer cuartil, se nota que el 25% de los hogares estudiados tienen 3 personas, mientras que el tercer cuartil, que representa el 75%, tiene un promedio de 5 personas por hogar. La desviación estándar de esta distribución es de 2.34 personas.

Estos resultados sugieren que la mayoría de los hogares tienen un tamaño que no supera las 5 personas. Esto indica una tendencia hacia familias de tamaño moderado en la población estudiada. #Análisis visual de datos

#Diagrama de barras de las variables que influyen en la alimentación

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
grafico_1 = ggplot(BASE,aes(x= `¿Consume usted arroz?`))+
  geom_bar(stat="count", width=0.7, fill="skyblue")+
  theme_minimal() +   geom_text(aes(label = ..count..), stat="count" )
print(grafico_1)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

INTERPRETACIÓN: En este gráfico de barras podemos observar que existe un gran porcentaje (373 personas)de que las personas no consumen arroz mientras que (10 personas que si consumen arroz).

grafico_2 = ggplot(BASE,aes(x=`¿Consume usted queso industrial (CON MARCA)`))+
  geom_bar(stat="count", width=0.7, fill="pink")+
  theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_2)

INTERPRETACIÓN:En nuestra segunda gráfica se puede vizualizar que (221 individuos) consumen queso industrial(CON MARCA) mientras que (162 individuos) no consumen queso industrial (CON MARCA).

grafico_3 = ggplot(BASE,aes(x=`¿Consume usted huevos?`))+
  geom_bar(stat="count", width=0.7, fill="green")+
  theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_3)

INTERPRETACIÓN: En esta gráfica se puede observar que (333 individuos) no consumen huevos mientras que (50 individuos) si consumen huevos.

grafico_4 =ggplot(BASE,aes(x=`¿Consume frutas?`))+
  geom_bar(stat="count", width=0.7, fill="yellow")+
  theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_4)

INTERPRETACIÓN: En esta gráfica se puede visualizar que (345 individuos) no consumen frutas. mientras que (38 individuos) si consumen frutas.

Gráficas de dispersión para las variables que posiblemente influyan en la alimentación

Comparación de variables a “¿Consume usted arroz?”

Variable Cantidad de personas que conforman el hogar y ¿Cuál es la ocupación del Representante del hogar?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿Cuál es la ocupación del Representante del hogar?`, colour = `¿Consume usted arroz?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Ocupación  - personas que conforman el hogar", 
    x = "personas que conforman el hogar",
    y = "ocupación del Representante del hogar"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la ocupación, el tamaño del hogar y la variable dicotómica ‘¿Consume usted arroz?’, se revela que no existe una correlación significativa. A pesar de considerar la ocupación laboral y la edad de los individuos, la mayoría de las personas no muestran un patrón consistente de consumo de arroz. Esto sugiere que estas variables no están fuertemente ligadas al hábito de consumir este alimento. En resumen, no se evidencia una dependencia clara entre las variables analizadas y el consumo de arroz por parte de los encuestados.

Variable Cantidad de personas que conforman el hogar y Edad del encuestado

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume usted arroz?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - Edad del encuestado", 
    x = "Cantidad de personas que conforman el hogar",
    y = "Edad del encuestado"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al examinar la relación entre la cantidad de personas en un hogar y la edad del encuestado en relación con la variable dicotómica ‘¿Consume usted arroz?’, se observa que no parece existir una conexión directa entre estas variables. Aunque la cantidad de personas en un hogar puede estar correlacionada con la edad del encuestado, no se evidencia una relación clara con el hábito de consumo de arroz. En resumen, la cantidad de personas en el hogar, influida por la edad, no parece tener una influencia directa en el patrón de consumo de arroz por parte de los encuestados.

Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted arroz?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿En qué cantón de la provincia de Chimborazo vive?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN:Al analizar la relación entre la cantidad de personas en un hogar y la ubicación geográfica dentro de la provincia de Chimborazo con respecto al hábito de consumo de frutas, no se evidencia una asociación significativa entre estas variables. La falta de dependencia entre la cantidad de personas en el hogar y la ubicación geográfica no permite concluir que estas variables influyan en el consumo de frutas.

Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted queso industrial (CON MARCA)`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿En qué cantón de la provincia de Chimborazo vive?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN Se observa una relación entre la cantidad de personas en un hogar, la ubicación geográfica (como indicador de desarrollo del cantón) y el hábito de consumo de arroz. En áreas con cantones más desarrollados, donde el tamaño promedio de las familias tiende a ser más pequeño, se identifica un mayor consumo de arroz. Por otro lado, en áreas rurales, donde el tamaño promedio de las familias tiende a ser más grande, se evidencia un menor consumo de este alimento. Esta asociación sugiere que el contexto del cantón, en términos de desarrollo y estructura familiar, puede influir en los patrones de consumo de arroz por parte de la población. Variable Cantidad de personas que conforman el hogar y ¿Tiene refrigeradora?

library(ggplot2)
ggplot(BASE, aes(`¿Cuál es la ocupación del Representante del hogar?`,`¿Tiene refrigeradora?`, colour = `¿Consume usted queso industrial (CON MARCA)`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿Tiene refrigeradora?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

Variable Cantidad de personas que conforman el hogar y NSE_2023_CUALI

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,NSE_2023_CUALI, colour = `¿Consume usted huevos?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - NSE_2023_CUALI", 
    x = "Cantidad de personas que conforman el hogar",
    y = "NSE_2023_CUALI"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel Socioeconómico) en relación con la variable dicotómica ‘¿Consume usted huevos?’, se concluye que no se identifica una asociación significativa entre ambas variables. Parece no existir una dependencia clara entre el tamaño del hogar y el nivel socioeconómico del encuestado en relación con el consumo de huevos. En resumen, no se encuentra evidencia que respalde una relación directa entre estas variables y el hábito de consumo de huevos por parte de los encuestados.

Variable Cantidad de personas que conforman el hogar y Edad del encuestado

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume usted huevos?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar- edad del encuestado", 
    x = "Cantidad de personas que conforman el hogar",
    y = "edad del encuestado"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la cantidad de personas en un hogar y la edad del encuestado en relación con la variable dicotómica ‘¿Consume usted huevos?’, no se observa una asociación significativa entre estas variables. Parece no existir una dependencia clara entre el tamaño del hogar y la edad del encuestado con respecto al hábito de consumo de huevos.

Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted huevos?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿En qué cantón de la provincia de Chimborazo vive?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al examinar la relación entre la cantidad de personas en un hogar y la ubicación geográfica dentro de la provincia de Chimborazo en relación con la variable dicotómica ‘¿Consume usted huevos?’, no se identifica una conexión entre estas variables. No parece haber una dependencia clara entre la cantidad de personas en el hogar y la ubicación geográfica en relación con el hábito de consumo de huevos.

Variable Cantidad de personas que conforman el hogar y ¿Tiene refrigeradora?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`NSE_2023_CUALI`, colour = `¿Consume usted huevos?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿Tiene refrigeradora?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Se observa una relación entre la cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel Socioeconómico) en relación con la variable dicotómica ‘¿Consume usted huevos?’. Se evidencia que a medida que disminuye el tamaño de la familia, tiende a aumentar el nivel socioeconómico. Sin embargo, se percibe que las personas con un mayor nivel socioeconómico muestran un patrón de consumo más bajo de huevos. Este patrón sugiere una tendencia inversa entre el tamaño del hogar y el nivel socioeconómico con el consumo de huevos por parte de los encuestados.

Comparación de variables a “¿Consume usted frutas?”

Variable Cantidad de personas que conforman el hogar y NSE_2023_CUALI

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,NSE_2023_CUALI, colour = `¿Consume frutas?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - NSE_2023_CUALI", 
    x = "Cantidad de personas que conforman el hogar",
    y = "NSE_2023_CUALI"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel Socioeconómico) en relación con la variable dicotómica ‘¿Consume frutas?’, no se identifica una asociación significativa entre estas variables. La falta de dependencia entre el tamaño del hogar y el nivel socioeconómico no permite concluir que estas variables tengan una influencia directa en el consumo de frutas.

Variable Cantidad de personas que conforman el hogar y Edad del encuestado

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume frutas?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar- edad del encuestado", 
    x = "Cantidad de personas que conforman el hogar",
    y = "edad del encuestado"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la cantidad de personas en un hogar y la edad del encuestado en relación con la variable dicotómica ‘¿Consume frutas?’, no se identifica una asociación significativa entre estas variables. La falta de dependencia entre el tamaño del hogar y la edad del encuestado no permite concluir que estas variables tengan una influencia directa en el consumo de frutas.

Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?

library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume frutas?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿En qué cantón de la provincia de Chimborazo vive?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al examinar la relación entre la cantidad de personas en un hogar y la ubicación geográfica dentro de la provincia de Chimborazo en relación con la variable dicotómica ‘¿Consume frutas?’, no se identifica una asociación significativa entre estas variables. La falta de dependencia entre el tamaño del hogar y la ubicación geográfica no permite concluir que estas variables tengan una influencia directa en el consumo de frutas.

Variable ¿Tiene refrigeradora? y Cantidad de personas que conforman el hogar.

library(ggplot2)
ggplot(BASE, aes(`¿Tiene refrigeradora?`,`¿Cuál es la ocupación del Representante del hogar?`, colour = `¿Consume frutas?`)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?", 
    x =  "¿Tiene refrigeradora?",
    y = "Cantidad de personas que conforman el hogar"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

INTERPRETACIÓN: Al analizar la relación entre la posesión de refrigeradora y la ocupación del Representante del hogar en relación con la variable dicotómica ‘¿Consume frutas?’, no se identifica una asociación significativa entre estas variables. La ausencia de dependencia entre la posesión de refrigeradora y la ocupación del Representante del hogar no permite concluir que estas variables tengan una influencia directa en el consumo de frutas.

Gráficas de cajas para las variables

Consume usted arroz

ggplot(BASE, aes(`¿Consume usted arroz?`, `Edad del encuestado`, color = `¿Consume usted arroz?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes compara la edad de a persona encuestada y el consumo de arroz, se observa una asimetria positiva o sesgada a la derecha en las personas que si consume arroz el cual tambien nos muestra la presencia de valores atipicos, mientras tanto en la comparación de la edad de la persona encuestada y que no consumen arroz, la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda. Consume usted arroz - Cantidad de personas que conforman el hogar

ggplot(BASE, aes(`¿Consume usted arroz?`, `Cantidad de personas que conforman el hogar` , color = `¿Consume usted arroz?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes compara la cantidad de personas que conforma el hogar y el consumo de arroz,en las personas que si consumen arroz la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda aqui no se puede observar la presencia de valores atipicos. Mientras que en las personas que no consumen arroz se muestra un gráfico similar presenta distribución muestra simetría y si se da la presencia de valores atipicos.

Consume usted queso industrial (CON MARCA)

ggplot(BASE, aes(`¿Consume usted queso industrial (CON MARCA)`,`Edad del encuestado`, color = `¿Consume usted queso industrial (CON MARCA)`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes compara la variable consume queso industrial(con marca) y el consumo de arroz,en las personas que si consumen arroz se presenta asimetria negativa a sesgada hacia la izquierda aquí se da la presencia de valores atipicos, mientras que en las personas que no consumen arroz presenta Asimetría positiva o segada a la derecha y tambien se puede observar la presencia de valores atipicos.

Consume usted queso industrial (CON MARCA) - Cantidad de personas que conforman el hogar

ggplot(BASE, aes(`¿Consume usted queso industrial (CON MARCA)`,`Cantidad de personas que conforman el hogar`, color = `¿Consume usted queso industrial (CON MARCA)`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes, se observa en contraste, en los individuos que consumen queso industrial(con marca), la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda, tambien se observa la presencia de valores atipicos. Mientras que en los individuos que no consumen queso industrial(con marca) se observa la misma distribuación detallada anteriormente.

Consume usted huevos- edad del encuestado

ggplot(BASE, aes(`¿Consume usted huevos?`,`Edad del encuestado`, color =`¿Consume usted huevos?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes que compara la edad del encuestador con el consumo de huevos, se observa una distribución asimétrica positiva en los individuos que si consumen huevos, no existe la presencia de valores atípicos y una mayor dispersión de datos hacia la parte superior de la distribución. En contraste, en los individuos que no consumen huevos, la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda.

Consume usted huevos - Cantidad de personas que conforman el hogar

ggplot(BASE, aes(`¿Consume usted huevos?`,`Cantidad de personas que conforman el hogar`, color =`¿Consume usted huevos?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes, se identifica una asimetría positiva o sesgada a la derecha, con una ausencia de valores atípicos y una concentración de datos hacia la parte inferior de la distribución. La mayor parte de los datos se encuentran por debajo de la mediana, lo que indica una concentración de valores mayores y una media que suele ser mayor que la mediana, no se observa la presencia de valores atipicos. En el otro diagrama de bigotes se puede observar claramente que la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda, aqui se observa la presencia de valores atipicos.

Consume frutas - Edad del encuestado

ggplot(BASE, aes(`¿Consume frutas?`,`Edad del encuestado`, color =`¿Consume frutas?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes que compara la edad del encuestador con el consumo de frutas, se observa una distribución asimétrica positiva en los individuos que si consumen frutas, no existe la presencia de valores atípicos y una mayor dispersión de datos hacia la parte superior de la distribución. En el otro diagrama de bigotes en donde se compara la edad del encuestador con las personas que no consumen frutas se puede observar la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda, aqui se observa la presencia de valores atipicos.

Consume frutas - cantidad de personas que conforman el hogar

ggplot(BASE, aes(`¿Consume frutas?`,`Cantidad de personas que conforman el hogar`, color =`¿Consume frutas?`)) +
  geom_boxplot()

INTERPRETACIÓN: En este diagrama de bigotes, se identifica una asimetría positiva o sesgada a la derecha, con una ausencia de valores atípicos y una concentración de datos hacia la parte inferior de la distribución. La mayor parte de los datos se encuentran por debajo de la mediana, lo que indica una concentración de valores mayores y una media que suele ser mayor que la mediana, no se observa la presencia de valores atipicos. En el otro diagrama de bigotes se puede observar claramente que la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda, aqui se observa la presencia de valores atipicos.

Gráfico multivariante

library(GGally)
## Warning: package 'GGally' was built under R version 4.3.2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(BASE[,classes=="numeric"])+
theme_bw()

INTERPRETACIÓN: En este gráfico se puede observar que la variable cantidad de personas que conformar el hogar que hay una relación muy débil es decir que no existe influencia directa con la edad del encuestado como se puede ver en el nivel de correlación.

Semilla

ci <- 0650467566
dia <- 19
año <- 1999
#semilla
sem <- ci+dia+año
sem
## [1] 650469584

Muestra

tr <- round(nrow(BASE)*0.7)
set.seed(6504695)
muestra <- sample.int(nrow(BASE),tr)
Train.BASE1 <- BASE[muestra,]
Val.BASE1 <- BASE[-muestra,]

Ahora disponemos de un conjunto de entrenamiento Train.BASE1 y un conjunto de validación val.BASE1

Predicción de que consume arroz (binaria) y variables que influyen en la misma

Modelos de clasificación

Regresión logística

El modelo logístico es:

\[{p_i}=P\left({Y=1/X={x_i}}\right)={{{e^{{\beta_0}+}\beta_1}{x_{i1}}+\ldots + {\beta_p}{x_{ip}}}} \over {1 + {e^{{\beta_0}+ {beta_1}{x_{i1}} + \ldots + {\beta_p}{x_{ip}}}}}\]

Se trata de un modelo lineal en el logit de la probabilidad

Naive Bayes

library(e1071)
library(caret)
## Warning: package 'caret' was built under R version 4.3.2
## Loading required package: lattice
## Warning: package 'lattice' was built under R version 4.3.2
fitbayes <-naiveBayes(`¿Consume usted arroz?`~., data= Train.BASE1)
summary(fitbayes)
##           Length Class  Mode     
## apriori    2     table  numeric  
## tables    37     -none- list     
## levels     2     -none- character
## isnumeric 37     -none- logical  
## call       4     -none- call
#Predict Output
predictedBayes= predict(fitbayes, Val.BASE1)
matrizNB<- confusionMatrix(Val.BASE1$`¿Consume usted arroz?`,predictedBayes)
matrizNB
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction  Si  No
##         Si   0   4
##         No   2 109
##                                           
##                Accuracy : 0.9478          
##                  95% CI : (0.8899, 0.9806)
##     No Information Rate : 0.9826          
##     P-Value [Acc > NIR] : 0.9959          
##                                           
##                   Kappa : -0.0237         
##                                           
##  Mcnemar's Test P-Value : 0.6831          
##                                           
##             Sensitivity : 0.00000         
##             Specificity : 0.96460         
##          Pos Pred Value : 0.00000         
##          Neg Pred Value : 0.98198         
##              Prevalence : 0.01739         
##          Detection Rate : 0.00000         
##    Detection Prevalence : 0.03478         
##       Balanced Accuracy : 0.48230         
##                                           
##        'Positive' Class : Si              
## 

INTERPRETACIÓN:

Precisión (Accuracy): Es del 94.78%. Indica la proporción de predicciones correctas sobre el total de predicciones.

Intervalo de Confianza (95% CI): Va desde 88.99% hasta 98.06%. Es un rango de valores donde es probable que se encuentre la verdadera precisión del modelo en la población. Kappa: Un coeficiente de concordancia. El valor negativo (-0.0237) sugiere que el modelo está actuando peor que si sus predicciones fueran al azar. Sensibilidad (Sensitivity) y Especificidad (Specificity):

La sensibilidad para la clase ‘Si’ es 0, lo que sugiere que el modelo no identifica correctamente los casos positivos en esa clase. La especificidad para la clase ‘No’ es alta (96.46%), indicando que el modelo identifica bien los casos negativos en esa clase. Valores Predictivos:

Tanto el Valor Predictivo Positivo (Pos Pred Value) como el Negativo (Neg Pred Value) para la clase ‘Si’ son bajos (0), lo que indica que el modelo tiene dificultades para predecir correctamente esta clase. Balance de Exactitud (Balanced Accuracy):

Es el promedio de sensibilidad y especificidad ponderado por la prevalencia de las clases. Su valor es bajo (48.23%).

Random Forest Tecnicas que trabaja con mayor dimension de arboles, trabaja con varios arboles de decision.

library(randomForest)
## Warning: package 'randomForest' was built under R version 4.3.2
## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attaching package: 'randomForest'
## The following object is masked from 'package:ggplot2':
## 
##     margin
#library(e1071)
#library(caret)
#fitRF <- randomForest(`¿Consume usted arroz?`~.,data=Train.BASE1, ntree = 1000)
#summary(fitRF)
#Predict Output
#predictedRF <- predict(fitRF, Val.BASE1)
#matrizRF <- confusionMatrix(Val.BASE1$`¿Consume usted arroz?`, predictedRF)
#matrizRF

#importance(fitRF)
#varImpPlot(fitRF)