Orden random forest y naive bayes
NUMERO DE CELUDA SUMDO DOS DIGITOS DE NACIMIENTO DIA Y SUMA DE ANO DE MACIMIENTO Y REDUCIR LOS DOS PRIMEROS DIGITOSS
INTRODUCCIÓN
Con el objetivo de comprender mejor las condiciones de vida en los cantones de la provincia de Chimborazo, se llevará a cabo un estudio basado en una extensa base de datos que abarca a residentes de las parroquias urbanas y rurales. Esta base proporcionará información detallada sobre aspectos clave, como la composición de los hogares, características de las viviendas y patrones de alimentación. El análisis de estos datos permitirá obtener una visión integral de las condiciones socioeconómicas y de vida en la ciudad, identificando áreas de mejora y proponiendo posibles soluciones. Este estudio no solo contribuirá al conocimiento de la realidad local, sino que también servirá como base para el diseño de políticas y programas que puedan abordar de manera efectiva las necesidades de la comunidad de Riobamba.
IMPORTACIÓN DE NUESTRA BASE DE DATOS
library(readxl)
data <- read_excel("DATA_PARCIAL2.xlsx")
#View(data)
# nombres de las variables
names(data)
## [1] "UBICACIÓN"
## [2] "¿En qué cantón de la provincia de Chimborazo vive?"
## [3] "Edad del encuestado"
## [4] "Sexo"
## [5] "Estado civil"
## [6] "Cantidad de personas que conforman el hogar"
## [7] "¿Qué parentesco tiene con el representante del hogar?"
## [8] "¿Cuál es el tipo de vivienda?"
## [9] "El material predominante de las paredes exteriores de la vivienda es de:"
## [10] "EL material predominante del piso de la vivienda es de:"
## [11] "¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar?"
## [12] "Tipo de servicio higiénico con que cuenta este hogar"
## [13] "¿Cuenta con servicio de internet?"
## [14] "¿Cuenta con computadora de escritorio?"
## [15] "¿Cuenta con computadora portátil?"
## [16] "¿Cuántos celulares activados tiene en este hogar?"
## [17] "¿Tiene su hogar servicio de teléfono convencional?"
## [18] "¿Tiene en su hogar cocina con horno?"
## [19] "¿Tiene refrigeradora?"
## [20] "¿Tiene lavadora?"
## [21] "¿Tiene equipo de sonido?"
## [22] "¿Cuántas TV a color tienen en este hogar?"
## [23] "¿Cuántos vehículos de uso exclusivo tiene este hogar?"
## [24] "¿Alguien en el hogar compra vestimenta en centros comerciales?"
## [25] "¿En el hogar alguien ha usado internet en los últimos 6 meses?"
## [26] "¿En el hogar alguien utiliza correo electrónico que no es del trabajo?"
## [27] "¿En el hogar alguien está registrado en una red social?"
## [28] "Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?"
## [29] "¿Cuál es el nivel de instrucción del Jefe del hogar?"
## [30] "¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?"
## [31] "¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?"
## [32] "¿Cuál es la ocupación del Representante del hogar?"
## [33] "NSE_2023_CUALI"
## [34] "¿Para qué sector trabaja?"
## [35] "¿Consume usted arroz?"
## [36] "¿Consume usted queso industrial (CON MARCA)"
## [37] "¿Consume usted huevos?"
## [38] "¿Consume frutas?"
DESCRIPCIÓN DE LAS VARIABLES
En este estudio, se seleccionan un total de 577 participantes, en los cuales se pidió a los participantes que respondieran un cuestionario que se va a describir a continuación:
Ubicación: Variable de tipo cualitativa nominal, con diferentes tipos de ubicación de la provincia de Chimborazo.
¿En qué cantón de la provincia de Chimborazo vive?: Variable de tipo cualitativa nominal con datos de los cantones de la provincia de Chimborazo.
Sexo: Género del individuo. Variable de tipo cualitativa nominal con 2 niveles: Masculino y Femenino.
Estado civil: Estado civil del encuestado, con 5 niveles: casado, soltero, divorciado, viudo y otro
Cantidad de personas que conforman el hogar: Hacen referencia a la cantidad de personas que vive en una sola familia. Variable cuantitativa discreta.
¿Qué parentesco tiene con el representante del hogar?: Variable cualitativa nominal, lo cual hace referencia a qué tipo de lazo familiar está incluido el que
¿Cuál es el tipo de vivienda?: Variable
cualitativa nominal. La cual esta pregunta nos ayudará a saber cómo vive
el encuestado.
El material predominante de las paredes exteriores de la
vivienda es de: Variable cualitativa nominal.
EL material predominante del piso de la vivienda es
de: Variable cualitativa nominal.
¿Cuántos cuartos de baño con ducha de uso exclusivo tiene
este hogar?: Variable cuantitativa discreta.
“Tipo de servicio higiénico con que cuenta este
hogar”: Variable cualitativa nominal.
¿Cuenta con servicio de internet?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
¿Cuenta con computadora de escritorio?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
“¿Cuenta con computadora portátil?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
¿Cuántos celulares activados tiene en este
hogar?: Variable cualitativa nominal. Cuenta con 3
niveles
¿Tiene su hogar servicio de teléfono
convencional?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
¿Tiene en su hogar cocina con horno?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
¿Tiene refrigeradora?: Variable cualitativa
nominal. Cuenta con 2 niveles: sí y no
¿Tiene lavadora?: Variable cualitativa nominal.
Cuenta con 2 niveles: sí y no
¿Tiene equipo de sonido?: Variable cualitativa
nominal. Cuenta con 2 niveles: sí y no
¿Cuántas TV a color tienen en este hogar?:
Variable cualitativa nominal.
¿Cuántos vehículos de uso exclusivo tiene este
hogar?: Variable cualitativa nominal.
¿Alguien en el hogar compra vestimenta en centros
comerciales?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
¿En el hogar alguien ha usado internet en los últimos 6
meses?: Variable cualitativa nominal. Cuenta con 2 niveles: sí
y no
¿En el hogar alguien utiliza correo electrónico que no es
del trabajo?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
¿En el hogar alguien está registrado en una red
social?: Variable cualitativa nominal. Cuenta con 2 niveles: sí
y no
“Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?: Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
¿Cuál es el nivel de instrucción del Jefe del
hogar?: Variable cualitativa nominal.
¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?: Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?:
Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
clases <- sapply(data, class)
clases
## UBICACIÓN
## "character"
## ¿En qué cantón de la provincia de Chimborazo vive?
## "character"
## Edad del encuestado
## "numeric"
## Sexo
## "character"
## Estado civil
## "character"
## Cantidad de personas que conforman el hogar
## "numeric"
## ¿Qué parentesco tiene con el representante del hogar?
## "character"
## ¿Cuál es el tipo de vivienda?
## "character"
## El material predominante de las paredes exteriores de la vivienda es de:
## "character"
## EL material predominante del piso de la vivienda es de:
## "character"
## ¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar?
## "character"
## Tipo de servicio higiénico con que cuenta este hogar
## "character"
## ¿Cuenta con servicio de internet?
## "character"
## ¿Cuenta con computadora de escritorio?
## "character"
## ¿Cuenta con computadora portátil?
## "character"
## ¿Cuántos celulares activados tiene en este hogar?
## "character"
## ¿Tiene su hogar servicio de teléfono convencional?
## "character"
## ¿Tiene en su hogar cocina con horno?
## "character"
## ¿Tiene refrigeradora?
## "character"
## ¿Tiene lavadora?
## "character"
## ¿Tiene equipo de sonido?
## "character"
## ¿Cuántas TV a color tienen en este hogar?
## "character"
## ¿Cuántos vehículos de uso exclusivo tiene este hogar?
## "character"
## ¿Alguien en el hogar compra vestimenta en centros comerciales?
## "character"
## ¿En el hogar alguien ha usado internet en los últimos 6 meses?
## "character"
## ¿En el hogar alguien utiliza correo electrónico que no es del trabajo?
## "character"
## ¿En el hogar alguien está registrado en una red social?
## "character"
## Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?
## "character"
## ¿Cuál es el nivel de instrucción del Jefe del hogar?
## "character"
## ¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?
## "character"
## ¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?
## "character"
## ¿Cuál es la ocupación del Representante del hogar?
## "character"
## NSE_2023_CUALI
## "character"
## ¿Para qué sector trabaja?
## "character"
## ¿Consume usted arroz?
## "character"
## ¿Consume usted queso industrial (CON MARCA)
## "character"
## ¿Consume usted huevos?
## "character"
## ¿Consume frutas?
## "character"
Limpieza de la data
Detección de Na’s
which(is.na(data))
## [1] 1182 1205 1207 1313 1319 1345 1410 1438 1450 1451 1482 1599
## [13] 1653 20200 20201 20202 20208 20216 20217 20218 20220 20221 20228 20240
## [25] 20261 20263 20269 20281 20282 20290 20297 20305 20310 20313 20317 20318
## [37] 20323 20335 20341 20344 20345 20347 20348 20349 20350 20359 20366 20370
## [49] 20372 20375 20376 20381 20383 20388 20394 20407 20417 20427 20437 20440
## [61] 20444 20448 20451 20464 20465 20468 20470 20471 20474 20475 20476 20477
## [73] 20479 20480 20493 20494 20495 20497 20498 20499 20500 20503 20506 20509
## [85] 20511 20513 20514 20515 20516 20517 20518 20519 20521 20527 20528 20529
## [97] 20530 20533 20545 20554 20555 20567 20568 20569 20575 20576 20577 20578
## [109] 20579 20580 20581 20582 20585 20589 20590 20591 20592 20593 20595 20600
## [121] 20602 20603 20606 20609 20611 20613 20617 20618 20623 20624 20625 20626
## [133] 20627 20629 20632 20635 20641 20645 20651 20652 20653 20659 20661 20667
## [145] 20672 20677 20679 20681 20682 20684 20686 20689 20690 20693 20694 20697
## [157] 20704 20706 20707 20713 20714 20716 20717 20719 20721 20723 20726 20728
## [169] 20729 20730 20733 20736 20738 20739 20742 20745 20746 20747 20748 20750
## [181] 20751 20753 20754 20756 20757 20758 20759 20760 20761 20762 20764 20765
## [193] 20766 20767 20769 20770 20772
sum(is.na(data))
## [1] 197
Interpretación
Se verifica que la base de datos contiene 197 datos faltantes, por lo cual se debe hacer la debida imputación.
BASE <- na.omit(data)
#View(BASE)
Interpretación
Se obtiene que al utilizar el na.omit permite ejecutar funciones numéricas sobre datos NA, algunos análisis devolverán un error ante la existencia de valores NA o vacíos (““). Por lo que, al correr nuevamente la data, ya no aparecen aquellos datos.
Conversión del tipo de variable (char a factor)
Transformar la variable Ubicación
BASE$UBICACIÓN <- factor(BASE$UBICACIÓN)
levels(BASE$UBICACIÓN) = c("Alausí","Cacha","Calpi","Chambo","Chunchi","Colta","Cubijíes","Cumanda","Flores","Guamote","Guano","Licán","Licto","Lizarzaburu","Maldonado","Pallatanga","Penipe","Pungalá","Punín","Quimiag","San Juan","San Luis","Velasco","Veloz","Yaruquíes")
class(BASE$UBICACIÓN)
## [1] "factor"
Transformar la variable Cantón
BASE$`¿En qué cantón de la provincia de Chimborazo vive?` <- factor(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)
levels(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)= c("Alausí","Chambo","Chunchi","Colta","Cumanda","Guamote","Guano","Pallatanga","Penipe","Riobamba")
class(BASE$`¿En qué cantón de la provincia de Chimborazo vive?`)
## [1] "factor"
BASE$Sexo <- factor(BASE$Sexo)
levels(BASE$Sexo) = c("Masculino","Femenino")
class(BASE$Sexo)
## [1] "factor"
Transformar la variable estado civil de caracter a factor
BASE$`Estado civil` <- factor(BASE$`Estado civil`)
levels(BASE$`Estado civil`) <- c("Casado","Divorciado","Otro","Soltero","Viudo")
class(BASE$`Estado civil`)
## [1] "factor"
Transformar la variable tipo de vivienda de caracter a facto
BASE$`¿Qué parentesco tiene con el representante del hogar?` <- factor(BASE$`¿Qué parentesco tiene con el representante del hogar?`)
levels(BASE$`¿Qué parentesco tiene con el representante del hogar?`) <- c("Cónyugue o conviviente","Otros parientes","Yo soy el representante del Hogar","Hijo o hija","Padres o suegros","Otros no parientes","Yerno o nuera")
Transformar la variable tipo de vivienda
BASE$`¿Cuál es el tipo de vivienda?` <- factor(BASE$`¿Cuál es el tipo de vivienda?`)
levels(BASE$`¿Cuál es el tipo de vivienda?`) <- c("Casa/Villa","Departamento en casa o edificio","Suite de lujo","Cuarto(s) en casa de inquilinato ","Choza/Covacha/Otro","Rancho"," Mediagua")
Transformar la variable tipo de material del piso
BASE$`EL material predominante del piso de la vivienda es de:` <- factor(BASE$`EL material predominante del piso de la vivienda es de:`)
levels(BASE$`EL material predominante del piso de la vivienda es de:`) <- c("Duela, parquet, tablón o piso flotante"," Cerámica, baldosa, vinil o marmetón","Tabla sin tratar","Tierra/ Caña/ Otros materiales","Ladrillo o cemento")
Transformar la variable tipo de material de las paredes
Transformar la variable tipo de cuartos de baño con ducha de uso exclusivo tiene este hogar
Transformar la variable tipo de Tipo de servicio higiénico de caracter a factor
Transformar la variable tipo de Cuenta con servicio de internet
BASE$`¿Cuenta con servicio de internet?` <- factor(BASE$`¿Cuenta con servicio de internet?`)
levels(BASE$`¿Cuenta con servicio de internet?`) <- c("Si","No")
Transformar la variable tipo de Cuenta con computadora de escritorio
Transformar la variable tipo de Cuenta con computadora portátil
Transformar la variable tipo de Cuántos celulares activados tiene en este hogar de caracter a factor
Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional
Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional
Transformar la variable tipo de vehículos de uso exclusivo tiene este hogar
Transformar la variable tipo de en el hogar compra vestimenta en centros comerciales?
Transformar la variable tipo de alguien ha usado internet en los últimos 6 meses
Transformar la variable tipo de utiliza correo electrónico que no es del trabajo
Transformar la variable tipo de está registrado en una red social
BASE$`¿En el hogar alguien está registrado en una red social?` <- factor(BASE$`¿En el hogar alguien está registrado en una red social?`)
levels(BASE$`¿En el hogar alguien está registrado en una red social?`) <- c("Si","No")
Transformar la variable tipo de libros de texto o manuales de estudio y lecturas de trabajo
Transformar la variable tipo de ocupación del Representante del hogar
Transformar la variable tipo de nivel de instrucción del Jefe del hogar
Transformar la variable tipo de Alguien en el hogar está afiliado o cubierto por el seguro del IESS
Transformar la variable tipo de nivel de instrucción del Jefe del hogar de caracter a factor
Tranformar a factor la variable ¿Para qué sector trabaja?
BASE$`¿Para qué sector trabaja?`= factor(BASE$`¿Para qué sector trabaja?`)
levels(BASE$`¿Para qué sector trabaja?`) = c("Sector público", "Sector privado", "Ninguno")
class(BASE$`¿Para qué sector trabaja?`)
## [1] "factor"
Tranformar a factor la variable “Consume usted arroz”
BASE$`¿Consume usted arroz?`= factor(BASE$`¿Consume usted arroz?`)
levels(BASE$`¿Consume usted arroz?`)= c("Si", "No")
class(BASE$`¿Consume usted arroz?`)
## [1] "factor"
Tranformar a factor la variable “¿Consume usted queso industrial (CON MARCA)”
BASE$`¿Consume usted queso industrial (CON MARCA)`= factor(BASE$`¿Consume usted queso industrial (CON MARCA)`)
levels(BASE$`¿Consume usted queso industrial (CON MARCA)`)=c("Si", "No")
class(BASE$`¿Consume usted queso industrial (CON MARCA)`)
## [1] "factor"
Transformar a factor la variable “¿Consume usted huevos?”
BASE$`¿Consume usted huevos?`= factor(BASE$`¿Consume usted huevos?`)
levels(BASE$`¿Consume usted huevos?`)=c("Si", "No")
class(BASE$`¿Consume usted huevos?`)
## [1] "factor"
Transformar a factor la variable “¿Consume frutas?”
BASE$`¿Consume frutas?`= factor (BASE$`¿Consume frutas?`)
levels(BASE$`¿Consume frutas?`) =c("Si", "No")
class(BASE$`¿Consume frutas?`)
## [1] "factor"
Unión de las variables ya transformadas
classes=sapply(BASE,class)
for(i in 1:ncol(data))
if(classes[i]=="integer")
data[[i]]=as.numeric(BASE[[i]])
classes=sapply(BASE,class)
classes
## UBICACIÓN
## "factor"
## ¿En qué cantón de la provincia de Chimborazo vive?
## "factor"
## Edad del encuestado
## "numeric"
## Sexo
## "factor"
## Estado civil
## "factor"
## Cantidad de personas que conforman el hogar
## "numeric"
## ¿Qué parentesco tiene con el representante del hogar?
## "factor"
## ¿Cuál es el tipo de vivienda?
## "factor"
## El material predominante de las paredes exteriores de la vivienda es de:
## "factor"
## EL material predominante del piso de la vivienda es de:
## "factor"
## ¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar?
## "factor"
## Tipo de servicio higiénico con que cuenta este hogar
## "factor"
## ¿Cuenta con servicio de internet?
## "factor"
## ¿Cuenta con computadora de escritorio?
## "factor"
## ¿Cuenta con computadora portátil?
## "factor"
## ¿Cuántos celulares activados tiene en este hogar?
## "factor"
## ¿Tiene su hogar servicio de teléfono convencional?
## "factor"
## ¿Tiene en su hogar cocina con horno?
## "factor"
## ¿Tiene refrigeradora?
## "factor"
## ¿Tiene lavadora?
## "factor"
## ¿Tiene equipo de sonido?
## "factor"
## ¿Cuántas TV a color tienen en este hogar?
## "factor"
## ¿Cuántos vehículos de uso exclusivo tiene este hogar?
## "factor"
## ¿Alguien en el hogar compra vestimenta en centros comerciales?
## "factor"
## ¿En el hogar alguien ha usado internet en los últimos 6 meses?
## "factor"
## ¿En el hogar alguien utiliza correo electrónico que no es del trabajo?
## "factor"
## ¿En el hogar alguien está registrado en una red social?
## "factor"
## Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?
## "factor"
## ¿Cuál es el nivel de instrucción del Jefe del hogar?
## "factor"
## ¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?
## "factor"
## ¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?
## "factor"
## ¿Cuál es la ocupación del Representante del hogar?
## "factor"
## NSE_2023_CUALI
## "character"
## ¿Para qué sector trabaja?
## "factor"
## ¿Consume usted arroz?
## "factor"
## ¿Consume usted queso industrial (CON MARCA)
## "factor"
## ¿Consume usted huevos?
## "factor"
## ¿Consume frutas?
## "factor"
ANALISIS DESCRIPTIVO
summary(BASE[, clases == "numeric"])
## Edad del encuestado Cantidad de personas que conforman el hogar
## Min. :15.00 Min. : 1.000
## 1st Qu.:26.00 1st Qu.: 3.000
## Median :37.00 Median : 4.000
## Mean :38.16 Mean : 4.319
## 3rd Qu.:47.00 3rd Qu.: 5.000
## Max. :81.00 Max. :37.000
apply(BASE[,clases == "numeric"], 2, sd)
## Edad del encuestado
## 13.983034
## Cantidad de personas que conforman el hogar
## 2.343052
La mediana de la muestra se sitúa en 37 años, lo que indica que la mitad de los participantes tienen menos de esta edad y la otra mitad, más. Al considerar el primer cuartil, se revela que el 25% de la población estudiada tiene 26 años, mientras que el tercer cuartil, representando el 75%, corresponde a una edad de 47 años. Además, la desviación estándar de la muestra es de 13.98 años.
Estos datos sugieren que la mayoría de los participantes se encuentran en la etapa adulta, ubicándose en un rango de edad promedio.
La mediana de la muestra es de 4 personas por hogar. Además, al observar el primer cuartil, se nota que el 25% de los hogares estudiados tienen 3 personas, mientras que el tercer cuartil, que representa el 75%, tiene un promedio de 5 personas por hogar. La desviación estándar de esta distribución es de 2.34 personas.
Estos resultados sugieren que la mayoría de los hogares tienen un tamaño que no supera las 5 personas. Esto indica una tendencia hacia familias de tamaño moderado en la población estudiada. #Análisis visual de datos
#Diagrama de barras de las variables que influyen en la alimentación
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.2
grafico_1 = ggplot(BASE,aes(x= `¿Consume usted arroz?`))+
geom_bar(stat="count", width=0.7, fill="skyblue")+
theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_1)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
INTERPRETACIÓN: En este gráfico de barras podemos
observar que existe un gran porcentaje (373 personas)de que las personas
no consumen arroz mientras que (10 personas que si consumen arroz).
grafico_2 = ggplot(BASE,aes(x=`¿Consume usted queso industrial (CON MARCA)`))+
geom_bar(stat="count", width=0.7, fill="pink")+
theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_2)
INTERPRETACIÓN:En nuestra segunda gráfica se puede
vizualizar que (221 individuos) consumen queso industrial(CON MARCA)
mientras que (162 individuos) no consumen queso industrial (CON
MARCA).
grafico_3 = ggplot(BASE,aes(x=`¿Consume usted huevos?`))+
geom_bar(stat="count", width=0.7, fill="green")+
theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_3)
INTERPRETACIÓN: En esta gráfica se puede observar que
(333 individuos) no consumen huevos mientras que (50 individuos) si
consumen huevos.
grafico_4 =ggplot(BASE,aes(x=`¿Consume frutas?`))+
geom_bar(stat="count", width=0.7, fill="yellow")+
theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_4)
INTERPRETACIÓN: En esta gráfica se puede visualizar que
(345 individuos) no consumen frutas. mientras que (38 individuos) si
consumen frutas.
Gráficas de dispersión para las variables que posiblemente influyan en la alimentación
Comparación de variables a “¿Consume usted arroz?”
Variable Cantidad de personas que conforman el hogar y ¿Cuál es la ocupación del Representante del hogar?
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿Cuál es la ocupación del Representante del hogar?`, colour = `¿Consume usted arroz?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Ocupación - personas que conforman el hogar",
x = "personas que conforman el hogar",
y = "ocupación del Representante del hogar"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
ocupación, el tamaño del hogar y la variable dicotómica ‘¿Consume usted
arroz?’, se revela que no existe una correlación significativa. A pesar
de considerar la ocupación laboral y la edad de los individuos, la
mayoría de las personas no muestran un patrón consistente de consumo de
arroz. Esto sugiere que estas variables no están fuertemente ligadas al
hábito de consumir este alimento. En resumen, no se evidencia una
dependencia clara entre las variables analizadas y el consumo de arroz
por parte de los encuestados.
Variable Cantidad de personas que conforman el hogar y Edad del encuestado
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume usted arroz?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - Edad del encuestado",
x = "Cantidad de personas que conforman el hogar",
y = "Edad del encuestado"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al examinar la relación entre la
cantidad de personas en un hogar y la edad del encuestado en relación
con la variable dicotómica ‘¿Consume usted arroz?’, se observa que no
parece existir una conexión directa entre estas variables. Aunque la
cantidad de personas en un hogar puede estar correlacionada con la edad
del encuestado, no se evidencia una relación clara con el hábito de
consumo de arroz. En resumen, la cantidad de personas en el hogar,
influida por la edad, no parece tener una influencia directa en el
patrón de consumo de arroz por parte de los encuestados.
Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted arroz?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?",
x = "Cantidad de personas que conforman el hogar",
y = "¿En qué cantón de la provincia de Chimborazo vive?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN:Al analizar la relación entre la
cantidad de personas en un hogar y la ubicación geográfica dentro de la
provincia de Chimborazo con respecto al hábito de consumo de frutas, no
se evidencia una asociación significativa entre estas variables. La
falta de dependencia entre la cantidad de personas en el hogar y la
ubicación geográfica no permite concluir que estas variables influyan en
el consumo de frutas.
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted queso industrial (CON MARCA)`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?",
x = "Cantidad de personas que conforman el hogar",
y = "¿En qué cantón de la provincia de Chimborazo vive?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN Se observa una relación entre la
cantidad de personas en un hogar, la ubicación geográfica (como
indicador de desarrollo del cantón) y el hábito de consumo de arroz. En
áreas con cantones más desarrollados, donde el tamaño promedio de las
familias tiende a ser más pequeño, se identifica un mayor consumo de
arroz. Por otro lado, en áreas rurales, donde el tamaño promedio de las
familias tiende a ser más grande, se evidencia un menor consumo de este
alimento. Esta asociación sugiere que el contexto del cantón, en
términos de desarrollo y estructura familiar, puede influir en los
patrones de consumo de arroz por parte de la población. Variable
Cantidad de personas que conforman el hogar y ¿Tiene
refrigeradora?
library(ggplot2)
ggplot(BASE, aes(`¿Cuál es la ocupación del Representante del hogar?`,`¿Tiene refrigeradora?`, colour = `¿Consume usted queso industrial (CON MARCA)`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?",
x = "Cantidad de personas que conforman el hogar",
y = "¿Tiene refrigeradora?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,NSE_2023_CUALI, colour = `¿Consume usted huevos?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - NSE_2023_CUALI",
x = "Cantidad de personas que conforman el hogar",
y = "NSE_2023_CUALI"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel
Socioeconómico) en relación con la variable dicotómica ‘¿Consume usted
huevos?’, se concluye que no se identifica una asociación significativa
entre ambas variables. Parece no existir una dependencia clara entre el
tamaño del hogar y el nivel socioeconómico del encuestado en relación
con el consumo de huevos. En resumen, no se encuentra evidencia que
respalde una relación directa entre estas variables y el hábito de
consumo de huevos por parte de los encuestados.
Variable Cantidad de personas que conforman el hogar y Edad del encuestado
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume usted huevos?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar- edad del encuestado",
x = "Cantidad de personas que conforman el hogar",
y = "edad del encuestado"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
cantidad de personas en un hogar y la edad del encuestado en relación
con la variable dicotómica ‘¿Consume usted huevos?’, no se observa una
asociación significativa entre estas variables. Parece no existir una
dependencia clara entre el tamaño del hogar y la edad del encuestado con
respecto al hábito de consumo de huevos.
Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume usted huevos?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?",
x = "Cantidad de personas que conforman el hogar",
y = "¿En qué cantón de la provincia de Chimborazo vive?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al examinar la relación entre la
cantidad de personas en un hogar y la ubicación geográfica dentro de la
provincia de Chimborazo en relación con la variable dicotómica ‘¿Consume
usted huevos?’, no se identifica una conexión entre estas variables. No
parece haber una dependencia clara entre la cantidad de personas en el
hogar y la ubicación geográfica en relación con el hábito de consumo de
huevos.
Variable Cantidad de personas que conforman el hogar y ¿Tiene refrigeradora?
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`NSE_2023_CUALI`, colour = `¿Consume usted huevos?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?",
x = "Cantidad de personas que conforman el hogar",
y = "¿Tiene refrigeradora?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Se observa una relación entre la
cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel
Socioeconómico) en relación con la variable dicotómica ‘¿Consume usted
huevos?’. Se evidencia que a medida que disminuye el tamaño de la
familia, tiende a aumentar el nivel socioeconómico. Sin embargo, se
percibe que las personas con un mayor nivel socioeconómico muestran un
patrón de consumo más bajo de huevos. Este patrón sugiere una tendencia
inversa entre el tamaño del hogar y el nivel socioeconómico con el
consumo de huevos por parte de los encuestados.
Comparación de variables a “¿Consume usted frutas?”
Variable Cantidad de personas que conforman el hogar y NSE_2023_CUALI
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,NSE_2023_CUALI, colour = `¿Consume frutas?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - NSE_2023_CUALI",
x = "Cantidad de personas que conforman el hogar",
y = "NSE_2023_CUALI"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
cantidad de personas en un hogar y el NSE_2023_CUALI (Nivel
Socioeconómico) en relación con la variable dicotómica ‘¿Consume
frutas?’, no se identifica una asociación significativa entre estas
variables. La falta de dependencia entre el tamaño del hogar y el nivel
socioeconómico no permite concluir que estas variables tengan una
influencia directa en el consumo de frutas.
Variable Cantidad de personas que conforman el hogar y Edad del encuestado
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`Edad del encuestado`, colour = `¿Consume frutas?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar- edad del encuestado",
x = "Cantidad de personas que conforman el hogar",
y = "edad del encuestado"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
cantidad de personas en un hogar y la edad del encuestado en relación
con la variable dicotómica ‘¿Consume frutas?’, no se identifica una
asociación significativa entre estas variables. La falta de dependencia
entre el tamaño del hogar y la edad del encuestado no permite concluir
que estas variables tengan una influencia directa en el consumo de
frutas.
Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?
library(ggplot2)
ggplot(BASE, aes(`Cantidad de personas que conforman el hogar`,`¿En qué cantón de la provincia de Chimborazo vive?`, colour = `¿Consume frutas?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?",
x = "Cantidad de personas que conforman el hogar",
y = "¿En qué cantón de la provincia de Chimborazo vive?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al examinar la relación entre la
cantidad de personas en un hogar y la ubicación geográfica dentro de la
provincia de Chimborazo en relación con la variable dicotómica ‘¿Consume
frutas?’, no se identifica una asociación significativa entre estas
variables. La falta de dependencia entre el tamaño del hogar y la
ubicación geográfica no permite concluir que estas variables tengan una
influencia directa en el consumo de frutas.
Variable ¿Tiene refrigeradora? y Cantidad de personas que conforman el hogar.
library(ggplot2)
ggplot(BASE, aes(`¿Tiene refrigeradora?`,`¿Cuál es la ocupación del Representante del hogar?`, colour = `¿Consume frutas?`)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar- ¿Tiene refrigeradora?",
x = "¿Tiene refrigeradora?",
y = "Cantidad de personas que conforman el hogar"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
INTERPRETACIÓN: Al analizar la relación entre la
posesión de refrigeradora y la ocupación del Representante del hogar en
relación con la variable dicotómica ‘¿Consume frutas?’, no se identifica
una asociación significativa entre estas variables. La ausencia de
dependencia entre la posesión de refrigeradora y la ocupación del
Representante del hogar no permite concluir que estas variables tengan
una influencia directa en el consumo de frutas.
Gráficas de cajas para las variables
Consume usted arroz
ggplot(BASE, aes(`¿Consume usted arroz?`, `Edad del encuestado`, color = `¿Consume usted arroz?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes compara la
edad de a persona encuestada y el consumo de arroz, se observa una
asimetria positiva o sesgada a la derecha en las personas que si consume
arroz el cual tambien nos muestra la presencia de valores atipicos,
mientras tanto en la comparación de la edad de la persona encuestada y
que no consumen arroz, la distribución muestra simetría, donde la
mediana se encuentra en el centro de la caja, coincidiendo con una
distribución equilibrada de datos alrededor de la mediana, representando
un equilibrio entre la media, mediana y moda. Consume usted
arroz - Cantidad de personas que conforman el hogar
ggplot(BASE, aes(`¿Consume usted arroz?`, `Cantidad de personas que conforman el hogar` , color = `¿Consume usted arroz?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes compara la cantidad de personas que conforma el hogar y el consumo de arroz,en las personas que si consumen arroz la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda aqui no se puede observar la presencia de valores atipicos. Mientras que en las personas que no consumen arroz se muestra un gráfico similar presenta distribución muestra simetría y si se da la presencia de valores atipicos.
Consume usted queso industrial (CON MARCA)
ggplot(BASE, aes(`¿Consume usted queso industrial (CON MARCA)`,`Edad del encuestado`, color = `¿Consume usted queso industrial (CON MARCA)`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes compara la variable consume queso industrial(con marca) y el consumo de arroz,en las personas que si consumen arroz se presenta asimetria negativa a sesgada hacia la izquierda aquí se da la presencia de valores atipicos, mientras que en las personas que no consumen arroz presenta Asimetría positiva o segada a la derecha y tambien se puede observar la presencia de valores atipicos.
Consume usted queso industrial (CON MARCA) - Cantidad de personas que conforman el hogar
ggplot(BASE, aes(`¿Consume usted queso industrial (CON MARCA)`,`Cantidad de personas que conforman el hogar`, color = `¿Consume usted queso industrial (CON MARCA)`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes, se observa en contraste, en los individuos que consumen queso industrial(con marca), la distribución muestra simetría, donde la mediana se encuentra en el centro de la caja, coincidiendo con una distribución equilibrada de datos alrededor de la mediana, representando un equilibrio entre la media, mediana y moda, tambien se observa la presencia de valores atipicos. Mientras que en los individuos que no consumen queso industrial(con marca) se observa la misma distribuación detallada anteriormente.
Consume usted huevos- edad del encuestado
ggplot(BASE, aes(`¿Consume usted huevos?`,`Edad del encuestado`, color =`¿Consume usted huevos?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes que compara
la edad del encuestador con el consumo de huevos, se observa una
distribución asimétrica positiva en los individuos que si consumen
huevos, no existe la presencia de valores atípicos y una mayor
dispersión de datos hacia la parte superior de la distribución. En
contraste, en los individuos que no consumen huevos, la distribución
muestra simetría, donde la mediana se encuentra en el centro de la caja,
coincidiendo con una distribución equilibrada de datos alrededor de la
mediana, representando un equilibrio entre la media, mediana y moda.
Consume usted huevos - Cantidad de personas que conforman el hogar
ggplot(BASE, aes(`¿Consume usted huevos?`,`Cantidad de personas que conforman el hogar`, color =`¿Consume usted huevos?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes, se
identifica una asimetría positiva o sesgada a la derecha, con una
ausencia de valores atípicos y una concentración de datos hacia la parte
inferior de la distribución. La mayor parte de los datos se encuentran
por debajo de la mediana, lo que indica una concentración de valores
mayores y una media que suele ser mayor que la mediana, no se observa la
presencia de valores atipicos. En el otro diagrama de bigotes se puede
observar claramente que la distribución muestra simetría, donde la
mediana se encuentra en el centro de la caja, coincidiendo con una
distribución equilibrada de datos alrededor de la mediana, representando
un equilibrio entre la media, mediana y moda, aqui se observa la
presencia de valores atipicos.
Consume frutas - Edad del encuestado
ggplot(BASE, aes(`¿Consume frutas?`,`Edad del encuestado`, color =`¿Consume frutas?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes que compara
la edad del encuestador con el consumo de frutas, se observa una
distribución asimétrica positiva en los individuos que si consumen
frutas, no existe la presencia de valores atípicos y una mayor
dispersión de datos hacia la parte superior de la distribución. En el
otro diagrama de bigotes en donde se compara la edad del encuestador con
las personas que no consumen frutas se puede observar la distribución
muestra simetría, donde la mediana se encuentra en el centro de la caja,
coincidiendo con una distribución equilibrada de datos alrededor de la
mediana, representando un equilibrio entre la media, mediana y moda,
aqui se observa la presencia de valores atipicos.
Consume frutas - cantidad de personas que conforman el hogar
ggplot(BASE, aes(`¿Consume frutas?`,`Cantidad de personas que conforman el hogar`, color =`¿Consume frutas?`)) +
geom_boxplot()
INTERPRETACIÓN: En este diagrama de bigotes, se
identifica una asimetría positiva o sesgada a la derecha, con una
ausencia de valores atípicos y una concentración de datos hacia la parte
inferior de la distribución. La mayor parte de los datos se encuentran
por debajo de la mediana, lo que indica una concentración de valores
mayores y una media que suele ser mayor que la mediana, no se observa la
presencia de valores atipicos. En el otro diagrama de bigotes se puede
observar claramente que la distribución muestra simetría, donde la
mediana se encuentra en el centro de la caja, coincidiendo con una
distribución equilibrada de datos alrededor de la mediana, representando
un equilibrio entre la media, mediana y moda, aqui se observa la
presencia de valores atipicos.
Gráfico multivariante
library(GGally)
## Warning: package 'GGally' was built under R version 4.3.2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(BASE[,classes=="numeric"])+
theme_bw()
INTERPRETACIÓN: En este gráfico se puede observar que
la variable cantidad de personas que conformar el hogar que hay una
relación muy débil es decir que no existe influencia directa con la edad
del encuestado como se puede ver en el nivel de correlación.
Semilla
ci <- 0650467566
dia <- 19
año <- 1999
#semilla
sem <- ci+dia+año
sem
## [1] 650469584
Muestra
tr <- round(nrow(BASE)*0.7)
set.seed(6504695)
muestra <- sample.int(nrow(BASE),tr)
Train.BASE1 <- BASE[muestra,]
Val.BASE1 <- BASE[-muestra,]
Ahora disponemos de un conjunto de entrenamiento Train.BASE1 y un conjunto de validación val.BASE1
Predicción de que consume arroz (binaria) y variables que influyen en la misma
Modelos de clasificación
Regresión logística
El modelo logístico es:
\[{p_i}=P\left({Y=1/X={x_i}}\right)={{{e^{{\beta_0}+}\beta_1}{x_{i1}}+\ldots + {\beta_p}{x_{ip}}}} \over {1 + {e^{{\beta_0}+ {beta_1}{x_{i1}} + \ldots + {\beta_p}{x_{ip}}}}}\]
Se trata de un modelo lineal en el logit de la probabilidad
Naive Bayes
library(e1071)
library(caret)
## Warning: package 'caret' was built under R version 4.3.2
## Loading required package: lattice
## Warning: package 'lattice' was built under R version 4.3.2
fitbayes <-naiveBayes(`¿Consume usted arroz?`~., data= Train.BASE1)
summary(fitbayes)
## Length Class Mode
## apriori 2 table numeric
## tables 37 -none- list
## levels 2 -none- character
## isnumeric 37 -none- logical
## call 4 -none- call
#Predict Output
predictedBayes= predict(fitbayes, Val.BASE1)
matrizNB<- confusionMatrix(Val.BASE1$`¿Consume usted arroz?`,predictedBayes)
matrizNB
## Confusion Matrix and Statistics
##
## Reference
## Prediction Si No
## Si 0 4
## No 2 109
##
## Accuracy : 0.9478
## 95% CI : (0.8899, 0.9806)
## No Information Rate : 0.9826
## P-Value [Acc > NIR] : 0.9959
##
## Kappa : -0.0237
##
## Mcnemar's Test P-Value : 0.6831
##
## Sensitivity : 0.00000
## Specificity : 0.96460
## Pos Pred Value : 0.00000
## Neg Pred Value : 0.98198
## Prevalence : 0.01739
## Detection Rate : 0.00000
## Detection Prevalence : 0.03478
## Balanced Accuracy : 0.48230
##
## 'Positive' Class : Si
##
INTERPRETACIÓN:
Precisión (Accuracy): Es del 94.78%. Indica la proporción de predicciones correctas sobre el total de predicciones.
Intervalo de Confianza (95% CI): Va desde 88.99% hasta 98.06%. Es un rango de valores donde es probable que se encuentre la verdadera precisión del modelo en la población. Kappa: Un coeficiente de concordancia. El valor negativo (-0.0237) sugiere que el modelo está actuando peor que si sus predicciones fueran al azar. Sensibilidad (Sensitivity) y Especificidad (Specificity):
La sensibilidad para la clase ‘Si’ es 0, lo que sugiere que el modelo no identifica correctamente los casos positivos en esa clase. La especificidad para la clase ‘No’ es alta (96.46%), indicando que el modelo identifica bien los casos negativos en esa clase. Valores Predictivos:
Tanto el Valor Predictivo Positivo (Pos Pred Value) como el Negativo (Neg Pred Value) para la clase ‘Si’ son bajos (0), lo que indica que el modelo tiene dificultades para predecir correctamente esta clase. Balance de Exactitud (Balanced Accuracy):
Es el promedio de sensibilidad y especificidad ponderado por la prevalencia de las clases. Su valor es bajo (48.23%).
Random Forest Tecnicas que trabaja con mayor dimension de arboles, trabaja con varios arboles de decision.
library(randomForest)
## Warning: package 'randomForest' was built under R version 4.3.2
## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:ggplot2':
##
## margin
#library(e1071)
#library(caret)
#fitRF <- randomForest(`¿Consume usted arroz?`~.,data=Train.BASE1, ntree = 1000)
#summary(fitRF)
#Predict Output
#predictedRF <- predict(fitRF, Val.BASE1)
#matrizRF <- confusionMatrix(Val.BASE1$`¿Consume usted arroz?`, predictedRF)
#matrizRF
#importance(fitRF)
#varImpPlot(fitRF)