Modelos regresion y naive bayes 1600734568+09+2001-2dígitos
Las condiciones de vida de las personas de cada lugar es diferentes, por lo cual es fundamenta, el un estudio de cada provincia. En este caso se enfoca en la provincia de Chimborazo, tomando en cuenta 38 variables que ayuda a la toma de decisiones del estudio. El objetivo es analizar puntos esenciales como ubicación, edad, ocupación, características de la vivienda entre otros, con la finalidad de atribuir información de la población con respecto a qué variables influyen en la alimentación mediante la implementación de modelos de predección, en este caso, modelos de regresión y naive bayes.
library(readxl)
DATA_PARCIAL2 <- read_excel("DATA_PARCIAL2.xlsx")
View(DATA_PARCIAL2)
#Descripción de variables
colnames(DATA_PARCIAL2)
## [1] "P1" "P2" "P3" "P4" "P5" "P6" "P7" "P8" "P9" "P10" "P11" "P12"
## [13] "P13" "P14" "P15" "P16" "P17" "P18" "P19" "P20" "P21" "P22" "P23" "P24"
## [25] "P25" "P26" "P27" "P28" "P29" "P30" "P31" "P32" "P33" "P34" "P35" "P36"
## [37] "P37" "P38"
Se obtiene que se encuentran 38 variables, las cuales son: - P1- Ubicación: Variable de tipo cualitativa nominal, con diferentes tipos de ubicación de la provincia de Chimborazo. Estos son: Alausí , Cacha, Calpi, Chambo, Chunchi, Colta, Cubijíes, Cumanda , Flores, Guamote, Guano, Licán, Licto, Lizarzaburu, Maldonado, Pallatanga, Penipe, Pungalá, Punín, Quimiag, San Juan, San Luis, Velasco, Veloz y Yaruquíes.
P2 - ¿En qué cantón de la provincia de Chimborazo vive?: Variable de tipo cualitativa nominal con datos de los 8 cantones de la provincia de Chimborazo.
P3 - Edad del encuestado: Variable cuantitativa discreta.
P4 - Sexo: Género del individuo. Variable de tipo cualitativa nominal con 2 niveles: Masculino y Femenino.
P5 - Estado civil: Estado civil del encuestado, con 5 niveles: casado, soltero, divorciado, viudo y otro
P6 - Cantidad de personas que conforman el hogar: Hacen referencia a la cantidad de personas que vive en una sola familia. Variable cuantitativa discreta.
P7 - ¿Qué parentesco tiene con el representante del hogar?: Variable cualitativa nominal, lo cual hace referencia a qué tipo de lazo familiar está vinculado el encuestado.
P8 - ¿Cuál es el tipo de vivienda?: Variable cualitativa nominal.
Esta información puede ser útil para comprender las condiciones de
vida de las personas, las necesidades de la población y las tendencias
en el mercado inmobiliario.La cual esta pregunta nos ayudará a saber
cómo vive el encuestado, hay diferentes niveles en la variable.
- P9 - El material predominante de las paredes exteriores de la
vivienda es de: Variable cualitativa nominal.
Los materiales de construcción varían según la región geográfica. Por
ejemplo, el ladrillo y el bloque de cemento son materiales comunes en
las zonas urbanas, mientras que la madera y el adobe son más comunes en
las zonas rurales.
- P10 - EL material predominante del piso de la vivienda es
de: Variable cualitativa nominal.
Esta pregunta puede ayudar a identificar el nivel de desarrollo de la
región, ya que las regiones más desarrolladas suelen tener viviendas con
pisos de materiales más duraderos y resistentes a los elementos, como el
cemento y la cerámica. Contiene diferentes niveles.
- P11 - ¿Cuántos cuartos de baño con ducha de uso exclusivo
tiene este hogar?: Variable cuantitativa discreta.
La cantidad de baños con ducha en una encuesta puede proporcionar información sobre una variedad de factores, incluidos:
El nivel de ingresos: Las viviendas con más baños con ducha suelen ser más caras que las viviendas con menos baños con ducha.
Esta información puede ser útil para comprender el acceso a Internet, el uso de Internet y la satisfacción con el servicio de Internet.
P14 - ¿Cuenta con computadora de escritorio?:
Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
P15 - “¿Cuenta con computadora portátil?:
Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
P16 - ¿Cuántos celulares activados tiene en este
hogar?: Variable cualitativa nominal. Cuenta con 3
niveles
P17 - ¿Tiene su hogar servicio de teléfono
convencional?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
P18 - ¿Tiene en su hogar cocina con horno?:
Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
P19 - ¿Tiene refrigeradora?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
P20 - ¿Tiene lavadora?: Variable cualitativa
nominal. Cuenta con 2 niveles: sí y no
P21 - ¿Tiene equipo de sonido?: Variable
cualitativa nominal. Cuenta con 2 niveles: sí y no
P22 - ¿Cuántas TV a color tienen en este hogar?:
Variable cualitativa nominal.
P23 - ¿Cuántos vehículos de uso exclusivo tiene este
hogar?: Variable cualitativa nominal en la base original, sin
embargo, se cambiará una variable cuantitativa.
P24 - ¿Alguien en el hogar compra vestimenta en centros
comerciales?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
P25 - ¿En el hogar alguien ha usado internet en los
últimos 6 meses?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
P26 - ¿En el hogar alguien utiliza correo electrónico que
no es del trabajo?: Variable cualitativa nominal. Cuenta con 2
niveles: sí y no
P27 - ¿En el hogar alguien está registrado en una red
social?: Variable cualitativa nominal. Cuenta con 2 niveles: sí
y no
P28 - “Exceptuando los libros de texto o manuales de estudio y lecturas de trabajo¿Alguien del hogar ha leído algún libro completo en los últimos 3 meses?: Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
P29 - ¿Cuál es el nivel de instrucción del Jefe del
hogar?: Variable cualitativa nominal.
P30 - ¿Alguien en el hogar está afiliado o cubierto por el seguro del IESS (general, voluntario o campesino) y/o seguro del ISSFA o ISSPOL?: Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
P31 - ¿Alguien en el hogar tiene seguro de salud privada con hospitalización, seguro de salud privada sin hospitalización, seguro internacional,seguros municipales y de Consejos Provinciales y/o seguro de vida?:
Variable cualitativa nominal. Cuenta con 2 niveles: sí y no
clases <- sapply(DATA_PARCIAL2, class)
head(clases)
## P1 P2 P3 P4 P5 P6
## "character" "character" "numeric" "character" "character" "numeric"
#limpieza de la data
which(is.na(DATA_PARCIAL2))
## [1] 1182 1205 1207 1313 1319 1345 1410 1438 1450 1451 1482 1599
## [13] 1653 20200 20201 20202 20208 20216 20217 20218 20220 20221 20228 20240
## [25] 20261 20263 20269 20281 20282 20290 20297 20305 20310 20313 20317 20318
## [37] 20323 20335 20341 20344 20345 20347 20348 20349 20350 20359 20366 20370
## [49] 20372 20375 20376 20381 20383 20388 20394 20407 20417 20427 20437 20440
## [61] 20444 20448 20451 20464 20465 20468 20470 20471 20474 20475 20476 20477
## [73] 20479 20480 20493 20494 20495 20497 20498 20499 20500 20503 20506 20509
## [85] 20511 20513 20514 20515 20516 20517 20518 20519 20521 20527 20528 20529
## [97] 20530 20533 20545 20554 20555 20567 20568 20569 20575 20576 20577 20578
## [109] 20579 20580 20581 20582 20585 20589 20590 20591 20592 20593 20595 20600
## [121] 20602 20603 20606 20609 20611 20613 20617 20618 20623 20624 20625 20626
## [133] 20627 20629 20632 20635 20641 20645 20651 20652 20653 20659 20661 20667
## [145] 20672 20677 20679 20681 20682 20684 20686 20689 20690 20693 20694 20697
## [157] 20704 20706 20707 20713 20714 20716 20717 20719 20721 20723 20726 20728
## [169] 20729 20730 20733 20736 20738 20739 20742 20745 20746 20747 20748 20750
## [181] 20751 20753 20754 20756 20757 20758 20759 20760 20761 20762 20764 20765
## [193] 20766 20767 20769 20770 20772
sum(is.na(DATA_PARCIAL2))
## [1] 197
Interpretación Se verifica que la base de datos contiene 197 datos faltantes, por lo cual se debe hacer la debida imputación.
BASE <- na.omit(DATA_PARCIAL2)
View(BASE)
**Interpretación*
Se obtiene que al utilizar el na.omit permite ejecutar funciones numéricas sobre datos NA, algunos análisis devolverán un error ante la existencia de valores NA o vacíos (““). Por lo que, al correr nuevamente la data, ya no aparecen aquellos datos.
##Transformar a factor las variables
BASE$P1 <- factor(BASE$P1)
levels(BASE$P1) = c("Alausí","Cacha","Calpi","Chambo","Chunchi","Colta","Cubijíes","Cumanda","Flores","Guamote","Guano","Licán","Licto","Lizarzaburu","Maldonado","Pallatanga","Penipe","Pungalá","Punín","Quimiag","San Juan","San Luis","Velasco","Veloz","Yaruquíes")
p2: Transformar la variable canton de caracter a factor
P4: Transformar la variable sexo de caracter a factor
BASE$P4 <- factor(BASE$P4 )
levels(BASE$P4 ) <- c("Masculino","Femenino")
class(BASE$P4)
[1] "factor"
BASE$P5<- factor(BASE$P5)
levels(BASE$P5) <- c("Casado","Divorciado","Otro","Soltero","Viudo")
class(BASE$P5)
[1] "factor"
BASE$P7 <- factor(BASE$P7)
levels(BASE$P7) <- c("Cónyugue o conviviente","Otros parientes","Otros parientes","Yo soy el representante del Hogar","Hijo o hija","Padres o suegros","Otros no parientes","Yerno o nuera")
class(BASE$P7)
[1] "factor"
BASE$P8 <- factor(BASE$P8)
levels(BASE$P8) <- c("Casa/Villa","Departamento en casa o edificio","Suite de lujo","Cuarto(s) en casa de inquilinato ","Choza/Covacha/Otro","Rancho"," Mediagua")
class(BASE$P8)
[1] "factor"
BASE$P9 <- factor(BASE$P9)
levels(BASE$P9) <- c("Duela, parquet, tablón o piso flotante"," Cerámica, baldosa, vinil o marmetón","Tabla sin tratar","Tierra/ Caña/ Otros materiales","Ladrillo o cemento")
class(BASE$P9)
[1] "factor"
BASE$P10 <- factor(BASE$P10)
levels(BASE$P10) <- c("Adobe/Tapia","Caña no revestida/ Otros materiales","Ladrillo o bloque","Hormigón"," Caña revestida o bahareque/Madera")
BASE$P11 <- factor(BASE$P11)
levels(BASE$P11) <- c("No tiene cuarto de baño exclusivo con ducha en el hogar","Tiene 2 cuartos de baño exclusivos con ducha","Tiene 1 cuarto de baño exclusivo con ducha ","Tiene 3 o más cuartos de baño exclusivos con ducha")
class(BASE$P11)
[1] "factor"
BASE$P12 <- factor(BASE$P12)
levels(BASE$P12) <- c("Con descarga directa al mar, río, lago o quebrada ","Conectado a pozo séptico","Tiene 1 cuarto de baño exclusivo con ducha Letrina","Conectado a pozo ciego","Conectado a red pública de alcantarillado","Sin Marca")
class(BASE$P12)
[1] "factor"
BASE$P13 <- factor(BASE$P13)
levels(BASE$P13) <- c("No","Sí")
class(BASE$P13)
## [1] "factor"
BASE$P14 <- factor(BASE$P14)
levels(BASE$P14) <- c("No","Sí")
BASE$P15 <- factor(BASE$P15)
levels(BASE$P15) <- c("No","Sí")
class(BASE$P15)
[1] "factor"
BASE$P16 <- factor(BASE$P16)
levels(BASE$P16) <- c("No tiene celular nadie en el hogar","Tiene 3 celulares","Tiene 1 celular","Tiene 4 ó más celulares","Tiene 2 celulares")
class(BASE$P16)
[1] "factor"
BASE$P17 <- factor(BASE$P17)
levels(BASE$P17) <- c("No","Sí")
class(BASE$P17)
[1] "factor"
BASE$P18 <- factor(BASE$P18)
levels(BASE$P18) <- c("No","Sí")
class(BASE$P18)
[1] "factor"
BASE$P19 <- factor(BASE$P19)
levels(BASE$P19) <- c("No","Sí")
class(BASE$P19)
[1] "factor"
BASE$P20 <- factor(BASE$P20)
levels(BASE$P20) <- c("No","Sí")
class(BASE$P20)
[1] "factor"
BASE$P21 <- factor(BASE$P21)
levels(BASE$P21) <- c("No","Sí")
class(BASE$P21)
[1] "factor"
BASE$P22 <- factor(BASE$P22)
levels(BASE$P22) <- c("No tiene TV a color en el hogar","Tiene 3 ó más TV a color ","Tiene 1 TV a color ","Tiene 2 TV a color ")
class(BASE$P22)
[1] "factor"
BASE$P24<- factor(BASE$P24)
levels(BASE$P24) <- c("No","Sí")
class(BASE$P24)
[1] "factor"
BASE$P25 <- factor(BASE$P25)
levels(BASE$P25) <- c("No","Sí")
class(BASE$P25)
[1] "factor"
BASE$P26 <- factor(BASE$P26)
levels(BASE$P26) <- c("No","Sí")
class(BASE$P26)
[1] "factor"
BASE$P27<- factor(BASE$P27)
levels(BASE$P27) <- c("No","Sí")
class(BASE$P27)
[1] "factor"
BASE$P28 <- factor(BASE$P28)
levels(BASE$P28) <- c("No","Sí")
class(BASE$P28)
[1] "factor"
BASE$P29 <- factor(BASE$P29 )
levels(BASE$P29 ) <- c("Desempleado "," Empleados de oficina","Fuerzas Armadas","Inactivos "," Oficiales operarios y artesanos"," Operadores de instalaciones y máquinas","Personal directivo de la Administración Pública y de empresas"," Profesionales científicos e intelectuales","Técnicos y profesionales de nivel medio","Trabajador calificados agropecuarios y pesqueros","Trabajador de los servicios y comerciantes","Trabajadores no calificados")
class(BASE$P29)
[1] "factor"
BASE$P30 <- factor(BASE$P30)
levels(BASE$P30) <- c("4 ó más años de educación superior (completa sin postgrado)","Hasta 3 años de educación superior (incompleta)","Postgrado","Primaria completa ","Primaria incompleta","Secundaria completa ","Secundaria incompleta","Sin estudios ")
class(BASE$P30)
[1] "factor"
BASE$P31 <- factor(BASE$P31)
levels(BASE$P31) <- c("No","Sí")
class(BASE$P31)
[1] "factor"
BASE$P32 <- factor(BASE$P32)
levels(BASE$P32) <- c("Fuerzas Armadas","Trabajador de los servicios y comerciantes", "Oficiales operarios y artesanos", "Profesionales científicos e intelectuales", "Técnicos y profesionales de nivel medio", "Empleados de oficina", "Operadores de instalaciones y máquinas", "Trabajadores no calificados", "Operadores de instalaciones y máquinas", "Personal directivo de la Administración Pública y de empresas ", "Desempleado", "Trabajador calificados agropecuarios y pesqueros", "Inactivos")
class(BASE$P32)
[1] "factor"
BASE$P33 <- factor(BASE$P33)
levels(BASE$P33) = c("Alto", "Medio Alto", "Alto", "Medio Típico", "Medio Bajo", "Alto", "Bajo")
class(BASE$P33)
## [1] "factor"
BASE$P34 <- factor(BASE$P34)
levels(BASE$P34) = c("Sector público", "Sector privado", "Ninguno")
class(BASE$P34)
## [1] "factor"
BASE$P35= factor(BASE$P35)
levels(BASE$P35)= c("No", "Sí")
class(BASE$P35)
## [1] "factor"
BASE$P36 = factor(BASE$P36)
levels(BASE$P36)=c("No", "Sí")
class(BASE$P36)
## [1] "factor"
BASE$P37 = factor(BASE$P37)
levels(BASE$P37)=c("No", "Sí")
class(BASE$P37)
## [1] "factor"
BASE$P38= factor (BASE$P38)
levels(BASE$P38) =c("No", "Sí")
class(BASE$P38)
## [1] "factor"
BASE1 <- as.data.frame(lapply(DATA_PARCIAL2, function(x) if(is.character(x))
as.factor(x) else x))
clases <- sapply(DATA_PARCIAL2,class);
head(clases)
## P1 P2 P3 P4 P5 P6
## "character" "character" "numeric" "character" "character" "numeric"
#Unión de las variables ya transformadas
Classes <- sapply(BASE, class)
for (i in 1:ncol(BASE))
if(Classes [i]== "numeric")
BASE[[i]]= as.numeric(BASE[[i]])
Classes = sapply(BASE, class)
head(Classes)
## P1 P2 P3 P4 P5 P6
## "factor" "factor" "numeric" "factor" "factor" "numeric"
summary(BASE[, clases == "numeric"])
## P3 P6 P23
## Min. :15.00 Min. : 1.000 Min. :0.0000
## 1st Qu.:26.00 1st Qu.: 3.000 1st Qu.:0.0000
## Median :37.00 Median : 4.000 Median :1.0000
## Mean :38.16 Mean : 4.319 Mean :0.6554
## 3rd Qu.:47.00 3rd Qu.: 5.000 3rd Qu.:1.0000
## Max. :81.00 Max. :37.000 Max. :3.0000
apply(BASE[,clases == "numeric"], 2, sd)
## P3 P6 P23
## 13.9830336 2.3430517 0.7666247
Su mediana es de 37 años. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye 26 años, mientras que, el 3er cuartil que representa el 75% es de 47 años, con una desviación estándar de 13.983034.
Entonces, se infiere que la mayoría de personas están dentro de la edad adulta, es decir, se encuentra en una edad promedio por lo que es buena edad para ser encuestado.
Su mediana es de 1 carro. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye a 3 personas por familia, mientras que, el 3er cuartil que representa el 75% es de 45 personas por familia, con una desviación estándar de 2.343052.
Entonces, se infiere que la mayoria de personas no sobrepasa más del 5 personas por familias.
Su mediana es de 4 personass. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye a 0 carros por hogar, mientras que, el 3er cuartil que representa el 75% es de 1, con una desviación estándar de 2.343052.
Entonces, se infiere que la mayoria de personas no sobrepasa de un auto, por lo que la población posiblemente se transporte con el servicio público de buses. Entonces, hablando de lo socio económico la población es de nivel bajo y medio.
#Análisis visual de datos
#Diagrama de barras de las variables que influyen en la alimentación
library(ggplot2)
grafico_1 = ggplot(BASE,aes(x= P35))+
geom_bar(stat="count", width=0.7, fill="skyblue")+
theme_minimal() + geom_text(aes(label = ..count..), stat="count" )
print(grafico_1)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Interpretación
La población mayoritaria es la que sí consume arroz, con un total de 373 personas, mientras los que no consumen arroz son pocos con un total de 10 personas. Por lo que se infiere, que la población en cuestión de salud puede estar mal, ya que el exceso de arroz puede contribuir a un exceso de calorías y aumentar el riesgo de enfermedades crónicas como la obesidad, la diabetes y enfermedades cardíacas.
#Gráficas de dispersión para las variables que posiblemente influyan en la alimentación
library(ggplot2)
ggplot(BASE, aes(P6,P32, colour = P35)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad personas que conforman el hogar - Ocupación",
x = "Cantidad de personas que conforman el hogar",
y = "Ocupación del Representante del hogar"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
Interpretación
La relación entre ocupación y personas que conforman el hogar con respecto a la variable dicotómica ¿Consume usted arroz?“, se dicta que no existe relación, ya que el cargo en el trabajo no depende de la cantidad de personas en el hogar para que estas consuman o no arroz. Entonces, las variables no son dependientes a consumo de arroz.
library(ggplot2)
ggplot(BASE, aes(P6,P3, colour = P35)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - Edad del encuestado",
x = "Cantidad de personas que conforman el hogar",
y = "Edad del encuestado"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
Interpretación
La relación entre cantidad de personas que conforman el hogar y edad del encuestado con respecto a la variable dicotómica ¿Consume usted arroz?“, se dicta que no existe relación, ya que la cantidad de personas no depende de la edad para el consumen de arroz. Entonces, las variables no son dependientes a consumo de arroz.
library(ggplot2)
ggplot(BASE, aes(P6,P2, colour = P35)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?",
x = "Cantidad de personas que conforman el hogar",
y = "¿En qué cantón de la provincia de Chimborazo vive?"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
Interpretación
La relación entre cantidad de personas que conforman el hogar y el cantón de que pertenece con respecto a la variable dicotómica “¿Consume usted arroz?”, se dicta que posiblemente existe relación, ya que mientras el cantón es más grande (Desarrollado), y la cantidad de familias es más pequeña, la gente tiende a comer menos arroz, mientras, que más personas se encuentra en la famila en cantones rurales, la gente tiende a comer más arroz.
library(ggplot2)
ggplot(BASE, aes(P3,P4, colour = P35)) +
geom_point(size = 1.5, alpha = 0.7) +
labs(
title = "Edad del encuestado - Sexo",
x = "Edad del encuestado",
y = "Sexo"
) +
theme_classic() +
theme(
plot.title = element_text(size = 12, face = "bold"),
axis.text = element_text(size = 10),
legend.title = element_text(size=10)
)
Interpretación
La relación entre edad del encuestado y sexo con respecto a la variable dicotómica “¿Consume usted arroz?”, se dicta que no existe relación, ya que ser mujer u hombre y la edad no define el consumo de arroz.
#Gráficas de cajas para las variables que posiblemente influyan en la alimentación
ggplot(BASE, aes(P35, P3, color = P35)) +
geom_boxplot()
Interpretación
La relación entre la variable dicotómica “¿Consume usted arroz? y edad del encuestado, se dicta que el nivel No el 25% de la población, es decir, el 1er cuartil es de 20 años, su mediana y media es aproximadamente de 22 años.
También el 3er cuartil se acerca a los 33 años, por lo que, el 75% de las personas en estudio se encuentran en la etapa de adultez, por lo que son personas con sufieciente criterio para responder las diferentes preguntas. Aunque con el máximo se verifica que efectivamente se trata de personas ya adultas, dónde la máxima edad de que no consumen arroz es de 35 años aproximadamente.
Además, existen 2 datos atípicos, dónde está cercano a los 60 años, por lo aquellas personas en su edad mayor(60 años o más) no consumen arroz.
Por lo que se infiere que muy pocas personas se cuidan en el consumo de arroz a edad temprana, e incluso en los datos atípicos se nota que sólo 2 personas en edad avanzada tiene aquel cuidado.
Mientras, en el nivel Sí el 25% de la población, es decir, el 1er cuartil es de 28 años, su mediana y media es aproximadamente de 37 años.
También el 3er cuartil se acerca a los 48 años, por lo que, el 75% de las personas en estudio se encuentran en la etapa de adultez. Aunque con el máximo se verifica que efectivamente se trata de personas ya adultas, dónde la máxima edad de que consumen arroz es de 73 años aproximadamente.
Por último, existen 3 datos atípicos, dónde está cercano a los 80 años, por lo aquellas personas en su edad mayor(60 años o más) consumen arroz.
Por lo que, la población mayoritaria son los que no consumen arroz, verficando que mientras más edad, las personas dejan de consumir arroz.
ggplot(BASE, aes(P35, P6 , color = P35)) +
geom_boxplot()
Interpretación
La relación entre la variable dicotómica “¿Consume usted arroz? y Cantidad de personas que conforman el hogar, se dicta que el nivel sí el 25% de la población, es decir, el 1er cuartil es de 3 personas, su mediana y media es aproximadamente de 4.
También el 3er cuartil se acerca a 6, por lo que, el 75% de las personas en estudio, consume arroz a pesar de ser grande la familia, su máximo es de 7.
Mientras, en el nivel no el 25% de la población, es decir, el 1er cuartil es aproximadamente de 4(3.5), su mediana y media es aproximadamente de 4, es decir, igual al nivel sí.
También el 3er cuartil es 5, por lo que, el 75% de las personas en estudio de los que no consumen arroz es menor que los que consumen.
Por último, existen 2 datos atípicos, dónde está cercano a las 10 personas.
Entonces, se infiere que la cantidad de personas en hogar en el consumos de arroz, los niveles sí y no se parecen en los datos.
#install.packages("GGally")
library(GGally)
ggpairs(BASE[, clases == "numeric"])+ theme_bw()
INTERPRETACIÓN
La variable cantidad de personas que conforman el hogar y edad del encuestado presenta una correlación de 0.035 , por ende la relación entre las variables no es tan buena, ya que esta en escala de quintiles tiene una correlación muy baja.
Incluso en la gráfica de puntos presenta que la cantidad de personas por hogar no sobrepasa de 10 personas, exceptuando un dato atípico. Por lo que, su gráfico presenta una curva asimétrica con la cola hacia la derecha.
La variable cantidad de personas que conforman el hogar y cantidad de vehículos exclusivo para el hogar presenta una correlación significativa de 0.122, por ende la relación de las variables es mejor que la anterior, sin embargo, en escala de quintiles sigue siendo muy baja.
La variable cantidad de vehículos por hogar y edad del encuestado presenta una correlación negativa de -0.003, por lo que la correlación es inversa, sin embargo, en escala de quintiles sigue siendo muy baja con respecto a las otras variables.
Divideremos el conjunto completo de individuos en dos partes, uno para entrenar el modelo, que contienen el 80% d elos individuos y otra para validarlo que contiene el resto. Esto es así porque si valoramos el modelo con las mismas observaciones que usamos para ajustarlo, la bondad del ajuste quedará sobrevalorada.
Antes de ajustar cualquier modelo, es conveniente escalar las variables numériccas y tenemos que reacondicionar las variables categóricas convirtiéndolas en variables ficticias y usando la primera o la última categoría como comparación.
#Escalamiento de las variables numéricas
BASE[, clases == "numeric"] = scale(BASE[, clases == "numeric"])
#Conversión de las variables cualitativas categóricas en variables ficticias Las variables categóricas aparecen con 0 y 1
##Modelos de predicción de la variable binaria
X= model.matrix(P35 ~. , data = BASE)
head(X)
## (Intercept) P1Cacha P1Calpi P1Chambo P1Chunchi P1Colta P1Cubijíes P1Cumanda
## 1 1 0 0 0 0 0 0 0
## 2 1 0 0 0 0 0 0 0
## 3 1 0 0 0 0 0 0 0
## 4 1 0 0 0 0 0 0 0
## 5 1 0 0 0 0 0 0 0
## 6 1 0 0 0 0 0 0 0
## P1Flores P1Guamote P1Guano P1Licán P1Licto P1Lizarzaburu P1Maldonado
## 1 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0
## 3 0 0 0 0 0 0 0
## 4 0 0 0 0 0 0 0
## 5 0 0 0 0 0 0 0
## 6 0 0 0 0 0 0 0
## P1Pallatanga P1Penipe P1Pungalá P1Punín P1Quimiag P1San Juan P1San Luis
## 1 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0
## 3 0 0 0 0 0 0 0
## 4 0 0 0 0 0 0 0
## 5 0 0 0 0 0 0 0
## 6 0 0 0 0 0 0 0
## P1Velasco P1Veloz P1Yaruquíes P2Chambo P2Chunchi P2Colta P2Cumanda P2Guamote
## 1 1 0 0 0 0 0 0 0
## 2 1 0 0 0 0 0 0 0
## 3 0 0 1 0 0 0 0 0
## 4 1 0 0 0 0 0 0 0
## 5 0 1 0 0 0 0 0 0
## 6 0 1 0 0 0 0 0 0
## P2Guano P2Pallatanga P2Penipe P2Riobamba P3 P4Femenino P5Divorciado
## 1 0 0 0 1 1.4185412 1 0
## 2 0 0 0 1 -0.7269160 1 0
## 3 0 0 0 1 0.1312669 1 0
## 4 0 0 0 1 -1.6566141 1 0
## 5 0 0 0 1 -1.0844922 1 0
## 6 0 0 0 1 0.7033888 1 0
## P5Otro P5Soltero P5Viudo P6 P7Otros parientes
## 1 0 0 0 0.7176377 0
## 2 0 0 0 -0.5627438 0
## 3 0 0 0 -0.1359500 0
## 4 0 1 0 -0.1359500 0
## 5 0 1 0 0.7176377 0
## 6 0 0 0 0.2908438 0
## P7Yo soy el representante del Hogar P7Hijo o hija P7Padres o suegros
## 1 0 0 0
## 2 0 0 0
## 3 0 0 0
## 4 0 0 1
## 5 0 0 1
## 6 0 0 0
## P7Otros no parientes P7Yerno o nuera P8Departamento en casa o edificio
## 1 1 0 0
## 2 1 0 0
## 3 1 0 0
## 4 0 0 0
## 5 0 0 0
## 6 1 0 0
## P8Suite de lujo P8Cuarto(s) en casa de inquilinato P8Choza/Covacha/Otro
## 1 0 0 0
## 2 0 1 0
## 3 0 0 0
## 4 0 0 0
## 5 0 1 0
## 6 0 0 0
## P8Rancho P8 Mediagua P9 Cerámica, baldosa, vinil o marmetón
## 1 0 0 0
## 2 0 0 0
## 3 0 0 0
## 4 0 0 0
## 5 0 0 0
## 6 0 0 0
## P9Tabla sin tratar P9Tierra/ Caña/ Otros materiales P9Ladrillo o cemento
## 1 0 0 1
## 2 1 0 0
## 3 0 0 1
## 4 0 0 1
## 5 0 0 1
## 6 0 0 1
## P10Caña no revestida/ Otros materiales P10Ladrillo o bloque P10Hormigón
## 1 0 0 0
## 2 0 0 0
## 3 0 0 0
## 4 1 0 0
## 5 0 0 1
## 6 1 0 0
## P10 Caña revestida o bahareque/Madera
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P11Tiene 2 cuartos de baño exclusivos con ducha
## 1 0
## 2 0
## 3 0
## 4 1
## 5 1
## 6 0
## P11Tiene 1 cuarto de baño exclusivo con ducha
## 1 0
## 2 0
## 3 1
## 4 0
## 5 0
## 6 1
## P11Tiene 3 o más cuartos de baño exclusivos con ducha
## 1 1
## 2 1
## 3 0
## 4 0
## 5 0
## 6 0
## P12Conectado a pozo séptico
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P12Tiene 1 cuarto de baño exclusivo con ducha Letrina
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P12Conectado a pozo ciego P12Conectado a red pública de alcantarillado
## 1 1 0
## 2 1 0
## 3 1 0
## 4 1 0
## 5 0 1
## 6 1 0
## P12Sin Marca P13Sí P14Sí P15Sí P16Tiene 3 celulares P16Tiene 1 celular
## 1 0 1 1 1 0 0
## 2 0 1 1 1 0 1
## 3 0 1 0 1 0 0
## 4 0 1 1 1 0 0
## 5 0 1 1 1 0 1
## 6 0 1 1 1 0 0
## P16Tiene 4 ó más celulares P16Tiene 2 celulares P17Sí P18Sí P19Sí P20Sí P21Sí
## 1 0 1 1 1 1 1 1
## 2 0 0 1 0 1 1 1
## 3 1 0 1 1 1 0 1
## 4 1 0 1 1 1 0 1
## 5 0 0 1 1 1 1 1
## 6 1 0 1 1 1 1 1
## P22Tiene 3 ó más TV a color P22Tiene 1 TV a color P22Tiene 2 TV a color
## 1 0 0 1
## 2 1 0 0
## 3 1 0 0
## 4 0 1 0
## 5 0 0 1
## 6 0 1 0
## P23 P24Sí P25Sí P26Sí P27Sí P28Sí P29 Empleados de oficina
## 1 1.7539841 1 1 1 1 1 0
## 2 -0.8548544 1 1 1 1 1 0
## 3 -0.8548544 1 1 1 1 0 1
## 4 1.7539841 1 1 1 1 1 0
## 5 1.7539841 1 0 0 1 1 0
## 6 0.4495649 1 1 1 1 1 0
## P29Fuerzas Armadas P29Inactivos P29 Oficiales operarios y artesanos
## 1 0 0 0
## 2 0 0 0
## 3 0 0 0
## 4 1 0 0
## 5 0 0 0
## 6 0 0 0
## P29 Operadores de instalaciones y máquinas
## 1 0
## 2 0
## 3 0
## 4 0
## 5 1
## 6 0
## P29Personal directivo de la Administración Pública y de empresas
## 1 0
## 2 1
## 3 0
## 4 0
## 5 0
## 6 0
## P29 Profesionales científicos e intelectuales
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P29Técnicos y profesionales de nivel medio
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P29Trabajador calificados agropecuarios y pesqueros
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P29Trabajador de los servicios y comerciantes P29Trabajadores no calificados
## 1 0 0
## 2 0 0
## 3 0 0
## 4 0 0
## 5 0 0
## 6 0 0
## P30Hasta 3 años de educación superior (incompleta) P30Postgrado
## 1 1 0
## 2 1 0
## 3 1 0
## 4 1 0
## 5 0 0
## 6 1 0
## P30Primaria completa P30Primaria incompleta P30Secundaria completa
## 1 0 0 0
## 2 0 0 0
## 3 0 0 0
## 4 0 0 0
## 5 0 0 0
## 6 0 0 0
## P30Secundaria incompleta P30Sin estudios P31Sí
## 1 0 0 0
## 2 0 0 1
## 3 0 0 0
## 4 0 0 0
## 5 0 0 1
## 6 0 0 1
## P32Trabajador de los servicios y comerciantes
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P32Oficiales operarios y artesanos
## 1 1
## 2 1
## 3 0
## 4 0
## 5 0
## 6 0
## P32Profesionales científicos e intelectuales
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P32Técnicos y profesionales de nivel medio P32Empleados de oficina
## 1 0 0
## 2 0 0
## 3 0 0
## 4 1 0
## 5 0 0
## 6 0 0
## P32Operadores de instalaciones y máquinas P32Trabajadores no calificados
## 1 0 0
## 2 0 0
## 3 0 0
## 4 0 0
## 5 0 1
## 6 0 0
## P32Personal directivo de la Administración Pública y de empresas
## 1 0
## 2 0
## 3 0
## 4 0
## 5 0
## 6 0
## P32Desempleado P32Trabajador calificados agropecuarios y pesqueros
## 1 0 0
## 2 0 0
## 3 1 0
## 4 0 0
## 5 0 0
## 6 1 0
## P32Inactivos P33Medio Alto P33Medio Típico P33Medio Bajo P33Bajo
## 1 0 0 0 0 0
## 2 0 0 0 0 0
## 3 0 0 0 0 0
## 4 0 0 0 0 0
## 5 0 0 0 1 0
## 6 0 0 0 0 0
## P34Sector privado P34Ninguno P36Sí P37Sí P38Sí
## 1 0 1 1 1 1
## 2 0 1 1 1 1
## 3 0 1 1 1 1
## 4 1 0 1 0 1
## 5 0 1 1 0 1
## 6 1 0 1 1 1
cedula <- 1600734568
dia <- 09
año <- 2001
# semilla a trabajar
semilla_t <- cedula + dia + año
semilla_t <- semilla_t - 1600000000
semilla_t
[1] 736578
tr <- round(nrow(BASE)*0.7)
set.seed(semilla_t)
muestra <- sample.int(nrow(BASE),tr)
Train.p1 <- BASE[muestra,]
Val.p1 <- BASE[-muestra,]
Ahora disponemos de un conjunto de entrenamiento Train.p1 y un conjunto de validación Val.p1
Trataremos de modelar la probabilidad de ¿Consume usted arroz? positiva en función del resto de las variables.
El modelo logítisco
\[{p_i}= P\left({Y=1/X={x_1}} \right) = {{{e^{{\beta_0} + {\beta_1}{x_{i1}} + \ldots + {\beta_p}{X_{ip}}}}} \over {1+ { e^{{\beta_0} + {\beta_1}{X_{i1}} + \ldots + {\beta_p} {x_{ip}}}}}}\]
Se trata de un modelo lineal en el logit de la probabilidad Vamos ajustar primero el modelo desde el punto de vista estadístico para interpretar los parámetros.
\[{\rm{logit}}({p_i}) = {\beta_0} + {\beta_1}{x_{i1}} + \ldots + {\beta_P} {x_{ip}} \]
Se realiza el modelo de regresión lineal para la variable de interés ¿Consume usted arroz?.
Cabe recalcar que la columna \(P(>|z|)\) representa el representa el valor p asociado con el valor en la columna del valor z.
Si el valor p es menor que un cierto nivel de significancia (por ejemplo, α = 0,05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable de respuesta en el modelo.
\[Valor z = \frac{Estimación}{Error Estándar}\] \[Valor p=2∗(1−pnorm(valor z))\]
gfit1 <- glm(P35 ~., data=BASE, family = binomial)
summary(gfit1)
Call:
glm(formula = P35 ~ ., family = binomial, data = BASE)
Coefficients: (9 not defined because of singularities)
Estimate
(Intercept) 4.714e+01
P1Cacha 2.286e+01
P1Calpi 5.833e+00
P1Chambo -4.549e+00
P1Chunchi 4.201e+01
P1Colta -7.112e+00
P1Cubijíes -4.069e+01
P1Cumanda 2.251e+01
P1Flores -1.123e+02
P1Guamote -3.763e+00
P1Guano -5.668e+00
P1Licán 7.622e+01
P1Licto 1.449e+01
P1Lizarzaburu 2.169e+01
P1Maldonado 2.423e+01
P1Pallatanga -3.059e+01
P1Penipe 4.045e+01
P1Pungalá 5.554e-01
P1Punín -1.102e+01
P1Quimiag 5.857e+00
P1San Juan -1.425e+01
P1San Luis 3.264e+01
P1Velasco 1.942e+01
P1Veloz 2.429e-01
P1Yaruquíes -9.616e+00
P2Chambo NA
P2Chunchi NA
P2Colta NA
P2Cumanda NA
P2Guamote NA
P2Guano NA
P2Pallatanga NA
P2Penipe NA
P2Riobamba NA
P3 1.490e+01
P4Femenino -6.218e-01
P5Divorciado -4.179e+00
P5Otro -5.613e+01
P5Soltero -4.015e-02
P5Viudo -4.600e+01
P6 1.110e+00
P7Otros parientes 2.342e+01
P7Yo soy el representante del Hogar -1.032e+02
P7Hijo o hija -1.500e+01
P7Padres o suegros -6.994e+00
P7Otros no parientes 1.939e+01
P8Departamento en casa o edificio -5.456e+01
P8Suite de lujo 1.088e+01
P8Cuarto(s) en casa de inquilinato 1.569e+01
P8Choza/Covacha/Otro 5.763e+00
P8Rancho 9.409e+00
P8 Mediagua 1.106e+02
P9 Cerámica, baldosa, vinil o marmetón -1.771e+01
P9Tabla sin tratar 5.635e+00
P9Tierra/ Caña/ Otros materiales -2.868e+00
P9Ladrillo o cemento 9.418e-01
P10Caña no revestida/ Otros materiales -2.950e+00
P10Ladrillo o bloque 6.753e+00
P10Hormigón -1.954e+01
P10 Caña revestida o bahareque/Madera 1.949e+01
P11Tiene 2 cuartos de baño exclusivos con ducha 2.118e+01
P11Tiene 1 cuarto de baño exclusivo con ducha 1.538e+01
P11Tiene 3 o más cuartos de baño exclusivos con ducha -3.198e+00
P12Conectado a pozo séptico -2.821e+00
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina -2.359e+01
P12Conectado a pozo ciego -2.156e+01
P12Conectado a red pública de alcantarillado -1.364e+01
P12Sin Marca -9.730e+00
P13Sí -3.398e-01
P14Sí -1.122e+01
P15Sí -1.505e+00
P16Tiene 3 celulares 2.298e+01
P16Tiene 1 celular 2.649e+01
P16Tiene 4 ó más celulares 2.282e+01
P16Tiene 2 celulares 2.043e+01
P17Sí -2.007e+01
P18Sí 2.951e+01
P19Sí -8.549e+00
P20Sí -3.242e+00
P21Sí 6.787e+00
P22Tiene 3 ó más TV a color -1.144e+01
P22Tiene 1 TV a color -6.822e+00
P22Tiene 2 TV a color -2.257e+01
P23 -3.390e+00
P24Sí -2.771e+00
P25Sí -6.643e+00
P26Sí 7.156e+00
P27Sí 1.072e+01
P28Sí 3.840e+00
P29 Empleados de oficina 9.697e+00
P29Fuerzas Armadas 1.900e+00
P29Inactivos 1.980e+01
P29 Oficiales operarios y artesanos 6.464e+00
P29 Operadores de instalaciones y máquinas 5.912e+00
P29Personal directivo de la Administración Pública y de empresas 3.442e+01
P29 Profesionales científicos e intelectuales -2.275e+01
P30Hasta 3 años de educación superior (incompleta) 2.523e-01
P31Sí -1.373e+01
P32Trabajador de los servicios y comerciantes -7.502e+00
P32Oficiales operarios y artesanos -7.937e+00
P32Profesionales científicos e intelectuales -4.587e+01
P32Técnicos y profesionales de nivel medio 1.346e+00
P32Empleados de oficina 7.071e+00
P32Operadores de instalaciones y máquinas -2.497e+01
P32Trabajadores no calificados -2.131e+01
P32Personal directivo de la Administración Pública y de empresas -1.950e+00
P32Desempleado -1.523e+01
P32Trabajador calificados agropecuarios y pesqueros 6.826e-01
P33Medio Alto -6.669e+01
P33Medio Típico -5.143e+01
P33Medio Bajo -2.615e+01
P34Sector privado -1.043e+01
P34Ninguno -5.105e+00
P36Sí -4.149e+01
P37Sí -2.317e+01
P38Sí 4.770e+01
Std. Error
(Intercept) 1.267e+06
P1Cacha 8.900e+05
P1Calpi 6.441e+05
P1Chambo 1.014e+06
P1Chunchi 1.312e+06
P1Colta 7.423e+05
P1Cubijíes 1.304e+06
P1Cumanda 1.118e+06
P1Flores 6.272e+05
P1Guamote 8.122e+05
P1Guano 8.864e+05
P1Licán 5.503e+05
P1Licto 1.326e+06
P1Lizarzaburu 9.181e+05
P1Maldonado 8.712e+05
P1Pallatanga 1.054e+06
P1Penipe 1.261e+06
P1Pungalá 7.916e+05
P1Punín 7.242e+05
P1Quimiag 6.320e+05
P1San Juan 8.720e+05
P1San Luis 7.730e+05
P1Velasco 9.539e+05
P1Veloz 1.006e+06
P1Yaruquíes 7.438e+05
P2Chambo NA
P2Chunchi NA
P2Colta NA
P2Cumanda NA
P2Guamote NA
P2Guano NA
P2Pallatanga NA
P2Penipe NA
P2Riobamba NA
P3 9.958e+04
P4Femenino 1.862e+05
P5Divorciado 3.544e+05
P5Otro 3.779e+05
P5Soltero 2.678e+05
P5Viudo 2.765e+05
P6 6.135e+04
P7Otros parientes 2.567e+05
P7Yo soy el representante del Hogar 6.807e+05
P7Hijo o hija 3.603e+05
P7Padres o suegros 5.190e+05
P7Otros no parientes 1.571e+05
P8Departamento en casa o edificio 1.109e+06
P8Suite de lujo 3.773e+05
P8Cuarto(s) en casa de inquilinato 1.864e+05
P8Choza/Covacha/Otro 2.337e+05
P8Rancho 4.746e+07
P8 Mediagua 1.061e+06
P9 Cerámica, baldosa, vinil o marmetón 1.066e+06
P9Tabla sin tratar 8.633e+05
P9Tierra/ Caña/ Otros materiales 5.480e+05
P9Ladrillo o cemento 3.888e+05
P10Caña no revestida/ Otros materiales 2.539e+05
P10Ladrillo o bloque 3.266e+05
P10Hormigón 6.152e+05
P10 Caña revestida o bahareque/Madera 6.331e+05
P11Tiene 2 cuartos de baño exclusivos con ducha 4.290e+05
P11Tiene 1 cuarto de baño exclusivo con ducha 6.374e+05
P11Tiene 3 o más cuartos de baño exclusivos con ducha 5.448e+05
P12Conectado a pozo séptico 5.520e+05
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina 4.978e+05
P12Conectado a pozo ciego 5.352e+05
P12Conectado a red pública de alcantarillado 6.870e+05
P12Sin Marca 9.469e+05
P13Sí 2.719e+05
P14Sí 1.510e+05
P15Sí 2.547e+05
P16Tiene 3 celulares 3.982e+05
P16Tiene 1 celular 3.591e+05
P16Tiene 4 ó más celulares 3.892e+05
P16Tiene 2 celulares 4.595e+05
P17Sí 1.446e+05
P18Sí 1.990e+05
P19Sí 2.422e+05
P20Sí 3.079e+05
P21Sí 2.002e+05
P22Tiene 3 ó más TV a color 2.156e+05
P22Tiene 1 TV a color 1.653e+05
P22Tiene 2 TV a color 2.548e+05
P23 8.941e+04
P24Sí 2.601e+05
P25Sí 2.219e+05
P26Sí 1.981e+05
P27Sí 2.919e+05
P28Sí 2.067e+05
P29 Empleados de oficina 3.324e+05
P29Fuerzas Armadas 4.164e+05
P29Inactivos 3.402e+05
P29 Oficiales operarios y artesanos 4.583e+05
P29 Operadores de instalaciones y máquinas 2.723e+05
P29Personal directivo de la Administración Pública y de empresas 3.013e+05
P29 Profesionales científicos e intelectuales 9.692e+05
P30Hasta 3 años de educación superior (incompleta) 2.783e+05
P31Sí 1.923e+05
P32Trabajador de los servicios y comerciantes 5.862e+05
P32Oficiales operarios y artesanos 8.160e+05
P32Profesionales científicos e intelectuales 6.077e+05
P32Técnicos y profesionales de nivel medio 8.188e+05
P32Empleados de oficina 6.597e+05
P32Operadores de instalaciones y máquinas 5.243e+05
P32Trabajadores no calificados 6.780e+05
P32Personal directivo de la Administración Pública y de empresas 4.264e+05
P32Desempleado 3.759e+05
P32Trabajador calificados agropecuarios y pesqueros 7.771e+05
P33Medio Alto 1.107e+06
P33Medio Típico 3.832e+05
P33Medio Bajo 2.817e+05
P34Sector privado 3.216e+05
P34Ninguno 2.556e+05
P36Sí 2.726e+04
P37Sí 2.159e+05
P38Sí 1.520e+05
z value
(Intercept) 0.000
P1Cacha 0.000
P1Calpi 0.000
P1Chambo 0.000
P1Chunchi 0.000
P1Colta 0.000
P1Cubijíes 0.000
P1Cumanda 0.000
P1Flores 0.000
P1Guamote 0.000
P1Guano 0.000
P1Licán 0.000
P1Licto 0.000
P1Lizarzaburu 0.000
P1Maldonado 0.000
P1Pallatanga 0.000
P1Penipe 0.000
P1Pungalá 0.000
P1Punín 0.000
P1Quimiag 0.000
P1San Juan 0.000
P1San Luis 0.000
P1Velasco 0.000
P1Veloz 0.000
P1Yaruquíes 0.000
P2Chambo NA
P2Chunchi NA
P2Colta NA
P2Cumanda NA
P2Guamote NA
P2Guano NA
P2Pallatanga NA
P2Penipe NA
P2Riobamba NA
P3 0.000
P4Femenino 0.000
P5Divorciado 0.000
P5Otro 0.000
P5Soltero 0.000
P5Viudo 0.000
P6 0.000
P7Otros parientes 0.000
P7Yo soy el representante del Hogar 0.000
P7Hijo o hija 0.000
P7Padres o suegros 0.000
P7Otros no parientes 0.000
P8Departamento en casa o edificio 0.000
P8Suite de lujo 0.000
P8Cuarto(s) en casa de inquilinato 0.000
P8Choza/Covacha/Otro 0.000
P8Rancho 0.000
P8 Mediagua 0.000
P9 Cerámica, baldosa, vinil o marmetón 0.000
P9Tabla sin tratar 0.000
P9Tierra/ Caña/ Otros materiales 0.000
P9Ladrillo o cemento 0.000
P10Caña no revestida/ Otros materiales 0.000
P10Ladrillo o bloque 0.000
P10Hormigón 0.000
P10 Caña revestida o bahareque/Madera 0.000
P11Tiene 2 cuartos de baño exclusivos con ducha 0.000
P11Tiene 1 cuarto de baño exclusivo con ducha 0.000
P11Tiene 3 o más cuartos de baño exclusivos con ducha 0.000
P12Conectado a pozo séptico 0.000
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina 0.000
P12Conectado a pozo ciego 0.000
P12Conectado a red pública de alcantarillado 0.000
P12Sin Marca 0.000
P13Sí 0.000
P14Sí 0.000
P15Sí 0.000
P16Tiene 3 celulares 0.000
P16Tiene 1 celular 0.000
P16Tiene 4 ó más celulares 0.000
P16Tiene 2 celulares 0.000
P17Sí 0.000
P18Sí 0.000
P19Sí 0.000
P20Sí 0.000
P21Sí 0.000
P22Tiene 3 ó más TV a color 0.000
P22Tiene 1 TV a color 0.000
P22Tiene 2 TV a color 0.000
P23 0.000
P24Sí 0.000
P25Sí 0.000
P26Sí 0.000
P27Sí 0.000
P28Sí 0.000
P29 Empleados de oficina 0.000
P29Fuerzas Armadas 0.000
P29Inactivos 0.000
P29 Oficiales operarios y artesanos 0.000
P29 Operadores de instalaciones y máquinas 0.000
P29Personal directivo de la Administración Pública y de empresas 0.000
P29 Profesionales científicos e intelectuales 0.000
P30Hasta 3 años de educación superior (incompleta) 0.000
P31Sí 0.000
P32Trabajador de los servicios y comerciantes 0.000
P32Oficiales operarios y artesanos 0.000
P32Profesionales científicos e intelectuales 0.000
P32Técnicos y profesionales de nivel medio 0.000
P32Empleados de oficina 0.000
P32Operadores de instalaciones y máquinas 0.000
P32Trabajadores no calificados 0.000
P32Personal directivo de la Administración Pública y de empresas 0.000
P32Desempleado 0.000
P32Trabajador calificados agropecuarios y pesqueros 0.000
P33Medio Alto 0.000
P33Medio Típico 0.000
P33Medio Bajo 0.000
P34Sector privado 0.000
P34Ninguno 0.000
P36Sí -0.002
P37Sí 0.000
P38Sí 0.000
Pr(>|z|)
(Intercept) 1.000
P1Cacha 1.000
P1Calpi 1.000
P1Chambo 1.000
P1Chunchi 1.000
P1Colta 1.000
P1Cubijíes 1.000
P1Cumanda 1.000
P1Flores 1.000
P1Guamote 1.000
P1Guano 1.000
P1Licán 1.000
P1Licto 1.000
P1Lizarzaburu 1.000
P1Maldonado 1.000
P1Pallatanga 1.000
P1Penipe 1.000
P1Pungalá 1.000
P1Punín 1.000
P1Quimiag 1.000
P1San Juan 1.000
P1San Luis 1.000
P1Velasco 1.000
P1Veloz 1.000
P1Yaruquíes 1.000
P2Chambo NA
P2Chunchi NA
P2Colta NA
P2Cumanda NA
P2Guamote NA
P2Guano NA
P2Pallatanga NA
P2Penipe NA
P2Riobamba NA
P3 1.000
P4Femenino 1.000
P5Divorciado 1.000
P5Otro 1.000
P5Soltero 1.000
P5Viudo 1.000
P6 1.000
P7Otros parientes 1.000
P7Yo soy el representante del Hogar 1.000
P7Hijo o hija 1.000
P7Padres o suegros 1.000
P7Otros no parientes 1.000
P8Departamento en casa o edificio 1.000
P8Suite de lujo 1.000
P8Cuarto(s) en casa de inquilinato 1.000
P8Choza/Covacha/Otro 1.000
P8Rancho 1.000
P8 Mediagua 1.000
P9 Cerámica, baldosa, vinil o marmetón 1.000
P9Tabla sin tratar 1.000
P9Tierra/ Caña/ Otros materiales 1.000
P9Ladrillo o cemento 1.000
P10Caña no revestida/ Otros materiales 1.000
P10Ladrillo o bloque 1.000
P10Hormigón 1.000
P10 Caña revestida o bahareque/Madera 1.000
P11Tiene 2 cuartos de baño exclusivos con ducha 1.000
P11Tiene 1 cuarto de baño exclusivo con ducha 1.000
P11Tiene 3 o más cuartos de baño exclusivos con ducha 1.000
P12Conectado a pozo séptico 1.000
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina 1.000
P12Conectado a pozo ciego 1.000
P12Conectado a red pública de alcantarillado 1.000
P12Sin Marca 1.000
P13Sí 1.000
P14Sí 1.000
P15Sí 1.000
P16Tiene 3 celulares 1.000
P16Tiene 1 celular 1.000
P16Tiene 4 ó más celulares 1.000
P16Tiene 2 celulares 1.000
P17Sí 1.000
P18Sí 1.000
P19Sí 1.000
P20Sí 1.000
P21Sí 1.000
P22Tiene 3 ó más TV a color 1.000
P22Tiene 1 TV a color 1.000
P22Tiene 2 TV a color 1.000
P23 1.000
P24Sí 1.000
P25Sí 1.000
P26Sí 1.000
P27Sí 1.000
P28Sí 1.000
P29 Empleados de oficina 1.000
P29Fuerzas Armadas 1.000
P29Inactivos 1.000
P29 Oficiales operarios y artesanos 1.000
P29 Operadores de instalaciones y máquinas 1.000
P29Personal directivo de la Administración Pública y de empresas 1.000
P29 Profesionales científicos e intelectuales 1.000
P30Hasta 3 años de educación superior (incompleta) 1.000
P31Sí 1.000
P32Trabajador de los servicios y comerciantes 1.000
P32Oficiales operarios y artesanos 1.000
P32Profesionales científicos e intelectuales 1.000
P32Técnicos y profesionales de nivel medio 1.000
P32Empleados de oficina 1.000
P32Operadores de instalaciones y máquinas 1.000
P32Trabajadores no calificados 1.000
P32Personal directivo de la Administración Pública y de empresas 1.000
P32Desempleado 1.000
P32Trabajador calificados agropecuarios y pesqueros 1.000
P33Medio Alto 1.000
P33Medio Típico 1.000
P33Medio Bajo 1.000
P34Sector privado 1.000
P34Ninguno 1.000
P36Sí 0.999
P37Sí 1.000
P38Sí 1.000
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 9.2646e+01 on 382 degrees of freedom
Residual deviance: 1.1072e-08 on 276 degrees of freedom
AIC: 214
Number of Fisher Scoring iterations: 25
Interpretación
En este estudio según el modelo de regresión lineal no tienen variables significativas,ya que todas tienen un p valor igual a 1, o algunos valores con NA.
#ANOVA Compara medias para ver si hay diferencias significativas en diferentes grupos.
Permite comparar modelos
gfit0 <- glm(P35 ~ 1, data = BASE,
family = binomial)
anova (gfit0, gfit1, test = "Chisq")
Interpretación
Los resultados anova muestran que ninguno de los términos añadidos al modelo gfit0 es importante para explicar la variable dependiente. Sólo se obtiene la deviance igual 1.18173 (92.646 - 0.000) con 106 grados de libertad, que no es significativa, ya que p - valor = 0.81925
anova(gfit1, test = "Chisq")
Interpretación
Se obtiene que con la prueba chisq(Prueba chi cuadrada), aquí si hay variables significativas.
La primera es P5 “Estado civil” con un p valor de 0.01149. El valor p es menor que el nivel de significancia ( α=0.05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable respuesta, lo que sugiere que diferentes grupos de estado civil tienen diferentes probabilidades de ser consumidores de arroz. esto se evidencia en el asterisco al lado del valor p.
La segunda es P12 “Tipo de servicio higienico que cuenta el hogar” con un p valor de 2e-16. El valor p es menor que el nivel de significancia ( α=0.05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable respuesta, esto se evidencia en el asteriscos al lado del valor p. ***
La tercera es P36 “Consume usted queso industrial” con un p valor de 0.09589, sin envalr el p no es muy mayor al nivel de significancia, por eso se indica con el punto(.).
library(e1071)
library(caret)
## Loading required package: lattice
fitbayes1 <-naiveBayes(P35~., data= Train.p1)
summary(fitbayes1)
## Length Class Mode
## apriori 2 table numeric
## tables 37 -none- list
## levels 2 -none- character
## isnumeric 37 -none- logical
## call 4 -none- call
#Predict Output
predictedBayes1 = predict(fitbayes1, Val.p1)
matrizNB1 <- confusionMatrix(Val.p1$P35,predictedBayes1)
matrizNB1
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Sí
## No 1 1
## Sí 5 108
##
## Accuracy : 0.9478
## 95% CI : (0.8899, 0.9806)
## No Information Rate : 0.9478
## P-Value [Acc > NIR] : 0.6063
##
## Kappa : 0.2299
##
## Mcnemar's Test P-Value : 0.2207
##
## Sensitivity : 0.166667
## Specificity : 0.990826
## Pos Pred Value : 0.500000
## Neg Pred Value : 0.955752
## Prevalence : 0.052174
## Detection Rate : 0.008696
## Detection Prevalence : 0.017391
## Balanced Accuracy : 0.578746
##
## 'Positive' Class : No
##
Interpretacion
Se obtiene que en la matriz de confusión los verdaderos negativos (valores estimados de forma correcta por el modelo), es decir, los que no comen arroz en este momento y la posibilidad de que no consuman arroz en un futuro es de 1 persona.
Para los falsos negativos, es decir las personas de consumen arroz en este momento, la posibilidad de que no consuman arroz en un futuro es de 1 persona.
Para los falsos positivos, es decir las personas que consumen arroz en este momento, la posibilidad de que no consumen a un futuro es de 5 personas.
Para los verdaderos positivos (valores estimados de forma correcta por el modelo), es decir las personas que consumen arroz en este momento, la posibilidad de que siga consumiendo arroz en un futuro es de 108 personas.
Esta predicción se verifica si es válido en el Accuracy, lo cual dicta que el modelo es moderado, ya que, su valor es 0.9478, lo cual es muy bueno. Este dato se corrobora en la No Information Rate (tasa de no información) con un 0.9478.
Sin embargo, en kkapa se observa que es de 0.2299, e incluso su valor p es no es tan pequeño(0.6063 ), lo cual se infiere que el modelo para esta predicción es no puede ser muy buena, por lo cual, el modelo no es tan confiable.
Al comparar entre el modelo de regresión logit y el modelo naive bayes se infiere que el mejor modelo es de regresión, ya que al realizar la prueba anova con la prueba chi cuadrada se obtiene que variables son significativos e importantes para el consumo de arroz. Sin embargo, esta es más larga ya que primero se debe realizar la prueba con un modelo lineal generalizado, pero como vimos no es el más adecuado.
Aunque el modelo de naive bayes el accuary alto, no se escoge ya que hay parámetros que se contradice, como el p - value, ya que esta es alto y su kappa es muy bajo. Por lo cual el modelo está mal, ya que kappa necesita tener un valor alto (1 o cercano a 1), ya que indica un buen acuerdo entre las predicciones y las clases reales.