Modelos regresion y naive bayes 1600734568+09+2001-2dígitos

Introducción

Las condiciones de vida de las personas de cada lugar es diferentes, por lo cual es fundamenta, el un estudio de cada provincia. En este caso se enfoca en la provincia de Chimborazo, tomando en cuenta 38 variables que ayuda a la toma de decisiones del estudio. El objetivo es analizar puntos esenciales como ubicación, edad, ocupación, características de la vivienda entre otros, con la finalidad de atribuir información de la población con respecto a qué variables influyen en la alimentación mediante la implementación de modelos de predección, en este caso, modelos de regresión y naive bayes.

Importación de la data

library(readxl)
DATA_PARCIAL2 <- read_excel("DATA_PARCIAL2.xlsx")
View(DATA_PARCIAL2)

#Descripción de variables

colnames(DATA_PARCIAL2)
##  [1] "P1"  "P2"  "P3"  "P4"  "P5"  "P6"  "P7"  "P8"  "P9"  "P10" "P11" "P12"
## [13] "P13" "P14" "P15" "P16" "P17" "P18" "P19" "P20" "P21" "P22" "P23" "P24"
## [25] "P25" "P26" "P27" "P28" "P29" "P30" "P31" "P32" "P33" "P34" "P35" "P36"
## [37] "P37" "P38"

Se obtiene que se encuentran 38 variables, las cuales son: - P1- Ubicación: Variable de tipo cualitativa nominal, con diferentes tipos de ubicación de la provincia de Chimborazo. Estos son: Alausí , Cacha, Calpi, Chambo, Chunchi, Colta, Cubijíes, Cumanda , Flores, Guamote, Guano, Licán, Licto, Lizarzaburu, Maldonado, Pallatanga, Penipe, Pungalá, Punín, Quimiag, San Juan, San Luis, Velasco, Veloz y Yaruquíes.

Esta información puede ser útil para comprender las condiciones de vida de las personas, las necesidades de la población y las tendencias en el mercado inmobiliario.La cual esta pregunta nos ayudará a saber cómo vive el encuestado, hay diferentes niveles en la variable.
- P9 - El material predominante de las paredes exteriores de la vivienda es de: Variable cualitativa nominal.

Los materiales de construcción varían según la región geográfica. Por ejemplo, el ladrillo y el bloque de cemento son materiales comunes en las zonas urbanas, mientras que la madera y el adobe son más comunes en las zonas rurales.
- P10 - EL material predominante del piso de la vivienda es de: Variable cualitativa nominal.

Esta pregunta puede ayudar a identificar el nivel de desarrollo de la región, ya que las regiones más desarrolladas suelen tener viviendas con pisos de materiales más duraderos y resistentes a los elementos, como el cemento y la cerámica. Contiene diferentes niveles.
- P11 - ¿Cuántos cuartos de baño con ducha de uso exclusivo tiene este hogar?: Variable cuantitativa discreta.

La cantidad de baños con ducha en una encuesta puede proporcionar información sobre una variedad de factores, incluidos:

El nivel de ingresos: Las viviendas con más baños con ducha suelen ser más caras que las viviendas con menos baños con ducha.

Esta información puede ser útil para comprender el acceso a Internet, el uso de Internet y la satisfacción con el servicio de Internet.

Variable cualitativa nominal. Cuenta con 2 niveles: sí y no

Transformar las variables character a variables factor

clases <- sapply(DATA_PARCIAL2, class)
head(clases)
##          P1          P2          P3          P4          P5          P6 
## "character" "character"   "numeric" "character" "character"   "numeric"

#limpieza de la data

Detección de Na’s

which(is.na(DATA_PARCIAL2))
##   [1]  1182  1205  1207  1313  1319  1345  1410  1438  1450  1451  1482  1599
##  [13]  1653 20200 20201 20202 20208 20216 20217 20218 20220 20221 20228 20240
##  [25] 20261 20263 20269 20281 20282 20290 20297 20305 20310 20313 20317 20318
##  [37] 20323 20335 20341 20344 20345 20347 20348 20349 20350 20359 20366 20370
##  [49] 20372 20375 20376 20381 20383 20388 20394 20407 20417 20427 20437 20440
##  [61] 20444 20448 20451 20464 20465 20468 20470 20471 20474 20475 20476 20477
##  [73] 20479 20480 20493 20494 20495 20497 20498 20499 20500 20503 20506 20509
##  [85] 20511 20513 20514 20515 20516 20517 20518 20519 20521 20527 20528 20529
##  [97] 20530 20533 20545 20554 20555 20567 20568 20569 20575 20576 20577 20578
## [109] 20579 20580 20581 20582 20585 20589 20590 20591 20592 20593 20595 20600
## [121] 20602 20603 20606 20609 20611 20613 20617 20618 20623 20624 20625 20626
## [133] 20627 20629 20632 20635 20641 20645 20651 20652 20653 20659 20661 20667
## [145] 20672 20677 20679 20681 20682 20684 20686 20689 20690 20693 20694 20697
## [157] 20704 20706 20707 20713 20714 20716 20717 20719 20721 20723 20726 20728
## [169] 20729 20730 20733 20736 20738 20739 20742 20745 20746 20747 20748 20750
## [181] 20751 20753 20754 20756 20757 20758 20759 20760 20761 20762 20764 20765
## [193] 20766 20767 20769 20770 20772
sum(is.na(DATA_PARCIAL2))
## [1] 197

Interpretación Se verifica que la base de datos contiene 197 datos faltantes, por lo cual se debe hacer la debida imputación.

Omitir na’s

BASE <- na.omit(DATA_PARCIAL2)
View(BASE)

**Interpretación*

Se obtiene que al utilizar el na.omit permite ejecutar funciones numéricas sobre datos NA, algunos análisis devolverán un error ante la existencia de valores NA o vacíos (““). Por lo que, al correr nuevamente la data, ya no aparecen aquellos datos.

##Transformar a factor las variables

  • P1: Transformar la variable ubicación a factor
BASE$P1 <- factor(BASE$P1)
levels(BASE$P1) = c("Alausí","Cacha","Calpi","Chambo","Chunchi","Colta","Cubijíes","Cumanda","Flores","Guamote","Guano","Licán","Licto","Lizarzaburu","Maldonado","Pallatanga","Penipe","Pungalá","Punín","Quimiag","San Juan","San Luis","Velasco","Veloz","Yaruquíes")
  • p2: Transformar la variable canton de caracter a factor

  • P4: Transformar la variable sexo de caracter a factor

BASE$P4 <- factor(BASE$P4 )
levels(BASE$P4 ) <- c("Masculino","Femenino")
class(BASE$P4)
[1] "factor"
  • P5: Transformar la variable estado civil de caracter a factor
BASE$P5<- factor(BASE$P5)
levels(BASE$P5) <- c("Casado","Divorciado","Otro","Soltero","Viudo")
class(BASE$P5)
[1] "factor"
  • P7: Transformar la variable parentesco de caracter a factor
BASE$P7 <- factor(BASE$P7)
levels(BASE$P7) <- c("Cónyugue o conviviente","Otros parientes","Otros parientes","Yo soy el representante del Hogar","Hijo o hija","Padres o suegros","Otros no parientes","Yerno o nuera")
class(BASE$P7)
[1] "factor"
  • P8: Transformar la variable ¿Cuál es el tipo de vivienda? a factor
BASE$P8 <-   factor(BASE$P8)
levels(BASE$P8) <- c("Casa/Villa","Departamento en casa o edificio","Suite de lujo","Cuarto(s) en casa de inquilinato ","Choza/Covacha/Otro","Rancho"," Mediagua")
class(BASE$P8)
[1] "factor"
  • P9: Transformar la variable tipo de material del piso de caracter a factor
BASE$P9 <-   factor(BASE$P9)
levels(BASE$P9) <- c("Duela, parquet, tablón o piso flotante"," Cerámica, baldosa, vinil o marmetón","Tabla sin tratar","Tierra/ Caña/ Otros materiales","Ladrillo o cemento")
class(BASE$P9)
[1] "factor"
  • P10: Transformar la variable tipo de material de las paredes de caracter a factor
BASE$P10 <-   factor(BASE$P10)
levels(BASE$P10) <- c("Adobe/Tapia","Caña no revestida/ Otros materiales","Ladrillo o bloque","Hormigón"," Caña revestida o bahareque/Madera")
  • P11: Transformar la variable tipo de cuartos de baño con ducha de uso exclusivo tiene este hogar de caracter a factor
BASE$P11 <-   factor(BASE$P11)
levels(BASE$P11) <- c("No tiene cuarto de baño exclusivo con ducha en el hogar","Tiene 2 cuartos de baño exclusivos con ducha","Tiene 1 cuarto de baño exclusivo con ducha ","Tiene 3 o más cuartos de baño exclusivos con ducha")
class(BASE$P11)
[1] "factor"
  • P12: Transformar la variable tipo servicio higiénico de caracter a factor
BASE$P12 <-   factor(BASE$P12)
levels(BASE$P12) <- c("Con descarga directa al mar, río, lago o quebrada ","Conectado a pozo séptico","Tiene 1 cuarto de baño exclusivo con ducha Letrina","Conectado a pozo ciego","Conectado a red pública de alcantarillado","Sin Marca")
class(BASE$P12)
[1] "factor"
  • P13: Transformar la variable tipo de Cuenta con servicio de internet de caracter a factor
BASE$P13 <-   factor(BASE$P13)
levels(BASE$P13) <- c("No","Sí")
class(BASE$P13)
## [1] "factor"
  • P14: Transformar la variable tipo de Cuenta con computadora de escritorio de caracter a factor
BASE$P14 <-   factor(BASE$P14)
levels(BASE$P14) <- c("No","Sí")
  • P15: Transformar la variable tipo de Cuenta con computadora portátil de caracter a factor
BASE$P15 <-   factor(BASE$P15)
levels(BASE$P15) <- c("No","Sí")
class(BASE$P15)
[1] "factor"
  • P16: Transformar la variable tipo de Cuántos celulares activados tiene en este hogar de caracter a factor
BASE$P16 <-   factor(BASE$P16)
levels(BASE$P16) <- c("No tiene celular nadie en el hogar","Tiene 3 celulares","Tiene 1 celular","Tiene 4 ó más celulares","Tiene 2 celulares")
class(BASE$P16)
[1] "factor"
  • P17: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P17 <-   factor(BASE$P17)
levels(BASE$P17) <- c("No","Sí")
class(BASE$P17)
[1] "factor"
  • P18: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P18 <-   factor(BASE$P18)
levels(BASE$P18) <- c("No","Sí")
class(BASE$P18)
[1] "factor"
  • P19: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P19 <-   factor(BASE$P19)
levels(BASE$P19) <- c("No","Sí")
class(BASE$P19)
[1] "factor"
  • P20: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P20 <-   factor(BASE$P20)
levels(BASE$P20) <- c("No","Sí")
class(BASE$P20)
[1] "factor"
  • P21: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P21 <-   factor(BASE$P21)
levels(BASE$P21) <- c("No","Sí")
class(BASE$P21)
[1] "factor"
  • P22: Transformar la variable tipo de Tiene su hogar servicio de teléfono convencional de caracter a factor
BASE$P22 <-   factor(BASE$P22)
levels(BASE$P22) <- c("No tiene TV a color en el hogar","Tiene 3 ó más TV a color ","Tiene 1 TV a color ","Tiene 2 TV a color ")
class(BASE$P22)
[1] "factor"
  • P24: Transformar la variable tipo de en el hogar compra vestimenta en centros comerciales?` de caracter a factor
BASE$P24<-   factor(BASE$P24)
levels(BASE$P24) <- c("No","Sí")
class(BASE$P24)
[1] "factor"
  • P25: Transformar la variable tipo de alguien ha usado internet en los últimos 6 meses de caracter a factor
BASE$P25 <-   factor(BASE$P25)
levels(BASE$P25) <- c("No","Sí")
class(BASE$P25)
[1] "factor"
  • P26: Transformar la variable tipo de utiliza correo electrónico que no es del trabajo de caracter a factor
BASE$P26 <-   factor(BASE$P26)
levels(BASE$P26) <- c("No","Sí")
class(BASE$P26)
[1] "factor"
  • P27: Transformar la variable tipo de está registrado en una red socialde caracter a factor
BASE$P27<-   factor(BASE$P27)
levels(BASE$P27) <- c("No","Sí")
class(BASE$P27)
[1] "factor"
  • P28: Transformar la variable tipo de libros de texto o manuales de estudio y lecturas de trabajo de caracter a factor
BASE$P28 <-   factor(BASE$P28)
levels(BASE$P28) <- c("No","Sí")
class(BASE$P28)
[1] "factor"
  • P29: Transformar la variable tipo de ocupación del Representante del hogarde caracter a factor
BASE$P29 <-   factor(BASE$P29 )
levels(BASE$P29 ) <- c("Desempleado "," Empleados de oficina","Fuerzas Armadas","Inactivos "," Oficiales operarios y artesanos"," Operadores de instalaciones y máquinas","Personal directivo de la Administración Pública y de empresas"," Profesionales científicos e intelectuales","Técnicos y profesionales de nivel medio","Trabajador calificados agropecuarios y pesqueros","Trabajador de los servicios y comerciantes","Trabajadores no calificados")
class(BASE$P29)
[1] "factor"
  • P30: Transformar la variable tipo de nivel de instrucción del Jefe del hogar de caracter a factor
BASE$P30 <-   factor(BASE$P30)
levels(BASE$P30) <- c("4 ó más años de educación superior (completa sin postgrado)","Hasta 3 años de educación superior (incompleta)","Postgrado","Primaria completa ","Primaria incompleta","Secundaria completa ","Secundaria incompleta","Sin estudios ")
class(BASE$P30)
[1] "factor"
  • P31: Transformar la variable tipo de Alguien en el hogar está afiliado o cubierto por el seguro del IESS de caracter a factor
BASE$P31 <-   factor(BASE$P31)
levels(BASE$P31) <- c("No","Sí")
class(BASE$P31)
[1] "factor"
  • P32: Transformar la variable tipo de nivel de instrucción del Jefe del hogar de caracter a factor
BASE$P32 <-   factor(BASE$P32)
levels(BASE$P32) <- c("Fuerzas Armadas","Trabajador de los servicios y comerciantes", "Oficiales operarios y artesanos", "Profesionales científicos e intelectuales", "Técnicos y profesionales de nivel medio", "Empleados de oficina", "Operadores de instalaciones y máquinas", "Trabajadores no calificados", "Operadores de instalaciones y máquinas", "Personal directivo de la Administración Pública y de empresas ", "Desempleado", "Trabajador calificados agropecuarios y pesqueros", "Inactivos")
class(BASE$P32)
[1] "factor"
  • P33: NSE_2023_CUALI
BASE$P33 <-  factor(BASE$P33)
levels(BASE$P33) = c("Alto", "Medio Alto", "Alto", "Medio Típico", "Medio Bajo", "Alto", "Bajo")
class(BASE$P33)
## [1] "factor"
  • P34: Tranformar a factor la variable ¿Para qué sector trabaja?
BASE$P34 <-  factor(BASE$P34)
levels(BASE$P34) = c("Sector público", "Sector privado", "Ninguno")
class(BASE$P34)
## [1] "factor"
  • P35: Tranformar a factor la variable “Consume usted arroz”
BASE$P35= factor(BASE$P35)
levels(BASE$P35)= c("No", "Sí")
class(BASE$P35)
## [1] "factor"
  • P36: Tranformar a factor la variable “¿Consume usted queso industrial (CON MARCA)”
BASE$P36 = factor(BASE$P36)
levels(BASE$P36)=c("No", "Sí")
class(BASE$P36)
## [1] "factor"
  • Transformar a factor la variable “¿Consume usted huevos?”
BASE$P37 = factor(BASE$P37)
levels(BASE$P37)=c("No", "Sí")
class(BASE$P37)
## [1] "factor"
  • Transformar a factor la variable “¿Consume frutas?”
BASE$P38= factor (BASE$P38)
levels(BASE$P38) =c("No", "Sí")
class(BASE$P38)
## [1] "factor"

Forma automática

BASE1 <- as.data.frame(lapply(DATA_PARCIAL2, function(x) if(is.character(x))
  as.factor(x) else x))
clases <- sapply(DATA_PARCIAL2,class);
head(clases)
##          P1          P2          P3          P4          P5          P6 
## "character" "character"   "numeric" "character" "character"   "numeric"

#Unión de las variables ya transformadas

Classes <- sapply(BASE, class)
for (i in 1:ncol(BASE))
  if(Classes [i]== "numeric")
    BASE[[i]]= as.numeric(BASE[[i]])
Classes = sapply(BASE, class)
head(Classes)
##        P1        P2        P3        P4        P5        P6 
##  "factor"  "factor" "numeric"  "factor"  "factor" "numeric"

ANALISIS DESCRIPTIVO

summary(BASE[, clases ==  "numeric"])
##        P3              P6              P23        
##  Min.   :15.00   Min.   : 1.000   Min.   :0.0000  
##  1st Qu.:26.00   1st Qu.: 3.000   1st Qu.:0.0000  
##  Median :37.00   Median : 4.000   Median :1.0000  
##  Mean   :38.16   Mean   : 4.319   Mean   :0.6554  
##  3rd Qu.:47.00   3rd Qu.: 5.000   3rd Qu.:1.0000  
##  Max.   :81.00   Max.   :37.000   Max.   :3.0000
apply(BASE[,clases == "numeric"], 2, sd)
##         P3         P6        P23 
## 13.9830336  2.3430517  0.7666247

Su mediana es de 37 años. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye 26 años, mientras que, el 3er cuartil que representa el 75% es de 47 años, con una desviación estándar de 13.983034.

Entonces, se infiere que la mayoría de personas están dentro de la edad adulta, es decir, se encuentra en una edad promedio por lo que es buena edad para ser encuestado.

Su mediana es de 1 carro. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye a 3 personas por familia, mientras que, el 3er cuartil que representa el 75% es de 45 personas por familia, con una desviación estándar de 2.343052.

Entonces, se infiere que la mayoria de personas no sobrepasa más del 5 personas por familias.

Su mediana es de 4 personass. Además, al considerar el 1er cuartil, se infiere que el 25% de la población en estudio constituye a 0 carros por hogar, mientras que, el 3er cuartil que representa el 75% es de 1, con una desviación estándar de 2.343052.

Entonces, se infiere que la mayoria de personas no sobrepasa de un auto, por lo que la población posiblemente se transporte con el servicio público de buses. Entonces, hablando de lo socio económico la población es de nivel bajo y medio.

#Análisis visual de datos

#Diagrama de barras de las variables que influyen en la alimentación

library(ggplot2)
grafico_1 = ggplot(BASE,aes(x= P35))+
  geom_bar(stat="count", width=0.7, fill="skyblue")+
  theme_minimal() +   geom_text(aes(label = ..count..), stat="count" )
print(grafico_1)
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretación

La población mayoritaria es la que sí consume arroz, con un total de 373 personas, mientras los que no consumen arroz son pocos con un total de 10 personas. Por lo que se infiere, que la población en cuestión de salud puede estar mal, ya que el exceso de arroz puede contribuir a un exceso de calorías y aumentar el riesgo de enfermedades crónicas como la obesidad, la diabetes y enfermedades cardíacas.

#Gráficas de dispersión para las variables que posiblemente influyan en la alimentación

Comparación de variables a “¿Consume usted arroz?”

Variable Cantidad de personas que conforman el hogar y ¿Cuál es la ocupación del Representante del hogar?

library(ggplot2)
ggplot(BASE, aes(P6,P32, colour = P35)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad personas que conforman el hogar - Ocupación", 
    x = "Cantidad de personas que conforman el hogar",
    y = "Ocupación del Representante del hogar"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

Interpretación

La relación entre ocupación y personas que conforman el hogar con respecto a la variable dicotómica ¿Consume usted arroz?“, se dicta que no existe relación, ya que el cargo en el trabajo no depende de la cantidad de personas en el hogar para que estas consuman o no arroz. Entonces, las variables no son dependientes a consumo de arroz.

Variable Cantidad de personas que conforman el hogar y Edad del encuestado

library(ggplot2)
ggplot(BASE, aes(P6,P3, colour = P35)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - Edad del encuestado", 
    x = "Cantidad de personas que conforman el hogar",
    y = "Edad del encuestado"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

Interpretación

La relación entre cantidad de personas que conforman el hogar y edad del encuestado con respecto a la variable dicotómica ¿Consume usted arroz?“, se dicta que no existe relación, ya que la cantidad de personas no depende de la edad para el consumen de arroz. Entonces, las variables no son dependientes a consumo de arroz.

Variable Cantidad de personas que conforman el hogar y ¿En qué cantón de la provincia de Chimborazo vive?

library(ggplot2)
ggplot(BASE, aes(P6,P2, colour = P35)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Cantidad de personas que conforman el hogar - ¿En qué cantón de la provincia de Chimborazo vive?", 
    x = "Cantidad de personas que conforman el hogar",
    y = "¿En qué cantón de la provincia de Chimborazo vive?"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

Interpretación

La relación entre cantidad de personas que conforman el hogar y el cantón de que pertenece con respecto a la variable dicotómica “¿Consume usted arroz?”, se dicta que posiblemente existe relación, ya que mientras el cantón es más grande (Desarrollado), y la cantidad de familias es más pequeña, la gente tiende a comer menos arroz, mientras, que más personas se encuentra en la famila en cantones rurales, la gente tiende a comer más arroz.

Variable Edad del encuestado y Sexo?

library(ggplot2)
ggplot(BASE, aes(P3,P4, colour = P35)) + 
  geom_point(size = 1.5, alpha = 0.7) + 
  labs(
    title = "Edad del encuestado - Sexo", 
    x = "Edad del encuestado",
    y = "Sexo"
  ) +
  theme_classic() + 
  theme(
    plot.title = element_text(size = 12, face = "bold"),
    axis.text = element_text(size = 10),
    legend.title = element_text(size=10)
)

Interpretación

La relación entre edad del encuestado y sexo con respecto a la variable dicotómica “¿Consume usted arroz?”, se dicta que no existe relación, ya que ser mujer u hombre y la edad no define el consumo de arroz.

#Gráficas de cajas para las variables que posiblemente influyan en la alimentación

Comparación de variables a “¿Consume usted arroz?”

Variable Consume usted arroz y Edad del encuestado

ggplot(BASE, aes(P35, P3, color = P35)) +
  geom_boxplot()

Interpretación

  • No

La relación entre la variable dicotómica “¿Consume usted arroz? y edad del encuestado, se dicta que el nivel No el 25% de la población, es decir, el 1er cuartil es de 20 años, su mediana y media es aproximadamente de 22 años.

También el 3er cuartil se acerca a los 33 años, por lo que, el 75% de las personas en estudio se encuentran en la etapa de adultez, por lo que son personas con sufieciente criterio para responder las diferentes preguntas. Aunque con el máximo se verifica que efectivamente se trata de personas ya adultas, dónde la máxima edad de que no consumen arroz es de 35 años aproximadamente.

Además, existen 2 datos atípicos, dónde está cercano a los 60 años, por lo aquellas personas en su edad mayor(60 años o más) no consumen arroz.

Por lo que se infiere que muy pocas personas se cuidan en el consumo de arroz a edad temprana, e incluso en los datos atípicos se nota que sólo 2 personas en edad avanzada tiene aquel cuidado.

Mientras, en el nivel el 25% de la población, es decir, el 1er cuartil es de 28 años, su mediana y media es aproximadamente de 37 años.

También el 3er cuartil se acerca a los 48 años, por lo que, el 75% de las personas en estudio se encuentran en la etapa de adultez. Aunque con el máximo se verifica que efectivamente se trata de personas ya adultas, dónde la máxima edad de que consumen arroz es de 73 años aproximadamente.

Por último, existen 3 datos atípicos, dónde está cercano a los 80 años, por lo aquellas personas en su edad mayor(60 años o más) consumen arroz.

Por lo que, la población mayoritaria son los que no consumen arroz, verficando que mientras más edad, las personas dejan de consumir arroz.

Variable Consume usted arroz y Cantidad de personas que conforman el hogar

ggplot(BASE, aes(P35, P6 , color = P35)) +
  geom_boxplot()

Interpretación

La relación entre la variable dicotómica “¿Consume usted arroz? y Cantidad de personas que conforman el hogar, se dicta que el nivel el 25% de la población, es decir, el 1er cuartil es de 3 personas, su mediana y media es aproximadamente de 4.

También el 3er cuartil se acerca a 6, por lo que, el 75% de las personas en estudio, consume arroz a pesar de ser grande la familia, su máximo es de 7.

  • No

Mientras, en el nivel no el 25% de la población, es decir, el 1er cuartil es aproximadamente de 4(3.5), su mediana y media es aproximadamente de 4, es decir, igual al nivel sí.

También el 3er cuartil es 5, por lo que, el 75% de las personas en estudio de los que no consumen arroz es menor que los que consumen.

Por último, existen 2 datos atípicos, dónde está cercano a las 10 personas.

Entonces, se infiere que la cantidad de personas en hogar en el consumos de arroz, los niveles sí y no se parecen en los datos.

GRAFICO MULTIVARIANTE

#install.packages("GGally")
library(GGally)
ggpairs(BASE[, clases == "numeric"])+ theme_bw()

INTERPRETACIÓN

La variable cantidad de personas que conforman el hogar y edad del encuestado presenta una correlación de 0.035 , por ende la relación entre las variables no es tan buena, ya que esta en escala de quintiles tiene una correlación muy baja.

Incluso en la gráfica de puntos presenta que la cantidad de personas por hogar no sobrepasa de 10 personas, exceptuando un dato atípico. Por lo que, su gráfico presenta una curva asimétrica con la cola hacia la derecha.

La variable cantidad de personas que conforman el hogar y cantidad de vehículos exclusivo para el hogar presenta una correlación significativa de 0.122, por ende la relación de las variables es mejor que la anterior, sin embargo, en escala de quintiles sigue siendo muy baja.

La variable cantidad de vehículos por hogar y edad del encuestado presenta una correlación negativa de -0.003, por lo que la correlación es inversa, sin embargo, en escala de quintiles sigue siendo muy baja con respecto a las otras variables.

Escalamiento de las variables

Divideremos el conjunto completo de individuos en dos partes, uno para entrenar el modelo, que contienen el 80% d elos individuos y otra para validarlo que contiene el resto. Esto es así porque si valoramos el modelo con las mismas observaciones que usamos para ajustarlo, la bondad del ajuste quedará sobrevalorada.

Antes de ajustar cualquier modelo, es conveniente escalar las variables numériccas y tenemos que reacondicionar las variables categóricas convirtiéndolas en variables ficticias y usando la primera o la última categoría como comparación.

#Escalamiento de las variables numéricas

BASE[, clases == "numeric"] = scale(BASE[, clases == "numeric"])

#Conversión de las variables cualitativas categóricas en variables ficticias Las variables categóricas aparecen con 0 y 1

##Modelos de predicción de la variable binaria

X= model.matrix(P35 ~. , data = BASE)
head(X)
##   (Intercept) P1Cacha P1Calpi P1Chambo P1Chunchi P1Colta P1Cubijíes P1Cumanda
## 1           1       0       0        0         0       0          0         0
## 2           1       0       0        0         0       0          0         0
## 3           1       0       0        0         0       0          0         0
## 4           1       0       0        0         0       0          0         0
## 5           1       0       0        0         0       0          0         0
## 6           1       0       0        0         0       0          0         0
##   P1Flores P1Guamote P1Guano P1Licán P1Licto P1Lizarzaburu P1Maldonado
## 1        0         0       0       0       0             0           0
## 2        0         0       0       0       0             0           0
## 3        0         0       0       0       0             0           0
## 4        0         0       0       0       0             0           0
## 5        0         0       0       0       0             0           0
## 6        0         0       0       0       0             0           0
##   P1Pallatanga P1Penipe P1Pungalá P1Punín P1Quimiag P1San Juan P1San Luis
## 1            0        0         0       0         0          0          0
## 2            0        0         0       0         0          0          0
## 3            0        0         0       0         0          0          0
## 4            0        0         0       0         0          0          0
## 5            0        0         0       0         0          0          0
## 6            0        0         0       0         0          0          0
##   P1Velasco P1Veloz P1Yaruquíes P2Chambo P2Chunchi P2Colta P2Cumanda P2Guamote
## 1         1       0           0        0         0       0         0         0
## 2         1       0           0        0         0       0         0         0
## 3         0       0           1        0         0       0         0         0
## 4         1       0           0        0         0       0         0         0
## 5         0       1           0        0         0       0         0         0
## 6         0       1           0        0         0       0         0         0
##   P2Guano P2Pallatanga P2Penipe P2Riobamba         P3 P4Femenino P5Divorciado
## 1       0            0        0          1  1.4185412          1            0
## 2       0            0        0          1 -0.7269160          1            0
## 3       0            0        0          1  0.1312669          1            0
## 4       0            0        0          1 -1.6566141          1            0
## 5       0            0        0          1 -1.0844922          1            0
## 6       0            0        0          1  0.7033888          1            0
##   P5Otro P5Soltero P5Viudo         P6 P7Otros parientes
## 1      0         0       0  0.7176377                 0
## 2      0         0       0 -0.5627438                 0
## 3      0         0       0 -0.1359500                 0
## 4      0         1       0 -0.1359500                 0
## 5      0         1       0  0.7176377                 0
## 6      0         0       0  0.2908438                 0
##   P7Yo soy el representante del Hogar P7Hijo o hija P7Padres o suegros
## 1                                   0             0                  0
## 2                                   0             0                  0
## 3                                   0             0                  0
## 4                                   0             0                  1
## 5                                   0             0                  1
## 6                                   0             0                  0
##   P7Otros no parientes P7Yerno o nuera P8Departamento en casa o edificio
## 1                    1               0                                 0
## 2                    1               0                                 0
## 3                    1               0                                 0
## 4                    0               0                                 0
## 5                    0               0                                 0
## 6                    1               0                                 0
##   P8Suite de lujo P8Cuarto(s) en casa de inquilinato  P8Choza/Covacha/Otro
## 1               0                                   0                    0
## 2               0                                   1                    0
## 3               0                                   0                    0
## 4               0                                   0                    0
## 5               0                                   1                    0
## 6               0                                   0                    0
##   P8Rancho P8 Mediagua P9 Cerámica, baldosa, vinil o marmetón
## 1        0           0                                      0
## 2        0           0                                      0
## 3        0           0                                      0
## 4        0           0                                      0
## 5        0           0                                      0
## 6        0           0                                      0
##   P9Tabla sin tratar P9Tierra/ Caña/ Otros materiales P9Ladrillo o cemento
## 1                  0                                0                    1
## 2                  1                                0                    0
## 3                  0                                0                    1
## 4                  0                                0                    1
## 5                  0                                0                    1
## 6                  0                                0                    1
##   P10Caña no revestida/ Otros materiales P10Ladrillo o bloque P10Hormigón
## 1                                      0                    0           0
## 2                                      0                    0           0
## 3                                      0                    0           0
## 4                                      1                    0           0
## 5                                      0                    0           1
## 6                                      1                    0           0
##   P10 Caña revestida o bahareque/Madera
## 1                                     0
## 2                                     0
## 3                                     0
## 4                                     0
## 5                                     0
## 6                                     0
##   P11Tiene 2 cuartos de baño exclusivos con ducha
## 1                                               0
## 2                                               0
## 3                                               0
## 4                                               1
## 5                                               1
## 6                                               0
##   P11Tiene 1 cuarto de baño exclusivo con ducha 
## 1                                              0
## 2                                              0
## 3                                              1
## 4                                              0
## 5                                              0
## 6                                              1
##   P11Tiene 3 o más cuartos de baño exclusivos con ducha
## 1                                                     1
## 2                                                     1
## 3                                                     0
## 4                                                     0
## 5                                                     0
## 6                                                     0
##   P12Conectado a pozo séptico
## 1                           0
## 2                           0
## 3                           0
## 4                           0
## 5                           0
## 6                           0
##   P12Tiene 1 cuarto de baño exclusivo con ducha Letrina
## 1                                                     0
## 2                                                     0
## 3                                                     0
## 4                                                     0
## 5                                                     0
## 6                                                     0
##   P12Conectado a pozo ciego P12Conectado a red pública de alcantarillado
## 1                         1                                            0
## 2                         1                                            0
## 3                         1                                            0
## 4                         1                                            0
## 5                         0                                            1
## 6                         1                                            0
##   P12Sin Marca P13Sí P14Sí P15Sí P16Tiene 3 celulares P16Tiene 1 celular
## 1            0     1     1     1                    0                  0
## 2            0     1     1     1                    0                  1
## 3            0     1     0     1                    0                  0
## 4            0     1     1     1                    0                  0
## 5            0     1     1     1                    0                  1
## 6            0     1     1     1                    0                  0
##   P16Tiene 4 ó más celulares P16Tiene 2 celulares P17Sí P18Sí P19Sí P20Sí P21Sí
## 1                          0                    1     1     1     1     1     1
## 2                          0                    0     1     0     1     1     1
## 3                          1                    0     1     1     1     0     1
## 4                          1                    0     1     1     1     0     1
## 5                          0                    0     1     1     1     1     1
## 6                          1                    0     1     1     1     1     1
##   P22Tiene 3 ó más TV a color  P22Tiene 1 TV a color  P22Tiene 2 TV a color 
## 1                            0                      0                      1
## 2                            1                      0                      0
## 3                            1                      0                      0
## 4                            0                      1                      0
## 5                            0                      0                      1
## 6                            0                      1                      0
##          P23 P24Sí P25Sí P26Sí P27Sí P28Sí P29 Empleados de oficina
## 1  1.7539841     1     1     1     1     1                        0
## 2 -0.8548544     1     1     1     1     1                        0
## 3 -0.8548544     1     1     1     1     0                        1
## 4  1.7539841     1     1     1     1     1                        0
## 5  1.7539841     1     0     0     1     1                        0
## 6  0.4495649     1     1     1     1     1                        0
##   P29Fuerzas Armadas P29Inactivos  P29 Oficiales operarios y artesanos
## 1                  0             0                                   0
## 2                  0             0                                   0
## 3                  0             0                                   0
## 4                  1             0                                   0
## 5                  0             0                                   0
## 6                  0             0                                   0
##   P29 Operadores de instalaciones y máquinas
## 1                                          0
## 2                                          0
## 3                                          0
## 4                                          0
## 5                                          1
## 6                                          0
##   P29Personal directivo de la Administración Pública y de empresas
## 1                                                                0
## 2                                                                1
## 3                                                                0
## 4                                                                0
## 5                                                                0
## 6                                                                0
##   P29 Profesionales científicos e intelectuales
## 1                                             0
## 2                                             0
## 3                                             0
## 4                                             0
## 5                                             0
## 6                                             0
##   P29Técnicos y profesionales de nivel medio
## 1                                          0
## 2                                          0
## 3                                          0
## 4                                          0
## 5                                          0
## 6                                          0
##   P29Trabajador calificados agropecuarios y pesqueros
## 1                                                   0
## 2                                                   0
## 3                                                   0
## 4                                                   0
## 5                                                   0
## 6                                                   0
##   P29Trabajador de los servicios y comerciantes P29Trabajadores no calificados
## 1                                             0                              0
## 2                                             0                              0
## 3                                             0                              0
## 4                                             0                              0
## 5                                             0                              0
## 6                                             0                              0
##   P30Hasta 3 años de educación superior (incompleta) P30Postgrado
## 1                                                  1            0
## 2                                                  1            0
## 3                                                  1            0
## 4                                                  1            0
## 5                                                  0            0
## 6                                                  1            0
##   P30Primaria completa  P30Primaria incompleta P30Secundaria completa 
## 1                     0                      0                       0
## 2                     0                      0                       0
## 3                     0                      0                       0
## 4                     0                      0                       0
## 5                     0                      0                       0
## 6                     0                      0                       0
##   P30Secundaria incompleta P30Sin estudios  P31Sí
## 1                        0                0     0
## 2                        0                0     1
## 3                        0                0     0
## 4                        0                0     0
## 5                        0                0     1
## 6                        0                0     1
##   P32Trabajador de los servicios y comerciantes
## 1                                             0
## 2                                             0
## 3                                             0
## 4                                             0
## 5                                             0
## 6                                             0
##   P32Oficiales operarios y artesanos
## 1                                  1
## 2                                  1
## 3                                  0
## 4                                  0
## 5                                  0
## 6                                  0
##   P32Profesionales científicos e intelectuales
## 1                                            0
## 2                                            0
## 3                                            0
## 4                                            0
## 5                                            0
## 6                                            0
##   P32Técnicos y profesionales de nivel medio P32Empleados de oficina
## 1                                          0                       0
## 2                                          0                       0
## 3                                          0                       0
## 4                                          1                       0
## 5                                          0                       0
## 6                                          0                       0
##   P32Operadores de instalaciones y máquinas P32Trabajadores no calificados
## 1                                         0                              0
## 2                                         0                              0
## 3                                         0                              0
## 4                                         0                              0
## 5                                         0                              1
## 6                                         0                              0
##   P32Personal directivo de la Administración Pública y de empresas 
## 1                                                                 0
## 2                                                                 0
## 3                                                                 0
## 4                                                                 0
## 5                                                                 0
## 6                                                                 0
##   P32Desempleado P32Trabajador calificados agropecuarios y pesqueros
## 1              0                                                   0
## 2              0                                                   0
## 3              1                                                   0
## 4              0                                                   0
## 5              0                                                   0
## 6              1                                                   0
##   P32Inactivos P33Medio Alto P33Medio Típico P33Medio Bajo P33Bajo
## 1            0             0               0             0       0
## 2            0             0               0             0       0
## 3            0             0               0             0       0
## 4            0             0               0             0       0
## 5            0             0               0             1       0
## 6            0             0               0             0       0
##   P34Sector privado P34Ninguno P36Sí P37Sí P38Sí
## 1                 0          1     1     1     1
## 2                 0          1     1     1     1
## 3                 0          1     1     1     1
## 4                 1          0     1     0     1
## 5                 0          1     1     0     1
## 6                 1          0     1     1     1

Semilla

cedula <- 1600734568
dia <- 09
año <- 2001

# semilla a trabajar
semilla_t <- cedula + dia + año
semilla_t <- semilla_t - 1600000000
semilla_t
[1] 736578

Muestra

tr <- round(nrow(BASE)*0.7)
set.seed(semilla_t)
muestra <- sample.int(nrow(BASE),tr)
Train.p1 <- BASE[muestra,]
Val.p1 <- BASE[-muestra,]

Ahora disponemos de un conjunto de entrenamiento Train.p1 y un conjunto de validación Val.p1

Predicción de que consume arroz sobre las variables que influyen.

Modelos de clasificación.

Regresión logística

Trataremos de modelar la probabilidad de ¿Consume usted arroz? positiva en función del resto de las variables.

El modelo logítisco

\[{p_i}= P\left({Y=1/X={x_1}} \right) = {{{e^{{\beta_0} + {\beta_1}{x_{i1}} + \ldots + {\beta_p}{X_{ip}}}}} \over {1+ { e^{{\beta_0} + {\beta_1}{X_{i1}} + \ldots + {\beta_p} {x_{ip}}}}}}\]

Se trata de un modelo lineal en el logit de la probabilidad Vamos ajustar primero el modelo desde el punto de vista estadístico para interpretar los parámetros.

\[{\rm{logit}}({p_i}) = {\beta_0} + {\beta_1}{x_{i1}} + \ldots + {\beta_P} {x_{ip}} \]

Modelo de Regresión

Se realiza el modelo de regresión lineal para la variable de interés ¿Consume usted arroz?.

Cabe recalcar que la columna \(P(>|z|)\) representa el representa el valor p asociado con el valor en la columna del valor z.

Si el valor p es menor que un cierto nivel de significancia (por ejemplo, α = 0,05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable de respuesta en el modelo.

\[Valor z = \frac{Estimación}{Error Estándar}\] \[Valor p=2∗(1−pnorm(valor z))\]

gfit1 <- glm(P35 ~., data=BASE, family = binomial)
summary(gfit1)

Call:
glm(formula = P35 ~ ., family = binomial, data = BASE)

Coefficients: (9 not defined because of singularities)
                                                                    Estimate
(Intercept)                                                        4.714e+01
P1Cacha                                                            2.286e+01
P1Calpi                                                            5.833e+00
P1Chambo                                                          -4.549e+00
P1Chunchi                                                          4.201e+01
P1Colta                                                           -7.112e+00
P1Cubijíes                                                        -4.069e+01
P1Cumanda                                                          2.251e+01
P1Flores                                                          -1.123e+02
P1Guamote                                                         -3.763e+00
P1Guano                                                           -5.668e+00
P1Licán                                                            7.622e+01
P1Licto                                                            1.449e+01
P1Lizarzaburu                                                      2.169e+01
P1Maldonado                                                        2.423e+01
P1Pallatanga                                                      -3.059e+01
P1Penipe                                                           4.045e+01
P1Pungalá                                                          5.554e-01
P1Punín                                                           -1.102e+01
P1Quimiag                                                          5.857e+00
P1San Juan                                                        -1.425e+01
P1San Luis                                                         3.264e+01
P1Velasco                                                          1.942e+01
P1Veloz                                                            2.429e-01
P1Yaruquíes                                                       -9.616e+00
P2Chambo                                                                  NA
P2Chunchi                                                                 NA
P2Colta                                                                   NA
P2Cumanda                                                                 NA
P2Guamote                                                                 NA
P2Guano                                                                   NA
P2Pallatanga                                                              NA
P2Penipe                                                                  NA
P2Riobamba                                                                NA
P3                                                                 1.490e+01
P4Femenino                                                        -6.218e-01
P5Divorciado                                                      -4.179e+00
P5Otro                                                            -5.613e+01
P5Soltero                                                         -4.015e-02
P5Viudo                                                           -4.600e+01
P6                                                                 1.110e+00
P7Otros parientes                                                  2.342e+01
P7Yo soy el representante del Hogar                               -1.032e+02
P7Hijo o hija                                                     -1.500e+01
P7Padres o suegros                                                -6.994e+00
P7Otros no parientes                                               1.939e+01
P8Departamento en casa o edificio                                 -5.456e+01
P8Suite de lujo                                                    1.088e+01
P8Cuarto(s) en casa de inquilinato                                 1.569e+01
P8Choza/Covacha/Otro                                               5.763e+00
P8Rancho                                                           9.409e+00
P8 Mediagua                                                        1.106e+02
P9 Cerámica, baldosa, vinil o marmetón                            -1.771e+01
P9Tabla sin tratar                                                 5.635e+00
P9Tierra/ Caña/ Otros materiales                                  -2.868e+00
P9Ladrillo o cemento                                               9.418e-01
P10Caña no revestida/ Otros materiales                            -2.950e+00
P10Ladrillo o bloque                                               6.753e+00
P10Hormigón                                                       -1.954e+01
P10 Caña revestida o bahareque/Madera                              1.949e+01
P11Tiene 2 cuartos de baño exclusivos con ducha                    2.118e+01
P11Tiene 1 cuarto de baño exclusivo con ducha                      1.538e+01
P11Tiene 3 o más cuartos de baño exclusivos con ducha             -3.198e+00
P12Conectado a pozo séptico                                       -2.821e+00
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina             -2.359e+01
P12Conectado a pozo ciego                                         -2.156e+01
P12Conectado a red pública de alcantarillado                      -1.364e+01
P12Sin Marca                                                      -9.730e+00
P13Sí                                                             -3.398e-01
P14Sí                                                             -1.122e+01
P15Sí                                                             -1.505e+00
P16Tiene 3 celulares                                               2.298e+01
P16Tiene 1 celular                                                 2.649e+01
P16Tiene 4 ó más celulares                                         2.282e+01
P16Tiene 2 celulares                                               2.043e+01
P17Sí                                                             -2.007e+01
P18Sí                                                              2.951e+01
P19Sí                                                             -8.549e+00
P20Sí                                                             -3.242e+00
P21Sí                                                              6.787e+00
P22Tiene 3 ó más TV a color                                       -1.144e+01
P22Tiene 1 TV a color                                             -6.822e+00
P22Tiene 2 TV a color                                             -2.257e+01
P23                                                               -3.390e+00
P24Sí                                                             -2.771e+00
P25Sí                                                             -6.643e+00
P26Sí                                                              7.156e+00
P27Sí                                                              1.072e+01
P28Sí                                                              3.840e+00
P29 Empleados de oficina                                           9.697e+00
P29Fuerzas Armadas                                                 1.900e+00
P29Inactivos                                                       1.980e+01
P29 Oficiales operarios y artesanos                                6.464e+00
P29 Operadores de instalaciones y máquinas                         5.912e+00
P29Personal directivo de la Administración Pública y de empresas   3.442e+01
P29 Profesionales científicos e intelectuales                     -2.275e+01
P30Hasta 3 años de educación superior (incompleta)                 2.523e-01
P31Sí                                                             -1.373e+01
P32Trabajador de los servicios y comerciantes                     -7.502e+00
P32Oficiales operarios y artesanos                                -7.937e+00
P32Profesionales científicos e intelectuales                      -4.587e+01
P32Técnicos y profesionales de nivel medio                         1.346e+00
P32Empleados de oficina                                            7.071e+00
P32Operadores de instalaciones y máquinas                         -2.497e+01
P32Trabajadores no calificados                                    -2.131e+01
P32Personal directivo de la Administración Pública y de empresas  -1.950e+00
P32Desempleado                                                    -1.523e+01
P32Trabajador calificados agropecuarios y pesqueros                6.826e-01
P33Medio Alto                                                     -6.669e+01
P33Medio Típico                                                   -5.143e+01
P33Medio Bajo                                                     -2.615e+01
P34Sector privado                                                 -1.043e+01
P34Ninguno                                                        -5.105e+00
P36Sí                                                             -4.149e+01
P37Sí                                                             -2.317e+01
P38Sí                                                              4.770e+01
                                                                  Std. Error
(Intercept)                                                        1.267e+06
P1Cacha                                                            8.900e+05
P1Calpi                                                            6.441e+05
P1Chambo                                                           1.014e+06
P1Chunchi                                                          1.312e+06
P1Colta                                                            7.423e+05
P1Cubijíes                                                         1.304e+06
P1Cumanda                                                          1.118e+06
P1Flores                                                           6.272e+05
P1Guamote                                                          8.122e+05
P1Guano                                                            8.864e+05
P1Licán                                                            5.503e+05
P1Licto                                                            1.326e+06
P1Lizarzaburu                                                      9.181e+05
P1Maldonado                                                        8.712e+05
P1Pallatanga                                                       1.054e+06
P1Penipe                                                           1.261e+06
P1Pungalá                                                          7.916e+05
P1Punín                                                            7.242e+05
P1Quimiag                                                          6.320e+05
P1San Juan                                                         8.720e+05
P1San Luis                                                         7.730e+05
P1Velasco                                                          9.539e+05
P1Veloz                                                            1.006e+06
P1Yaruquíes                                                        7.438e+05
P2Chambo                                                                  NA
P2Chunchi                                                                 NA
P2Colta                                                                   NA
P2Cumanda                                                                 NA
P2Guamote                                                                 NA
P2Guano                                                                   NA
P2Pallatanga                                                              NA
P2Penipe                                                                  NA
P2Riobamba                                                                NA
P3                                                                 9.958e+04
P4Femenino                                                         1.862e+05
P5Divorciado                                                       3.544e+05
P5Otro                                                             3.779e+05
P5Soltero                                                          2.678e+05
P5Viudo                                                            2.765e+05
P6                                                                 6.135e+04
P7Otros parientes                                                  2.567e+05
P7Yo soy el representante del Hogar                                6.807e+05
P7Hijo o hija                                                      3.603e+05
P7Padres o suegros                                                 5.190e+05
P7Otros no parientes                                               1.571e+05
P8Departamento en casa o edificio                                  1.109e+06
P8Suite de lujo                                                    3.773e+05
P8Cuarto(s) en casa de inquilinato                                 1.864e+05
P8Choza/Covacha/Otro                                               2.337e+05
P8Rancho                                                           4.746e+07
P8 Mediagua                                                        1.061e+06
P9 Cerámica, baldosa, vinil o marmetón                             1.066e+06
P9Tabla sin tratar                                                 8.633e+05
P9Tierra/ Caña/ Otros materiales                                   5.480e+05
P9Ladrillo o cemento                                               3.888e+05
P10Caña no revestida/ Otros materiales                             2.539e+05
P10Ladrillo o bloque                                               3.266e+05
P10Hormigón                                                        6.152e+05
P10 Caña revestida o bahareque/Madera                              6.331e+05
P11Tiene 2 cuartos de baño exclusivos con ducha                    4.290e+05
P11Tiene 1 cuarto de baño exclusivo con ducha                      6.374e+05
P11Tiene 3 o más cuartos de baño exclusivos con ducha              5.448e+05
P12Conectado a pozo séptico                                        5.520e+05
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina              4.978e+05
P12Conectado a pozo ciego                                          5.352e+05
P12Conectado a red pública de alcantarillado                       6.870e+05
P12Sin Marca                                                       9.469e+05
P13Sí                                                              2.719e+05
P14Sí                                                              1.510e+05
P15Sí                                                              2.547e+05
P16Tiene 3 celulares                                               3.982e+05
P16Tiene 1 celular                                                 3.591e+05
P16Tiene 4 ó más celulares                                         3.892e+05
P16Tiene 2 celulares                                               4.595e+05
P17Sí                                                              1.446e+05
P18Sí                                                              1.990e+05
P19Sí                                                              2.422e+05
P20Sí                                                              3.079e+05
P21Sí                                                              2.002e+05
P22Tiene 3 ó más TV a color                                        2.156e+05
P22Tiene 1 TV a color                                              1.653e+05
P22Tiene 2 TV a color                                              2.548e+05
P23                                                                8.941e+04
P24Sí                                                              2.601e+05
P25Sí                                                              2.219e+05
P26Sí                                                              1.981e+05
P27Sí                                                              2.919e+05
P28Sí                                                              2.067e+05
P29 Empleados de oficina                                           3.324e+05
P29Fuerzas Armadas                                                 4.164e+05
P29Inactivos                                                       3.402e+05
P29 Oficiales operarios y artesanos                                4.583e+05
P29 Operadores de instalaciones y máquinas                         2.723e+05
P29Personal directivo de la Administración Pública y de empresas   3.013e+05
P29 Profesionales científicos e intelectuales                      9.692e+05
P30Hasta 3 años de educación superior (incompleta)                 2.783e+05
P31Sí                                                              1.923e+05
P32Trabajador de los servicios y comerciantes                      5.862e+05
P32Oficiales operarios y artesanos                                 8.160e+05
P32Profesionales científicos e intelectuales                       6.077e+05
P32Técnicos y profesionales de nivel medio                         8.188e+05
P32Empleados de oficina                                            6.597e+05
P32Operadores de instalaciones y máquinas                          5.243e+05
P32Trabajadores no calificados                                     6.780e+05
P32Personal directivo de la Administración Pública y de empresas   4.264e+05
P32Desempleado                                                     3.759e+05
P32Trabajador calificados agropecuarios y pesqueros                7.771e+05
P33Medio Alto                                                      1.107e+06
P33Medio Típico                                                    3.832e+05
P33Medio Bajo                                                      2.817e+05
P34Sector privado                                                  3.216e+05
P34Ninguno                                                         2.556e+05
P36Sí                                                              2.726e+04
P37Sí                                                              2.159e+05
P38Sí                                                              1.520e+05
                                                                  z value
(Intercept)                                                         0.000
P1Cacha                                                             0.000
P1Calpi                                                             0.000
P1Chambo                                                            0.000
P1Chunchi                                                           0.000
P1Colta                                                             0.000
P1Cubijíes                                                          0.000
P1Cumanda                                                           0.000
P1Flores                                                            0.000
P1Guamote                                                           0.000
P1Guano                                                             0.000
P1Licán                                                             0.000
P1Licto                                                             0.000
P1Lizarzaburu                                                       0.000
P1Maldonado                                                         0.000
P1Pallatanga                                                        0.000
P1Penipe                                                            0.000
P1Pungalá                                                           0.000
P1Punín                                                             0.000
P1Quimiag                                                           0.000
P1San Juan                                                          0.000
P1San Luis                                                          0.000
P1Velasco                                                           0.000
P1Veloz                                                             0.000
P1Yaruquíes                                                         0.000
P2Chambo                                                               NA
P2Chunchi                                                              NA
P2Colta                                                                NA
P2Cumanda                                                              NA
P2Guamote                                                              NA
P2Guano                                                                NA
P2Pallatanga                                                           NA
P2Penipe                                                               NA
P2Riobamba                                                             NA
P3                                                                  0.000
P4Femenino                                                          0.000
P5Divorciado                                                        0.000
P5Otro                                                              0.000
P5Soltero                                                           0.000
P5Viudo                                                             0.000
P6                                                                  0.000
P7Otros parientes                                                   0.000
P7Yo soy el representante del Hogar                                 0.000
P7Hijo o hija                                                       0.000
P7Padres o suegros                                                  0.000
P7Otros no parientes                                                0.000
P8Departamento en casa o edificio                                   0.000
P8Suite de lujo                                                     0.000
P8Cuarto(s) en casa de inquilinato                                  0.000
P8Choza/Covacha/Otro                                                0.000
P8Rancho                                                            0.000
P8 Mediagua                                                         0.000
P9 Cerámica, baldosa, vinil o marmetón                              0.000
P9Tabla sin tratar                                                  0.000
P9Tierra/ Caña/ Otros materiales                                    0.000
P9Ladrillo o cemento                                                0.000
P10Caña no revestida/ Otros materiales                              0.000
P10Ladrillo o bloque                                                0.000
P10Hormigón                                                         0.000
P10 Caña revestida o bahareque/Madera                               0.000
P11Tiene 2 cuartos de baño exclusivos con ducha                     0.000
P11Tiene 1 cuarto de baño exclusivo con ducha                       0.000
P11Tiene 3 o más cuartos de baño exclusivos con ducha               0.000
P12Conectado a pozo séptico                                         0.000
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina               0.000
P12Conectado a pozo ciego                                           0.000
P12Conectado a red pública de alcantarillado                        0.000
P12Sin Marca                                                        0.000
P13Sí                                                               0.000
P14Sí                                                               0.000
P15Sí                                                               0.000
P16Tiene 3 celulares                                                0.000
P16Tiene 1 celular                                                  0.000
P16Tiene 4 ó más celulares                                          0.000
P16Tiene 2 celulares                                                0.000
P17Sí                                                               0.000
P18Sí                                                               0.000
P19Sí                                                               0.000
P20Sí                                                               0.000
P21Sí                                                               0.000
P22Tiene 3 ó más TV a color                                         0.000
P22Tiene 1 TV a color                                               0.000
P22Tiene 2 TV a color                                               0.000
P23                                                                 0.000
P24Sí                                                               0.000
P25Sí                                                               0.000
P26Sí                                                               0.000
P27Sí                                                               0.000
P28Sí                                                               0.000
P29 Empleados de oficina                                            0.000
P29Fuerzas Armadas                                                  0.000
P29Inactivos                                                        0.000
P29 Oficiales operarios y artesanos                                 0.000
P29 Operadores de instalaciones y máquinas                          0.000
P29Personal directivo de la Administración Pública y de empresas    0.000
P29 Profesionales científicos e intelectuales                       0.000
P30Hasta 3 años de educación superior (incompleta)                  0.000
P31Sí                                                               0.000
P32Trabajador de los servicios y comerciantes                       0.000
P32Oficiales operarios y artesanos                                  0.000
P32Profesionales científicos e intelectuales                        0.000
P32Técnicos y profesionales de nivel medio                          0.000
P32Empleados de oficina                                             0.000
P32Operadores de instalaciones y máquinas                           0.000
P32Trabajadores no calificados                                      0.000
P32Personal directivo de la Administración Pública y de empresas    0.000
P32Desempleado                                                      0.000
P32Trabajador calificados agropecuarios y pesqueros                 0.000
P33Medio Alto                                                       0.000
P33Medio Típico                                                     0.000
P33Medio Bajo                                                       0.000
P34Sector privado                                                   0.000
P34Ninguno                                                          0.000
P36Sí                                                              -0.002
P37Sí                                                               0.000
P38Sí                                                               0.000
                                                                  Pr(>|z|)
(Intercept)                                                          1.000
P1Cacha                                                              1.000
P1Calpi                                                              1.000
P1Chambo                                                             1.000
P1Chunchi                                                            1.000
P1Colta                                                              1.000
P1Cubijíes                                                           1.000
P1Cumanda                                                            1.000
P1Flores                                                             1.000
P1Guamote                                                            1.000
P1Guano                                                              1.000
P1Licán                                                              1.000
P1Licto                                                              1.000
P1Lizarzaburu                                                        1.000
P1Maldonado                                                          1.000
P1Pallatanga                                                         1.000
P1Penipe                                                             1.000
P1Pungalá                                                            1.000
P1Punín                                                              1.000
P1Quimiag                                                            1.000
P1San Juan                                                           1.000
P1San Luis                                                           1.000
P1Velasco                                                            1.000
P1Veloz                                                              1.000
P1Yaruquíes                                                          1.000
P2Chambo                                                                NA
P2Chunchi                                                               NA
P2Colta                                                                 NA
P2Cumanda                                                               NA
P2Guamote                                                               NA
P2Guano                                                                 NA
P2Pallatanga                                                            NA
P2Penipe                                                                NA
P2Riobamba                                                              NA
P3                                                                   1.000
P4Femenino                                                           1.000
P5Divorciado                                                         1.000
P5Otro                                                               1.000
P5Soltero                                                            1.000
P5Viudo                                                              1.000
P6                                                                   1.000
P7Otros parientes                                                    1.000
P7Yo soy el representante del Hogar                                  1.000
P7Hijo o hija                                                        1.000
P7Padres o suegros                                                   1.000
P7Otros no parientes                                                 1.000
P8Departamento en casa o edificio                                    1.000
P8Suite de lujo                                                      1.000
P8Cuarto(s) en casa de inquilinato                                   1.000
P8Choza/Covacha/Otro                                                 1.000
P8Rancho                                                             1.000
P8 Mediagua                                                          1.000
P9 Cerámica, baldosa, vinil o marmetón                               1.000
P9Tabla sin tratar                                                   1.000
P9Tierra/ Caña/ Otros materiales                                     1.000
P9Ladrillo o cemento                                                 1.000
P10Caña no revestida/ Otros materiales                               1.000
P10Ladrillo o bloque                                                 1.000
P10Hormigón                                                          1.000
P10 Caña revestida o bahareque/Madera                                1.000
P11Tiene 2 cuartos de baño exclusivos con ducha                      1.000
P11Tiene 1 cuarto de baño exclusivo con ducha                        1.000
P11Tiene 3 o más cuartos de baño exclusivos con ducha                1.000
P12Conectado a pozo séptico                                          1.000
P12Tiene 1 cuarto de baño exclusivo con ducha Letrina                1.000
P12Conectado a pozo ciego                                            1.000
P12Conectado a red pública de alcantarillado                         1.000
P12Sin Marca                                                         1.000
P13Sí                                                                1.000
P14Sí                                                                1.000
P15Sí                                                                1.000
P16Tiene 3 celulares                                                 1.000
P16Tiene 1 celular                                                   1.000
P16Tiene 4 ó más celulares                                           1.000
P16Tiene 2 celulares                                                 1.000
P17Sí                                                                1.000
P18Sí                                                                1.000
P19Sí                                                                1.000
P20Sí                                                                1.000
P21Sí                                                                1.000
P22Tiene 3 ó más TV a color                                          1.000
P22Tiene 1 TV a color                                                1.000
P22Tiene 2 TV a color                                                1.000
P23                                                                  1.000
P24Sí                                                                1.000
P25Sí                                                                1.000
P26Sí                                                                1.000
P27Sí                                                                1.000
P28Sí                                                                1.000
P29 Empleados de oficina                                             1.000
P29Fuerzas Armadas                                                   1.000
P29Inactivos                                                         1.000
P29 Oficiales operarios y artesanos                                  1.000
P29 Operadores de instalaciones y máquinas                           1.000
P29Personal directivo de la Administración Pública y de empresas     1.000
P29 Profesionales científicos e intelectuales                        1.000
P30Hasta 3 años de educación superior (incompleta)                   1.000
P31Sí                                                                1.000
P32Trabajador de los servicios y comerciantes                        1.000
P32Oficiales operarios y artesanos                                   1.000
P32Profesionales científicos e intelectuales                         1.000
P32Técnicos y profesionales de nivel medio                           1.000
P32Empleados de oficina                                              1.000
P32Operadores de instalaciones y máquinas                            1.000
P32Trabajadores no calificados                                       1.000
P32Personal directivo de la Administración Pública y de empresas     1.000
P32Desempleado                                                       1.000
P32Trabajador calificados agropecuarios y pesqueros                  1.000
P33Medio Alto                                                        1.000
P33Medio Típico                                                      1.000
P33Medio Bajo                                                        1.000
P34Sector privado                                                    1.000
P34Ninguno                                                           1.000
P36Sí                                                                0.999
P37Sí                                                                1.000
P38Sí                                                                1.000

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 9.2646e+01  on 382  degrees of freedom
Residual deviance: 1.1072e-08  on 276  degrees of freedom
AIC: 214

Number of Fisher Scoring iterations: 25

Interpretación

En este estudio según el modelo de regresión lineal no tienen variables significativas,ya que todas tienen un p valor igual a 1, o algunos valores con NA.

#ANOVA Compara medias para ver si hay diferencias significativas en diferentes grupos.

Permite comparar modelos

gfit0 <- glm(P35 ~ 1, data = BASE,
             family = binomial)
anova (gfit0, gfit1, test = "Chisq")

Interpretación

Los resultados anova muestran que ninguno de los términos añadidos al modelo gfit0 es importante para explicar la variable dependiente. Sólo se obtiene la deviance igual 1.18173 (92.646 - 0.000) con 106 grados de libertad, que no es significativa, ya que p - valor = 0.81925

anova(gfit1, test = "Chisq")

Interpretación

Se obtiene que con la prueba chisq(Prueba chi cuadrada), aquí si hay variables significativas.

La primera es P5 “Estado civil” con un p valor de 0.01149. El valor p es menor que el nivel de significancia ( α=0.05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable respuesta, lo que sugiere que diferentes grupos de estado civil tienen diferentes probabilidades de ser consumidores de arroz. esto se evidencia en el asterisco al lado del valor p. 

La segunda es P12 “Tipo de servicio higienico que cuenta el hogar” con un p valor de 2e-16. El valor p es menor que el nivel de significancia ( α=0.05), esto indica que la variable predictiva tiene una relación estadísticamente significativa con la variable respuesta, esto se evidencia en el asteriscos al lado del valor p. ***

La tercera es P36 “Consume usted queso industrial” con un p valor de 0.09589, sin envalr el p no es muy mayor al nivel de significancia, por eso se indica con el punto(.).

NAIVE

library(e1071)
library(caret)
## Loading required package: lattice
fitbayes1 <-naiveBayes(P35~., data= Train.p1)
summary(fitbayes1)
##           Length Class  Mode     
## apriori    2     table  numeric  
## tables    37     -none- list     
## levels     2     -none- character
## isnumeric 37     -none- logical  
## call       4     -none- call
#Predict Output
predictedBayes1 = predict(fitbayes1, Val.p1)
matrizNB1 <- confusionMatrix(Val.p1$P35,predictedBayes1)
matrizNB1
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction  No  Sí
##         No   1   1
##         Sí   5 108
##                                           
##                Accuracy : 0.9478          
##                  95% CI : (0.8899, 0.9806)
##     No Information Rate : 0.9478          
##     P-Value [Acc > NIR] : 0.6063          
##                                           
##                   Kappa : 0.2299          
##                                           
##  Mcnemar's Test P-Value : 0.2207          
##                                           
##             Sensitivity : 0.166667        
##             Specificity : 0.990826        
##          Pos Pred Value : 0.500000        
##          Neg Pred Value : 0.955752        
##              Prevalence : 0.052174        
##          Detection Rate : 0.008696        
##    Detection Prevalence : 0.017391        
##       Balanced Accuracy : 0.578746        
##                                           
##        'Positive' Class : No              
## 

Interpretacion

Se obtiene que en la matriz de confusión los verdaderos negativos (valores estimados de forma correcta por el modelo), es decir, los que no comen arroz en este momento y la posibilidad de que no consuman arroz en un futuro es de 1 persona.

Para los falsos negativos, es decir las personas de consumen arroz en este momento, la posibilidad de que no consuman arroz en un futuro es de 1 persona.

Para los falsos positivos, es decir las personas que consumen arroz en este momento, la posibilidad de que no consumen a un futuro es de 5 personas.

Para los verdaderos positivos (valores estimados de forma correcta por el modelo), es decir las personas que consumen arroz en este momento, la posibilidad de que siga consumiendo arroz en un futuro es de 108 personas.

Esta predicción se verifica si es válido en el Accuracy, lo cual dicta que el modelo es moderado, ya que, su valor es 0.9478, lo cual es muy bueno. Este dato se corrobora en la No Information Rate (tasa de no información) con un 0.9478.

Sin embargo, en kkapa se observa que es de 0.2299, e incluso su valor p es no es tan pequeño(0.6063 ), lo cual se infiere que el modelo para esta predicción es no puede ser muy buena, por lo cual, el modelo no es tan confiable.

Escoger el mejor modelo

Al comparar entre el modelo de regresión logit y el modelo naiva bayes se infiere que el mejor modelo es de regresión, ya que al realizar la prueba anova con la prueba chi cuadrada se obtiene que variables son significativos e importantes para el consumo de arroz. Sin embargo, esta es más larga ya que primero se debe realizar la prueba con un modelo lineal generalizado, pero como vimos no es el más adecuado.