Apellidos y nombres | Código |
---|---|
Ramirez Vasquez, Cinthia Isabel | 202020210 |
Rivera Olaza, Abel Jaime | 202120660 |
Principales factores que influyen en la compra de dentífricos en las personas de 18 a 30 años, en Lima Metropolitana durante el primer semestre del 2022.
Según la ingeniera civil de industrias Denisse Faúndez “La familia es la unidad social de mayor influencia en la conducta de sus miembros, particularmente en lo que tiene relación a conducta de consumo”(2018). En base a ello resulta factible estudiar dicha influencia en jóvenes universitarios en el caso de la compra de pasta dental.
Para organizar la realización del proyecto se elaboró un diagrama de Gantt, de manera que, se pueda apreciar graficamente las actividades planeadas y el tiempo que se dedicará a su elaboración. Se utilizó la aplicación Miro.com para la elaboración del diagrama:
Alberca, K., Jabo, E., Jiménez Y., Marrufo N., Rivas E & Sánchez W. (2018). Análisis y resultados del focus group para pastas dentales. Recuperado el 02 mayo 2022, de: link
Compañía peruana de estudios de mercado y opinión pública. (2007). Multimix de consumo productos de cuidado personal: crema dental, champú link
Almanza, I., Bravo, Y., Flores, G., Godinez, D & Trejo, N. (S. F). Cómo influye la publicidad en el uso de las pastas dentales link
En la actualidad, existen diversas marcas que se enfocan en la salud dental por lo que existe una gran variedad de opciones tanto en marcas nacionales como internacionales que cuentan con una fuerte presencia en el mercado peruano. Dentro de estas marcas tenemos a Colgate, Oral B, Kolynos, Binaca, Corega y Dento. En primer lugar, tenemos como marca nacional Dento que es una de las mejores opciones tanto en calidad y precio, puesto a que suele ser comprada por ser factible y estar al alcance de todos. En segundo lugar, tenemos a Colgate que es reconocida por ser una marca internacional y por el tipo de publicidad y marketing que ofrece. Asimismo, tenemos a Oral B que es competencia directa de Colgate, ambas marcas están muy bien posicionadas en el mercado y suelen tener un alto porcentaje de venta por lo que constantemente buscan mejorar. Por otro lado, tenemos a las marcas Kolynos, Binaca que son reconocidas en menor escala que Colgate y Oral B pero al igual que la marca Dento cuenta con precios más accesibles.
Preguntas | Hipótesis | Variables Clave |
---|---|---|
¿Existe una relación directa entre el precio de un dentrifico y el lugar de residencia de los consumidores para acseder a una marca de dentrifico? | Una marca de destrificos impone el precio de su marca según las zonas de venta | Costo / Residencia |
¿Se encuentra relación entre las zonas específicas de Lima Metropolitana y la adquisición de una marca determinada de dentrificos? | Las marcas de dentrifico se encuentran con mayor disponibilidad en lugares de alto desarrollo económico de la ciudad. | Residencia / Marca |
¿Cuál es el nivel de diferencia entre el género y la frecuencia de cepillado? | Existe una marcada diferencia entre la frecuencia de cepillado según el género del consumidor | Género / Cepillado dental diario |
¿El vivir con los padres puede determinar la marca de dentrificos usada por el cnsumidor encuestado? | Los consumidores con una relación más cercanas a sus padres, por tendencia adquieren un dentrifico por influencia. | Vive con padres / Marca |
¿Dónde se encuentran las mayores presentaciones de públicidad en Lima metropolitana son las que acceden en mayor numero a la marca promocionada? | Los medios publicitarios influyen en la decisión de compra de los consumidores. | Motivo / Residencia |
¿El vivir en un entorno familiar influye de manera indirecta en el consumo de una marca de dentrificos determinanda? | Los consumidores que pertenecen de manera directa al vinculo familiar no relaizan las compras de su marca de dentrifico, por lo que existe una influencia indirecta muy carcada respecto al uso de una marca especifica | Vive con padres / Compra personal |
Determinar las marcas de dentífricos que tuvieron un alto índice de consumo por parte de la población de Lima metropolitana.
Analizar las preferencias de nuestra población de Lima metropolitana al adquirir un dentífrico.
Identificar los tipos de dentífricos que prefieren las personas de 18 a 30 años en Lima metropolitana.
Determinar los factores que influyen en la selección de las marcas de dentífricos por parte de la población de Lima metropolitana.
Verificar a través de la data las variables que determinan la selección del uso de distintos dentífricos por parte de nuestra población en Lima metropolitana.
Clasificar las marcas de dentífrico más consumidas hasta los menos consumidos por parte de la población de 18 a 30 años en Lima metropolitana.
Identificar la frecuencia de limpieza bucal de nuestra población en Lima metropolitana.
Dentro de la recolección de datos optamos por realizar una encuesta en donde se obtuvo información detallada sobre nuestro tema. Asimismo, esta información es de gran ayuda debido a que nuestro proyecto depende directamente de esta data. En primer lugar, los métodos empleados para la recolección de datos fue distribuirla vía Whatsapp, subirla a un excel que nos brindó la organización SWE y pedirles presencialmente a los alumnos de UTEC que nos apoyaran completando la encuesta. Por otro lado, seleccionamos estos métodos ya que se nos hace más factible al momento de recolectar los datos debido a que no podríamos enviarla vía correo debido a que estaba prohibido. En segundo lugar, optamos por delimitar el tema para así abarcar un tema específico y que no sea generalizado. De igual manera, al haber escogido a personas que cumplan con las caracteristicas entre 18 a 30 y que sean residentes de lima metropolitano para poder tener variables convenientes para nuestro estudio.
La población del estudio se encuentra compuesta por 210 consumidores con edades entre los 18 y 30 años, residentes en Lima Metropolitana.
Nuestra muestra representativa es de 200 consumidores
Muestreo no aleatorio intensional, Mediante este método, nos encaragamos de elegir segun nuestros alcances a los sujetos que formaran parte de nuestra muestra.
Descripción | Variable | Tipo de Variable | Restricciones |
---|---|---|---|
Género con el que se identifica el consumidor | Género | Categorica ordinal | Masculino, Femenino |
Lugar donde recide el consumidor en Lima Metropolitana | Residencia | Categorica ordinal | Lima norte, este, moderna, sur, callao, antigua |
Situación dentro del ambito familiar actualmente | Vive con padres | Categorica ordinal | Si, No |
Situacion de compra de una marca de dentrificos | Compra personal | Categorica ordinal | Si, No |
Nivel de educación culminada por el consumidos | Instrucción | Categorica ordinal | Secundaria completa, Superior Universitario completo/incompleto, Superior Técnico completo/incompleto |
Marca de dentrifico utilizado actualmente por el consumidor | Marca | Categorica nominal | |
Años cumplidos de los consumidores | Edad | Numérica Discreta | Un real positivo entre 18 y 30 |
Frecuencia de veces con las que un consumidor de dentrificos se cepilla los dientes | Cepillado dental diario | Numérica Continua | Un real positivo |
Instalando y cargando librerias
list.of.packages <- c("readr", "knitr","expss","DT", "tidyr","flextable","moments","janitor","dplyr","ggplot2", "ggpubr","gmodels","stringr","modeest")
new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages)
library(stringr)
## Warning: package 'stringr' was built under R version 4.1.3
library(readr)
## Warning: package 'readr' was built under R version 4.1.3
library(knitr)
## Warning: package 'knitr' was built under R version 4.1.3
library(expss)
## Warning: package 'expss' was built under R version 4.1.3
## Loading required package: maditr
## Warning: package 'maditr' was built under R version 4.1.3
##
## To drop variable use NULL: let(mtcars, am = NULL) %>% head()
##
## Attaching package: 'maditr'
## The following object is masked from 'package:readr':
##
## cols
##
## Attaching package: 'expss'
## The following objects are masked from 'package:stringr':
##
## fixed, regex
library(DT)
## Warning: package 'DT' was built under R version 4.1.3
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.1.3
##
## Attaching package: 'tidyr'
## The following objects are masked from 'package:expss':
##
## contains, nest
library(flextable)
## Warning: package 'flextable' was built under R version 4.1.3
##
## Attaching package: 'flextable'
## The following object is masked from 'package:expss':
##
## set_caption
library(moments)
## Warning: package 'moments' was built under R version 4.1.3
library(janitor)
## Warning: package 'janitor' was built under R version 4.1.3
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.1.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:expss':
##
## compute, contains, na_if, recode, vars
## The following objects are masked from 'package:maditr':
##
## between, coalesce, first, last
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:expss':
##
## vars
library(ggpubr)
## Warning: package 'ggpubr' was built under R version 4.1.3
##
## Attaching package: 'ggpubr'
## The following objects are masked from 'package:flextable':
##
## border, font, rotate
## The following object is masked from 'package:expss':
##
## compare_means
theme_set(theme_pubr())
library(gmodels)
## Warning: package 'gmodels' was built under R version 4.1.3
library(modeest)
## Warning: package 'modeest' was built under R version 4.1.3
##
## Attaching package: 'modeest'
## The following object is masked from 'package:moments':
##
## skewness
Lectura de Data:
Encuesta <- read_csv("Encuestas.csv")
## Rows: 207 Columns: 12
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (9): Marca temporal, Género, Nivel de instrucción, Lugar de residencia, ...
## dbl (3): Edad (Años cumplidos) Ejemplo.- 18, ¿Cuál es el costo del dentífri...
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
Eliminacion de columna inecesaria
Encuesta %>% select(-1) -> Encuesta # Se elimina la columna que indica la hora de llenado de la encuesta
Renombrar las variables
Encuesta <- rename(Encuesta, Edad = 'Edad (Años cumplidos) Ejemplo.- 18', Nivel_de_instrucción = "Nivel de instrucción", Residencia = "Lugar de residencia", Vive_Con_Padres = "¿Actualmente vives con tus padres?", Marca_Dentrifico = "¿Qué dentífrico utilizas con más frecuencia?", Compra_Personal = "¿Realizas personalmente la compra de tu dentífrico?", Motivo = "¿Cuáles son los motivos que predominan al momento de decidir que dentífrico comprar?", Costo = "¿Cuál es el costo del dentífrico que usas?(ejemplo: S/. 1)", Cepillado_dental_diario = "¿Cuántas veces al día te cepillas los dientes?", Cambio_en_dentrifico = "¿En algún momento cambiaste o consideraste cambiar de dentífrico?" )
Verificando si se realizo el cambio de variable
names(Encuesta)
## [1] "Edad" "Género"
## [3] "Nivel_de_instrucción" "Residencia"
## [5] "Vive_Con_Padres" "Marca_Dentrifico"
## [7] "Compra_Personal" "Motivo"
## [9] "Costo" "Cepillado_dental_diario"
## [11] "Cambio_en_dentrifico"
Verificar que tipos de datos tenemos por variable
summary(Encuesta)
## Edad Género Nivel_de_instrucción Residencia
## Min. :18.00 Length:207 Length:207 Length:207
## 1st Qu.:18.00 Class :character Class :character Class :character
## Median :20.00 Mode :character Mode :character Mode :character
## Mean :20.06
## 3rd Qu.:21.00
## Max. :28.00
## Vive_Con_Padres Marca_Dentrifico Compra_Personal Motivo
## Length:207 Length:207 Length:207 Length:207
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Costo Cepillado_dental_diario Cambio_en_dentrifico
## Min. : 1.50 Min. : 1.000 Length:207
## 1st Qu.: 6.10 1st Qu.: 2.000 Class :character
## Median :12.00 Median : 2.000 Mode :character
## Mean :11.66 Mean : 2.454
## 3rd Qu.:16.00 3rd Qu.: 3.000
## Max. :75.00 Max. :16.000
Limpiando Datos
## Cambiamos una respuesta larga por una mas corta
Encuesta %>% mutate(Motivo =
ifelse(Motivo =="Identificar la crema dental con la que me siento comoda que es colgate total 12","Comodidad con el dentrífico", Motivo)) -> Encuesta
table(Encuesta$Motivo)
##
## Calidad Cantidad de fluoruro en el dentífrico
## 2 1
## Comodidad con el dentrífico Decisiones familiares
## 1 48
## Dureza El costo del dentífrico
## 1 39
## La propaganda y el marketing La recomendación de conocidos
## 44 65
## Odontólogo Sabor
## 1 5
Limpiando un dato incoherente en la variable motivo
filter(Encuesta, Encuesta$Motivo != "Dureza") -> Encuesta
Eliminamos un dato absurdo en la variable cepillado al dia
filter(Encuesta, Encuesta$Cepillado_dental_diario != "16") -> Encuesta
Eliminamos un dato absurdo en la variable costo
filter(Encuesta, Encuesta$Costo != 75 ) -> Encuesta
Cambiamos el nombre de un dato erróneo
Encuesta %>% mutate(Marca_Dentrifico =
ifelse(Marca_Dentrifico == "Colgate 12", "Colgate", Marca_Dentrifico
)) -> Encuesta
El único descriptor númerico para estas variables tenemos la moda.
De las diversas variables categóricas se eligieron las 3 más importantes:
cat('Moda en la marca de dentríficos: ',mfv(Encuesta$Marca_Dentrifico),'\n')
## Moda en la marca de dentríficos: Colgate
cat('Moda del lugar de residencia: ',mfv(Encuesta$Residencia),'\n')
## Moda del lugar de residencia: Lima moderna
cat('Moda del motivo por el cual compran un dentrífico: ',mfv(Encuesta$Motivo),'\n')
## Moda del motivo por el cual compran un dentrífico: La recomendación de conocidos
Para estas variables no hay restricción en el uso de descriptores numéricos.
boxplot(Encuesta$Edad, ylab = "Edades")
cat('Moda: ',mfv(Encuesta$Edad),'\n' )
## Moda: 18
cat('Mediana: ',median(Encuesta$Edad),'\n' )
## Mediana: 20
cat('Media: ',mean(Encuesta$Edad),'\n')
## Media: 20.06373
cat('Rango: ',range(Encuesta$Edad),'\n' )
## Rango: 18 28
cat('Rango intercuartil: ',round(IQR(Encuesta$Edad),2),'\n')
## Rango intercuartil: 3
Interpretación: Se observa que hay datos atípicos y en su distribución de datos presenta un sesgo a la derecha debido a que la media es mayor a la mediana.
boxplot(Encuesta$Costo, ylab = "Costo (S/)")
cat('Moda: ',mfv(Encuesta$Costo),'\n' )
## Moda: 16
cat('Mediana: ',median(Encuesta$Costo),'\n' )
## Mediana: 12
cat('Media: ',mean(Encuesta$Costo),'\n')
## Media: 11.30348
cat('Rango: ',range(Encuesta$Costo),'\n' )
## Rango: 1.5 25
cat('Rango intercuartil: ',round(IQR(Encuesta$Costo),2),'\n')
## Rango intercuartil: 10
Interpretación: No existe datos atípicos para esta variable y en su distribución de datos presenta un sesgo hacía la izquierda debido a que la mediana es mayor que la media.
barplot(table(Encuesta$Marca_Dentrifico),col=c("royalblue","seagreen","purple","grey"), main="Frecuencia de uso por marca de dentríficos",ylab="Frecuencia",xlab="Marcas de dentríficos")
Conclusión: Como podemos observar se ve que la marca que tiene un mayor índice de consumo en Lima Metroplitana es la marca Colgate, la segunda más consumida es la marca Oral B. Por último, la menos consumida es la marca Natura.
g = ggplot(Encuesta, aes(Residencia, fill=Motivo) ) +
labs(title = "Motivo de preferencia vs Zona de Lima Metropolitana")+ylab("") +
theme(plot.title = element_text(size = rel(2), colour = "black"))
g+geom_bar(position="dodge") + scale_fill_manual(values = alpha(c("orange", "blue", "red", "green", "purple","royalblue","seagreen","yellow","grey"), 1)) +
theme(axis.title.x = element_text(face="bold", size=10))
Conclusión: Se puede observar en el gráfico que las personas en Lima Moderna, Lima Antigua y Lima Sur las personas compran un dentrífico debido a la recomendación de sus conocidos. En Lima Este las peronas se ven influenciados por la propaganda y el marketing. Mientras que en Lima Norte es debido a decisones familiares y costo del dentrífico.
qplot(Encuesta$Marca_Dentrifico, Encuesta$Edad, data=Encuesta, geom=c("boxplot","jitter"), fill=Encuesta$Marca_Dentrifico, xlab = "Marca de dentrífico", ylab = "Edad", main = " Marca de dentrífico vs Edad")
## Warning: Use of `Encuesta$Marca_Dentrifico` is discouraged. Use
## `Marca_Dentrifico` instead.
## Warning: Use of `Encuesta$Edad` is discouraged. Use `Edad` instead.
## Warning: Use of `Encuesta$Marca_Dentrifico` is discouraged. Use `Marca_Dentrifico` instead.
## Use of `Encuesta$Marca_Dentrifico` is discouraged. Use `Marca_Dentrifico` instead.
## Warning: Use of `Encuesta$Edad` is discouraged. Use `Edad` instead.
## Warning: Use of `Encuesta$Marca_Dentrifico` is discouraged. Use
## `Marca_Dentrifico` instead.
Conclusión: Se observa en la gráfica que la marca Colgate es usada mayormente por las personas entre 18 a 20 años, se puede observar que presenta un sesgo hacia la derecha, además de presentar datos atípicos.
tabla2 <- table(Encuesta$Marca_Dentrifico,Encuesta$Género)
mosaicplot(tabla2, col = c(4:6), main = "Gráfico de mosaico de Género y Marca de dentrífico")
Conclusión: De acuerdo a la gráfica se puede observar que el género femenino prefiere comprar la marca Colgate y Oral B. Mientras que el género masculino prefiere la marca Dento y Binaca.
qplot(Encuesta$Residencia, Encuesta$Costo, data=Encuesta, geom=c("boxplot","jitter"), fill=Encuesta$Residencia)
## Warning: Use of `Encuesta$Residencia` is discouraged. Use `Residencia` instead.
## Warning: Use of `Encuesta$Costo` is discouraged. Use `Costo` instead.
## Warning: Use of `Encuesta$Residencia` is discouraged. Use `Residencia` instead.
## Use of `Encuesta$Residencia` is discouraged. Use `Residencia` instead.
## Warning: Use of `Encuesta$Costo` is discouraged. Use `Costo` instead.
## Warning: Use of `Encuesta$Residencia` is discouraged. Use `Residencia` instead.
Conclusión: Se puede observa en el gráfico que el costo en Lima Moderna es mayor. Mientras que en Lima Oeste el costo es menor pero hay una es mayor la desviación.
DF <- Encuesta
DF <- rename(DF, Marca = 'Marca_Dentrifico')
DF %>% mutate(Residencia =
ifelse(Residencia == "Callao", "CA: Callao",
ifelse(Residencia == "Lima antigua", "LA: Lima Antigua",
ifelse(Residencia == "Lima este", "LE: Lima Este",
ifelse(Residencia == "Lima moderna", "LM: Lima Moderna",
ifelse(Residencia == "Lima norte", "LN: Lima Norte",
ifelse(Residencia == "Lima sur", "LS: Lima Sur", Residencia
))))))) -> DF
DF %>% mutate(Marca =
ifelse(Marca == "Binaca", "BI: Binaca",
ifelse(Marca == "Colgate", "CO: Colgate",
ifelse(Marca == "Corega", "CR: Corega",
ifelse(Marca == "Deliplus", "DE: Deliplus",
ifelse(Marca == "Dento", "DN: Dento",
ifelse(Marca == "Kolynos", "KO: Kolynos",
ifelse(Marca == "Natura", "NT: Natura",
ifelse(Marca == "Oral B", "OB: Oral B", Marca
))))))))) -> DF
DF %>% mutate(Motivo =
ifelse(Motivo == "Calidad", "CL: Calidad",
ifelse(Motivo == "Cantidad de fluoruro en el dentífrico", "CFl: Cantidad de fluoruro en el dentífrico",
ifelse(Motivo == "Comodidad con el dentrífico", "CD: Comodidad con el dentrífico",
ifelse(Motivo == "Decisiones familiares", "DF: Decisiones familiares",
ifelse(Motivo == "El costo del dentífrico", "CtD: El costo del dentífrico",
ifelse(Motivo == "La propaganda y el marketing", "PM: La propaganda y el marketing",
ifelse(Motivo == "La recomendación de conocidos", "RD: La recomendación de conocidos",
ifelse(Motivo == "Odontólogo", "OD: Odontólogo",
ifelse(Motivo == "Sabor", "SA: Sabor", Motivo
)))))))))) -> DF
Objetivo: Determinar las probabilidades que determinan los motivos de compra y la marca.
DF %>% tabyl(Motivo,Marca,show_na = TRUE) %>% adorn_totals("col") %>%
adorn_totals("row") %>%
flextable() %>% autofit()
Motivo | BI: Binaca | CO: Colgate | CR: Corega | DE: Deliplus | DN: Dento | KO: Kolynos | NT: Natura | OB: Oral B | Total |
CD: Comodidad con el dentrífico | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
CFl: Cantidad de fluoruro en el dentífrico | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
CL: Calidad | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 2 |
CtD: El costo del dentífrico | 1 | 17 | 0 | 5 | 4 | 8 | 0 | 4 | 39 |
DF: Decisiones familiares | 0 | 14 | 4 | 0 | 8 | 6 | 1 | 14 | 47 |
OD: Odontólogo | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
PM: La propaganda y el marketing | 2 | 17 | 1 | 2 | 4 | 5 | 0 | 12 | 43 |
RD: La recomendación de conocidos | 4 | 28 | 3 | 7 | 5 | 3 | 0 | 15 | 65 |
SA: Sabor | 0 | 1 | 1 | 0 | 0 | 2 | 0 | 1 | 5 |
Total | 7 | 80 | 9 | 14 | 21 | 24 | 2 | 47 | 204 |
P(CO) = 80/204
round(80/204,4)
## [1] 0.3922
P(DF) = 47/204
round(47/204,4)
## [1] 0.2304
P(CL) + P(SA) = 2/204 + 5/204
round(2/204 + 5/204,4)
## [1] 0.0343
P(CO ∩ PM) = 17/204
round(17/204,4)
## [1] 0.0833
P(OB ∩ DF) + P(CO ∩ RD) = 14/204 +28/204
round(14/204 +28/204,4)
## [1] 0.2059
Objetivos: Determinar las probabilidades que determina la residencia para la compra de determinada marca.
DF %>% tabyl(Marca,Residencia,show_na = TRUE) %>% adorn_totals("col") %>%
adorn_totals("row") %>%
flextable() %>% autofit()
Marca | CA: Callao | LA: Lima Antigua | LE: Lima Este | LM: Lima Moderna | LN: Lima Norte | LS: Lima Sur | Total |
BI: Binaca | 3 | 0 | 1 | 2 | 1 | 0 | 7 |
CO: Colgate | 5 | 7 | 11 | 36 | 12 | 9 | 80 |
CR: Corega | 0 | 1 | 2 | 6 | 0 | 0 | 9 |
DE: Deliplus | 1 | 3 | 6 | 3 | 1 | 0 | 14 |
DN: Dento | 1 | 0 | 5 | 11 | 2 | 2 | 21 |
KO: Kolynos | 2 | 2 | 4 | 8 | 6 | 2 | 24 |
NT: Natura | 0 | 0 | 0 | 1 | 1 | 0 | 2 |
OB: Oral B | 1 | 3 | 8 | 19 | 7 | 9 | 47 |
Total | 13 | 16 | 37 | 86 | 30 | 22 | 204 |
round(14/204 + 21/204,4)
## [1] 0.1716
P(LM) = 86/204
round(86/204,4)
## [1] 0.4216
P(LN ∩ KO) = 6/204
round(6/204,4)
## [1] 0.0294
P(CO/LE) = P(CO ∩ LE)/ P(LE) = (17/204)/(37/204) = 17/37
round(17/37,4)
## [1] 0.4595
round(11/86 + 19/86,4)
## [1] 0.3488
Objetivo: Plantear un modelo probabilístico de acuerdo con un modelo de comportamiento de la variable motivo de acuerdo con la recomendación de compra.
Proceso de identificación:
La variable Motivo es una variable aleatoria discreta ya que puede tomar un número finito de valores numerables. Por lo cual se consideró realizar el modelo de distribución binomial, para ello la agrupación en 2 categorías para esta variable, tanto en éxito y fracaso. De los cuales tenemos:
Éxito: Personas que compran un dentrífico por la recomendación de un conocido. Fracaso: {Calidad, Cantidad de fluoruro en el dentífrico, Comodidad con el dentífrico, Decisiones familiares, El costo del dentífrico, La propaganda y el marketing, Odontólogo, Sabor}
Para realizar la selección de la muestreo se realizó lo siguiente selección aletoria para determinar la muestra a estudiar:
Selección aleatoria:
Muestra <- sample_n(Encuesta,size=10)
Muestra
ggplot(Muestra, aes(Motivo)) +
geom_bar(fill = "#0073C2FF") +
theme_pubclean()
p = La probabilidad de éxito
Recomendacion <- Encuesta %>% filter(Motivo == "La recomendación de conocidos")
(p = nrow(Recomendacion)/nrow(Encuesta))
## [1] 0.3186275
n= 10 p= 0.318627451 = 0.3286
X: N° de personas que compran un dentrífico por la recomendación de un conocido.
Del cual su rango estará definido por: Rx = {0,1,2,…,10}
A partir de ello podemos establecer el Modelo binomial:
X~B(n=10, p=0.3186)
plot(dbinom(x=0:10, size =20, prob = 0.32),lwd=4,type='h', xlab='x', ylab='Probabilidad', main = "Función de probabilidad binomial para la recomendaciones de dentrífico")
P(X>=5) = 0.06248243
1-pbinom(4,10,0.32)
## [1] 0.1866554
Esperanza = np
(Ex1 = 10*0.3186)
## [1] 3.186
A partir de la función de probabilidad par la variable Motivo se pudo observar que es correcto el análisis obtenido, ya que podemos obtener la probabilidad en un determinado recorrido con la función. Además la esperanza calculada si se aproxima a la cantidad de la muestra seleccionada.
Objetivo: Plantear un modelo probabilístico de acuerdo al modelo de comportamiento de la variable marca de dentrífico en Oral B.
Proceso de identificación:
La variable Motivo es una variable aleatoria con un tamaño de población finita(N), además presenta características mutuamente excluyentes. Por lo cual se consideró realizar el modelo de distribución hypergeométrico en el cual se estableció que la característica a estudiar es la marca Oral B.
N = Tamaño de la población M = Número de exitos pertenecientes a la categoría de éxito n = Tamaño de la muestra
N = 204 M = 47 n = 20
OralB <- Encuesta %>% filter(Marca_Dentrifico == "Oral B")
nrow(OralB)
## [1] 47
# Muestra aleatoria simple
Muestra <- sample_n(Encuesta,size=20)
Muestra
X: N° de personas que compran la marca de dentrífico Oral B
Del cual su rango estará definido por: Rx = {0,1,2,…,20}
A partir de ello podemos establecer el Modelo hipergeométrico: X~H(N=204,M=47,n=20)
plot(dhyper(x=0:20,m=47,n=157,k=20),lwd=4,type='h', xlab='x', ylab='Probabilidad', main = "Función de probabilidad de las marca Oral B")
H(X>=10) = 0.001089863
1-phyper(10,47,157,20)
## [1] 0.001089863
Esperanza = (nM)/N = 5
(Ex2 = 20*47/204)
## [1] 4.607843
Al realizar una selección sin reposición para nuestra variable Marca, si se llego a obtener la función de probabilidad para esta distribución, ya que se pudo calcular sus respectivos parámetros. Además la esperanza para dicha distribución es la adecuada de acuerdo a la muestra seleccionada.
Objetivo: Detenerminar la probabilidades hasta obtener un primer exito para la variable residencia en Lima Moderna
Proceso de identificación:
La variable Residencia es una variable aleatoria discreta ya que puede tomar una determinada cantidad de valores numerables. Por lo cual se consideró realizar el modelo de distribución geométrica, para ello se agrupo en 2 categorías para esta variable, tanto en éxito y fracaso. De los cuales tenemos:
Éxito: La persona resida en Lima Moderna Fracaso: {Callao, Lima antigua, Lima este, Lima norte y Lima Sur}
p = Probabilidad de éxito para cada enayo
GeoResidencia <- Encuesta %>% filter(Residencia == "Lima moderna")
(p = nrow(GeoResidencia)/nrow(Encuesta))
## [1] 0.4215686
p= 0.42156863 = 0.4215
X: N° de personas pertenecientes a Lima Moderna
Del cual su rango estará definido por: Rx = {0,1,2,3,4,…,k}
A partir de ello podemos establecer el Modelo geométrico:
X~G(0.4215)
plot(dgeom(x=1:10,prob=0.4215),lwd=3,type='h', xlab='x', ylab='Probabilidad', main = "Función de probabilidad de las personas en Lima Metropolitana")
G(X=5) = 0.0472075
dgeom(4,0.4215)
## [1] 0.0472075
Esperanza = 1/p = 2
(Ex3 = 1/0.4215)
## [1] 2.372479
A partir de lo establecido en el objetivo y el planteo de la probabilidad, se puede notar que si se llego a obtener la función de probabilidad adecuada para nuestra variable Residencia. Ya que buscamos el primer éxito. Además podemos notar que la esperanza de obtenerla es luego de 2 ensayos.