##Validación de los modelos de distribución ###Grupo: Chinawok ###Integrantes y porcentajes de participación: Ianice Aguilar (20%) Juan Berrospi (20%) DIana Cardenas (20%) Clever Apaza (20%) *Luis Soto(20%)

###Profesora: ####Claudia Antonini

###Curso: Investigación de Operaciones II

Variable Descripción
T1 Tiempo entre llegadas
T2 Tiempo en realizar pedido
T3 Tiempo cola de despacho
T4 Tiempo de atención de despacho
T5 Tiempo de espera en caja
T6 Tiempo de atención en caja
T7 Tiempo total

Objetivo: Para esta entrega analizaremos los datos recolectados, identificaremos las variables y su distribución respectivamente. Asimismo, se realizará la formulación y validación de los distintos de los modelos conceptuales.

Carga de datos: Se modificó la tabla de recolección de datos, para tener variables más espeíficas. Disponemos de 7 variables que nos servirán para validar las preguntas mencionadas en la entrega anterior.

1. Aproximación gráfica:

Se usó el comando Summary que nos permite realizar un Boxplot y de esta manera eliminaremos los datos atípicos. Generamos un histograma para poder observar la distribución de cada variable y poder estimarla al modelo conceptual más parecido. Asimismo, se realizó el diagrama de caja de cada variable para observar donde se encuentra su mayor concentración de datos, así como ver el nuevo ajuste de los datos.
2. Cálculo de parámetros de la distribución elegida:
Como cada variable tiene su respectiva distribución, esta necesita sus propios parámetros y su cálculo de cada uno de estos, se presentará en el desarrollo del informe.
3. Validación
Gracias al cálculo de los parámetros, se pudo generar una curva encima para cada histograma correspondiente a cada variable para comprobar que la distribución elegida es correcto.

###1. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS ENTRE LLEGADAS

Figura 1.1.1.
Resumen estadistico para el tiempo entre llegadas a las instlaciones CHINA WOK
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     7.0    41.0   102.0   122.8   178.0   401.0
Figura 1.1.2.
Boxplot para los tiempos entre llegadas
summary(vector1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   41.25  102.00  124.00  182.00  401.00

Nota.Interpretación:El valor mínimo corresponde a 0, ya que representa a la primera llegada del cliente que inicio su servicio con tiempo nulo. Se desacartaron 3 datos atípicos(mayores a 199 segundos):
Estos datos, permitieron reducir la media (x) de 121.9 a 89.09 segundos, que es el tiempo promedio de ingreso entre clientes para adquirir el servicio de comida rapida CHINA WOK.Ademas la mayor concentracioón de datos se encuentra entre [36-128] segundos, que representa respectivamente el cuartil Q1 y Q3.
## Loading required package: MASS
## Loading required package: survival
## Loading required package: npsurv
## Loading required package: lsei
Figura 1.2.1.
Gráfico de Cullen y Frey en R usando descdist para los tiempos de llegada entre clientes
Para determinar el modelo de distribución que puede seguir este conjunto de datos se creó el gráfico de Cullen and Frey que muestra a qué tipo de distribución los datos se asemejan más. Por lo que se generó 500 valores de arranque para determinar la ubicación de las observaciones (punto azul) y su aproximación a la distribucion mas cercana

## summary statistics
## ------
## min:  7   max:  401 
## median:  102 
## mean:  124 
## estimated sd:  100.9693 
## estimated skewness:  1.117958 
## estimated kurtosis:  3.862
Nota.Interpretación:El gráfico muestra la relación más próxima de la columna de datos, la cual señala que la distribución de los datos experimentales siguen la distribución exponencial, una weibull o una gamma, puesto que el conjunto de datos se encuentran cerca a las formas que indican dichas distribuciones.
####1.3. Histograma Experimental Se realizó un histograma de los tiempos entre llegadas, esto para conocer con qué frecuencia se repiten los datos de una determinada clase, para lo cual se subdivio en grupos de 20 para definir rangos entre llegas de 20 segundos aprox.
Figura 1.3.1.
plotdist(vector1, histo = TRUE, demp = TRUE, breaks=20)

Nota.Interpretación:Se decidió tomar intervalos de 50 segundos para el histograma mostrado, de un maximo de tiempo entre llegadas de 401 segundos. A simple vista se observa que el gráfico tiene cierto parecido a la función de densidad de una exponencial.Descartando los otros modelos porque su línea de tendencia no se ajustan a la distribución de la data generada.La pendiente creciente inicial de la Weibull y gamma nos indican que los tiempos entre llegadas es de 7 a menos de 50 segundos. Lo cual, en el comportamiento de la data inicial se considera al primer cliente con un valor de ingreso 0, y es a partir de este de donde se realiza el primer pivote para empezar a realizar la toma de tiempos entre llegadas.
denscomp(list(fc), legendtext = c("exponencial"),main="HISTOGRAMA DE LOS TIEMPOS ENTRE LLEGADAS",xlab = "Tiempo entre llegadas")
Nota.Interpretación:Ya definida de manera visual el ajuste de la función exponencial a la distribución de los tiempos entre llegadas, se puede apreciar que los historiogramas tienen un parecido.

####1.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos entre llegadas y el conjunto de los aleatorios generados para una exponencial con parámetro lambda; y otra para comparar los datos de los tiempos entre llegadas a un modelo exponencial con parámetro lambda.

gofstat(list(fa,fb,fc))
## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-gamma 3-mle-exp
## Kolmogorov-Smirnov statistic    0.08243860  0.09497752 0.1298692
## Cramer-von Mises statistic      0.06310429  0.07676787 0.1576059
## Anderson-Darling statistic      0.43172892  0.48306745 0.8696774
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-gamma 3-mle-exp
## Akaike's Information Criterion      768.8822    769.3202  770.2772
## Bayesian Information Criterion      773.2615    773.6996  772.4668
Nota.Interpretación:Para la comparación de los conjuntos de datos (tiempos entre llegadas y valores aleatorios de una exponencial con parámetro lambda) se obtiene un p valor de 0.1298692 (mayor a 0.05), por lo que no se rechaza la hipótesis nula y se puede decir que los conjuntos de datos tienen significativamente la misma distribución exponencial.Sin embargo, se tiene la comparación con una distribución weibull y gamma, que tienen p-value superiores a 0.05, donde la weibull es la que más se ajusta a la distribución de la data, pero no se considera para este diseño, por lo explicado anteriormente.
####1.5. Conclusiones
Después de haber realizado la limpieza y identificación de la distribución a la que más se asemeja la data. Se determina que el conjunto de datos del tiempo entre llegadas sigue un modelo exponencial con parámetro 0.0080645161 clientes/segundo.

————————————————————————————————————————————————————————————————

###2. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS QUE SE DEMORA UN CLIENTE EN REALIZAR SU PEDIDO

###**2.1 Análisis de concentración de datos Para determinar la distribución que un cliente demora en realizar su pedido. Primero se procedió a generar un resumen descriptivo mediante la función “summary”, para observar la tendencia inicial y ubicación de la media y mediana. Luego de limpiar, y haber reducido los datos atípicos se genera un cuadro de caja para poder encontrar las zonas de mayor concentración, contenidas en el Q1 y Q3. .
Figura 2.1.1.
Resumen estadístico para el tiempo que se demora un cliente en realizar su pedido
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    14.0    43.5    62.0    68.3    88.5   183.0

Sin datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   43.25   61.00   66.56   87.00  131.00
Nota.Interpretación:Se puede apreciar en el diagrama de caja que, la mayor concentración de datos se encuentra en intervalos de tiempo más cortos. Es decir, por lo general los clientes de la ChinaWok les toma poco tiempo realizar su pedido. Además,el tiempo de demora mínimo es de 14 segundos y el máximo es de 131 segundos en el diagrama de caja sin datos atípicos.

###**2.2 Paquete fitdistrplus El siguiente paso es realizar un observación de los datos en una Description Of An Empirical Distribution For Non-Censored Data. Esta fue utilizada para determinar el modelo de distribución que podría regir al conjunto de datos del tiempo de demora en pedir. Para su ejecución, se utilizó la librería fitdistrplus y la función descdist. Esta función fue aplicada para variables aleatorias continuas, discrete = FALSE, la cual se asume de manera automática al no ser incluida.

## summary statistics
## ------
## min:  14   max:  131 
## median:  61 
## mean:  66.56061 
## estimated sd:  30.14127 
## estimated skewness:  0.3908984 
## estimated kurtosis:  2.375606
Nota.Interpretación:El gráfico muestra la distribución del conjunto de datos del tiempo de demora en pedir, el modelo que lo rige es aparentemente una variable con distribución entre normal y uniforme.

###**2.3 Histograma Teórico

plotdist(vector2, histo =vector2, breaks=10, demp = TRUE)
## Warning in if (!histo & !demp) stop("one the arguments histo and demp must
## be put to TRUE"): la condición tiene longitud > 1 y sólo el primer elemento
## será usado
## Warning in if (histo) {: la condición tiene longitud > 1 y sólo el primer
## elemento será usado

Nota.Interpretación:De manera visual se puede apreciar que los historiogramas tienen un parecido.

Nota.Interpretación:Se realizó un histograma generando aleatoriamente sus valores y siguiendo los parámetros del tiempo de pedido. Comparando una distribución normal junto a una gamma y una weibull.

####2.4 Prueba de Kolmogorov-Smirnov

gofstat(list(fd,fe,fg))
## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Kolmogorov-Smirnov statistic    0.06008303  0.07589551  0.07844058
## Cramer-von Mises statistic      0.03419356  0.03476609  0.08330256
## Anderson-Darling statistic      0.23715418  0.26714182  0.57858834
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Akaike's Information Criterion      634.9650    635.9949    640.4144
## Bayesian Information Criterion      639.3443    640.3742    644.7937
Nota.Interpretación:Al realizar la prueba se obtiene que nuestra variable se asemeja más a una distribución normal con un valor de 0.0784 (mayor a 0.05).
denscomp(list(fd), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO EN REALIZAR EL PEDIDO",xlab = "Tiempo en realizar pedido")

## [1] 66.56061

\(\theta=Variance/Mean\)

## [1] 30.14127

###3. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE COLAS DE DEPACHO

###**3.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.

Considerando datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    95.0   149.5   192.0   217.4   260.0   576.0

Sin datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    95.0   145.0   191.0   208.6   255.0   405.0
Nota.Interpretación:Se puede apreciar en el diagrama de caja que, la mayor concentración de datos se encuenta en intervalos de tiempo más largos. Es decir, por lo general los clientes de la ChinaWok al realizar cola en el canal despacho. Además,el tiempo de demora mínimo es de 95 segundos y el máximo es de 405 segundos en el diagrama de caja sin datos atípicos.

###**3.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.

## summary statistics
## ------
## min:  95   max:  405 
## median:  191 
## mean:  208.6308 
## estimated sd:  72.51499 
## estimated skewness:  0.6516381 
## estimated kurtosis:  2.795461
Nota.Interpretación: Se puede observar que la mayor concentración de data se ubica cercano a lo que sería una distribución normal, uniforme y gamma.
plotdist(vector3, histo =TRUE, breaks=20 ,demp= TRUE)

###3.3 Histograma Teórico