##Validación de los modelos de distribución ###Grupo: Chinawok ###Integrantes y porcentajes de participación: Ianice Aguilar (20%) Juan Berrospi (20%) DIana Cardenas (20%) Clever Apaza (20%) *Luis Soto(20%)

###Profesora: ####Claudia Antonini

###Curso: Investigación de Operaciones II

Variable Descripción
T1 Tiempo entre llegadas
T2 Tiempo en realizar pedido
T3 Tiempo cola de despacho
T4 Tiempo de atención de despacho
T5 Tiempo de espera en caja
T6 Tiempo de atención en caja
T7 Tiempo total

Objetivo: Para esta entrega analizaremos los datos recolectados, identificaremos las variables y su distribución respectivamente. Asimismo, se realizará la formulación y validación de los distintos de los modelos conceptuales.

Carga de datos: Se modificó la tabla de recolección de datos, para tener variables más especificas. Disponemos de 7 variables que nos servirán para validar las preguntas mencionadas en la entrega anterior.

1. Aproximación gráfica:

Se usó el comando Summary que nos permite realizar un Boxplot y de esta manera eliminaremos los datos atípicos. Generamos un histograma para poder observar la distribución de cada variable y poder estimarla al modelo conceptual más parecido. Asimismo, se realizó el diagrama de caja de cada variable para observar donde se encuentra su mayor concentración de datos, asi como ver el nuevo ajuste de los datos.
2. Cálculo de parámetros de la distribución elegida:
Como cada variable tiene su respectiva distribución, esta necesita sus propios parámetros y su cálculo de cada uno de estos, se presentará en el desarrollo del informe.
3. Validación
Gracias al cálculo de los parámetros, se pudo generar una curva encima para cada histograma correspondiente a cada variable para comprobar que la distribución elegida es correcto.

###1. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS ENTRE LLEGADAS

Figura 1.1.1.
Resumen estadistico para el tiempo entre llegadas a las instlaciones CHINA WOK
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     7.0    41.0   102.0   122.8   178.0   401.0
Figura 1.1.2.
Boxplot para los tiempos entre llegadas
summary(vector1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   41.25  102.00  124.00  182.00  401.00

Nota.Interpretación:El valor mínimo corresponde a 0, ya que representa a la primera llegada del cliente que inicio su servicio con tiempo nulo. Se desacartaron 3 datos atipicos(mayores a 199 segundos):
Estos datos, permitieron reducir la media (x) de 121.9 a 89.09 segundos, que es el tiempo promedio de ingreso entre clientes para adquirir el servicio de comida rapida CHINA WOK.Ademas la mayor concetracion de datos se encutra entre [36-128] segundos, que representa respectivamente el cuartil Q1 y Q3.
## Loading required package: MASS
## Loading required package: survival
## Loading required package: npsurv
## Loading required package: lsei
Figura 1.2.1.
Gráfico de Cullen y Frey en R usando descdist para los tiempos de llegada entre clientes
Para determinar el modelo de distribución que puede seguir este conjunto de datos se creo el grafico de Cullen and Frey que muestra a qué tipo de distribución los datos se asemejan más. Por lo que se genero 500 valores de arranque para determinar la ubicación de las observaciones (punto azul) y su aproximacion a la distribucion mas cercana

## summary statistics
## ------
## min:  7   max:  401 
## median:  102 
## mean:  124 
## estimated sd:  100.9693 
## estimated skewness:  1.117958 
## estimated kurtosis:  3.862
Nota.Interpretación:El gráfico muestra la relación más próxima de la columna de datos, la cual señala que la distribución de los datos experimentales siguen la distribución exponencial, una weibull o una gamma, puesto que el conjunto de datos se encuentran cerca a las formas que indican dichas distribuciones.
####1.3. Histograma Experimental Se realizó un histograma de los tiempos entre llegadas, esto para conocer con qué frecuencia se repiten los datos de una determinada clase, para lo cual se subdivio en grupos de 20 para definir rangos entre llegas de 20 segundos aprox.
Figura 1.3.1.
plotdist(vector1, histo = TRUE, demp = TRUE, breaks=20)

Nota.Interpretación:Se decidió tomar intervalos de 50 segundos para el histograma mostrado, de un maximo de tiempo entre llegadas de 401 segundos. A simple vista se observa que el gráfico tiene cierto parecido a la función de densidad de una exponencial.Descartando los otros modelos porque su linea de tendencia no se ajustan a la distribución de la data generada.La pendiente creciente inicial de la Weibull y gamma nos indican que los tiempos entre llegadas es de 7 a menos de 50 segundos. Lo cual, en el comportamiento de la data inicial se considera al primer cliente con un valor de ingreso 0, y es a partir de este de donde se realiza el primer pivote para empezar a realizar la toma de tiempos entre llegadas.
denscomp(list(fc), legendtext = c("exponencial"),main="HISTOGRAMA DE LOS TIEMPOS ENTRE LLEGADAS",xlab = "Tiempo entre llegadas")
Nota.Interpretación:Ya definida de manera viual el ajuste de la funcion exponencial a la distribucion de los tiempos entre llegadas, se puede apreciar que los historiogramas tienen un parecido.

####1.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos entre llegadas y el conjunto de los aleatorios generados para una exponencial con parámetro lambda; y otra para comparar los datos de los tiempos entre llegadas a un modelo exponencial con parámetro lambda.

gofstat(list(fa,fb,fc))
## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-gamma 3-mle-exp
## Kolmogorov-Smirnov statistic    0.08243860  0.09497752 0.1298692
## Cramer-von Mises statistic      0.06310429  0.07676787 0.1576059
## Anderson-Darling statistic      0.43172892  0.48306745 0.8696774
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-gamma 3-mle-exp
## Akaike's Information Criterion      768.8822    769.3202  770.2772
## Bayesian Information Criterion      773.2615    773.6996  772.4668
Nota.Interpretación:Para la comparación de los conjuntos de datos (tiempos entre llegadas y valores aleatorios de una exponencial con parámetro lambda) se obtiene un p valor de 0.1298692 (mayor a 0.05), por lo que no se rechaza la hipótesis nula y se puede decir que los conjuntos de datos tienen significativamente la misma distribución exponencial.Sin embargo, se tiene la compracion con una distribucion weibull y gamma, que tienen p-value superiores a 0.05, donde la weibull es la que mas se ajusta a la distribucion de la data, pero no se considera para este diseño, por lo explicado anteriormente.
####1.5. Conclusiones
Despues de haber realizado la limpieza y identificacion de la distribucion a la que mas se asemeja la data. Se determina que el conjunto de datos del tiempo entre llegadas sigue un modelo exponencial con parámetro 0.0080645161 clientes/segundo.

————————————————————————————————————————————————————————————————

###2. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS QUE SE DEMORA UN CLIENTE EN REALIZAR SU PEDIDO

###**2.1 Analisis de concentración de datos Para determinar la distribución que un cliente demora en realizar su pedido. Primero se procedio a generar un resumen descriptivo mediante la función “summary”, para observar la tendencia inicial y ubicación de la media y mediana. Luego de limpiar, y haber reducido los datos atipicos se genera un cuadro de caja para poder encontrar las zonas de mayor concentración, contenidaS en el Q1 y Q3. .
Figura 2.1.1.
Resumen estadistico para el tiempo que se demora un cliente en realizar su pedido
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    14.0    43.5    62.0    68.3    88.5   183.0

Sin datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   43.25   61.00   66.56   87.00  131.00
Nota.Interpretación:Se puede apreciar en el diagrama de caja que, la mayor concentración de datos se encuenta en intervalos de tiempo más cortos. Es decir, por lo general los clientes de la ChinaWok les toma poco tiempo realizar su pedido. Además,el tiempo de demora mínimo es de 14 segundos y el máximo es de 131 segundos en el diagrama de caja sin datos atípicos.

###**2.2 Paquete fitdistrplus El siguiente paso es realizar un observación de los datos en una Description Of An Empirical Distribution For Non-Censored Data.Esta fue utilizada para determinar el modelo de distribución que podría regir al conjunto de datos del tiempo de demora en pedir. Para su ejecución, se utilizó la librería fitdistrplus y la función descdist. Esta función fue aplicada para variables aleatorias continuas, discrete = FALSE, la cual se asume de manera automática al no ser incluida.

## summary statistics
## ------
## min:  14   max:  131 
## median:  61 
## mean:  66.56061 
## estimated sd:  30.14127 
## estimated skewness:  0.3908984 
## estimated kurtosis:  2.375606
Nota.Interpretación:El gráfico muestra la distribución del conjunto de datos del tiempo de demora en pedir, el modelo que lo rige es aparentemente una variable con distribución Weibull; ya que se encuentra entre una gamma y normal.

###**2.3 Histograma Teórico

plotdist(vector2, histo =vector2, breaks=10, demp = TRUE)
## Warning in if (!histo & !demp) stop("one the arguments histo and demp must
## be put to TRUE"): la condición tiene longitud > 1 y sólo el primer elemento
## será usado
## Warning in if (histo) {: la condición tiene longitud > 1 y sólo el primer
## elemento será usado

Nota.Interpretación:De manera viual se puede apreciar que los historiogramas tienen un parecido.

Nota.Interpretación:Se realizó un histograma generando aleatoriamente sus valores y siguiendo los parámetros del tiempo de espera en la cola de pago. Comparando una distribución normal junto a una gamma y una normal.

####2.4 Prueba de Kolmogorov-Smirnov

gofstat(list(fd,fe,fg))
## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Kolmogorov-Smirnov statistic    0.06008303  0.07589551  0.07844058
## Cramer-von Mises statistic      0.03419356  0.03476609  0.08330256
## Anderson-Darling statistic      0.23715418  0.26714182  0.57858834
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Akaike's Information Criterion      634.9650    635.9949    640.4144
## Bayesian Information Criterion      639.3443    640.3742    644.7937

Nota.Interpretación:Al realizar la prueba se obtiene nuestra variable se asemeja más a una distribución normal con un valor de 0.06 (mayor a 0.05).Ademas de ser una distribución más conocida durante las clases.

denscomp(list(fd), legendtext = c("weibull"),main="HISTOGRAMA DEL TIEMPO EN REALIZAR EL PEDIDO",xlab = "Tiempo en realizar pedido")

Realizamos una prueba para comparar el conjunto de los tiempos en realizar pedido y una distribución weibull con parámetro lambda (λ) y el parametro de forma(k)

Nota.Interpretación: Los parametros para la distribucion weibull son parametro de forma (a) y el de escala (b) a:2.3966 b:75.27085

###3. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE COLAS DE DEPACHO

###**3.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.

Considerando datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    95.0   149.5   192.0   217.4   260.0   576.0

Sin datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    95.0   145.0   191.0   208.6   255.0   405.0
Nota.Interpretación:Se puede apreciar en el diagrama de caja que, la mayor concentración de datos se encuenta en intervalos de tiempo más largos. Es decir, por lo general los clientes de la ChinaWok al realizar cola en el canal despacho. Además,el tiempo de demora mínimo es de 95 segundos y el máximo es de 405 segundos en el diagrama de caja sin datos atípicos.

###**3.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.

## summary statistics
## ------
## min:  95   max:  405 
## median:  191 
## mean:  208.6308 
## estimated sd:  72.51499 
## estimated skewness:  0.6516381 
## estimated kurtosis:  2.795461
Nota.Interpretación:
plotdist(vector3, histo =TRUE, breaks=20 ,demp= TRUE)

###4.3 Histograma Teórico ####3.4. Prueba de Kolmogorov-Smirnov** Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos en cola de despacho.

gofstat(list(fh,fi,fj))
## Goodness-of-fit statistics
##                              1-mle-gamma 2-mle-logis 3-mle-norm
## Kolmogorov-Smirnov statistic  0.08995689  0.09289933  0.1180513
## Cramer-von Mises statistic    0.13708847  0.18150766  0.1922789
## Anderson-Darling statistic    0.74925314  1.15164977  1.1506182
## 
## Goodness-of-fit criteria
##                                1-mle-gamma 2-mle-logis 3-mle-norm
## Akaike's Information Criterion    736.7817    746.9395   744.3474
## Bayesian Information Criterion    741.1305    751.2883   748.6961
Nota.Interpretación:
denscomp(list(fh), legendtext = c("gamma"),main="HISTOGRAMA DEL TIEMPO EN REALIZAR EL PEDIDO",xlab = "Tiempo en cola de depacho")

La distribución gamma tiene dos parámetros: \(\{k,\theta\}\)

Y en R, estos parámetros son llamados: \({shape,scale}\) respectivamente.

Para hallarlos, utilizamos:

\(Mean=k*\theta\)

\(Variance=k*\theta^2\)

Reemplazando:

\(k=Mean^2/Variance\)

## [1] 8.277537

\(\theta=Variance/Mean\)

## [1] 25.20445
Nota.Interpretación:

###4. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ATENCION DE DESPACHO

###**4.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    63.0    94.5   110.0   108.5   124.5   141.0
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    63.0    94.0   110.0   107.5   124.0   134.0
Nota.Interpretación:Se puede apreciar en el diagrama de caja que, la mayor concentración de datos se encuenta en intervalos de tiempo más corto. Es decir, por lo general los clientes de la ChinaWok al realizar el despacho. Además,el tiempo de demora mínimo es de 63 segundos y el máximo es de 141 segundos en el diagrama de caja sin datos atípicos.

###**4.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.

## summary statistics
## ------
## min:  63   max:  141 
## median:  110 
## mean:  108.2576 
## estimated sd:  19.33217 
## estimated skewness:  -0.3995797 
## estimated kurtosis:  2.219631
Nota.Interpretación:El gráfico muestra la distribución del conjunto de datos del tiempo de demora en pedir, el modelo que lo rige es aparentemente una variable con distribución Weibull; ya que se encuentra entre una gamma y normal.Sin embargo, se acerca más a una distribución uniforme.
plotdist(vector4, histo =TRUE, breaks=20 ,demp= TRUE)
Nota.Interpretación:El gráfico muestra la distribución del conjunto de datos del tiempo de atención de despacho.

###**4.3 Histograma Teórico

## [1] 107.4923

\(\theta=Variance/Mean\)

## [1] 18.70505
Nota.Interpretación:El gráfico muestra la distribución del conjunto de datos de manera teórica del tiempo de atención de despacho.

####4.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos entre llegadas

gofstat(list(fk,fl,fm))
## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-unif 3-mle-norm
## Kolmogorov-Smirnov statistic     0.1224022  0.2238353  0.1213634
## Cramer-von Mises statistic       0.1564820  1.2593055  0.1824450
## Anderson-Darling statistic       0.9949659        Inf  1.1744878
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-unif 3-mle-norm
## Akaike's Information Criterion      563.0855         NA   568.1974
## Bayesian Information Criterion      567.4343         NA   572.5462
denscomp(list(fm), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO DE ATENCION DE DESPACHO",xlab = "Tiempo de atencion de despacho")
Nota.Interpretación:

###5. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ESPERA EN CAJA ###**5.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.

Considerando datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   42.50   64.00   69.54   92.50  163.00

Sin datos atípicos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   43.25   64.00   70.59   92.75  163.00
Nota.Interpretación:A partir de esta gráfica se puede observar que la mayor concentración de datos no atipicos se encuentra entre 0 y 163 segundos, y que hay varios datos atípicos (datos menores a 16 segundos).

###**5.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.

## summary statistics
## ------
## min:  16   max:  163 
## median:  64 
## mean:  70.59091 
## estimated sd:  35.3266 
## estimated skewness:  0.6215341 
## estimated kurtosis:  2.770328
Nota.Interpretación: En el gráfico el punto azul representa nuestra distribución y se puede apreciar que los modelos que más se aproximan son beta y gamma.Sin embargo, el modelo beta no se considerará para efectos prácticos. En cambio, usaremos el modelo gamma.
plotdist(vector5, histo =TRUE, breaks=10 ,demp= TRUE)

###**5.3 Histograma Teórico

Nota.Interpretación:

####5.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos de espera en caja.

gofstat(list(fo,fp,fq))
## Goodness-of-fit statistics
##                              1-mle-gamma 2-mle-lnorm 3-mle-norm
## Kolmogorov-Smirnov statistic  0.05452463  0.08922273  0.1127824
## Cramer-von Mises statistic    0.03596803  0.08269014  0.1298056
## Anderson-Darling statistic    0.25666276  0.52320352  0.8294638
## 
## Goodness-of-fit criteria
##                                1-mle-gamma 2-mle-lnorm 3-mle-norm
## Akaike's Information Criterion    652.1272    655.0243   660.8242
## Bayesian Information Criterion    656.5065    659.4037   665.2035

Nota.Interpretación:Al realizar la prueba se obtiene nuestra variable se asemeja más a una distribución normal conun valor de 0.05452463 (mayor a 0.05). Lo cual valida la distribución a la que se asemejaba de marea teórica.

denscomp(list(fo), legendtext = c("gamma"),main="HISTOGRAMA DEL TIEMPO DE ESPERA EN CAJA",xlab = "Tiempo de espera en CAJA")

La distribución gamma tiene dos parámetros: \(\{k,\theta\}\)

Y en R, estos parámetros son llamados: \({shape,scale}\) respectivamente.

Para hallarlos, utilizamos:

\(Mean=k*\theta\)

\(Variance=k*\theta^2\)

Reemplazando:

\(k=Mean^2/Variance\)

## [1] 3.99295

\(\theta=Variance/Mean\)

## [1] 17.67888

###6. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ATENCION EN CAJA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    78.0    97.0   125.0   124.0   138.5   260.0
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      78      96     125     120     137     170

## summary statistics
## ------
## min:  78   max:  170 
## median:  125 
## mean:  119.9692 
## estimated sd:  24.72977 
## estimated skewness:  -0.07253408 
## estimated kurtosis:  2.022422
plotdist(vector6, histo =TRUE, breaks=50 ,demp= TRUE)

gofstat(list(fr,fs,ft))
## Goodness-of-fit statistics
##                              1-mle-unif 2-mle-gamma 3-mle-norm
## Kolmogorov-Smirnov statistic  0.1351171   0.1288818  0.1042959
## Cramer-von Mises statistic    0.2603703   0.2060325  0.1421481
## Anderson-Darling statistic          Inf   1.2215985  0.9129128
## 
## Goodness-of-fit criteria
##                                1-mle-unif 2-mle-gamma 3-mle-norm
## Akaike's Information Criterion         NA    605.5313   604.4953
## Bayesian Information Criterion         NA    609.8801   608.8440
denscomp(list(ft), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO DE ATENCIÓN EN CAJA",xlab = "Tiempo de atencion enc caja")

## [1] 119.9692

\(\theta=Variance/Mean\)

## [1] 24.72977

###7. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS TOTAL EN EL SSITEMA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   376.0   519.5   571.0   587.7   647.5   849.0
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   376.0   515.0   562.0   580.4   643.0   785.0

## summary statistics
## ------
## min:  376   max:  785 
## median:  562 
## mean:  580.4462 
## estimated sd:  91.94428 
## estimated skewness:  0.3350722 
## estimated kurtosis:  2.760279
plotdist(vector7, histo =TRUE, breaks=50 ,demp= TRUE)

gofstat(list(fg,fn,fo,fp))
## Goodness-of-fit statistics
##                              1-mle-unif 2-mle-gamma 3-mle-norm 4-mle-lnorm
## Kolmogorov-Smirnov statistic  0.1605417  0.06836034 0.08780605  0.05817199
## Cramer-von Mises statistic    0.4789346  0.03480615 0.06354197  0.02732385
## Anderson-Darling statistic          Inf  0.25268326 0.44106342  0.20854236
## 
## Goodness-of-fit criteria
##                                1-mle-unif 2-mle-gamma 3-mle-norm
## Akaike's Information Criterion         NA    773.7561   775.2080
## Bayesian Information Criterion         NA    778.1049   779.5568
##                                4-mle-lnorm
## Akaike's Information Criterion    773.7517
## Bayesian Information Criterion    778.1005
denscomp(list(fo), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO TOTAL EN EL SISTEMA",xlab = "Tiempo TOTAL")

## [1] 580.4462

\(\theta=Variance/Mean\)

## [1] 91.94428

###Resumen:

Variable Descripción Distribución Parámetros
T1 Tiempo entre llegadas Exponencial \(\lambda=0.0080783 clientes/seg\)
T2 Tiempo en realizar pedido Weibull \(\a=2.3966\), \(\ b=75.27085\)
T3 Tiempo en cola de despacho Gamma \(k= 8.277537\), $=25.20445 $
T4 Tiempo de atencion de despacho Normal \(U=108.4776\), \(\des. est.=19.26951\)
T5 Tiempo de espera en caja Gamma \(k=3.99295\), \(\theta= 17.67888\)
T6 Tiempo de atencion en caja Normal \(u=119.9692\), \(\desest= 24.72977\)
T7 Tiempo total Normal \(u=580.4462\), \(\desestt.=91.94429\)