##Validación de los modelos de distribución ###Grupo: Chinawok ###Integrantes y porcentajes de participación: Ianice Aguilar (20%) Juan Berrospi (20%) DIana Cardenas (20%) Clever Apaza (20%) *Luis Soto(20%)
###Profesora: ####Claudia Antonini
###Curso: Investigación de Operaciones II
| Variable | Descripción |
|---|---|
| T1 | Tiempo entre llegadas |
| T2 | Tiempo en realizar pedido |
| T3 | Tiempo cola de despacho |
| T4 | Tiempo de atención de despacho |
| T5 | Tiempo de espera en caja |
| T6 | Tiempo de atención en caja |
| T7 | Tiempo total |
Objetivo: Para esta entrega analizaremos los datos recolectados, identificaremos las variables y su distribución respectivamente. Asimismo, se realizará la formulación y validación de los distintos de los modelos conceptuales.
Carga de datos: Se modificó la tabla de recolección de datos, para tener variables más espeíficas. Disponemos de 7 variables que nos servirán para validar las preguntas mencionadas en la entrega anterior.
1. Aproximación gráfica:
###1. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS ENTRE LLEGADAS
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.0 41.0 102.0 122.8 178.0 401.0
summary(vector1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 41.25 102.00 124.00 182.00 401.00
## Loading required package: MASS
## Loading required package: survival
## Loading required package: npsurv
## Loading required package: lsei
## summary statistics
## ------
## min: 7 max: 401
## median: 102
## mean: 124
## estimated sd: 100.9693
## estimated skewness: 1.117958
## estimated kurtosis: 3.862
plotdist(vector1, histo = TRUE, demp = TRUE, breaks=20)
denscomp(list(fc), legendtext = c("exponencial"),main="HISTOGRAMA DE LOS TIEMPOS ENTRE LLEGADAS",xlab = "Tiempo entre llegadas")
####1.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos entre llegadas y el conjunto de los aleatorios generados para una exponencial con parámetro lambda; y otra para comparar los datos de los tiempos entre llegadas a un modelo exponencial con parámetro lambda.
gofstat(list(fa,fb,fc))
## Goodness-of-fit statistics
## 1-mle-weibull 2-mle-gamma 3-mle-exp
## Kolmogorov-Smirnov statistic 0.08243860 0.09497752 0.1298692
## Cramer-von Mises statistic 0.06310429 0.07676787 0.1576059
## Anderson-Darling statistic 0.43172892 0.48306745 0.8696774
##
## Goodness-of-fit criteria
## 1-mle-weibull 2-mle-gamma 3-mle-exp
## Akaike's Information Criterion 768.8822 769.3202 770.2772
## Bayesian Information Criterion 773.2615 773.6996 772.4668
————————————————————————————————————————————————————————————————
###2. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS QUE SE DEMORA UN CLIENTE EN REALIZAR SU PEDIDO
###**2.1 Análisis de concentración de datos Para determinar la distribución que un cliente demora en realizar su pedido. Primero se procedió a generar un resumen descriptivo mediante la función “summary”, para observar la tendencia inicial y ubicación de la media y mediana. Luego de limpiar, y haber reducido los datos atípicos se genera un cuadro de caja para poder encontrar las zonas de mayor concentración, contenidas en el Q1 y Q3. .## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.0 43.5 62.0 68.3 88.5 183.0
Sin datos atípicos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 43.25 61.00 66.56 87.00 131.00
###**2.2 Paquete fitdistrplus El siguiente paso es realizar un observación de los datos en una Description Of An Empirical Distribution For Non-Censored Data. Esta fue utilizada para determinar el modelo de distribución que podría regir al conjunto de datos del tiempo de demora en pedir. Para su ejecución, se utilizó la librería fitdistrplus y la función descdist. Esta función fue aplicada para variables aleatorias continuas, discrete = FALSE, la cual se asume de manera automática al no ser incluida.
## summary statistics
## ------
## min: 14 max: 131
## median: 61
## mean: 66.56061
## estimated sd: 30.14127
## estimated skewness: 0.3908984
## estimated kurtosis: 2.375606
###**2.3 Histograma Teórico
plotdist(vector2, histo =vector2, breaks=10, demp = TRUE)
## Warning in if (!histo & !demp) stop("one the arguments histo and demp must
## be put to TRUE"): la condición tiene longitud > 1 y sólo el primer elemento
## será usado
## Warning in if (histo) {: la condición tiene longitud > 1 y sólo el primer
## elemento será usado
Nota.Interpretación:De manera visual se puede apreciar que los historiogramas tienen un parecido.
Nota.Interpretación:Se realizó un histograma generando aleatoriamente sus valores y siguiendo los parámetros del tiempo de pedido. Comparando una distribución normal junto a una gamma y una weibull.
####2.4 Prueba de Kolmogorov-Smirnov
gofstat(list(fd,fe,fg))
## Goodness-of-fit statistics
## 1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Kolmogorov-Smirnov statistic 0.06008303 0.07589551 0.07844058
## Cramer-von Mises statistic 0.03419356 0.03476609 0.08330256
## Anderson-Darling statistic 0.23715418 0.26714182 0.57858834
##
## Goodness-of-fit criteria
## 1-mle-weibull 2-mle-gamma 3-mle-lnorm
## Akaike's Information Criterion 634.9650 635.9949 640.4144
## Bayesian Information Criterion 639.3443 640.3742 644.7937
denscomp(list(fd), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO EN REALIZAR EL PEDIDO",xlab = "Tiempo en realizar pedido")
## [1] 66.56061
\(\theta=Variance/Mean\)
## [1] 30.14127
###3. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE COLAS DE DEPACHO
###**3.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.
Considerando datos atípicos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 95.0 149.5 192.0 217.4 260.0 576.0
Sin datos atípicos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 95.0 145.0 191.0 208.6 255.0 405.0
###**3.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.
## summary statistics
## ------
## min: 95 max: 405
## median: 191
## mean: 208.6308
## estimated sd: 72.51499
## estimated skewness: 0.6516381
## estimated kurtosis: 2.795461
Nota.Interpretación: Se puede observar que la mayor concentración de data se ubica cercano a lo que sería una distribución normal, uniforme y gamma.
plotdist(vector3, histo =TRUE, breaks=20 ,demp= TRUE)
###3.3 Histograma Teórico
####3.4. Prueba de Kolmogorov-Smirnov** Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos en cola de despacho.
gofstat(list(fh,fi,fj))
## Goodness-of-fit statistics
## 1-mle-gamma 2-mle-norm 3-mle-logis
## Kolmogorov-Smirnov statistic 0.08995689 0.1180513 0.09289933
## Cramer-von Mises statistic 0.13708847 0.1922789 0.18150766
## Anderson-Darling statistic 0.74925314 1.1506182 1.15164977
##
## Goodness-of-fit criteria
## 1-mle-gamma 2-mle-norm 3-mle-logis
## Akaike's Information Criterion 736.7817 744.3474 746.9395
## Bayesian Information Criterion 741.1305 748.6961 751.2883
denscomp(list(fh), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO EN COLA DE DESPACHO",xlab = "Tiempo en cola de depacho")
## [1] 208.6308
\(\theta=Variance/Mean\)
## [1] 72.51499
###4. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ATENCIÓN DE DESPACHO
###**4.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary.Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 63.0 94.5 110.0 108.5 124.5 141.0
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 63.0 94.0 110.0 107.5 124.0 134.0
###**4.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.
## summary statistics
## ------
## min: 63 max: 141
## median: 110
## mean: 108.2576
## estimated sd: 19.33217
## estimated skewness: -0.3995797
## estimated kurtosis: 2.219631
plotdist(vector4, histo =TRUE, breaks=20 ,demp= TRUE)
###**4.3 Histograma Teórico
## [1] 107.4923
\(\theta=Variance/Mean\)
## [1] 18.70505
####4.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempo de atención de despacho.
gofstat(list(fk,fl,fm))
## Goodness-of-fit statistics
## 1-mle-gamma 2-mle-unif 3-mle-norm
## Kolmogorov-Smirnov statistic 0.1215308 0.2238353 0.1213634
## Cramer-von Mises statistic 0.2225762 1.2593055 0.1824450
## Anderson-Darling statistic 1.4299932 Inf 1.1744878
##
## Goodness-of-fit criteria
## 1-mle-gamma 2-mle-unif 3-mle-norm
## Akaike's Information Criterion 572.2891 NA 568.1974
## Bayesian Information Criterion 576.6379 NA 572.5462
denscomp(list(fm), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO DE ATENCION DE DESPACHO",xlab = "Tiempo de atencion de despacho")
###5. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ESPERA EN CAJA ###**5.1 Análisis de concentración de datos Se realizó como primer paso un resumen de datos de la variable mencionada utilizando la función summary. Después continuamos con un diagrama de caja para encontrar las zonas de mayor concentración.
Sin datos atípicos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 16.00 43.25 64.00 70.59 92.75 163.00
###**5.2 Paquete fitdistrplus Usamos el paquete fitdistrplus en R para saber qué distribuciones teóricas podemos elegir para simular nuestra data.
## summary statistics
## ------
## min: 16 max: 163
## median: 64
## mean: 70.59091
## estimated sd: 35.3266
## estimated skewness: 0.6215341
## estimated kurtosis: 2.770328
plotdist(vector5, histo =TRUE, breaks=10 ,demp= TRUE)
###**5.3 Histograma Teórico
####5.4. Prueba de Kolmogorov-Smirnov Se realizaron en principio 1 prueba de Kolmogorov. Una para comparar la distribución del conjunto de datos de los tiempos de espera en caja.
gofstat(list(fo,fp,fq))
## Goodness-of-fit statistics
## 1-mle-gamma 2-mle-lnorm 3-mle-norm
## Kolmogorov-Smirnov statistic 0.05452463 0.08922273 0.1127824
## Cramer-von Mises statistic 0.03596803 0.08269014 0.1298056
## Anderson-Darling statistic 0.25666276 0.52320352 0.8294638
##
## Goodness-of-fit criteria
## 1-mle-gamma 2-mle-lnorm 3-mle-norm
## Akaike's Information Criterion 652.1272 655.0243 660.8242
## Bayesian Information Criterion 656.5065 659.4037 665.2035
denscomp(list(fo), legendtext = c("gamma"),main="HISTOGRAMA DEL TIEMPO DE ESPERA EN CAJA",xlab = "Tiempo de espera en CAJA")
La distribución gamma tiene dos parámetros: \(\{k,\theta\}\)
Y en R, estos parámetros son llamados: \({shape,scale}\) respectivamente.
Para hallarlos, utilizamos:
\(Mean=k*\theta\)
\(Variance=k*\theta^2\)
Reemplazando:
\(k=Mean^2/Variance\)
## [1] 3.99295
\(\theta=Variance/Mean\)
## [1] 17.67888
###6. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS DE ATENCIÓN EN CAJA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 78.0 97.0 125.0 124.0 138.5 260.0
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 78 96 125 120 137 170
## summary statistics
## ------
## min: 78 max: 170
## median: 125
## mean: 119.9692
## estimated sd: 24.72977
## estimated skewness: -0.07253408
## estimated kurtosis: 2.022422
plotdist(vector6, histo =TRUE, breaks=100 ,demp= TRUE)
gofstat(list(fr,fs,ft))
## Goodness-of-fit statistics
## 1-mle-unif 2-mle-gamma 3-mle-norm
## Kolmogorov-Smirnov statistic 0.1351171 0.1288818 0.1042959
## Cramer-von Mises statistic 0.2603703 0.2060325 0.1421481
## Anderson-Darling statistic Inf 1.2215985 0.9129128
##
## Goodness-of-fit criteria
## 1-mle-unif 2-mle-gamma 3-mle-norm
## Akaike's Information Criterion NA 605.5313 604.4953
## Bayesian Information Criterion NA 609.8801 608.8440
denscomp(list(fr), legendtext = c("unif"),main="HISTOGRAMA DEL TIEMPO DE ATENCIÓN EN CAJA",xlab = "Tiempo de atención en caja")
###7. MODELO DE DISTRIBUCIÓN DE LOS TIEMPOS TOTAL EN EL SSITEMA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 376.0 519.5 571.0 587.7 647.5 849.0
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 376.0 515.0 562.0 580.4 643.0 785.0
## summary statistics
## ------
## min: 376 max: 785
## median: 562
## mean: 580.4462
## estimated sd: 91.94428
## estimated skewness: 0.3350722
## estimated kurtosis: 2.760279
plotdist(vector7, histo =TRUE, breaks=50 ,demp= TRUE)
gofstat(list(fg,fn,fo,fp))
## Goodness-of-fit statistics
## 1-mle-unif 2-mle-gamma 3-mle-norm 4-mle-lnorm
## Kolmogorov-Smirnov statistic 0.1605417 0.06836034 0.08780605 0.05817199
## Cramer-von Mises statistic 0.4789346 0.03480615 0.06354197 0.02732385
## Anderson-Darling statistic Inf 0.25268326 0.44106342 0.20854236
##
## Goodness-of-fit criteria
## 1-mle-unif 2-mle-gamma 3-mle-norm
## Akaike's Information Criterion NA 773.7561 775.2080
## Bayesian Information Criterion NA 778.1049 779.5568
## 4-mle-lnorm
## Akaike's Information Criterion 773.7517
## Bayesian Information Criterion 778.1005
denscomp(list(fo), legendtext = c("normal"),main="HISTOGRAMA DEL TIEMPO TOTAL EN EL SISTEMA",xlab = "Tiempo TOTAL")
## [1] 580.4462
\(\theta=Variance/Mean\)
## [1] 91.94428
###Resumen:
| Variable | Descripción | Distribución | Parámetros |
|---|---|---|---|
| T1 | Tiempo entre llegadas | Exponencial | \(\lambda=0.0080783 clientes/seg\) |
| T2 | Tiempo en realizar pedido | Normal | \(Med= 66.5\), $ Sd= 30.14 / $ |
| T3 | Tiempo en cola de despacho | Normal | \(Med= 8.277537\), $=25.20445 $ |
| T4 | Tiempo de atencion de despacho | Normal | \(U=108.4776\), \(\des. est.=19.26951\) |
| T5 | Tiempo de espera en caja | Gamma | \(k=3.99295\), \(\theta= 17.67888\) |
| T6 | Tiempo de atencion en caja | Uniforme | $Max=170 $, $Min=78 $ |
| T7 | Tiempo total | Normal | \(u=580.4462\), \(\desestt.=91.94429\) |