Un Data scientist ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar. En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)
| ÁrbolC | Red_N | Regresion | SActual |
|---|---|---|---|
| 23.81 | 23.24 | 16.13 | 17.09 |
| 22.13 | 20.08 | 17.84 | 15.77 |
| 22.64 | 18.01 | 18.28 | 18.45 |
| 21.69 | 23.28 | 15.61 | 16.55 |
| 23.58 | 19.23 | 17.62 | 22.23 |
| 22.14 | 21.22 | 16.12 | 22.11 |
| 18.73 | 21.47 | 17.29 | 18.26 |
| 21.59 | 20.60 | 16.13 | 18.04 |
| 20.36 | 21.11 | 16.64 | 19.66 |
| 20.53 | 21.27 | 15.03 | 19.76 |
| 20.11 | 21.03 | 18.16 | 18.74 |
| 20.34 | 17.34 | 16.82 | 19.02 |
| 19.19 | 22.80 | 17.44 | 18.54 |
| 22.92 | 21.85 | 16.76 | 16.70 |
| 18.65 | 17.85 | 17.26 | 17.57 |
| 20.60 | 23.15 | 15.55 | 19.89 |
| 19.83 | 19.57 | 17.49 | 19.06 |
| 20.09 | 19.56 | 18.42 | 18.70 |
| 19.43 | 20.79 | 17.54 | 19.39 |
| 22.06 | 18.04 | 17.13 | 19.68 |
| 21.15 | 20.95 | 15.50 | 19.20 |
| 19.26 | 21.83 | 16.80 | 16.85 |
| 18.08 | 18.17 | 18.47 | 19.91 |
| 20.24 | 22.66 | 18.42 | 19.82 |
| 18.75 | 18.29 | 18.43 | 18.08 |
| 20.69 | 18.89 | 15.56 | 19.38 |
| 21.62 | 19.49 | 16.03 | 20.30 |
| 23.69 | 19.19 | 15.39 | 21.60 |
| 23.93 | 26.47 | 15.12 | 23.39 |
| 23.19 | 25.25 | 17.77 | 19.33 |
boxplot(data2)
Del gráfico Boxplot, se puede observar que el modelo de regresión está muy por debajo del sistema actual, por lo cual lo descartamos del análisis. Realizaremos la comparativa del Arbol de Clasificacion, Redes neuronales y Sistema actual.
IDENTIFICAR EL PARAMETRO DE INTERES: Se analizará el indicador de beneficio de las maquinas para la elaboración de galletas.
HIPOTESIS NULA Ho= No existe diferencia en las media del indicador de beneficio con la media del sistema actual.
HIPOTESIS ALTERNA H1= El metodo propuesto aumenta el indicador de beneficio respecto al sistema actual.
NIVEL DE SIGNIFICANCIA = 5%
Ya que la varianza es desconocida usamos t-student
##
## Two Sample t-test
##
## data: arbol and actual
## t = 4.3555, df = 58, p-value = 2.739e-05
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 1.190332 Inf
## sample estimates:
## mean of x mean of y
## 21.03400 19.10233
El valor calculado para p-value =2.739e-05 (Menor a 0.05) y t=4.36 (cae a la derecha de la zona critica), indican que se rechaza la hipotesis nula, por lo que el metodo de arbol de clasificacion aumenta considerablemente el indicador de beneficio en comparacion con el sistema actual.
# Cálculo t
t_test <- t.test(redn, actual,
var.equal = TRUE,
alternative = "greater")
t_test
##
## Two Sample t-test
##
## data: redn and actual
## t = 3.2145, df = 58, p-value = 0.001068
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.7937567 Inf
## sample estimates:
## mean of x mean of y
## 20.75600 19.10233
El valor calculado para p-value =0.001068 (Menor a 0.05) y t=3.21 (cae a la derecha de la zona critica), indican que se rechaza la hipotesis nula, por lo que el metodo de redes neuronales aumenta considerablemente el indicador de beneficio en comparacion con el sistema actual.
Debido a que ambos metodos mejoran al sistema actual, realizaremos una prueba t-student entre ambos para concluir cual es la mejor opción.
# Cálculo t
t_test <- t.test(arbol, redn,
var.equal = TRUE,
alternative = "greater")
t_test
##
## Two Sample t-test
##
## data: arbol and redn
## t = 0.54323, df = 58, p-value = 0.2945
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.5774262 Inf
## sample estimates:
## mean of x mean of y
## 21.034 20.756
| Metodo | Intervalo_Inferior | Intervalo_Superior | |
|---|---|---|---|
| Arbol | Arbol | 1.044 | 2.819 |
| RedNeuronal | RedNeuronal | 0.623 | 2.685 |
El valor calculado para p-value =0.2945 (Menor a 0.05) y t=0.54 (cae en el centro de la zona critica), indican que no se rechaza la hipotesis nula, por lo que el metodo de redes neuronales y el método de arbol de clasificación no tienen diferencia significatica.
Para elegir uno de los 2 modelos, ya que no tienen diferencia significativa en base a la prueba t-student, nos basaremos en comparar su dispersión.
Los datos del arbol de clasificación se encuentran en un intervalo de 18-24, por lo que tienen menos dispersion que los datos de redes neuronales (intervalo 16-28). En base a ello, concluimos que el método de arbol es el elegido para reemplazar el sistema actual.