Un Data scientest ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar.
En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)
arbol <-c(23.81, 22.13, 22.64, 21.69, 23.58, 22.14, 18.73, 21.59,
20.36, 20.53, 20.11, 20.34, 19.19, 22.92, 18.65, 20.6,
19.83, 20.09, 19.43, 22.06, 21.15, 19.26, 18.08, 20.24,
18.75, 20.69, 21.62, 23.69, 23.93, 23.19)
redn <-c(23.24, 20.08, 18.01, 23.28, 19.23, 21.22, 21.47, 20.6,
21.11, 21.27, 21.03, 17.34, 22.8, 21.85, 17.85, 23.15,
19.57, 19.56, 20.79, 18.04, 20.95, 21.83, 18.17, 22.66,
18.29, 18.89, 19.49, 19.19, 26.47, 25.25)
regresion <-c(16.13, 17.84, 18.28, 15.61, 17.62, 16.12, 17.29, 16.13,
16.64, 15.03, 18.16, 16.82, 17.44, 16.76, 17.26, 15.55,
17.49, 18.42, 17.54, 17.13, 15.5, 16.8, 18.47, 18.42,
18.43, 15.56, 16.03, 15.39, 15.12, 17.77)
actual <-c(17.09, 15.77, 18.45, 16.55, 22.23, 22.11, 18.26, 18.04,
19.66, 19.76, 18.74, 19.02, 18.54, 16.7, 17.57, 19.89,
19.06, 18.7, 19.39, 19.68, 19.2, 16.85, 19.91, 19.82, 18.08,
19.38, 20.3, 21.6, 23.39, 19.33)
data2 <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)
Según lo indicado en la clase, mientras más sea el promedio del modelo sera mejor, teniendo en cuenta eso se hizo unos boxplots para poder revisar como se distribuyen los datos de cada modelo.
boxplot(data2,
main = "Comparación de los 4 modelos",
ylab = "Más alto el promedio mejor")
Revisando el boxplot, se pudo identificar visualmente que los modelos de regresión y el Actual son los que tienen una media y una mediana menor, por lo que podriamos descartarlos. Teniendo en cuenta el trabajo se centraria en ver cual es mejor entre el arbol y la red neuronal.
Teniendo en cuenta esto las hipotesis a manejar serian:
H0: La media del arbol <= que la media de la red neuronal
H1: La media del arbol > que la media de la red neuronal
Teniendo en cuenta esto pues usamos la prueba t de student, dado que son muestras y entonces seria un caso en el cual no conocemos la varianza poblacional, solo la muestral.
alpha <- 0.05
pruebaT_arbol_redes <- t.test(
arbol,
redn,
alternative = "greater",
var.equal = FALSE
)
pruebaT_arbol_redes
##
## Welch Two Sample t-test
##
## data: arbol and redn
## t = 0.54323, df = 54.341, p-value = 0.2946
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.578362 Inf
## sample estimates:
## mean of x mean of y
## 21.034 20.756
Con los resultados de la prueba podemos concluir:
p_value = 0.2946
El p_value <= 0.05 —- Se rechaza H0
El p_value > 0.05 —- No se rechaza H0 (Este mismo es.)
Teniendo en cuenta esto según la prueba t, con un alfa de 5%, no se puede decir que el modelo de arbol tenga un mejor desempeño promedio que la red neuronal.
Sin embargo basandonos en las medias, que se menciono en clase que la mayor es mejor:
colMeans(data2)
## ÁrbolC Red_N Regresion SActual
## 21.03400 20.75600 16.89167 19.10233
El arbol es un mejor modelo, aunque estadisticamente como se vio, tienen desempeños similares.