En el presente análisis se evalúan diferentes propuestas de mejora en el sistema de mantenimiento de un proceso industrial, con el objetivo de reducir el tiempo de fallas en las máquinas. Un científico de datos ha desarrollado tres alternativas y las ha comparado con el modelo actual utilizando herramientas estadísticas. A través del análisis de varianza (ANOVA) y el test de comparaciones múltiples de Tukey, se busca determinar si existen diferencias significativas entre las propuestas y cuál de ellas resulta más efectiva para su implementación.
#Cargamos las bases
arbol <-c(23.81, 22.13, 22.64, 21.69, 23.58, 22.14, 18.73, 21.59,
20.36, 20.53, 20.11, 20.34, 19.19, 22.92, 18.65, 20.6,
19.83, 20.09, 19.43, 22.06, 21.15, 19.26, 18.08, 20.24,
18.75, 20.69, 21.62, 23.69, 23.93, 23.19)
redn <-c(23.24, 20.08, 18.01, 23.28, 19.23, 21.22, 21.47, 20.6,
21.11, 21.27, 21.03, 17.34, 22.8, 21.85, 17.85, 23.15,
19.57, 19.56, 20.79, 18.04, 20.95, 21.83, 18.17, 22.66,
18.29, 18.89, 19.49, 19.19, 26.47, 25.25)
regresion <-c(16.13, 17.84, 18.28, 15.61, 17.62, 16.12, 17.29, 16.13,
16.64, 15.03, 18.16, 16.82, 17.44, 16.76, 17.26, 15.55,
17.49, 18.42, 17.54, 17.13, 15.5, 16.8, 18.47, 18.42,
18.43, 15.56, 16.03, 15.39, 15.12, 17.77)
actual <-c(17.09, 15.77, 18.45, 16.55, 22.23, 22.11, 18.26, 18.04,
19.66, 19.76, 18.74, 19.02, 18.54, 16.7, 17.57, 19.89,
19.06, 18.7, 19.39, 19.68, 19.2, 16.85, 19.91, 19.82, 18.08,
19.38, 20.3, 21.6, 23.39, 19.33)
data2 <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)
#Reorganizamos tu data2 al formato largo:
#Antes de comenzar instalamos el paquete tidyr
# install.packages("tidyverse")
library(tidyr)
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# Convertir a formato largo
data_larga <- pivot_longer(data2,
cols = everything(),
names_to = "Método",
values_to = "Tiempo")
#Hacemos ANOVA
modelo_anova <- aov(Tiempo ~ Método, data = data_larga)
summary(modelo_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Método 3 326.4 108.81 36.07 <2e-16 ***
## Residuals 116 349.9 3.02
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#Si hay diferencia, hacemos prueba post-hoc (Tukey HSD)
TukeyHSD(modelo_anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Tiempo ~ Método, data = data_larga)
##
## $Método
## diff lwr upr p adj
## Red_N-ÁrbolC -0.278000 -1.446927 0.8909270 0.9255219
## Regresion-ÁrbolC -4.142333 -5.311260 -2.9734063 0.0000000
## SActual-ÁrbolC -1.931667 -3.100594 -0.7627396 0.0002015
## Regresion-Red_N -3.864333 -5.033260 -2.6954063 0.0000000
## SActual-Red_N -1.653667 -2.822594 -0.4847396 0.0019391
## SActual-Regresion 2.210667 1.041740 3.3795937 0.0000163
#Visualizando
boxplot(Tiempo ~ Método, data = data_larga, col = "pink",
main = "Comparación de tiempos por método",
ylab = "Tiempo de falla")
Interpretando los resultados de Turkey HSD
***Red_N - ÁrbolC → p = 0.92 → ❌ No hay diferencia
***Regresión - ÁrbolC → p = 0.000 → ✅ Sí hay diferencia (Regresión tiene menor tiempo)
***SActual - ÁrbolC → p = 0.0002 → ✅ Sí hay diferencia
***Regresión - Red_N → p = 0.000 → ✅ Sí hay diferencia
***SActual - Red_N → p = 0.0019 → ✅ Sí hay diferencia
***SActual - Regresión → p = 0.00001 → ✅ Sí hay diferencia (Regresión tiene menor tiempo)
El método de Regresión tiene diferencias significativas con todos los demás. Además, Regresión tiene el tiempo promedio más bajo, lo que es bueno si quieres menos tiempo de falla.
Según el test de comparaciones múltiples de Tukey, el método de Regresión presenta diferencias significativas respecto a los otros métodos, mostrando un menor tiempo promedio de falla. Por tanto, se recomienda implementar la propuesta de Regresión.