Taller grupal N°2

Datos del caso

Un Data scientest ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar.

En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)

#importar la base de datos 

arbol <-c(23.81,    22.13,  22.64,  21.69,  23.58,  22.14,  18.73,  21.59,
          20.36,    20.53,  20.11,  20.34,  19.19,  22.92,  18.65,  20.6,
          19.83,    20.09,  19.43,  22.06,  21.15,  19.26,  18.08,  20.24,
          18.75,    20.69,  21.62,  23.69,  23.93,  23.19)


redn <-c(23.24, 20.08,  18.01,  23.28,  19.23,  21.22,  21.47,  20.6,
         21.11, 21.27,  21.03,  17.34,  22.8,   21.85,  17.85,  23.15,
         19.57, 19.56,  20.79,  18.04,  20.95,  21.83,  18.17,  22.66,
         18.29, 18.89,  19.49,  19.19,  26.47,  25.25)

regresion <-c(16.13,    17.84,  18.28,  15.61,  17.62,  16.12,  17.29,  16.13,
              16.64,    15.03,  18.16,  16.82,  17.44,  16.76,  17.26,  15.55,
              17.49,    18.42,  17.54,  17.13,  15.5,    16.8,  18.47,  18.42, 
              18.43,    15.56,  16.03,  15.39,  15.12, 17.77)

actual <-c(17.09,   15.77,  18.45,  16.55,  22.23,  22.11,  18.26,  18.04,  
           19.66,   19.76,  18.74,  19.02,  18.54,  16.7,   17.57,  19.89,
           19.06,   18.7,   19.39,  19.68,  19.2,   16.85,  19.91,  19.82,  18.08,
           19.38,   20.3,   21.6,   23.39,  19.33)


data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)
summary (data2)

##      ÁrbolC          Red_N         Regresion        SActual     
##  Min.   :18.08   Min.   :17.34   Min.   :15.03   Min.   :15.77  
##  1st Qu.:19.89   1st Qu.:19.20   1st Qu.:16.05   1st Qu.:18.12  
##  Median :20.64   Median :20.87   Median :16.98   Median :19.13  
##  Mean   :21.03   Mean   :20.76   Mean   :16.89   Mean   :19.10  
##  3rd Qu.:22.14   3rd Qu.:21.84   3rd Qu.:17.73   3rd Qu.:19.80  
##  Max.   :23.93   Max.   :26.47   Max.   :18.47   Max.   :23.39

sapply(data2, sd) # Desviación estándar

##    ÁrbolC     Red_N Regresion   SActual 
##  1.705609  2.224344  1.103312  1.729648

# Boxplot
boxplot(data2, main = "Comparación de Modelos de Mantenimiento",
        xlab = "Modelo", ylab = "Tiempo de Falla", col = c("lightblue", "lightgreen", "orange", "pink"))

# Añadir líneas de referencia para la mediana de Regresión
abline(h = median(regresion), col = "red", lty = 2)
legend("topright", legend = c("Mediana Regresión"), col = "red", lty = 2, bty = "n")

ÁrbolC: Promedio: 21.03, lo que indica que sus predicciones están generalmente por encima de los valores reales (SActual). Rango: De 18.08 a 23.93, con una dispersión moderada (desviación estándar de 1.71). Mediana: 20.65, similar al promedio, indicando que los datos están bien distribuidos. Outliers: No se observan valores extremos significativos que afecten las predicciones.

Red_N: Promedio: 20.76, ligeramente superior a los valores reales, pero más cercano a ÁrbolC. Rango: De 17.34 a 26.47, siendo el método con la mayor dispersión (desviación estándar de 2.22). Outliers: Presenta valores extremos altos, como 26.47, lo que podría sesgar los resultados si no se manejan adecuadamente.

Regresión: Promedio: 16.89, el más bajo de los métodos y cercano a los valores mínimos de los datos reales, aunque subestima los valores reales en promedio. Rango: De 15.03 a 18.47, con la menor dispersión (desviación estándar de 1.10). Outliers: No tiene valores extremos, lo que lo hace el método más consistente.

SActual: Promedio: 19.10, sirviendo como referencia para evaluar los otros métodos. Rango: De 15.77 a 23.39, con una dispersión de 1.73. Outliers: No hay valores fuera del rango esperado, siendo un conjunto de datos balanceado.

Según los datos mostrados podemos concluir que:

-La media de los grupos ÁrbolC y Red_N son bastante similares (alrededor de 21), pero Regresión tiene una media notablemente más baja (16.89), seguida por SActual (19.10). Esto sugiere que la Regresión consta de menor media, por ende, menor tiempo de falla.

-El rango más amplio se observa en Red_N, lo que sugiere una mayor variabilidad en los tiempos de fallas en ese grupo. Los grupos Regresión y SActual tienen rangos más estrechos, lo que indica que los tiempos de fallas en estos grupos son más consistentes.

-La mediana es útil para entender el valor central de los datos, y parece que las propuestas ÁrbolC y Red_N tienen valores más altos en comparación con Regresión y SActual, lo que indica que el tiempo en las propuestas ÁrbolC y Red_N es superior.

-Regresión parece ser el mejor método, ya que sus valores son los menores de los 3 sistemas sin la alta dispersión de los datos ni los outliers.

# Pruebas Shapiro-Wilk
shapiro_arbol <- shapiro.test(arbol)
shapiro_redn <- shapiro.test(redn)
shapiro_regresion <- shapiro.test(regresion)
shapiro_actual <- shapiro.test(actual)

# Mostrar resultados
cat("Shapiro-Wilk Test:\n")

## Shapiro-Wilk Test:

cat("ÁrbolC: p-value =", shapiro_arbol$p.value, "\n")

## ÁrbolC: p-value = 0.2767969

cat("Red_N: p-value =", shapiro_redn$p.value, "\n")

## Red_N: p-value = 0.2722936

cat("Regresión: p-value =", shapiro_regresion$p.value, "\n")

## Regresión: p-value = 0.06679915

cat("SActual: p-value =", shapiro_actual$p.value, "\n")

## SActual: p-value = 0.3920902

Conclusiones:

En conclusión, debido a que la variable corresponde al tiempo de falla de las máquinas dentro del proceso de elaboración de galletas, se sugiere el modelo que tenga el menor tiempo de falla con la menor variabilidad.

Menor tiempo de fallas promedio: El promedio de los tiempos de fallas del modelo de Regresión es 16.89, significativamente más bajo que los otros métodos: - ÁrbolC: 21.03 - Red_N: 20.76 - SActual (modelo actual): 19.10 Esto implica que, en promedio, Regresión reduce el tiempo de fallas más que los otros métodos.

Menor variabilidad (desviación estándar): Regresión tiene la menor desviación estándar (1.10), lo que indica que es el modelo más consistente. Menor variabilidad implica resultados más predecibles y confiables.

Ausencia de valores atípicos: Regresión no presenta valores extremos (outliers), a diferencia de otros métodos como Red_N, que tiene valores atípicos altos (e.g., 26.47).

Rango controlado: El rango de tiempos de fallas de Regresión es de 15.03 a 18.47, mucho más estrecho que el de los otros métodos, lo que refuerza su estabilidad.

Cumple con la normalidad (prueba de Shapiro-Wilk): El modelo de Regresión pasa la prueba de normalidad, lo que valida que sus datos pueden ser utilizados para análisis estadísticos confiables.

Comparación con otros métodos:

ÁrbolC: Aunque tiene un promedio ligeramente superior a Red_N (21.03) y no presenta valores extremos, su desviación estándar (1.71) es mayor que la de Regresión, lo que lo hace menos consistente.
Red_N: Aunque su promedio (20.76) es más bajo que el de ÁrbolC, tiene la mayor dispersión (desviación estándar de 2.22) y presenta outliers significativos. Esto lo hace menos confiable.
Modelo Actual (SActual): El promedio del modelo actual (19.10) es más alto que el de Regresión, y su variabilidad es mayor (desviación estándar de 1.73). Esto lo coloca claramente en desventaja.

Regresión es el mejor método

Regresión tiene el menor tiempo de falla promedio (16.89) y la menor variabilidad (1.10).

No presenta outliers, lo que lo hace más consistente.

La prueba ANOVA confirma diferencias significativas (p < 0.05), y la prueba Tukey destaca que Regresión es estadísticamente mejor.

Recomendamos implementar Regresión para optimizar el tiempo de falla.

Taller grupal N°2

Grupo: Maria Torres, Pablo Villanueva, Felipe Escudero, Allison Sebastián, Victor Portilla

2024-12-20

Datos del caso

Conclusiones:

Comparación con otros métodos:

Regresión es el mejor método