Datos del caso

Un Data scientest ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar. En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)

#importar la base de datos 

arbol <-c(23.81,    22.13,  22.64,  21.69,  23.58,  22.14,  18.73,  21.59,
          20.36,    20.53,  20.11,  20.34,  19.19,  22.92,  18.65,  20.6,
          19.83,    20.09,  19.43,  22.06,  21.15,  19.26,  18.08,  20.24,
          18.75,    20.69,  21.62,  23.69,  23.93,  23.19)


redn <-c(23.24, 20.08,  18.01,  23.28,  19.23,  21.22,  21.47,  20.6,
         21.11, 21.27,  21.03,  17.34,  22.8,   21.85,  17.85,  23.15,
         19.57, 19.56,  20.79,  18.04,  20.95,  21.83,  18.17,  22.66,
         18.29, 18.89,  19.49,  19.19,  26.47,  25.25)

regresion <-c(16.13,    17.84,  18.28,  15.61,  17.62,  16.12,  17.29,  16.13,
              16.64,    15.03,  18.16,  16.82,  17.44,  16.76,  17.26,  15.55,
              17.49,    18.42,  17.54,  17.13,  15.5,    16.8,  18.47,  18.42, 
              18.43,    15.56,  16.03,  15.39,  15.12, 17.77)

actual <-c(17.09,   15.77,  18.45,  16.55,  22.23,  22.11,  18.26,  18.04,  
           19.66,   19.76,  18.74,  19.02,  18.54,  16.7,   17.57,  19.89,
           19.06,   18.7,   19.39,  19.68,  19.2,   16.85,  19.91,  19.82,  18.08,
           19.38,   20.3,   21.6,   23.39,  19.33)


data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)

boxplot(data2)

# Crear un dataframe
data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)
summary (data2)
##      ÁrbolC          Red_N         Regresion        SActual     
##  Min.   :18.08   Min.   :17.34   Min.   :15.03   Min.   :15.77  
##  1st Qu.:19.89   1st Qu.:19.20   1st Qu.:16.05   1st Qu.:18.12  
##  Median :20.64   Median :20.87   Median :16.98   Median :19.13  
##  Mean   :21.03   Mean   :20.76   Mean   :16.89   Mean   :19.10  
##  3rd Qu.:22.14   3rd Qu.:21.84   3rd Qu.:17.73   3rd Qu.:19.80  
##  Max.   :23.93   Max.   :26.47   Max.   :18.47   Max.   :23.39

ÁrbolC: Promedio: 21.03, lo que indica que sus predicciones están generalmente por encima de los valores reales (SActual). Rango: De 18.08 a 23.93, con una dispersión moderada (desviación estándar de 1.71). Mediana: 20.65, similar al promedio, indicando que los datos están bien distribuidos. Outliers: No se observan valores extremos significativos que afecten las predicciones.

Red_N: Promedio: 20.76, ligeramente superior a los valores reales, pero más cercano a ÁrbolC. Rango: De 17.34 a 26.47, siendo el método con la mayor dispersión (desviación estándar de 2.22). Outliers: Presenta valores extremos altos, como 26.47, lo que podría sesgar los resultados si no se manejan adecuadamente.

Regresión: Promedio: 16.89, el más bajo de los métodos y cercano a los valores mínimos de los datos reales, aunque subestima los valores reales en promedio. Rango: De 15.03 a 18.47, con la menor dispersión (desviación estándar de 1.10). Outliers: No tiene valores extremos, lo que lo hace el método más consistente.

SActual: Promedio: 19.10, sirviendo como referencia para evaluar los otros métodos. Rango: De 15.77 a 23.39, con una dispersión de 1.73. Outliers: No hay valores fuera del rango esperado, siendo un conjunto de datos balanceado.

Según los datos mostrados podemos concluir que:

-La media de los grupos ÁrbolC y Red_N son bastante similares (alrededor de 21), pero Regresión tiene una media notablemente más baja (16.89), seguida por SActual (19.10). Esto sugiere que ÁrbolC y Red_N podrían tener mejores resultados que Regresión y SActual, al menos en términos de las medias.

-El rango más amplio se observa en Red_N, lo que sugiere una mayor variabilidad en los tiempos de fallas en ese grupo. Los grupos Regresión y SActual tienen rangos más estrechos, lo que indica que los tiempos de fallas en estos grupos son más consistentes.

-La mediana es útil para entender el valor central de los datos, y parece que las propuestas ÁrbolC y Red_N tienen valores más altos en comparación con Regresión y SActual, lo que indica que el rendimiento de las propuestas ÁrbolC y Red_N es superior en términos de reducción de tiempo de fallas.

-ÁrbolC parece ser el mejor método, ya que sus predicciones están más cerca de los valores reales sin la alta dispersión ni los outliers que presenta Red_N. Además, supera a la Regresión, que es más estable pero tiene un sesgo hacia valores más bajos.

shapiro_arbol <- shapiro.test(arbol)
shapiro_redn <- shapiro.test(redn)
shapiro_regresion <- shapiro.test(regresion)
shapiro_actual <- shapiro.test(actual)

# Mostrar resultados
cat("Shapiro-Wilk Test:\n")
## Shapiro-Wilk Test:

Se mostrará la hipótesis nula de normalidad, ya que si el P- value es mayor que el nivel de significancia (en este caso 5%), no rechazaremos la hipótesis nula, por lo que los datos tendrían una distribución:

cat("Árbol: p-value =", shapiro_arbol$p.value, "\n")
## Árbol: p-value = 0.2767969

*No hay suficiente evidencia de rechazar la hipótesis nula por lo cuál los datos siguen una distribución normal.

cat("Red: p-value =", shapiro_redn$p.value, "\n")
## Red: p-value = 0.2722936

*No hay suficiente evidencia de rechazar la hipótesis nula por lo cuál los datos siguen una distribución normal.

cat("Regresión: p-value =", shapiro_regresion$p.value, "\n")
## Regresión: p-value = 0.06679915

*Aunque el valor de acerca mucho al 0.05 en este caso, no hay suficiente evidencia de rechazar la hipótesis nula por lo cuál los datos siguen una distribución normal.

cat("Actual: p-value =", shapiro_actual$p.value, "\n")
## Actual: p-value = 0.3920902

*No hay suficiente evidencia de rechazar la hipótesis nula por lo cuál los datos siguen una distribución normal.

```

Comentarios

Los 4 modelos cumplen el supuesto de normalidad de acuerdo al boxplot se tiene lo siguiente:

En caso de ÁrbolC, la mediana está centrada, no se observan valores atípicos en el caso de la caja de Red_N tiene una ligera positiva, además notamos varoles atípicos

Para el modelo de regre