TALLER NUMERO 2

Un Data scientest ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar. En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)

Data para el analisis comparativo:

arbol <-c(23.81,    22.13,  22.64,  21.69,  23.58,  22.14,  18.73,  21.59,
          20.36,    20.53,  20.11,  20.34,  19.19,  22.92,  18.65,  20.6,
          19.83,    20.09,  19.43,  22.06,  21.15,  19.26,  18.08,  20.24,
          18.75,    20.69,  21.62,  23.69,  23.93,  23.19)

redn <-c(23.24, 20.08,  18.01,  23.28,  19.23,  21.22,  21.47,  20.6,
         21.11, 21.27,  21.03,  17.34,  22.8,   21.85,  17.85,  23.15,
         19.57, 19.56,  20.79,  18.04,  20.95,  21.83,  18.17,  22.66,
         18.29, 18.89,  19.49,  19.19,  26.47,  25.25)

regresion <-c(16.13,    17.84,  18.28,  15.61,  17.62,  16.12,  17.29,  16.13,
              16.64,    15.03,  18.16,  16.82,  17.44,  16.76,  17.26,  15.55,
              17.49,    18.42,  17.54,  17.13,  15.5,    16.8,  18.47,  18.42, 
              18.43,    15.56,  16.03,  15.39,  15.12, 17.77)

actual <-c(17.09,   15.77,  18.45,  16.55,  22.23,  22.11,  18.26,  18.04,  
           19.66,   19.76,  18.74,  19.02,  18.54,  16.7,   17.57,  19.89,
           19.06,   18.7,   19.39,  19.68,  19.2,   16.85,  19.91,  19.82,  18.08,
           19.38,   20.3,   21.6,   23.39,  19.33)

data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)

# Analisis Estadisticos:

sapply(data2, sd)

##    ÁrbolC     Red_N Regresion   SActual 
##  1.705609  2.224344  1.103312  1.729648

summary(data2)

##      ÁrbolC          Red_N         Regresion        SActual     
##  Min.   :18.08   Min.   :17.34   Min.   :15.03   Min.   :15.77  
##  1st Qu.:19.89   1st Qu.:19.20   1st Qu.:16.05   1st Qu.:18.12  
##  Median :20.64   Median :20.87   Median :16.98   Median :19.13  
##  Mean   :21.03   Mean   :20.76   Mean   :16.89   Mean   :19.10  
##  3rd Qu.:22.14   3rd Qu.:21.84   3rd Qu.:17.73   3rd Qu.:19.80  
##  Max.   :23.93   Max.   :26.47   Max.   :18.47   Max.   :23.39

Comparativo de Modelos:

boxplot(data2, main = "Datos de Mantenimiento",
        xlab = "Modelo", ylab = "Tiempo", col = c(5, 2, 3, 4))

# Los modelos Árbol y Red_N presentan un comportamiento muy similar, con promedios cercanos (21.03 y 20.76 respectivamente), indicando que sus predicciones tienden a estar por encima de los valores reales. Sin embargo, Red_N muestra una mayor dispersión (de 17.34 a 26.47), lo que implica mayor variabilidad en los resultados y la presencia de outliers, que podrían afectar su consistencia.

# Árbol tiene un rango más estrecho (18.08 a 23.93) y menor dispersión, lo que sugiere mayor estabilidad. La Regresión, por su parte, presenta el promedio más bajo (16.89), pero con la menor dispersión (de 15.03 a 18.47) y sin outliers, lo que la hace más consistente pero menos precisa.

# En comparación con SActual (promedio de 19.10), que sirve como referencia, Árbol y Red_N muestran un rendimiento superior, aunque la variabilidad de Red_N debe ser considerada.

# En conclusión los modelos Árbol y Red_N ofrecen un desempeño similar, con Árbol siendo ligeramente más estable. Regresión es consistente pero subestima los valores, mientras que Red_N presenta más variabilidad y outliers, lo que podría afectar su rendimiento.


## Analisis de Modelo ArbolC y RedN:

# Valores Muestrales:

# Arbol
mean_arbol <- mean(arbol)
sd_arbol <- sd(arbol)
n <- length(arbol)

# RedN
mean_red <- mean(redn)
sd_red <- sd(redn)

# Significancia
alpha <- 0.05


# Niveles de Confianza Arbol Y RedN

# Arbol: 20.42 y 21.64
  
# RedN: 19.96 Y 21.55

# Tiempo de los modelos Arbol Y redN de un proceso de elaboración de galletas

# Hipótesis: h1 - h2 = 0

# Hipótesis2: h1 - h2 <> 0


Z <- ((mean_arbol-mean_red)-0)/sqrt((sd_arbol*sd_arbol)/n+(sd_red*sd_red)/n)
Z

## [1] 0.5432282

# El valor de Z (0.5432) refleja que no hay suficiente evidencia para rechazar la hipótesis, lo que implica que no existen diferencias significativas entre los modelos evaluados. Esto sugiere que estadisticamente no es posible determinar que uno de los modelos sea mejor que el otro. Por otro lado, como las medias de los modelos en cuestio son similares, se puede concluir que cualquiera de los dos es viable para su implementación.

ANALISIS DE MEJORA DE MODELO

AndreSolano

2024-12-24

TALLER NUMERO 2

Data para el analisis comparativo:

Comparativo de Modelos: