INTEGRANTES:

ANGELLA BRUNO JIMENA CACHO JOSE ANDIA MARIO CALLE PABLO AGUILAR

ANALISIS EXPLORATORIO

Un Data scientist ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementarse.

En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer.

# Datos de los 4 modelos de tiempos de fallas
arbol <- c(23.81, 22.13, 22.64, 21.69, 23.58, 22.14, 18.73, 21.59, 20.36, 20.53, 20.11, 20.34, 19.19, 22.92, 18.65, 20.6, 19.83, 20.09, 19.43, 22.06, 21.15, 19.26, 18.08, 20.24, 18.75, 20.69, 21.62, 23.69, 23.93, 23.19)
redn <- c(23.24, 20.08, 18.01, 23.28, 19.23, 21.22, 21.47, 20.6, 21.11, 21.27, 21.03, 17.34, 22.8, 21.85, 17.85, 23.15, 19.57, 19.56, 20.79, 18.04, 20.95, 21.83, 18.17, 22.66, 18.29, 18.89, 19.49, 19.19, 26.47, 25.25)
regresion <- c(16.13, 17.84, 18.28, 15.61, 17.62, 16.12, 17.29, 16.13, 16.64, 15.03, 18.16, 16.82, 17.44, 16.76, 17.26, 15.55, 17.49, 18.42, 17.54, 17.13, 15.5, 16.8, 18.47, 18.42, 18.43, 15.56, 16.03, 15.39, 15.12, 17.77)
actual <- c(17.09, 15.77, 18.45, 16.55, 22.23, 22.11, 18.26, 18.04, 19.66, 19.76, 18.74, 19.02, 18.54, 16.7, 17.57, 19.89, 19.06, 18.7, 19.39, 19.68, 19.2, 16.85, 19.91, 19.82, 18.08, 19.38, 20.3, 21.6, 23.39, 19.33)

# Crear el dataframe con los datos
data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)

# Ver los primeros valores del dataframe
head(data2)
##   ÁrbolC Red_N Regresion SActual
## 1  23.81 23.24     16.13   17.09
## 2  22.13 20.08     17.84   15.77
## 3  22.64 18.01     18.28   18.45
## 4  21.69 23.28     15.61   16.55
## 5  23.58 19.23     17.62   22.23
## 6  22.14 21.22     16.12   22.11

Paso 1: Estadísticas descriptivas

Las estadísticas descriptivas nos permiten entender la distribución de los datos antes de realizar cualquier prueba estadística. Aquí observamos:

La media (promedio) de los tiempos de fallas de cada modelo. La mediana, que nos da el valor central de los datos. Los cuartiles, que nos dan una idea de cómo se distribuyen los datos.

# Resumen de estadísticas descriptivas para los cuatro modelos
summary(data2)
##      ÁrbolC          Red_N         Regresion        SActual     
##  Min.   :18.08   Min.   :17.34   Min.   :15.03   Min.   :15.77  
##  1st Qu.:19.89   1st Qu.:19.20   1st Qu.:16.05   1st Qu.:18.12  
##  Median :20.64   Median :20.87   Median :16.98   Median :19.13  
##  Mean   :21.03   Mean   :20.76   Mean   :16.89   Mean   :19.10  
##  3rd Qu.:22.14   3rd Qu.:21.84   3rd Qu.:17.73   3rd Qu.:19.80  
##  Max.   :23.93   Max.   :26.47   Max.   :18.47   Max.   :23.39

Paso 2: Análisis

Ho: El promedio de fallas del modelo es mayor o igual a 19.10233

with(data2, (t.test(data2$Árbol , alternative ="less", mu=19.102333, con.level=.95)))  # 0.00 
## 
##  One Sample t-test
## 
## data:  data2$Árbol
## t = 6.2032, df = 29, p-value = 1
## alternative hypothesis: true mean is less than 19.10233
## 95 percent confidence interval:
##      -Inf 21.56311
## sample estimates:
## mean of x 
##    21.034
 with(data2, (t.test(data2$Red_N , alternative ="less", mu=19.102333, con.level=.95)))  # 0.00 
## 
##  One Sample t-test
## 
## data:  data2$Red_N
## t = 4.072, df = 29, p-value = 0.9998
## alternative hypothesis: true mean is less than 19.10233
## 95 percent confidence interval:
##      -Inf 21.44603
## sample estimates:
## mean of x 
##    20.756
  with(data2, (t.test(data2$Regresion , alternative ="less", mu=19.102333, con.level=.95)))  # 0.00 
## 
##  One Sample t-test
## 
## data:  data2$Regresion
## t = -10.975, df = 29, p-value = 3.841e-12
## alternative hypothesis: true mean is less than 19.10233
## 95 percent confidence interval:
##      -Inf 17.23393
## sample estimates:
## mean of x 
##  16.89167

Paso 4: Conclusión

Con base en los resultados de las pruebas t para cada alternativa frente a la media del sistema actual (19.10) con un nivel de significancia del 5%, se observa que tanto el modelo de Árbol de Clasificación como el de Redes Neuronales no muestran evidencia suficiente para afirmar que su tiempo promedio de fallas es menor que el sistema actual (se acepta H0 para Redes Neuronales y Árbol, dado que sus p-valores son altos). En cambio, el método de regresión sí muestra una diferencia significativa, rechazando la hipótesis nula (p-value muy bajo), lo que indica que su tiempo promedio de fallas es significativamente menor que el del sistema actual. Por lo tanto, la conclusión del científico debe ser implementar la propuesta basada en métodos de regresión, ya que es la única que mejora significativamente el desempeño del sistema actual.