Trabajo Grupal 02

INTEGRANTES

Piero Paredes
Jorge Luis Pariapaza
Kely Quintana
Patricia Escajadillo
Renzo Hinostroza

Un Data scientist ha diseñado un modelo de analítica prescriptiva para reducir el tiempo de fallas de las máquinas de un proceso de elaboración de galletas. El científico ha validado efectivamente su modelo de analítica contra la información del sistema de mantenimiento empleado en el centro de atención por lo que ahora se encuentra concentrado en probar tres alternativas de mejora que ha diseñado para concluir cuál de ellas debería implementar. En la tabla siguiente se muestran 30 réplicas tanto del modelo de mantenimiento actual y las tres diferentes propuestas de mejora que ha logrado proponer. Con base en esta información y mostrando todo el procedimiento respectivo que sustente su respuesta indique cual debe ser la conclusión del científico. ¿Qué propuesta debería implementarse? (Considere un nivel de significancia de 5%)

Tabla 1. Resultados del tiempo de fallas por método
ÁrbolC	Red_N	Regresion	SActual
23.81	23.24	16.13	17.09
22.13	20.08	17.84	15.77
22.64	18.01	18.28	18.45
21.69	23.28	15.61	16.55
23.58	19.23	17.62	22.23
22.14	21.22	16.12	22.11
18.73	21.47	17.29	18.26
21.59	20.60	16.13	18.04
20.36	21.11	16.64	19.66
20.53	21.27	15.03	19.76
20.11	21.03	18.16	18.74
20.34	17.34	16.82	19.02
19.19	22.80	17.44	18.54
22.92	21.85	16.76	16.70
18.65	17.85	17.26	17.57
20.60	23.15	15.55	19.89
19.83	19.57	17.49	19.06
20.09	19.56	18.42	18.70
19.43	20.79	17.54	19.39
22.06	18.04	17.13	19.68
21.15	20.95	15.50	19.20
19.26	21.83	16.80	16.85
18.08	18.17	18.47	19.91
20.24	22.66	18.42	19.82
18.75	18.29	18.43	18.08
20.69	18.89	15.56	19.38
21.62	19.49	16.03	20.30
23.69	19.19	15.39	21.60
23.93	26.47	15.12	23.39
23.19	25.25	17.77	19.33

boxplot(data2)

Del gráfico Boxplot, se puede observar que el modelo de regresión está muy por debajo del sistema actual, por lo cual lo descartamos del análisis. Realizaremos la comparativa del Arbol de Clasificacion, Redes neuronales y Sistema actual.

ANALISIS ESTADISTICO

IDENTIFICAR EL PARAMETRO DE INTERES: Se analizará el indicador de beneficio de las maquinas para la elaboración de galletas.

HIPOTESIS NULA Ho= No existe diferencia en las media del indicador de beneficio con la media del sistema actual.

HIPOTESIS ALTERNA H1= El metodo propuesto aumenta el indicador de beneficio respecto al sistema actual.

NIVEL DE SIGNIFICANCIA = 5%

Ya que la varianza es desconocida usamos t-student

## 
##  Two Sample t-test
## 
## data:  arbol and actual
## t = 4.3555, df = 58, p-value = 2.739e-05
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  1.190332      Inf
## sample estimates:
## mean of x mean of y 
##  21.03400  19.10233

CONCLUSION 1

El valor calculado para p-value =2.739e-05 (Menor a 0.05) y t=4.36 (cae a la derecha de la zona critica), indican que se rechaza la hipotesis nula, por lo que el metodo de arbol de clasificacion aumenta considerablemente el indicador de beneficio en comparacion con el sistema actual.

# Cálculo t
t_test <- t.test(redn, actual,
                 var.equal = TRUE,
                 alternative = "greater")
t_test

## 
##  Two Sample t-test
## 
## data:  redn and actual
## t = 3.2145, df = 58, p-value = 0.001068
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.7937567       Inf
## sample estimates:
## mean of x mean of y 
##  20.75600  19.10233

CONCLUSION 2

El valor calculado para p-value =0.001068 (Menor a 0.05) y t=3.21 (cae a la derecha de la zona critica), indican que se rechaza la hipotesis nula, por lo que el metodo de redes neuronales aumenta considerablemente el indicador de beneficio en comparacion con el sistema actual.

Modelo de Arbol de Clasificacion vs Redes Neuronales

Debido a que ambos metodos mejoran al sistema actual, realizaremos una prueba t-student entre ambos para concluir cual es la mejor opción.

# Cálculo t
t_test <- t.test(arbol, redn,
                 var.equal = TRUE,
                 alternative = "greater")
t_test

## 
##  Two Sample t-test
## 
## data:  arbol and redn
## t = 0.54323, df = 58, p-value = 0.2945
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -0.5774262        Inf
## sample estimates:
## mean of x mean of y 
##    21.034    20.756

INTERVALOS DE CONFIANZA

**INTERVALOS DE CONFIANZA AL 95%**
	Metodo	Intervalo_Inferior	Intervalo_Superior
Arbol	Arbol	1.044	2.819
RedNeuronal	RedNeuronal	0.623	2.685

CONCLUSION 3

El valor calculado para p-value =0.2945 (Menor a 0.05) y t=0.54 (cae en el centro de la zona critica), indican que no se rechaza la hipotesis nula, por lo que el metodo de redes neuronales y el método de arbol de clasificación no tienen diferencia significatica.

Para elegir uno de los 2 modelos, ya que no tienen diferencia significativa en base a la prueba t-student, nos basaremos en comparar su dispersión.

CONCLUSION 4

Los datos del arbol de clasificación se encuentran en un intervalo de 18-24, por lo que tienen menos dispersion que los datos de redes neuronales (intervalo 16-28). En base a ello, concluimos que el método de arbol es el elegido para reemplazar el sistema actual.