ANÁLISIS DE MEJOR MODELO DE ANALITICA

Enunciado del problema

En el presente documento se muestra el analisis para poder realizar la elección de un modelo de anaítica prescriptiva para poder reducir el tiempo de fallas de las maquinas de un proceso de elaboración de galletas.

Para el desarrollo del analisis se toma en cuenta un nivel de significacia de 5% y un total de 30 replicas de los modelos a evaluar.

Se tienen 3 diferentes propuestas: Regresion lineal, Red neuronal, Arbol de Causas

#Bases de datos para reaizar la comparación
arbol <-c(23.81,    22.13,  22.64,  21.69,  23.58,  22.14,  18.73,  21.59,
          20.36,    20.53,  20.11,  20.34,  19.19,  22.92,  18.65,  20.6,
          19.83,    20.09,  19.43,  22.06,  21.15,  19.26,  18.08,  20.24,
          18.75,    20.69,  21.62,  23.69,  23.93,  23.19)

redn <-c(23.24, 20.08,  18.01,  23.28,  19.23,  21.22,  21.47,  20.6,
         21.11, 21.27,  21.03,  17.34,  22.8,   21.85,  17.85,  23.15,
         19.57, 19.56,  20.79,  18.04,  20.95,  21.83,  18.17,  22.66,
         18.29, 18.89,  19.49,  19.19,  26.47,  25.25)

regresion <-c(16.13,    17.84,  18.28,  15.61,  17.62,  16.12,  17.29,  16.13,
              16.64,    15.03,  18.16,  16.82,  17.44,  16.76,  17.26,  15.55,
              17.49,    18.42,  17.54,  17.13,  15.5,    16.8,  18.47,  18.42, 
              18.43,    15.56,  16.03,  15.39,  15.12, 17.77)

actual <-c(17.09,   15.77,  18.45,  16.55,  22.23,  22.11,  18.26,  18.04,  
           19.66,   19.76,  18.74,  19.02,  18.54,  16.7,   17.57,  19.89,
           19.06,   18.7,   19.39,  19.68,  19.2,   16.85,  19.91,  19.82,  18.08,
           19.38,   20.3,   21.6,   23.39,  19.33)

#Se 
data2  <- data.frame(ÁrbolC =arbol, Red_N = redn, Regresion = regresion, SActual = actual)

BOXPLOT DE LOS MODELOS

#Se muestra un boxplot para poder analizar los modelos rapidamente
boxplot(data2)

De esta grafica podemos rapidamente sacar del analisis al modelo de regresión ya que trabajaremos con la premisa de analizar los modelos con valores más altos: Arbol de Causas y Red Neuronal

CODIGO PARA EL ANALISIS DE LOS MODELOS

ARBOL DE CAUSAS

#Establecemos la hipotesis nula H0
'en el presente analisis vamos a calcular los intervalos de confianza, pero se deja esta variable mu para análisis de prueba de hipotesis'

## [1] "en el presente analisis vamos a calcular los intervalos de confianza, pero se deja esta variable mu para análisis de prueba de hipotesis"

mu = 21

#Especificamos que vector de la base de datos vamos a analizar
bd <- arbol

# Niveles de significancia
alpha <- 0.05

# Muestra
n <- length(bd)

# Cálculo de Z_alpha/2
'*** usamos qt y no qnorm, ya que no conocemos la desviación estandar de la población total***'

## [1] "*** usamos qt y no qnorm, ya que no conocemos la desviación estandar de la población total***"

Z_alpha_medios <- qt(1 - (1 - 0.95) / 2, df = n - 1)
Z_alpha_medios

## [1] 2.04523

# Cálculo de - Z_alpha/2
Z_menos_alpha_medios <- -Z_alpha_medios
Z_menos_alpha_medios

## [1] -2.04523

# Calcular la media muestral 
media_muestral <- mean(bd)
media_muestral

## [1] 21.034

# Calcular la desviación estándar muestral
desviacion_estandar <- sd(bd)
desviacion_estandar

## [1] 1.705609

# calculamos la cantidad muestral necesaria
Z_0= (media_muestral-mu)/(desviacion_estandar/sqrt(n))
Z_0

## [1] 0.1091843

#Calculo de intervalos de confianza

intervalo_inferior1 <- media_muestral+-Z_alpha_medios*(desviacion_estandar/sqrt(n))
intervalo_inferior1

## [1] 20.39712

limite_superior1 <- media_muestral+Z_alpha_medios*(desviacion_estandar/sqrt(n))
limite_superior1

## [1] 21.67088

#El intervalo de confianza para la base de datos Arbol es:
c(intervalo_inferior1,":",limite_superior1 )

## [1] "20.3971152825903" ":"                "21.6708847174097"

RED NEURONAL

#Establecemos la hipotesis nula H0
'en el presente analisis vamos a calcular los intervalos de confianza, pero se deja esta variable mu para análisis de prueba de hipotesis'

## [1] "en el presente analisis vamos a calcular los intervalos de confianza, pero se deja esta variable mu para análisis de prueba de hipotesis"

mu = 21

#Especificamos que vector de la base de datos vamos a analizar
bd <- redn

# Niveles de significancia
alpha <- 0.05

# Muestra
n <- length(bd)

# Cálculo de Z_alpha/2
'*** usamos qt y no qnorm, ya que no conocemos la desviación estandar de la población total***'

## [1] "*** usamos qt y no qnorm, ya que no conocemos la desviación estandar de la población total***"

Z_alpha_medios <- qt(1 - (1 - 0.95) / 2, df = n - 1)
Z_alpha_medios

## [1] 2.04523

# Cálculo de - Z_alpha/2
Z_menos_alpha_medios <- -Z_alpha_medios
Z_menos_alpha_medios

## [1] -2.04523

# Calcular la media muestral 
media_muestral <- mean(bd)
media_muestral

## [1] 20.756

# Calcular la desviación estándar muestral
desviacion_estandar <- sd(bd)
desviacion_estandar

## [1] 2.224344

# calculamos la cantidad muestral necesaria
Z_0= (media_muestral-mu)/(desviacion_estandar/sqrt(n))
Z_0

## [1] -0.6008256

#Calculo de intervalos de confianza

intervalo_inferior <- media_muestral+-Z_alpha_medios*(desviacion_estandar/sqrt(n))
intervalo_inferior

## [1] 19.92542

limite_superior <- media_muestral+Z_alpha_medios*(desviacion_estandar/sqrt(n))
limite_superior

## [1] 21.58658

#El intervalo de confianza para la base de datos redN es:
c(intervalo_inferior,":",limite_superior )

## [1] "19.9254161863322" ":"                "21.5865838136678"

RESULTADOS

#El intervalo de confianza para la base de datos Arbol es:
c(intervalo_inferior1,":",limite_superior1 )

## [1] "20.3971152825903" ":"                "21.6708847174097"

#El intervalo de confianza para la base de datos Arbol es:
c(intervalo_inferior,":",limite_superior )

## [1] "19.9254161863322" ":"                "21.5865838136678"

ANALISIS

#Rango de intervalo de Arbol de causas
intervalo1 <- limite_superior1-intervalo_inferior1
intervalo1

## [1] 1.273769

#Media del metodo Arbol de causas
mean(arbol)

## [1] 21.034

#Rango de interbalo de red neuronal
intervalo2 <- limite_superior-intervalo_inferior
intervalo2

## [1] 1.661168

#Media del metodo red neuronal
mean(redn)

## [1] 20.756

CONCLUSIONES

Al tener un rango menor en el intervalo de confianza (1.273769 < 1.661168) y una media más alta (21.034 > 20.756) podemos decir que el metodo de Arbol de Causas es el más adecuado.
Del analisis del boxplot se descarta el modelo de regresión ya que tiene un desempeño considerablemente inferior en comparación con los modelos: Arbol de causas y Red Neuronal.
El modelo de red neuronal tiene un media atractiva (20.756) sin embargo el rango del intervalo de confianza es amplio en comparación del modelo de Arbol de causas, asimismo podría representar un riesgo en la implementación en comparación con el Arbol de causas.

COMENTARIOS

Se ha comparado los resultados obtenidos en el presente codigo con los resultados de Rcommander y la prueba t para una muestra, dando los mismos resultados.
Se recomienda usar librerias para futuros análisis, ya que este ejercicio es netamente académico.
Si se busca un modelo que ocasionalmente que pueda superar el objetivo establecido, la Red neuronal puede ser evaluada con una juste adicional para una mayor consistencia.