Se presenta un análisis de correlación de la Pérdida Indeterminada Porcentual (%) de PSA para la Zafra 2021-2022.

Nota: Este análisis pretende auxiliar al análisis de causalidad, que se llevará a cabo con los procesos.

Libraries

library(dplyr)
library(pastecs)
library(ggplot2)
library(lares)

Scatter - Correlation Plot Function

mapa_dispersion <- function(label_x,label_y,dataset) {
  correlacion <- round(cor(dataset[[label_x]],dataset[[label_y]]),2)
  ggplot(dataset, aes(.data[[label_x]], .data[[label_y]])) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="#990000", fill="#FFCF00", se=TRUE) +
    ggtitle(paste(label_y,"vrs.",label_x), subtitle = paste("Correlation: ",correlacion)) +
  xlab(label_x) + ylab(label_y)
}

Dataset de Pérdidas Indeterminadas

El conjunto de datos analizados contiene 346 variables del Sistema de Control (Procesos de Fabricación) y Laboratorio Industrial. La variable objetivo es la Pérdida Indeterminada Porcentual (%), que es la proporción de pérdida que corresponde a la Pérdida Indeterminada (kg/t) respecto al Total de Pérdidas (kg/t) desde el Core Sampler.

dataset_indeterminadas_2022 <- read.csv(file = 'C:/Compartido/Recuperacion Global MRAMOS 2024/Indeterminadas_2022_Limpio.csv')


# Filter Dataset by Column Values:
df_2022 <- dataset_indeterminadas_2022[dataset_indeterminadas_2022$Perdidas_indeterminadas_Porcentaje<=25,] # Filter out "y" outliers

# Remoción de Variables Colineales: ID, Pérdida Indeterminada (kg/t), Recuperación Global (%), Recobrado (kg/t)
df_2022 <- df_2022[-c(1,77,79)]
df_2022

Función de Densidad: Pérdidas Indeterminadas (%)


# PDF
distr(df_2022,'Perdidas_indeterminadas_Porcentaje')
Warning: Font 'Arial Narrow' is not installed, has other name, or can't be found

# Boxplot
ggplot(df_2022, aes(y=Perdidas_indeterminadas_Porcentaje)) + 
    geom_boxplot( 
        # custom boxes
        color="blue",
        fill="blue",
        alpha=0.2,
        
        # Notch
        notch=TRUE,
        notchwidth = 0.8,
        
        # custom outliers
        outlier.colour="red",
        outlier.fill="red",
        outlier.size=3) +
  scale_x_discrete() +
  labs(title="Boxplot",x="", y = "Pérdida Indeterminada (%)")


# Descriptive Statistics
data.frame(Estadistica=stat.desc(df_2022$Perdidas_indeterminadas_Porcentaje))
NA
corr_var(df_2022, # dataframe name
  Perdidas_indeterminadas_Porcentaje, # target
  max_pvalue = 0.05, # significance level
  top = 20, # top n most correlated variables with target
  plot = T
)

Diagrama de Dispersión: Perdida Indeterminada - Dia Zafra

label_x <- "Dia_Zafra"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_2022)

Se formula la hipótesis que las acciones correctivas que se realizan al inicio de zafra (relacionado a finalización de instalaciones, ajustes y mantenimientos) impactan en las pérdidas indeterminadas. Debido a que estos efectos no pueden observarse directamente, se propone considerar la variable de eficiencia de capacidad como un factor de confusión en este análisis. La justificación es que, dado que se demuestra la correlación entre la eficiencia de capacidad y el día de zafra con la pérdida indeterminada, si estas acciones que ocurren al inicio de la zafra pueden corregirse en el menor tiempo posible, podrá entonces reducirse el périodo de pérdidas indeterminadas altas.

El tratamiento de este factor de confusión será identificar y filtrar las variables de proceso y laboratorio que tengan una correlación alta con la eficiencia de capacidad, y concentrar el análisis en las variables que después de este filtrado aún mantengan correlación alta con la pérdida indeterminada.

El objetivo es encontrar posibles causas de pérdidas indeterminadas cuando se haya logrado una “estabilidad operativa”.

Para analizar posibles causas relacionadas a la pérdida indeterminada en operación estable, se propone eliminar las variables que tienen alta correlación con la Eficiencia de Capacidad. Para ello, se hace un análisis de correlación para con la Eficiencia de Capacidad

Variables Correlacionadas con Eficiencia de Capacidad

corr_var(df_2022, # nombre del dataframe
  Eficiencia_Capacidad_5527, # variable objetivo
  max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
  top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
  plot = T
)

cor_var_eff <- corr_var(df_2022, # nombre del dataframe
  Eficiencia_Capacidad_5527, # variable objetivo
  max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
  top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
  plot = F
)
cor_var_eff
NA
listado_final <- cor_var_eff$variables
listado_final <- listado_final[listado_final != "Perdidas_indeterminadas_Porcentaje"]
listado_final <- append(listado_final,c(
                  "Dia_Zafra",
                  "Eficiencia_Capacidad_5527",
                  "Caña_Recibida_dia_5796",
                  "Tiempo_perdido_total_dia_1606"
                  ))

df_filtered_2022 <- df_2022[,!names(df_2022) %in% listado_final]
df_filtered_2022

Una vez identificados los factores de confusión relacionados con la estabilidad operativa, éstos se remueven del conjunto de datos para examinar la correlación de las variables restantes con la pérdida indeterminada. Se muestra el análisis de correlación a continuación:

corr_var(df_filtered_2022, # nombre del dataframe
  Perdidas_indeterminadas_Porcentaje, # variable objetivo
  max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
  top = 25, # despliegue de las 30 variables más correlacionadas con la variable objetivo
  plot = T
)

cor_var_eff <- corr_var(df_filtered_2022, # nombre del dataframe
  Perdidas_indeterminadas_Porcentaje, # variable objetivo
  max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
  top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
  plot = F
)
cor_var_eff
NA

Estas variables representan los factores que influyen directamente en la pérdida indeterminada. Existen algunas variables que están relacionadas con las pérdidas determinadas, y éstos pueden identificarse directamente con su descripción y la dirección.

Por ejemplo, Pérdida en Bagazo es una pérdida determinada. Se esperaría que al incrementarse, la pérdida indeterminada se reduzca, pues ésta última se calcula restando las pérdidas determinadas de una cantidad de azúcar disponible de entrada (cálculo de suma cero). Por lo tanto la correlación se espera sea “negativa”. Este mismo caso ocurriría con la Pol de Bagazo, que se relaciona directamente con la pérdida en bagazo y la Extracción de sacarosa que se relaciona inversamente con la pérdida en bagazo.

Se presentan entonces correlaciones no esperadas.

Gráficos de Dispersión Variables Correlacionadas

Diagramas de Dispersión:

label_x <- "Temp_escape_2_TT589106"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Perdidas_Azucar_en_aguas_efluentes_5857"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Floculante_meladura__4797"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Brix_Miel_final_960"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Caña_Molida_hora_TA_2207"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Flujo_de_acido_Fosforico_clarificacion_de_meladura_FT583007"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Recirculacion_Magma_B_2630"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Retenido_malla_30_Azucar_Blanco_total_2581"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Flujo_agua_fria_cristalizador_vertical_2_FT64VC02"
label_y <- "Perdidas_indeterminadas_Porcentaje"

mapa_dispersion(label_x,label_y,df_filtered_2022)

