Se presenta un análisis de correlación de la Pérdida Indeterminada
Porcentual (%) de PSA para la Zafra 2021-2022.
Scatter - Correlation Plot Function
mapa_dispersion <- function(label_x,label_y,dataset) {
correlacion <- round(cor(dataset[[label_x]],dataset[[label_y]]),2)
ggplot(dataset, aes(.data[[label_x]], .data[[label_y]])) +
geom_point(
color="orange",
fill="#69b3a2",
shape=21,
alpha=0.5,
size=6,
stroke = 2
) +
geom_smooth(method=lm , color="#990000", fill="#FFCF00", se=TRUE) +
ggtitle(paste(label_y,"vrs.",label_x), subtitle = paste("Correlation: ",correlacion)) +
xlab(label_x) + ylab(label_y)
}
Dataset de Pérdidas Indeterminadas
El conjunto de datos analizados contiene 346
variables del Sistema de Control (Procesos de Fabricación)
y Laboratorio Industrial. La variable objetivo es la Pérdida
Indeterminada Porcentual (%), que es la proporción de pérdida que
corresponde a la Pérdida Indeterminada (kg/t) respecto al Total de
Pérdidas (kg/t) desde el Core Sampler.
dataset_indeterminadas_2022 <- read.csv(file = 'C:/Compartido/Recuperacion Global MRAMOS 2024/Indeterminadas_2022_Limpio.csv')
# Filter Dataset by Column Values:
df_2022 <- dataset_indeterminadas_2022[dataset_indeterminadas_2022$Perdidas_indeterminadas_Porcentaje<=25,] # Filter out "y" outliers
# Remoción de Variables Colineales: ID, Pérdida Indeterminada (kg/t), Recuperación Global (%), Recobrado (kg/t)
df_2022 <- df_2022[-c(1,77,79)]
df_2022
Función de Densidad: Pérdidas Indeterminadas (%)
# PDF
distr(df_2022,'Perdidas_indeterminadas_Porcentaje')
Warning: Font 'Arial Narrow' is not installed, has other name, or can't be found

# Boxplot
ggplot(df_2022, aes(y=Perdidas_indeterminadas_Porcentaje)) +
geom_boxplot(
# custom boxes
color="blue",
fill="blue",
alpha=0.2,
# Notch
notch=TRUE,
notchwidth = 0.8,
# custom outliers
outlier.colour="red",
outlier.fill="red",
outlier.size=3) +
scale_x_discrete() +
labs(title="Boxplot",x="", y = "Pérdida Indeterminada (%)")

# Descriptive Statistics
data.frame(Estadistica=stat.desc(df_2022$Perdidas_indeterminadas_Porcentaje))
NA
corr_var(df_2022, # dataframe name
Perdidas_indeterminadas_Porcentaje, # target
max_pvalue = 0.05, # significance level
top = 20, # top n most correlated variables with target
plot = T
)

Diagrama de Dispersión: Perdida Indeterminada - Dia Zafra
label_x <- "Dia_Zafra"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_2022)

Se formula la hipótesis que las acciones correctivas que se realizan
al inicio de zafra (relacionado a finalización de instalaciones, ajustes
y mantenimientos) impactan en las pérdidas indeterminadas. Debido a que
estos efectos no pueden observarse directamente, se propone considerar
la variable de eficiencia de capacidad como un factor
de confusión en este análisis. La justificación es que,
dado que se demuestra la correlación entre la eficiencia de capacidad y
el día de zafra con la pérdida indeterminada, si estas acciones que
ocurren al inicio de la zafra pueden corregirse en el menor tiempo
posible, podrá entonces reducirse el périodo de pérdidas indeterminadas
altas.
El tratamiento de este factor de confusión será identificar y
filtrar las variables de proceso y laboratorio que tengan una
correlación alta con la eficiencia de capacidad, y concentrar el
análisis en las variables que después de este filtrado aún mantengan
correlación alta con la pérdida indeterminada.
El objetivo es encontrar posibles causas de pérdidas indeterminadas
cuando se haya logrado una “estabilidad operativa”.
Para analizar posibles causas relacionadas a la pérdida indeterminada
en operación estable, se propone eliminar las
variables que tienen alta correlación con la Eficiencia de
Capacidad. Para ello, se hace un análisis de correlación para con
la Eficiencia de Capacidad
Variables Correlacionadas con Eficiencia de Capacidad
corr_var(df_2022, # nombre del dataframe
Eficiencia_Capacidad_5527, # variable objetivo
max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
plot = T
)

cor_var_eff <- corr_var(df_2022, # nombre del dataframe
Eficiencia_Capacidad_5527, # variable objetivo
max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
plot = F
)
cor_var_eff
NA
listado_final <- cor_var_eff$variables
listado_final <- listado_final[listado_final != "Perdidas_indeterminadas_Porcentaje"]
listado_final <- append(listado_final,c(
"Dia_Zafra",
"Eficiencia_Capacidad_5527",
"Caña_Recibida_dia_5796",
"Tiempo_perdido_total_dia_1606"
))
df_filtered_2022 <- df_2022[,!names(df_2022) %in% listado_final]
df_filtered_2022
Una vez identificados los factores de confusión relacionados con la
estabilidad operativa, éstos se remueven del conjunto de datos para
examinar la correlación de las variables restantes con la pérdida
indeterminada. Se muestra el análisis de correlación a continuación:
corr_var(df_filtered_2022, # nombre del dataframe
Perdidas_indeterminadas_Porcentaje, # variable objetivo
max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
top = 25, # despliegue de las 30 variables más correlacionadas con la variable objetivo
plot = T
)

cor_var_eff <- corr_var(df_filtered_2022, # nombre del dataframe
Perdidas_indeterminadas_Porcentaje, # variable objetivo
max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
top = 25, # despliegue de las 25 variables más correlacionadas con la variable objetivo
plot = F
)
cor_var_eff
NA
Estas variables representan los factores que influyen directamente en
la pérdida indeterminada. Existen algunas variables que están
relacionadas con las pérdidas determinadas, y éstos
pueden identificarse directamente con su descripción y la dirección.
Por ejemplo, Pérdida en Bagazo es una pérdida
determinada. Se esperaría que al incrementarse, la pérdida indeterminada
se reduzca, pues ésta última se calcula restando las pérdidas
determinadas de una cantidad de azúcar disponible de entrada (cálculo de
suma cero). Por lo tanto la correlación se espera sea
“negativa”. Este mismo caso ocurriría con la
Pol de Bagazo, que se relaciona directamente con la
pérdida en bagazo y la Extracción de sacarosa que se
relaciona inversamente con la pérdida en bagazo.
Se presentan entonces correlaciones no esperadas.
Gráficos de Dispersión Variables Correlacionadas
Diagramas de Dispersión:
label_x <- "Temp_escape_2_TT589106"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Perdidas_Azucar_en_aguas_efluentes_5857"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Floculante_meladura__4797"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Brix_Miel_final_960"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Caña_Molida_hora_TA_2207"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Flujo_de_acido_Fosforico_clarificacion_de_meladura_FT583007"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Recirculacion_Magma_B_2630"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Retenido_malla_30_Azucar_Blanco_total_2581"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

label_x <- "Flujo_agua_fria_cristalizador_vertical_2_FT64VC02"
label_y <- "Perdidas_indeterminadas_Porcentaje"
mapa_dispersion(label_x,label_y,df_filtered_2022)

