Se presenta un análisis preliminar de correlación de la Pérdida Indeterminada Porcentual (%) de PSA para la Zafra 2023-2024.

Nota: No es un análisis de causalidad. Este se proveerá al discutir los resultados con expertos del proceso.

Librerías

library(dplyr)
library(magrittr)
library(mlbench)
library(caret)
library(ggplot2)
library(plotly)
library(hrbrthemes)
library(lares)

Dataset de Pérdidas Indeterminadas

El conjunto de datos analizados contiene 229 variables del Sistema de Control (Procesos de Fabricación) y Laboratorio Industrial. La variable objetivo es la Pérdida Indeterminada Porcentual (%), que es la proporción de pérdida que corresponde a la Pérdida Indeterminada (kg/t) respecto al Total de Pérdidas (kg/t) desde el Core Sampler.

dataset_indeterminadas <- read.csv(file = 'c:/users/100346/OneDrive - Pantaleon. S.A/Desktop/DataScience/Perdidas Indeterminadas/Perdidas Indeterminadas 2024.csv')
dataset_indeterminadas

El dataset incluye 24 días de operación.

Función de Densidad: Pérdidas Indeterminadas (%)

distr(df,Pérdidas.indeterminadas)

La mayor cantidad de días muestran una pérdida entre el 5% y el 9%, sin embargo existen días con pérdidas bastante elevadas, hasta un 13%.

distr(df,Dia.Zafra,Pérdidas.indeterminadas)

La mayor parte de las pérdidas indeterminadas altas ocurren en la primera semana de zafra.

Análisis de Correlación

Se comparan todas las variables con la variable objetivo de Pérdida Indeterminada, y para cada una, se determina su correlación, a un nivel de confianza del 95% (significancia 5%, p<= 0.05).

Entre ellas, se seleccionan las variables que muestran correlación moderada a correlación fuerte (valores mayores a 0.5)

df <- dataset_indeterminadas[-c(40,76,78)]

corr_var(df, # nombre del dataframe
  Pérdidas.indeterminadas, # variable objetivo
  max_pvalue = 0.05, # nivel de significancia para la región de rechazo en las pruebas de hipótesis
  top = 30, # despliegue de las 30 variables más correlacionadas con la variable objetivo
  plot = T
)
New names:

Gráficos de Dispersión Variables Correlacionadas

Temperatura Masa Tacho Continuo 1A

ggplot(df, aes(x=Temperatura.masa.1A...F..TT595504, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Pérdida Indeterminada vrs. Temperatura Masa 1A") +
  xlab("Temperatura Masa 1A (°F)") + ylab("Pérdida Indeterminada (%)")

Nivel Vaso A4

ggplot(df, aes(x=Nivel.Vaso.A4.....LT58A404, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Nivel Vaso A4") +
  xlab("Nivel Vaso A4 (%)") + ylab("Pérdida Indeterminada (%)")

Caña Quemada

ggplot(df, aes(x=Total.de.caña.quemada..t..4737, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Caña Quemada") +
  xlab("Caña Quemada (t)") + ylab("Pérdida Indeterminada (%)")

Transmitancia Jugo Claro

ggplot(df, aes(x=Transmitancia.Jugo.Claro, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Transmitancia Jugo Claro") +
  xlab("Transmitancia Jugo Claro (%)") + ylab("Pérdida Indeterminada (%)")

Dia de Zafra

ggplot(df, aes(x=Dia.Zafra, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Dia de Zafra") +
  xlab("Dia de Zafra") + ylab("Pérdida Indeterminada (%)")

Nivel Vaso D4

ggplot(df, aes(x=Nivel.Vaso.D4.....LT584704, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Nivel Vaso D4") +
  xlab("Nivel Vaso D4 (%)") + ylab("Pérdida Indeterminada (%)")

Retención de Masa C (%)

ggplot(df, aes(x=Retención.Masa.C, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Retención Masa C") +
  xlab("Retención Masa C (%)") + ylab("Pérdida Indeterminada (%)")

Flujo Wash 1A (gpm)

ggplot(df, aes(x=Flujo.Wash.1A..gpm..FT594704, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Flujo Wash 1A") +
  xlab("Flujo Wash 1A (gpm)") + ylab("Pérdida Indeterminada (%)")

Trash Total (%)

ggplot(df, aes(x=Trash.Total, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Trash Total") +
  xlab("Trash Total (%)") + ylab("Pérdida Indeterminada (%)")

Vacio Tacho 13 Semilla (%)

ggplot(df, aes(x=Vacio.tacho.13.semilla.tacho.continuo..PSIA..PT594102, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Vacío Tacho 13") +
  xlab("Vacío Tacho 13 (psia)") + ylab("Pérdida Indeterminada (%)")

Trash Caña Mecanizada

ggplot(df, aes(x=Trash.de.caña.mecanizada..Kg..6054, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Trash Caña Mecanizada") +
  xlab("Trash Caña Mecanizada (%)") + ylab("Pérdida Indeterminada (%)")

Carrera Tacho Continuo 2A

ggplot(df, aes(x=Flujo.meladura.tacho.continuo.2A...gal.min..FT59650Ta, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Carrera Tacho Continuo") +
  xlab("Flujo Tacho Continuo 2A (gpm)") + ylab("Pérdida Indeterminada (%)")

Caña Quemada antes de 36 horas

ggplot(df, aes(x=Caña.quemada.antes.de.36.h..t..4738, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Caña Quemada < 36 horas") +
  xlab("Caña Quemada < 36 horas (t)") + ylab("Pérdida Indeterminada (%)")

Floculante a Meladura

ggplot(df, aes(x=Floculante.meladura...Kg..4796, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Caña Quemada < 36 horas") +
  xlab("Caña Quemada < 36 horas (t)") + ylab("Pérdida Indeterminada (%)")

Hojas Maleza Trash

ggplot(df, aes(x=Hojas.maleza.trash, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Hojas Maleza Trash") +
  xlab("Hojas Maleza Trash (%)") + ylab("Pérdida Indeterminada (%)")

Nivel Promedio Efecto C

ggplot(df, aes(x=Nivel.promedio.efecto.C.....LT_MediaQuintuplesC, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Nivel Medio Efecto C") +
  xlab("Nivel Medio Efecto C (%)") + ylab("Pérdida Indeterminada (%)")

Caña Molida Diaria

ggplot(df, aes(x=Caña.molida.dia..t..1, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Caña Molida por Día") +
  xlab("Caña Molida por Día (t)") + ylab("Pérdida Indeterminada (%)")

Pureza Miel Final

ggplot(df, aes(x=Pureza.Miel.final, y=Pérdidas.indeterminadas)) + 
    geom_point(
        color="orange",
        fill="#69b3a2",
        shape=21,
        alpha=0.5,
        size=6,
        stroke = 2
        ) +
    geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
 ggtitle("Perdida Indeterminada vrs. Pureza Miel Final") +
  xlab("Pureza Miel Final (%)") + ylab("Pérdida Indeterminada (%)")

