Se realizó un análisis horario de los valores de Pol, Brix y Pureza reportados por el Core Sampler.

El objetivo es verificar la hipótesis de que durante cierto rango de horas del día los valores de Pol, Brix y Pureza tienden a ser más altos que en el resto de horas. Específicamente, durante las primeras horas del día.

library(ggplot2)
library(lubridate)
Loading required package: timechange

Attaching package: ‘lubridate’

The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union
library(dplyr)

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

Conjunto de Datos Muestras Core Sampler

Este conjunto de datos se obtuvo de la base de datos Legacy de Laboratorio

dataset <- read.csv(file = 'C:/Users/sbarrios/OneDrive - Universidad Galileo/Data Science/R/Proyectos/Pantaleon/Max/Datos_Caña.csv')
dataset$Fecha <- as.Date(dataset$Fecha,format = "%d/%m/%Y")
dataset

Verificación de Rangos

Se examinan los promedios de Pol, Brix y Pureza para los siguientes rangos horarios:

Y, para cada Rango, se analizan distintos horizontes temporales:

df1 <- dataset %>% filter(Fecha < '2023-11-30')
df1_dist <- df1 %>%  group_by(hora) %>% summarise(Pol = mean(Pol, na.rm = TRUE), Brix = mean(Brix, na.rm = TRUE), 
                                      Pureza = mean(Pureza, na.rm = TRUE) , ensayos = n())

df2 <- dataset %>% filter(Fecha < '2023-12-14')
df2_dist <- df2 %>%  group_by(hora) %>% summarise(Pol = mean(Pol, na.rm = TRUE), Brix = mean(Brix, na.rm = TRUE), 
                                      Pureza = mean(Pureza, na.rm = TRUE) , ensayos = n())

df3 <- dataset %>% filter(Fecha < '2023-12-28')
df3_dist <- df3 %>%  group_by(hora) %>% summarise(Pol = mean(Pol, na.rm = TRUE), Brix = mean(Brix, na.rm = TRUE), 
                                      Pureza = mean(Pureza, na.rm = TRUE) , ensayos = n())

Promedios Horizonte 1: 10 NOV al 30 NOV

NOV30_Primero <- df1_dist %>% filter(hora %in% (0:7) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

NOV30_Segundo <- df1_dist %>% filter(hora %in% (8:15) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

NOV30_Tercero <- df1_dist %>% filter(hora %in% (16:23) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

df1_Pol <- data.frame("Variable" = c("Pol","Brix","Pureza"), 
                      "de 0 a 7 horas" = c(NOV30_Primero$Pol_Promedio,NOV30_Primero$Brix_Promedio, NOV30_Primero$Pureza_Promedio),
                      "de 8 a 15 horas" = c(NOV30_Segundo$Pol_Promedio,NOV30_Segundo$Brix_Promedio, NOV30_Segundo$Pureza_Promedio),
                      "de 16 a 23 horas" = c(NOV30_Tercero$Pol_Promedio,NOV30_Tercero$Brix_Promedio, NOV30_Tercero$Pureza_Promedio)
                      )
df1_Pol

Promedios Horizonte 2: 10 NOV al 14 DIC

DIC14_Primero <- df2_dist %>% filter(hora %in% (0:7) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

DIC14_Segundo <- df2_dist %>% filter(hora %in% (8:15) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

DIC14_Tercero <- df2_dist %>% filter(hora %in% (16:23) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

df2_Pol <- data.frame("Variable" = c("Pol","Brix","Pureza"), 
                      "de 0 a 7 horas" = c(DIC14_Primero$Pol_Promedio,DIC14_Primero$Brix_Promedio, DIC14_Primero$Pureza_Promedio),
                      "de 8 a 15 horas" = c(DIC14_Segundo$Pol_Promedio,DIC14_Segundo$Brix_Promedio, DIC14_Segundo$Pureza_Promedio),
                      "de 16 a 23 horas" = c(DIC14_Tercero$Pol_Promedio,DIC14_Tercero$Brix_Promedio, DIC14_Tercero$Pureza_Promedio)
                      )
df2_Pol

Promedios Horizonte 3: 10 NOV al 28 DIC

DIC28_Primero <- df3_dist %>% filter(hora %in% (0:7) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

DIC28_Segundo <- df3_dist %>% filter(hora %in% (8:15) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

DIC28_Tercero <- df3_dist %>% filter(hora %in% (16:23) ) %>% 
  summarise(Pol_Promedio = mean(Pol, na.rm = TRUE), Brix_Promedio = mean(Brix, na.rm = TRUE), Pureza_Promedio = mean(Pureza, na.rm = TRUE))

df3_Pol <- data.frame("Variable" = c("Pol","Brix","Pureza"), 
                      "de 0 a 7 horas" = c(DIC28_Primero$Pol_Promedio,DIC28_Primero$Brix_Promedio, DIC28_Primero$Pureza_Promedio),
                      "de 8 a 15 horas" = c(DIC28_Segundo$Pol_Promedio,DIC28_Segundo$Brix_Promedio, DIC28_Segundo$Pureza_Promedio),
                      "de 16 a 23 horas" = c(DIC28_Tercero$Pol_Promedio,DIC28_Tercero$Brix_Promedio, DIC28_Tercero$Pureza_Promedio)
                      )
df3_Pol

Puede observarse que efectivamente, a nivel de promedios las primeras horas del día tienden a tener valores más elevados que en las últimas horas del día. Sin embargo, es necesario verificar el soporte de datos en cada rango, para la significancia estadística. Por ello, se analiza el número de muestreos por rango de horas.

# Bar Plots:
barplot(height=df3_dist$ensayos, names=df3_dist$hora, col = "light green", xlab = "Hora Muestreo", ylab = "Acumulado Muestras", cex.axis=0.5, cex.names=0.5)
barplot(height=df2_dist$ensayos, names=df2_dist$hora, col = "green", cex.axis=0.5, cex.names=0.5, add = TRUE)
barplot(height=df1_dist$ensayos, names=df1_dist$hora, col = "dark green", cex.axis=0.5, cex.names=0.5, add = TRUE)

legend("top", title="Período", legend= c("al 30-Nov","al 14-Dic","al 28-Dic"), fill =c("dark green", "green", "light green" ), box.lty=0)

En este caso, NO se cuenta con un soporte uniforme. Es decir, el número de muestras que se registran en las primeras horas del día es consistentemente menor que el número de muestras que se registran a medida que avanza el día.

Aún más, en el inicio de la zafra (Horizonte 1) fue el único período en el que se registraron muestras en las primeras horas (Rango 1). A medida que avanzó la zafra, los registros se fueron acumulando hacia el final del día, hasta la situación actual, donde parecieran concentrarse los registros en la última hora del día (antes de la media noche).

Conclusión:

No puede concluirse que durante las primeras horas del día existan mayores valores de Pol, Brix y Pureza, debido al sesgo que existe en los datos pues no se están registrando datos en las primeras horas del día. Esto no implica que no se esté muestreando necesariamente en estas horas, pues pudiera ser un tema de ingreso al sistema; de cualquier manera este problema de registro imposibilita el análisis horario pues no se cuenta con una estampa de tiempo adecuada para correlacionarla con otras variables a lo largo del día.

