Con el objetivo de poder determinar si existe o no una significancia
estadística para la diferencia entre la Recuperación Global de
la Zafra 2023-2024 y la de la Zafra 2024-2025 se realizan pruebas de
hipótesis para medias / medianas.
library(dplyr)
library(ggplot2)
library(ggpubr)
dataset <- read.csv(file = 'C:/Users/sbarrios/OneDrive - Universidad Galileo/Data Science/R/Proyectos/Pantaleon/Optimizador PrO GT/Data/Recuperacion Global PSA.csv')
dataset$Zafra <- as.character(dataset$Zafra)
dataset
Funciones de Densidad: Recuperación Global PSA
df1 <- data.frame(RG = dataset[dataset$Zafra == "2024",]$Recuperacion_Global_5861,zafra=dataset[dataset$Zafra == "2024",]$Zafra)
df2 <- data.frame(RG = dataset[dataset$Zafra == "2025",]$Recuperacion_Global_5861,zafra=dataset[dataset$Zafra == "2025",]$Zafra)
df1$zafra <- as.character(df1$zafra)
df2$zafra <- as.character(df2$zafra)
df_RG <- data.frame("Zafra" = c("2024","2025"),
"Media" = c(mean(df1$RG, na.rm=TRUE),mean(df2$RG, na.rm=TRUE)),
"Mediana" = c(median(df1$RG, na.rm=TRUE),median(df2$RG, na.rm=TRUE)),
"Desv. Estándar" = c(sd(df1$RG, na.rm=TRUE),sd(df2$RG, na.rm=TRUE))
)
df_RG
ggplot() +
geom_density(data = df1, aes(x = RG,fill=zafra),alpha=0.7) +
geom_density(data = df2, aes(x = RG,fill=zafra),alpha=0.7)

ggtitle("Global Recovery Distributions")
$title
[1] "Global Recovery Distributions"
attr(,"class")
[1] "labels"
Prueba de Normalidad de Recuperación Global PSA
Se conduce una prueba Shapiro-Wilk para la Recuperación
Global PSA de la zafra 2024 y 2025 con el objetivo de verificar la
asunción de normalidad. El test Shapiro-Wilk considera
como Hipótesis Nula \(H_0\) que los
datos son normalmente distribuidos.
# Shapiro-Wilk normality test for Recuperación Global PSA 2024
with(dataset, shapiro.test(dataset[dataset$Zafra == "2024",]$Recuperacion_Global_5861))
Shapiro-Wilk normality test
data: dataset[dataset$Zafra == "2024", ]$Recuperacion_Global_5861
W = 0.90491, p-value = 1.838e-09
A un nivel de significancia del 5% rechazamos la hipótesis nula de
normalidad y concluimos que los datos no están normalmente
distribuidos.
# Shapiro-Wilk normality test for Recuperación Global PSA 2025
with(dataset, shapiro.test(dataset[dataset$Zafra == "2025",]$Recuperacion_Global_5861))
Shapiro-Wilk normality test
data: dataset[dataset$Zafra == "2025", ]$Recuperacion_Global_5861
W = 0.73898, p-value = 5.647e-12
A un nivel de significancia del 5% rechazamos la hipótesis nula de
normalidad y concluimos que los datos no están normalmente
distribuidos.
Prueba Wilcoxon
Debido a que ambas muestras no cumplen el requisito de ser
normalmente distribuidas, se elige la prueba Wilcoxon de Dos
Muestras No Pareadas como una alternativa no-paramétrica a la
prueba t-Test de Dos Muestras No Pareadas, la cual es
útil para comparar dos grupos independientes de muestras cuando
no están normalmente distribuidas.
\(H_0: RG_{2024} - RG_{2025} \geq
0\)
\(H_1: RG_{2024} - RG_{2025} <
0\)
x <- dataset[dataset$Zafra == "2024",]$Recuperacion_Global_5861
y <- dataset[dataset$Zafra == "2025",]$Recuperacion_Global_5861
res_Wilcox <- wilcox.test(x, y, alternative = "less", mu = 0.0, conf.level = 0.95)
res_Wilcox
Wilcoxon rank sum test with continuity correction
data: x and y
W = 4539, p-value = 2.365e-12
alternative hypothesis: true location shift is less than 0
res_Wilcox$p.value
[1] 2.36456e-12
A un nivel de confianza del 95%, con un p-value de
2.36456e-12 rechazamos la hipótesis nula \(H_0: RG_{2024} - RG_{2025} \geq
0\) y existe evidencia estadística suficiente para
concluir que \(H_1: RG_{2024} -
RG_{2025} < 0\), es decir, el Rendimiento para la
zafra 2025 es mayor al de la zafra 2024.
Prueba t-Test de Dos Muestras No Pareadas Varianzas Desiguales
Se muestra como ejercicio la prueba t-Test de Dos Muestras No
Pareadas, la cual es útil para comparar dos grupos
independientes de muestras cuando se asume que están normalmente
distribuidas.
\(H_0: RG_{2024} - RG_{2025} \geq
0\)
\(H_1: RG_{2024} - RG_{2025} <
0\)
res_tTest <- t.test(x, y, alternative = 'less', mu = 0.0, var.equal = FALSE)
res_tTest
Welch Two Sample t-test
data: x and y
t = -5.8281, df = 217.95, p-value = 9.998e-09
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -1.433232
sample estimates:
mean of x mean of y
81.00380 83.00393
res_tTest$p.value
[1] 9.997796e-09
A un nivel de confianza del 95%, con un p-value de
9.997796e-09 rechazamos la hipótesis nula \(H_0: RG_{2024} - RG_{2025} \geq
0\) y existe evidencia estadística suficiente para
concluir que \(H_1: RG_{2024} -
RG_{2025} < 0\), es decir, el Rendimiento para la
zafra 2025 es mayor al de la zafra 2024.
Prueba Wilcoxon para Diferencia Mínima Significativa entre
Recuperación Global 2024 y 2025
Se conduce el test de Wilcoxon para encontrar una diferencia mínima
significativa entre las Recuperaciones Globales 2024 y 2025
\(H_0: RG_{2025} - RG_{2024} \leq
1.42\)
\(H_1: RG_{2025} - RG_{2024} >
1.42\)
x <- dataset[dataset$Zafra == "2024",]$Recuperacion_Global_5861
y <- dataset[dataset$Zafra == "2025",]$Recuperacion_Global_5861
res_Wilcox <- wilcox.test(y, x, alternative = "great", mu = 1.42 , conf.level = 0.95)
res_Wilcox
Wilcoxon rank sum test with continuity correction
data: y and x
W = 10156, p-value = 0.04665
alternative hypothesis: true location shift is greater than 1.42
res_Wilcox$p.value
[1] 0.04664756
A un nivel de confianza del 95%, con un p-value de 0.04664756
rechazamos la hipótesis nula \(H_0: RG_{2025}
- RG_{2024} \leq 1.42\) y existe evidencia estadística
suficiente para concluir que \(H_1:
RG_{2025} - RG_{2024} > 1.42\), es decir, el
Rendimiento para la zafra 2025 es mayor al de la zafra 2024 por
al menos 1.42%.
Prueba ANOVA para Dos Muestras (Un factor)
Se realiza una prueba ANOVA con las dos muestras, equivalente a
prueba t-Student, para un solo factor (Zafra).
dataset_anova <- dataset
dataset_anova$Zafra <- factor(dataset_anova$Zafra)
one.way <- aov(Recuperacion_Global_5861 ~ Zafra, data = dataset_anova)
summary(one.way)
Df Sum Sq Mean Sq F value Pr(>F)
Zafra 1 257 257.01 32.09 3.64e-08 ***
Residuals 280 2242 8.01
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Con un p-value de 3.64e-08 se rechaza la hipótesis
nula de medias iguales y el factor Zafra tiene un
impacto significativo en la Recuperación Global, y por lo tanto se
concluye que las medias son diferentes.
ggplot(data = dataset_anova, aes(x = Zafra, y = Recuperacion_Global_5861)) + geom_boxplot() + geom_jitter(aes(color = Zafra)) + ggtitle("Box Plot Recuperacion Global (%)")

