📂 Chargement des données combinées (Brut + Filtré)

df_all <- read_excel("Données_Brut_vs_Filtré.xlsx")

df_all <- df_all %>%
  drop_na(ES, `Arret apres`) %>%
  mutate(Fabrication = paste(Date, Recette, Tank, sep = " | "),
         Origine = as.factor(Origine))

📈 Comparaison graphique par fabrication

fabrications <- unique(df_all$Fabrication)

for (fab in fabrications) {
  df_fab <- df_all %>% filter(Fabrication == fab)

  if (nrow(df_fab) >= 5) {
    p <- ggplot(df_fab, aes(x = `Arret apres`, y = ES, color = Origine)) +
      geom_point(alpha = 0.5) +
      geom_smooth(method = "lm", se = FALSE, formula = y ~ x) +
      facet_wrap(~Origine) +
      theme_minimal() +
      labs(
        title = paste("Comparaison Brut vs Filtré :", fab),
        x = "Arrêt après",
        y = "Extrait Sec (ES)"
      )
    
    print(p)
  }
}

📝 Conclusion

Ce rapport compare les tendances ES ~ Arrêt après sur les données brutes (avec bruit) et les données filtrées (respectant la logique métier).
Cela permet de visualiser l’impact du nettoyage sur la clarté des corrélations et la qualité des modèles.

Données source : fichier Données_Brut_vs_Filtré.xlsx