Introduction

La loi n° 2018-938 du 30 octobre 2018 pour l’équilibre des relations commerciales dans le secteur agricole et alimentaire et une alimentation saine, durable et accessible à tous, dite loi EGALIM, fixe des obligations à la restauration collective pour favoriser la transition vers une alimentation plus saine et plus durable.

En particulier, elle prévoit l’objectif d’atteindre au moins 20% de produits bio en valeur d’achat en restauration collective au 1er janvier 2022 pour les cantines de France Métropolitaine ; dans les DROM de Guadeloupe, Guyane, Martinique, La Réunion, le seuil a été fixé à 5% en 2022.

Cet objectif a-t-il été atteint en 2022 ? Les résultats varient-ils en fonction des types de cantines ? En fonction des territoires ?

L’analyse qui suit se fonde sur les télédéclarations dont les données ont été partagées sur le site gouvernemental https://www.data.gouv.fr/fr/

1 - Préparation des données

Le jeu de données disponible peut être enrichi d’informations qui permettront d’approfondir les analyses.

En premier lieu, certaines données sont manquantes, en particulier des informations géographiques sur les cantines : régions, départements, intercommunalités. On s’appuie sur le numéro SIRET de l’établissement de la cantine, quasi-complet : pour ceux pour lesquels le code INSEE de la commune n’est pas renseigné, on croise le fichier avec la base SIRENE de ces établissements, permettant de compléter cette information. On peut ensuite réaliser un croisement avec le fichier de composition communale des EPCI de 2022, afin de compléter les données manquantes sur les EPCI dans lesquels se trouvent les cantines. On complète ensuite les données manquantes sur le département et la région.

On peut enrichir ce jeu de données avec des informations de l’INSEE sur les territoires :

On enrichit de plus le jeu de données en analysant les domaines d’activité des cantines. On extraie les principaux domaines, par exemple : primaire, crèche, collège, lycée, cliniques, EHPAD, restaurants des collectivités territoriales, etc. Une cantine peut s’investir dans plusieurs domaines d’activité.

On sépare les régions métropolitaines et les régions ultra-marines dans une nouvelle variable, en vue de distinguer leur seuil d’obligation de la part de bio et de savoir si elle respecte ce seuil ou non en 2022.

Enfin on enrichit le jeu de données par une information sur la dimension de la structure, qu’elle soit publique ou privée, grâce à un croisement avec le fichier SIREN des unités légales. La dimension correspond ici à la typologie des entreprises, entre PME, ETI et Grandes entreprises. Ces termes sont trompeurs lorsqu’il s’agit de structures publiques : par exemple le collège Emile Littré à Bourges est un établissement public ; sa dimension est l’équivalent d’une taille de PME.

## # A tibble: 54 × 2
##    word            n
##    <chr>       <int>
##  1 secondaire   2153
##  2 et           1661
##  3 ecole        1401
##  4 maternelle   1401
##  5 primaire     1401
##  6 élémentaire  1401
##  7 de           1398
##  8 collège      1375
##  9 agricole      778
## 10 lycée         778
## # ℹ 44 more rows

2 - Exploration des données

Respect de la loi sur le bio

En 2022, la part de bio dans la restauration collective avoisinait 14% en moyenne. La moitié des cantines déclarait une part inférieure à 10,7%. La boîte à moustaches ci-dessous illustre la dispersion de la part de bio dans les cantines en 2022.

## [1] "Part de bio en moyenne : 0.139"

1385 cantines respectaient le seuil de bio, soit un peu plus d’un quart des cantines.

Respect de la part du bio
respect_bio effectifs part
NON 3741 73
OUI 1385 27

Disparités selon les territoires

Le nombre de cantines varie fortement selon les régions. Peu de cantines se trouvent en outre-mer.

La dispersion des résultats et le respect du seuil varie légèrement selon les régions. La Bretagne affiche les meilleurs résultats, ainsi que la Nouvelle-Aquitaine et l’Ile-de-France dans une moindre mesure ; à l’inverse, dans l’hexagone, les cantines des Hauts-de-France, de Corse, de Centre Val-de-Loire et de Grand-Est respectent le moins l’obligation. L’outre-mer compte peu de cantines : la part de bio y apparait plus faible, mais l’obligation est respectée en Guyane et dans une moindre mesure à La Réunion.

Respect de la part du bio
region respect_bio effectifs part
AUVERGNE RHONE ALPES NON 365 71.4
AUVERGNE RHONE ALPES OUI 146 28.6
BOURGOGNE FRANCHE COMTE NON 139 81.3
BOURGOGNE FRANCHE COMTE OUI 32 18.7
BRETAGNE NON 296 53.7
BRETAGNE OUI 255 46.3
CENTRE VAL DE LOIRE NON 241 87.0
CENTRE VAL DE LOIRE OUI 36 13.0
CORSE NON 15 88.2
CORSE OUI 2 11.8
GRAND EST NON 286 88.3
GRAND EST OUI 38 11.7
GUADELOUPE NON 2 100.0
GUYANE OUI 1 100.0
HAUTS DE FRANCE NON 306 91.3
HAUTS DE FRANCE OUI 29 8.7
ILE DE FRANCE NON 343 62.3
ILE DE FRANCE OUI 208 37.7
LA REUNION NON 13 46.4
LA REUNION OUI 15 53.6
MARTINIQUE NON 3 75.0
MARTINIQUE OUI 1 25.0
NORMANDIE NON 176 81.1
NORMANDIE OUI 41 18.9
NOUVELLE AQUITAINE NON 469 66.8
NOUVELLE AQUITAINE OUI 233 33.2
OCCITANIE NON 364 77.4
OCCITANIE OUI 106 22.6
PAYS DE LA LOIRE NON 299 74.2
PAYS DE LA LOIRE OUI 104 25.8
PROVENCE ALPES COTE D AZUR NON 421 75.3
PROVENCE ALPES COTE D AZUR OUI 138 24.7

L’INSEE classe les communes de France depuis 2021 en fonction d’une grille de densité permettant de distinguer finement les communes rurales et les communes urbaines. C’est logiquement dans ces dernières que se trouvent davantage de cantines.

La dispersion des résultats ne diffère pas fortement en fonction de la densité de population de la commune.

Respect de la part du bio
Typologie respect_bio effectifs part
rural autonome très peu dense NON 41 65.1
rural autonome très peu dense OUI 22 34.9
rural autonome peu dense NON 607 77.1
rural autonome peu dense OUI 180 22.9
rural sous faible influence d’un pôle NON 321 71.0
rural sous faible influence d’un pôle OUI 131 29.0
rural sous forte influence d’un pôle NON 245 61.3
rural sous forte influence d’un pôle OUI 155 38.8
urbain densité intermédiaire NON 1275 73.1
urbain densité intermédiaire OUI 470 26.9
urbain dense NON 1249 74.5
urbain dense OUI 427 25.5

On peut aussi analyser la part du bio en fonction du niveau de richesse du territoire. Plusieurs indicateurs sont ici mobilisés.

En premier lieu, on prend en compte le revenu médian du territoire. Une corrélation positive avec la part de bio se dessine, à un niveau relativement faible (+0,19). Le nuage de points, accompagné d’une modélisation simple de la relation entre le revenu médian et la part de bio, montre la part croissante de bio en fonction du niveau de revenus du territoire.

## [1] "Niveau de corrélation : 0.19"

Un deuxième indicateur correspond à la part des ménages imposés. La corrélation apparait légèrement plus faible. Le graphique confirme l’absence de relation nette entre ces deux variables.

## [1] "Niveau de corrélation : 0.15"

Le taux de pauvreté constitue un autre indicateur de richesse du territoire. En cohérence avec les résultats précédents, la corrélation apparait ici faiblement négative : plus le taux de pauvreté augmente, plus la part de bio diminue, mais dans une faible mesure.

## [1] "Niveau de corrélation : -0.16"

Dernier indicateur de richesse : la part des revenus d’activité dans les revenus. La corrélation est presque nulle, ce que confirme le graphique.

## [1] "Niveau de corrélation : 0.08"

Disparités selon le modèle économique de la cantine

La plupart des cantines n’investissent qu’un secteur (école, hôpital, etc.). Le respect du seuil apparait sensiblement plus élevé parmi les cantines qui exercent dans plusieurs secteurs d’activité.

Respect de la part du bio
nombre_secteurs respect_bio effectifs part
unique NON 3411 73.8
unique OUI 1214 26.2
plusieurs NON 330 65.9
plusieurs OUI 171 34.1

La plupart des cantines relèvent du public, et c’est en son sein du public que le respect du seuil apparait le plus fréquent (30% contre 9% dans le privé).

Respect de la part du bio
sphere respect_bio effectifs part
private NON 706 90.7
private OUI 72 9.3
public NON 3035 69.8
public OUI 1313 30.2

Le jeu de données renseigne également si la gestion de la cantine est directe ou déléguée. Ce dernier cas de figure est moins fréquent mais une plus grande part d’entre elles respectent le seuil.

Respect de la part du bio
gestion respect_bio effectifs part
conceded NON 503 68.7
conceded OUI 229 31.3
direct NON 3238 73.7
direct OUI 1156 26.3

La production sur site est la plus répandue parmi les cantines, mais c’est ce mode qui respecte le moins souvent le seuil de bio.

Respect de la part du bio
production respect_bio effectifs part
central NON 71 53.4
central OUI 62 46.6
central_serving NON 253 70.5
central_serving OUI 106 29.5
site NON 3140 80.1
site OUI 782 19.9
site_cooked_elsewhere NON 277 38.9
site_cooked_elsewhere OUI 435 61.1

On peut chercher un lien entre la dimension de l’établissement de la cantine et la part de bio. La plupart des cantines relèvent de petites structures (équivalent de taille PME) : elles respectent moins fréquemment le seuil que les structures de la dimension moyenne des entreprises de taille intermédiaire, mais davantage que celles de la dimension des grandes entreprises.

Respect de la part du bio
production respect_bio effectifs part
petite NON 2535 72.3
petite OUI 973 27.7
moyenne NON 689 64.8
moyenne OUI 375 35.2
grande NON 410 96.0
grande OUI 17 4.0
manquant NON 107 84.3
manquant OUI 20 15.7

Pour terminer l’exploration des données, on procède à une analyse des correspondances multiples (ACM). Cette méthode permet d’explorer les relations entre les caractéristiques des cantines. Nous choisissons les caractéristiques ayant trait : au respect du seuil, à la typologie urbaine ou rurale des territoires et à leur richesse (revenu médian et taux de pauvreté), au modèle économique des cantines et aux domaines d’activité dans lesquels elles exercent.

On retient les deux premiers axes de l’ACM, qui captent un peu moins du quart de l’information disponible :

  • L’axe horizontal est structuré principalement selon la dimension de la cantine et la sphère publique ou privée, ainsi que par la présence de la cantine dans une clinique.

  • L’axe vertical correspond plutôt au type de production de la cantine, à la présence de la cantine dans certains domaines, en particulier dans une école primaire ou non. Le graphique ci-dessous illustre ce rapport des caractéristiques avec les deux premiers axes.

On représente ensuite dans le graphique ci-dessous les cantines, en lien avec leurs caractéristiques. Les cantines présentes dans les cliniques, de grande dimension et qui relèvent de la sphère privée, sont plutôt à droite : elles sont peu nombreuses, comme vu précédemment.Ces cantines tendent à moins respecter le seuil de bio : celles qui le respectent se trouvent plutôt dans le cadrant supérieur-gauche du graphique, qui investissent plusieurs domaines d’activité, en particulier les écoles primaires, les crèches ; leur production est plus fréquemment centralisée ou préparée ailleurs.

La représentation interactive ci-dessous reprend les mêmes résultats mais elle permet de mieux visualiser les relations entre les caractéristiques des cantines ; elle signale en outre le nombre de cantines qui possède les différentes caractéristiques. Cependant, il ne faut pas surestimer la portée de l’ACM : la plupart des cantines présentent des profils peu différents entre eux, hormis certaines oppositions plus marquées : les cantines qui investissent les cliniques diffèrent fortement de celles qui sont présentes dans les crèches ou le primaire, et sont aussi très différentes de celles actives dans les collèges ou les lycées. Cependant, il ne parait pas pertinent de bâtir une typologie générale des cantines à partir des caractéristiques figurant dans ce jeu de données.

3 - Modélisation

On procède enfin à une modélisation des données en vue de comprendre l’influence de certains facteurs sur la part de bio dans les cantines. On retient les mêmes facteurs que pour l’ACM.

Régression linéaire multiple

On peut réaliser une première modélisation à l’aide d’une régression linéaire, qui suppose que l’effet marginal d’un facteur donné, par exemple le niveau de richesse du territoire, sur la part de bio est constant. Ce modèle présente l’avantage d’une interprétabilité claire, au prix d’une moindre précision de la prédiction.

Les résultats détaillés figurent ci-dessous. En résumé, le modèle explique environ 32% de la variation de la part de bio (cf R2 ajusté). D’après ce modèle, toutes choses égales par ailleurs, et en contrôlant pour les différents facteurs listés ci-dessus, on retient que :

  • le type de territoire, urbain ou rural, est sans lien avec la part de bio ;

  • la richesse du territoire influence de manière résiduelle la part de bio ;

  • la dimension de la cantine ou le nombre de domaines d’activités n’a pas d’effet sur la part de bio ;

  • l’appartenance à la sphère publique augmente légèrement la part de bio par rapport au privé, de même que la gestion directe par rapport à la délégation ;

  • les types de production “central serving” et “site” affectent négativement la part de bio ;

  • les cantines actives surtout dans les crèches, le primaire, les collectivités territoriales et dans une moindre mesure dans les collèges, affichent des parts de bio plus élevées que les autres ; à l’inverse, la présence dans les EHPAD, les cliniques, les hôpitaux, l’enseignement supérieur et dans une moindre mesure les lycées influence négativement la part de bio.

## 
## Régression linéaire multiple
## =====================================================================================
##                                                      teledeclaration_ratio_bio       
## -------------------------------------------------------------------------------------
## Typologierural autonome peu dense                              0.0041                
##                                                               (0.0151)               
##                                                                                      
## Typologierural sous faible influence d'un pôle                 0.0070                
##                                                               (0.0155)               
##                                                                                      
## Typologierural sous forte influence d'un pôle                  0.0112                
##                                                               (0.0157)               
##                                                                                      
## Typologieurbain densité intermédiaire                          0.0135                
##                                                               (0.0150)               
##                                                                                      
## Typologieurbain dense                                          0.0156                
##                                                               (0.0154)               
##                                                                                      
## MED21                                                       0.000004***              
##                                                              (0.000001)              
##                                                                                      
## TP6021                                                       -0.0015***              
##                                                               (0.0006)               
##                                                                                      
## dimensionmoyenne                                               0.0073                
##                                                               (0.0053)               
##                                                                                      
## dimensiongrande                                               -0.0127                
##                                                               (0.0085)               
##                                                                                      
## dimensionmanquant                                             -0.0098                
##                                                               (0.0108)               
##                                                                                      
## nombre_secteurs_agrplusieurs                                  -0.0149*               
##                                                               (0.0077)               
##                                                                                      
## canteen_economic_modelpublic                                 0.0298***               
##                                                               (0.0064)               
##                                                                                      
## canteen_management_typedirect                                0.0268***               
##                                                               (0.0054)               
##                                                                                      
## canteen_production_typecentral_serving                       -0.0337***              
##                                                               (0.0119)               
##                                                                                      
## canteen_production_typesite                                  -0.0359***              
##                                                               (0.0109)               
##                                                                                      
## canteen_production_typesite_cooked_elsewhere                   0.0104                
##                                                               (0.0117)               
##                                                                                      
## college                                                      0.0285***               
##                                                               (0.0061)               
##                                                                                      
## primaire                                                     0.0778***               
##                                                               (0.0061)               
##                                                                                      
## lycee                                                        -0.0260***              
##                                                               (0.0068)               
##                                                                                      
## ehpad                                                        -0.0648***              
##                                                               (0.0067)               
##                                                                                      
## cliniques                                                    -0.0606***              
##                                                               (0.0107)               
##                                                                                      
## hopitaux                                                     -0.0789***              
##                                                               (0.0090)               
##                                                                                      
## superieur                                                    -0.0726***              
##                                                               (0.0106)               
##                                                                                      
## creche                                                       0.1123***               
##                                                               (0.0089)               
##                                                                                      
## restau_ct                                                    0.0649***               
##                                                               (0.0113)               
##                                                                                      
## restau_etat                                                    0.0073                
##                                                               (0.0125)               
##                                                                                      
## Constant                                                       0.0157                
##                                                               (0.0383)               
##                                                                                      
## N                                                              5,120                 
## R2                                                             0.3226                
## Adjusted R2                                                    0.3191                
## Residual Std. Error                                      0.1143 (df = 5093)          
## F Statistic                                          93.2755*** (df = 26; 5093)      
## =====================================================================================
## Notes:                                         ***Significant at the 1 percent level.
##                                                 **Significant at the 5 percent level.
##                                                 *Significant at the 10 percent level.

Forêt aléatoire

La précision de la modélisation peut probablement être améliorée à l’aide d’un modèle plus complexe, tenant compte d’effets non linéaires des facteurs explicatifs sur la part de bio. On choisit de recourir à une forêt aléatoire. Même si ce modèle résiste en général au risque de surapprentissage, on procède à une partition des données.

Le modèle peut ainsi être entrainé sur une partie seulement des données, et les paramètres du meilleur modèle, i.e. le modèle commettant les plus faibles erreurs de prédiction, sont choisis sur validation croisée.

## Random Forest 
## 
## 4104 samples
##   18 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold, repeated 2 times) 
## Summary of sample sizes: 3278, 3279, 3277, 3277, 3277, 3278, ... 
## Resampling results across tuning parameters:
## 
##   mtry  splitrule   RMSE       Rsquared   MAE       
##    2    variance    0.1120586  0.3689337  0.07642887
##    2    extratrees  0.1138776  0.3439596  0.07795705
##    8    variance    0.1039897  0.4328846  0.06657368
##    8    extratrees  0.1083431  0.3843206  0.06944324
##   14    variance    0.1044352  0.4318257  0.06596134
##   14    extratrees  0.1078984  0.3916397  0.06830719
##   20    variance    0.1051727  0.4270688  0.06619909
##   20    extratrees  0.1080735  0.3931893  0.06830953
##   26    variance    0.1058491  0.4224586  0.06647431
##   26    extratrees  0.1087158  0.3887887  0.06868523
## 
## Tuning parameter 'min.node.size' was held constant at a value of 5
## RMSE was used to select the optimal model using the smallest value.
## The final values used for the model were mtry = 8, splitrule = variance
##  and min.node.size = 5.

Le tableau ci-dessous fournit le détail des performances des modèles entrainés.

Le graphique ci-dessous illustre la recherche du meilleur modèle en fonction du nombre de facteurs utilisés et de la règle de formation de la forêt aléatoire. La performance est mesurée par la racine carrée de l’écart quadratique moyen (RMSE pour root mean squared error).

Les caractéristiques du meilleur modèle entrainé figurent ci-dessous.

## Ranger result
## 
## Call:
##  ranger::ranger(dependent.variable.name = ".outcome", data = x,      mtry = min(param$mtry, ncol(x)), min.node.size = param$min.node.size,      splitrule = as.character(param$splitrule), write.forest = TRUE,      probability = classProbs, ...) 
## 
## Type:                             Regression 
## Number of trees:                  500 
## Sample size:                      4097 
## Number of independent variables:  26 
## Mtry:                             8 
## Target node size:                 5 
## Variable importance mode:         permutation 
## Splitrule:                        variance 
## OOB prediction error (MSE):       0.01068463 
## R squared (OOB):                  0.4391926

On utilise ce meilleur modèle pour prédire la part de bio sur le jeu de test, et on calcule la performance du modèle sur ce dernier.

## [1] "RMSE sur le jeu d'entrainement : 0.104 RMSE sur le jeu de test : 0.1404"

Le faible écart entre les deux mesures de performance constitue une condition nécessaire mais insuffisante pour recommander l’utilisation du modèle. Il faut prolonger l’analyse du modèle par l’effet des facteurs explicatifs sur la part de bio. Le graphique ci-dessous montre les 10 facteurs les plus déterminants pour ce modèle. On note qu’il s’appuie fortement sur certains domaines d’activité, comme le primaire et le collège, ainsi que le niveau de richesse du territoire, à partir du revenu médian et du taux de pauvreté. C’est une différence notable avec le modèle linéaire, qui détectait un effet significatif, mais faible, de la richesse du territoire sur la part de bio.

La forêt aléatoire étant un modèle non linéaire, on peut chercher les variations dans l’effet des variables numériques sur la part de bio. On mobilise pour cela des graphiques de dépendance partielle pour les deux facteurs se rapportant à la richesse du territoire : le taux de pauvreté, le revenu médian. Pour le taux de pauvreté, le graphique suggère un effet fluctuant, ce qui rend son interprétation trop incertaine ; à l’inverse, la part de bio augmente sensiblement avec le niveau de revenu du territoire, du moins entre 20K€ et 30K€.

On peut approfondir l’analyse en se demandant s’il existe un effet conjoint de ces deux indicateurs de richesse sur la part de bio. Le graphique ci-dessous le représente. Les parties en couleur sont celles où le modèle a été entrainé, autrement dit elles correspondent à des territoires figurant dans le jeu de données d’entrainement. Plus la couleur est claire, plus la part de bio est élevée. Ce que l’on peut retenir de ce graphique, c’est que les cantines dans les territoires où le revenu médian est faible et le taux de pauvreté élevé sont celles présentant les plus faibles parts de bio. Toutefois la part de bio n’augmente pas de manière linéaire à mesure que le territoire s’enrichit.

Cette modélisation offre ainsi une vision plus générale et plus lisible de la relation entre ces facteurs explicatifs de richesse et la part de bio, par rapport à un nuage de points, que l’on représente ci-dessous à titre de comparaison.

Remarques conclusives

Cette modélisation mériterait des approfondissements, en particulier une réflexion avec le service producteur de la donnée (Direction générale de l’alimentation), afin de mieux comprendre les caractéristiques des cantines : cela permettrait notamment d’identifier de possibles interactions entre ces caractéristiques (par exemple, entre la sphère publique et la dimension de la structure) qui expliqueraient mieux la part de bio dans la cantine que ces mêmes caractéristiques prises séparément.