La loi n° 2018-938 du 30 octobre 2018 pour l’équilibre des relations commerciales dans le secteur agricole et alimentaire et une alimentation saine, durable et accessible à tous, dite loi EGALIM, fixe des obligations à la restauration collective pour favoriser la transition vers une alimentation plus saine et plus durable.
En particulier, elle prévoit l’objectif d’atteindre au moins 20% de produits bio en valeur d’achat en restauration collective au 1er janvier 2022 pour les cantines de France Métropolitaine ; dans les DROM de Guadeloupe, Guyane, Martinique, La Réunion, le seuil a été fixé à 5% en 2022.
Cet objectif a-t-il été atteint en 2022 ? Les résultats varient-ils en fonction des types de cantines ? En fonction des territoires ?
L’analyse qui suit se fonde sur les télédéclarations dont les données ont été partagées sur le site gouvernemental https://www.data.gouv.fr/fr/
Le jeu de données disponible peut être enrichi d’informations qui permettront d’approfondir les analyses.
En premier lieu, certaines données sont manquantes, en particulier des informations géographiques sur les cantines : régions, départements, intercommunalités. On s’appuie sur le numéro SIRET de l’établissement de la cantine, quasi-complet : pour ceux pour lesquels le code INSEE de la commune n’est pas renseigné, on croise le fichier avec la base SIRENE de ces établissements, permettant de compléter cette information. On peut ensuite réaliser un croisement avec le fichier de composition communale des EPCI de 2022, afin de compléter les données manquantes sur les EPCI dans lesquels se trouvent les cantines. On complète ensuite les données manquantes sur le département et la région.
On peut enrichir ce jeu de données avec des informations de l’INSEE sur les territoires :
commune en zone rurale ou urbaine
indicateurs socioéconomiques : on retient ici l’échelle des EPCI, les données étant mieux renseignées qu’à l’échelle des communes.
On enrichit de plus le jeu de données en analysant les domaines d’activité des cantines. On extraie les principaux domaines, par exemple : primaire, crèche, collège, lycée, cliniques, EHPAD, restaurants des collectivités territoriales, etc. Une cantine peut s’investir dans plusieurs domaines d’activité.
On sépare les régions métropolitaines et les régions ultra-marines dans une nouvelle variable, en vue de distinguer leur seuil d’obligation de la part de bio et de savoir si elle respecte ce seuil ou non en 2022.
Enfin on enrichit le jeu de données par une information sur la dimension de la structure, qu’elle soit publique ou privée, grâce à un croisement avec le fichier SIREN des unités légales. La dimension correspond ici à la typologie des entreprises, entre PME, ETI et Grandes entreprises. Ces termes sont trompeurs lorsqu’il s’agit de structures publiques : par exemple le collège Emile Littré à Bourges est un établissement public ; sa dimension est l’équivalent d’une taille de PME.
## # A tibble: 54 × 2
## word n
## <chr> <int>
## 1 secondaire 2153
## 2 et 1661
## 3 ecole 1401
## 4 maternelle 1401
## 5 primaire 1401
## 6 élémentaire 1401
## 7 de 1398
## 8 collège 1375
## 9 agricole 778
## 10 lycée 778
## # ℹ 44 more rows
En 2022, la part de bio dans la restauration collective avoisinait 14% en moyenne. La moitié des cantines déclarait une part inférieure à 10,7%. La boîte à moustaches ci-dessous illustre la dispersion de la part de bio dans les cantines en 2022.
## [1] "Part de bio en moyenne : 0.139"
1385 cantines respectaient le seuil de bio, soit un peu plus d’un quart des cantines.
| respect_bio | effectifs | part |
|---|---|---|
| NON | 3741 | 73 |
| OUI | 1385 | 27 |
Le nombre de cantines varie fortement selon les régions. Peu de cantines se trouvent en outre-mer.
La dispersion des résultats et le respect du seuil varie légèrement selon les régions. La Bretagne affiche les meilleurs résultats, ainsi que la Nouvelle-Aquitaine et l’Ile-de-France dans une moindre mesure ; à l’inverse, dans l’hexagone, les cantines des Hauts-de-France, de Corse, de Centre Val-de-Loire et de Grand-Est respectent le moins l’obligation. L’outre-mer compte peu de cantines : la part de bio y apparait plus faible, mais l’obligation est respectée en Guyane et dans une moindre mesure à La Réunion.
| region | respect_bio | effectifs | part |
|---|---|---|---|
| AUVERGNE RHONE ALPES | NON | 365 | 71.4 |
| AUVERGNE RHONE ALPES | OUI | 146 | 28.6 |
| BOURGOGNE FRANCHE COMTE | NON | 139 | 81.3 |
| BOURGOGNE FRANCHE COMTE | OUI | 32 | 18.7 |
| BRETAGNE | NON | 296 | 53.7 |
| BRETAGNE | OUI | 255 | 46.3 |
| CENTRE VAL DE LOIRE | NON | 241 | 87.0 |
| CENTRE VAL DE LOIRE | OUI | 36 | 13.0 |
| CORSE | NON | 15 | 88.2 |
| CORSE | OUI | 2 | 11.8 |
| GRAND EST | NON | 286 | 88.3 |
| GRAND EST | OUI | 38 | 11.7 |
| GUADELOUPE | NON | 2 | 100.0 |
| GUYANE | OUI | 1 | 100.0 |
| HAUTS DE FRANCE | NON | 306 | 91.3 |
| HAUTS DE FRANCE | OUI | 29 | 8.7 |
| ILE DE FRANCE | NON | 343 | 62.3 |
| ILE DE FRANCE | OUI | 208 | 37.7 |
| LA REUNION | NON | 13 | 46.4 |
| LA REUNION | OUI | 15 | 53.6 |
| MARTINIQUE | NON | 3 | 75.0 |
| MARTINIQUE | OUI | 1 | 25.0 |
| NORMANDIE | NON | 176 | 81.1 |
| NORMANDIE | OUI | 41 | 18.9 |
| NOUVELLE AQUITAINE | NON | 469 | 66.8 |
| NOUVELLE AQUITAINE | OUI | 233 | 33.2 |
| OCCITANIE | NON | 364 | 77.4 |
| OCCITANIE | OUI | 106 | 22.6 |
| PAYS DE LA LOIRE | NON | 299 | 74.2 |
| PAYS DE LA LOIRE | OUI | 104 | 25.8 |
| PROVENCE ALPES COTE D AZUR | NON | 421 | 75.3 |
| PROVENCE ALPES COTE D AZUR | OUI | 138 | 24.7 |
L’INSEE classe les communes de France depuis 2021 en fonction d’une grille de densité permettant de distinguer finement les communes rurales et les communes urbaines. C’est logiquement dans ces dernières que se trouvent davantage de cantines.
La dispersion des résultats ne diffère pas fortement en fonction de la densité de population de la commune.
| Typologie | respect_bio | effectifs | part |
|---|---|---|---|
| rural autonome très peu dense | NON | 41 | 65.1 |
| rural autonome très peu dense | OUI | 22 | 34.9 |
| rural autonome peu dense | NON | 607 | 77.1 |
| rural autonome peu dense | OUI | 180 | 22.9 |
| rural sous faible influence d’un pôle | NON | 321 | 71.0 |
| rural sous faible influence d’un pôle | OUI | 131 | 29.0 |
| rural sous forte influence d’un pôle | NON | 245 | 61.3 |
| rural sous forte influence d’un pôle | OUI | 155 | 38.8 |
| urbain densité intermédiaire | NON | 1275 | 73.1 |
| urbain densité intermédiaire | OUI | 470 | 26.9 |
| urbain dense | NON | 1249 | 74.5 |
| urbain dense | OUI | 427 | 25.5 |
On peut aussi analyser la part du bio en fonction du niveau de richesse du territoire. Plusieurs indicateurs sont ici mobilisés.
En premier lieu, on prend en compte le revenu médian du territoire. Une corrélation positive avec la part de bio se dessine, à un niveau relativement faible (+0,19). Le nuage de points, accompagné d’une modélisation simple de la relation entre le revenu médian et la part de bio, montre la part croissante de bio en fonction du niveau de revenus du territoire.
## [1] "Niveau de corrélation : 0.19"
Un deuxième indicateur correspond à la part des ménages imposés. La corrélation apparait légèrement plus faible. Le graphique confirme l’absence de relation nette entre ces deux variables.
## [1] "Niveau de corrélation : 0.15"
Le taux de pauvreté constitue un autre indicateur de richesse du territoire. En cohérence avec les résultats précédents, la corrélation apparait ici faiblement négative : plus le taux de pauvreté augmente, plus la part de bio diminue, mais dans une faible mesure.
## [1] "Niveau de corrélation : -0.16"
Dernier indicateur de richesse : la part des revenus d’activité dans les revenus. La corrélation est presque nulle, ce que confirme le graphique.
## [1] "Niveau de corrélation : 0.08"
La plupart des cantines n’investissent qu’un secteur (école, hôpital, etc.). Le respect du seuil apparait sensiblement plus élevé parmi les cantines qui exercent dans plusieurs secteurs d’activité.
| nombre_secteurs | respect_bio | effectifs | part |
|---|---|---|---|
| unique | NON | 3411 | 73.8 |
| unique | OUI | 1214 | 26.2 |
| plusieurs | NON | 330 | 65.9 |
| plusieurs | OUI | 171 | 34.1 |
La plupart des cantines relèvent du public, et c’est en son sein du public que le respect du seuil apparait le plus fréquent (30% contre 9% dans le privé).
| sphere | respect_bio | effectifs | part |
|---|---|---|---|
| private | NON | 706 | 90.7 |
| private | OUI | 72 | 9.3 |
| public | NON | 3035 | 69.8 |
| public | OUI | 1313 | 30.2 |
Le jeu de données renseigne également si la gestion de la cantine est directe ou déléguée. Ce dernier cas de figure est moins fréquent mais une plus grande part d’entre elles respectent le seuil.
| gestion | respect_bio | effectifs | part |
|---|---|---|---|
| conceded | NON | 503 | 68.7 |
| conceded | OUI | 229 | 31.3 |
| direct | NON | 3238 | 73.7 |
| direct | OUI | 1156 | 26.3 |
La production sur site est la plus répandue parmi les cantines, mais c’est ce mode qui respecte le moins souvent le seuil de bio.
| production | respect_bio | effectifs | part |
|---|---|---|---|
| central | NON | 71 | 53.4 |
| central | OUI | 62 | 46.6 |
| central_serving | NON | 253 | 70.5 |
| central_serving | OUI | 106 | 29.5 |
| site | NON | 3140 | 80.1 |
| site | OUI | 782 | 19.9 |
| site_cooked_elsewhere | NON | 277 | 38.9 |
| site_cooked_elsewhere | OUI | 435 | 61.1 |
On peut chercher un lien entre la dimension de l’établissement de la cantine et la part de bio. La plupart des cantines relèvent de petites structures (équivalent de taille PME) : elles respectent moins fréquemment le seuil que les structures de la dimension moyenne des entreprises de taille intermédiaire, mais davantage que celles de la dimension des grandes entreprises.
| production | respect_bio | effectifs | part |
|---|---|---|---|
| petite | NON | 2535 | 72.3 |
| petite | OUI | 973 | 27.7 |
| moyenne | NON | 689 | 64.8 |
| moyenne | OUI | 375 | 35.2 |
| grande | NON | 410 | 96.0 |
| grande | OUI | 17 | 4.0 |
| manquant | NON | 107 | 84.3 |
| manquant | OUI | 20 | 15.7 |
Pour terminer l’exploration des données, on procède à une analyse des correspondances multiples (ACM). Cette méthode permet d’explorer les relations entre les caractéristiques des cantines. Nous choisissons les caractéristiques ayant trait : au respect du seuil, à la typologie urbaine ou rurale des territoires et à leur richesse (revenu médian et taux de pauvreté), au modèle économique des cantines et aux domaines d’activité dans lesquels elles exercent.
On retient les deux premiers axes de l’ACM, qui captent un peu moins du quart de l’information disponible :
L’axe horizontal est structuré principalement selon la dimension de la cantine et la sphère publique ou privée, ainsi que par la présence de la cantine dans une clinique.
L’axe vertical correspond plutôt au type de production de la cantine, à la présence de la cantine dans certains domaines, en particulier dans une école primaire ou non. Le graphique ci-dessous illustre ce rapport des caractéristiques avec les deux premiers axes.
On représente ensuite dans le graphique ci-dessous les cantines, en lien avec leurs caractéristiques. Les cantines présentes dans les cliniques, de grande dimension et qui relèvent de la sphère privée, sont plutôt à droite : elles sont peu nombreuses, comme vu précédemment.Ces cantines tendent à moins respecter le seuil de bio : celles qui le respectent se trouvent plutôt dans le cadrant supérieur-gauche du graphique, qui investissent plusieurs domaines d’activité, en particulier les écoles primaires, les crèches ; leur production est plus fréquemment centralisée ou préparée ailleurs.
La représentation interactive ci-dessous reprend les mêmes résultats mais elle permet de mieux visualiser les relations entre les caractéristiques des cantines ; elle signale en outre le nombre de cantines qui possède les différentes caractéristiques. Cependant, il ne faut pas surestimer la portée de l’ACM : la plupart des cantines présentent des profils peu différents entre eux, hormis certaines oppositions plus marquées : les cantines qui investissent les cliniques diffèrent fortement de celles qui sont présentes dans les crèches ou le primaire, et sont aussi très différentes de celles actives dans les collèges ou les lycées. Cependant, il ne parait pas pertinent de bâtir une typologie générale des cantines à partir des caractéristiques figurant dans ce jeu de données.
On procède enfin à une modélisation des données en vue de comprendre l’influence de certains facteurs sur la part de bio dans les cantines. On retient les mêmes facteurs que pour l’ACM.
On peut réaliser une première modélisation à l’aide d’une régression linéaire, qui suppose que l’effet marginal d’un facteur donné, par exemple le niveau de richesse du territoire, sur la part de bio est constant. Ce modèle présente l’avantage d’une interprétabilité claire, au prix d’une moindre précision de la prédiction.
Les résultats détaillés figurent ci-dessous. En résumé, le modèle explique environ 32% de la variation de la part de bio (cf R2 ajusté). D’après ce modèle, toutes choses égales par ailleurs, et en contrôlant pour les différents facteurs listés ci-dessus, on retient que :
le type de territoire, urbain ou rural, est sans lien avec la part de bio ;
la richesse du territoire influence de manière résiduelle la part de bio ;
la dimension de la cantine ou le nombre de domaines d’activités n’a pas d’effet sur la part de bio ;
l’appartenance à la sphère publique augmente légèrement la part de bio par rapport au privé, de même que la gestion directe par rapport à la délégation ;
les types de production “central serving” et “site” affectent négativement la part de bio ;
les cantines actives surtout dans les crèches, le primaire, les collectivités territoriales et dans une moindre mesure dans les collèges, affichent des parts de bio plus élevées que les autres ; à l’inverse, la présence dans les EHPAD, les cliniques, les hôpitaux, l’enseignement supérieur et dans une moindre mesure les lycées influence négativement la part de bio.
##
## Régression linéaire multiple
## =====================================================================================
## teledeclaration_ratio_bio
## -------------------------------------------------------------------------------------
## Typologierural autonome peu dense 0.0041
## (0.0151)
##
## Typologierural sous faible influence d'un pôle 0.0070
## (0.0155)
##
## Typologierural sous forte influence d'un pôle 0.0112
## (0.0157)
##
## Typologieurbain densité intermédiaire 0.0135
## (0.0150)
##
## Typologieurbain dense 0.0156
## (0.0154)
##
## MED21 0.000004***
## (0.000001)
##
## TP6021 -0.0015***
## (0.0006)
##
## dimensionmoyenne 0.0073
## (0.0053)
##
## dimensiongrande -0.0127
## (0.0085)
##
## dimensionmanquant -0.0098
## (0.0108)
##
## nombre_secteurs_agrplusieurs -0.0149*
## (0.0077)
##
## canteen_economic_modelpublic 0.0298***
## (0.0064)
##
## canteen_management_typedirect 0.0268***
## (0.0054)
##
## canteen_production_typecentral_serving -0.0337***
## (0.0119)
##
## canteen_production_typesite -0.0359***
## (0.0109)
##
## canteen_production_typesite_cooked_elsewhere 0.0104
## (0.0117)
##
## college 0.0285***
## (0.0061)
##
## primaire 0.0778***
## (0.0061)
##
## lycee -0.0260***
## (0.0068)
##
## ehpad -0.0648***
## (0.0067)
##
## cliniques -0.0606***
## (0.0107)
##
## hopitaux -0.0789***
## (0.0090)
##
## superieur -0.0726***
## (0.0106)
##
## creche 0.1123***
## (0.0089)
##
## restau_ct 0.0649***
## (0.0113)
##
## restau_etat 0.0073
## (0.0125)
##
## Constant 0.0157
## (0.0383)
##
## N 5,120
## R2 0.3226
## Adjusted R2 0.3191
## Residual Std. Error 0.1143 (df = 5093)
## F Statistic 93.2755*** (df = 26; 5093)
## =====================================================================================
## Notes: ***Significant at the 1 percent level.
## **Significant at the 5 percent level.
## *Significant at the 10 percent level.
La précision de la modélisation peut probablement être améliorée à l’aide d’un modèle plus complexe, tenant compte d’effets non linéaires des facteurs explicatifs sur la part de bio. On choisit de recourir à une forêt aléatoire. Même si ce modèle résiste en général au risque de surapprentissage, on procède à une partition des données.
Le modèle peut ainsi être entrainé sur une partie seulement des données, et les paramètres du meilleur modèle, i.e. le modèle commettant les plus faibles erreurs de prédiction, sont choisis sur validation croisée.
## Random Forest
##
## 4104 samples
## 18 predictor
##
## No pre-processing
## Resampling: Cross-Validated (5 fold, repeated 2 times)
## Summary of sample sizes: 3278, 3279, 3277, 3277, 3277, 3278, ...
## Resampling results across tuning parameters:
##
## mtry splitrule RMSE Rsquared MAE
## 2 variance 0.1120586 0.3689337 0.07642887
## 2 extratrees 0.1138776 0.3439596 0.07795705
## 8 variance 0.1039897 0.4328846 0.06657368
## 8 extratrees 0.1083431 0.3843206 0.06944324
## 14 variance 0.1044352 0.4318257 0.06596134
## 14 extratrees 0.1078984 0.3916397 0.06830719
## 20 variance 0.1051727 0.4270688 0.06619909
## 20 extratrees 0.1080735 0.3931893 0.06830953
## 26 variance 0.1058491 0.4224586 0.06647431
## 26 extratrees 0.1087158 0.3887887 0.06868523
##
## Tuning parameter 'min.node.size' was held constant at a value of 5
## RMSE was used to select the optimal model using the smallest value.
## The final values used for the model were mtry = 8, splitrule = variance
## and min.node.size = 5.
Le tableau ci-dessous fournit le détail des performances des modèles entrainés.
Le graphique ci-dessous illustre la recherche du meilleur modèle en fonction du nombre de facteurs utilisés et de la règle de formation de la forêt aléatoire. La performance est mesurée par la racine carrée de l’écart quadratique moyen (RMSE pour root mean squared error).
Les caractéristiques du meilleur modèle entrainé figurent ci-dessous.
## Ranger result
##
## Call:
## ranger::ranger(dependent.variable.name = ".outcome", data = x, mtry = min(param$mtry, ncol(x)), min.node.size = param$min.node.size, splitrule = as.character(param$splitrule), write.forest = TRUE, probability = classProbs, ...)
##
## Type: Regression
## Number of trees: 500
## Sample size: 4097
## Number of independent variables: 26
## Mtry: 8
## Target node size: 5
## Variable importance mode: permutation
## Splitrule: variance
## OOB prediction error (MSE): 0.01068463
## R squared (OOB): 0.4391926
On utilise ce meilleur modèle pour prédire la part de bio sur le jeu de test, et on calcule la performance du modèle sur ce dernier.
## [1] "RMSE sur le jeu d'entrainement : 0.104 RMSE sur le jeu de test : 0.1404"
Le faible écart entre les deux mesures de performance constitue une condition nécessaire mais insuffisante pour recommander l’utilisation du modèle. Il faut prolonger l’analyse du modèle par l’effet des facteurs explicatifs sur la part de bio. Le graphique ci-dessous montre les 10 facteurs les plus déterminants pour ce modèle. On note qu’il s’appuie fortement sur certains domaines d’activité, comme le primaire et le collège, ainsi que le niveau de richesse du territoire, à partir du revenu médian et du taux de pauvreté. C’est une différence notable avec le modèle linéaire, qui détectait un effet significatif, mais faible, de la richesse du territoire sur la part de bio.
La forêt aléatoire étant un modèle non linéaire, on peut chercher les variations dans l’effet des variables numériques sur la part de bio. On mobilise pour cela des graphiques de dépendance partielle pour les deux facteurs se rapportant à la richesse du territoire : le taux de pauvreté, le revenu médian. Pour le taux de pauvreté, le graphique suggère un effet fluctuant, ce qui rend son interprétation trop incertaine ; à l’inverse, la part de bio augmente sensiblement avec le niveau de revenu du territoire, du moins entre 20K€ et 30K€.
On peut approfondir l’analyse en se demandant s’il existe un effet conjoint de ces deux indicateurs de richesse sur la part de bio. Le graphique ci-dessous le représente. Les parties en couleur sont celles où le modèle a été entrainé, autrement dit elles correspondent à des territoires figurant dans le jeu de données d’entrainement. Plus la couleur est claire, plus la part de bio est élevée. Ce que l’on peut retenir de ce graphique, c’est que les cantines dans les territoires où le revenu médian est faible et le taux de pauvreté élevé sont celles présentant les plus faibles parts de bio. Toutefois la part de bio n’augmente pas de manière linéaire à mesure que le territoire s’enrichit.
Cette modélisation offre ainsi une vision plus générale et plus lisible de la relation entre ces facteurs explicatifs de richesse et la part de bio, par rapport à un nuage de points, que l’on représente ci-dessous à titre de comparaison.
Cette modélisation mériterait des approfondissements, en particulier une réflexion avec le service producteur de la donnée (Direction générale de l’alimentation), afin de mieux comprendre les caractéristiques des cantines : cela permettrait notamment d’identifier de possibles interactions entre ces caractéristiques (par exemple, entre la sphère publique et la dimension de la structure) qui expliqueraient mieux la part de bio dans la cantine que ces mêmes caractéristiques prises séparément.