Introduction

La loi n° 2018-938 du 30 octobre 2018 pour l’équilibre des relations commerciales dans le secteur agricole et alimentaire et une alimentation saine, durable et accessible à tous, dite loi EGALIM, fixe des obligations à la restauration collective pour favoriser la transition vers une alimentation plus saine et plus durable.

En particulier, elle prévoit l’objectif d’atteindre au moins 20% de produits bio en valeur d’achat en restauration collective au 1er janvier 2022 pour les cantines de France Métropolitaine ; dans les DROM de Guadeloupe, Guyane, Martinique, La Réunion, le seuil a été fixé à 5% en 2022.

Cet objectif a-t-il été atteint en 2022 ? Les résultats varient-ils en fonction des types de cantines ? En fonction des territoires ?

L’analyse qui suit se fonde sur les télédéclarations dont les données ont été partagées sur le site gouvernemental https://www.data.gouv.fr/fr/

1 - Préparation des données

Le jeu de données disponible peut être enrichi d’informations qui permettront d’approfondir les analyses.

En premier lieu, certaines données sont manquantes, en particulier des informations géographiques sur les cantines : régions, départements, intercommunalités. On s’appuie sur le numéro SIRET de l’établissement de la cantine, quasi-complet : pour ceux pour lesquels le code INSEE de la commune n’est pas renseigné, on croise le fichier avec la base SIRENE de ces établissements, permettant de compléter cette information. On peut ensuite réaliser un croisement avec le fichier de composition communale des EPCI de 2022, afin de compléter les données manquantes sur les EPCI dans lesquels se trouvent les cantines. On complète ensuite les données manquantes sur le département et la région.

On peut enrichir ce jeu de données avec des informations de l’INSEE sur les territoires :

commune en zone rurale ou urbaine
indicateurs socioéconomiques : on retient ici l’échelle des EPCI, les données étant mieux renseignées qu’à l’échelle des communes.

On enrichit de plus le jeu de données en analysant les domaines d’activité des cantines. On extraie les principaux domaines, par exemple : primaire, crèche, collège, lycée, cliniques, EHPAD, restaurants des collectivités territoriales, etc. Une cantine peut s’investir dans plusieurs domaines d’activité.

On sépare les régions métropolitaines et les régions ultra-marines dans une nouvelle variable, en vue de distinguer leur seuil d’obligation de la part de bio et de savoir si elle respecte ce seuil ou non en 2022.

Enfin on enrichit le jeu de données par une information sur la dimension de la structure, qu’elle soit publique ou privée, grâce à un croisement avec le fichier SIREN des unités légales. La dimension correspond ici à la typologie des entreprises, entre PME, ETI et Grandes entreprises. Ces termes sont trompeurs lorsqu’il s’agit de structures publiques : par exemple le collège Emile Littré à Bourges est un établissement public ; sa dimension est l’équivalent d’une taille de PME.

## # A tibble: 54 × 2
##    word            n
##    <chr>       <int>
##  1 secondaire   2153
##  2 et           1661
##  3 ecole        1401
##  4 maternelle   1401
##  5 primaire     1401
##  6 élémentaire  1401
##  7 de           1398
##  8 collège      1375
##  9 agricole      778
## 10 lycée         778
## # ℹ 44 more rows

2 - Exploration des données

Respect de la loi sur le bio

En 2022, la part de bio dans la restauration collective avoisinait 14% en moyenne. La moitié des cantines déclarait une part inférieure à 10,7%. La boîte à moustaches ci-dessous illustre la dispersion de la part de bio dans les cantines en 2022.

## [1] "Part de bio en moyenne : 0.139"

1385 cantines respectaient le seuil de bio, soit un peu plus d’un quart des cantines.

Respect de la part du bio
respect_bio	effectifs	part
NON	3741	73
OUI	1385	27

Disparités selon les territoires

Le nombre de cantines varie fortement selon les régions. Peu de cantines se trouvent en outre-mer.

La dispersion des résultats et le respect du seuil varie légèrement selon les régions. La Bretagne affiche les meilleurs résultats, ainsi que la Nouvelle-Aquitaine et l’Ile-de-France dans une moindre mesure ; à l’inverse, dans l’hexagone, les cantines des Hauts-de-France, de Corse, de Centre Val-de-Loire et de Grand-Est respectent le moins l’obligation. L’outre-mer compte peu de cantines : la part de bio y apparait plus faible, mais l’obligation est respectée en Guyane et dans une moindre mesure à La Réunion.

Respect de la part du bio
region	respect_bio	effectifs	part
AUVERGNE RHONE ALPES	NON	365	71.4
AUVERGNE RHONE ALPES	OUI	146	28.6
BOURGOGNE FRANCHE COMTE	NON	139	81.3
BOURGOGNE FRANCHE COMTE	OUI	32	18.7
BRETAGNE	NON	296	53.7
BRETAGNE	OUI	255	46.3
CENTRE VAL DE LOIRE	NON	241	87.0
CENTRE VAL DE LOIRE	OUI	36	13.0
CORSE	NON	15	88.2
CORSE	OUI	2	11.8
GRAND EST	NON	286	88.3
GRAND EST	OUI	38	11.7
GUADELOUPE	NON	2	100.0
GUYANE	OUI	1	100.0
HAUTS DE FRANCE	NON	306	91.3
HAUTS DE FRANCE	OUI	29	8.7
ILE DE FRANCE	NON	343	62.3
ILE DE FRANCE	OUI	208	37.7
LA REUNION	NON	13	46.4
LA REUNION	OUI	15	53.6
MARTINIQUE	NON	3	75.0
MARTINIQUE	OUI	1	25.0
NORMANDIE	NON	176	81.1
NORMANDIE	OUI	41	18.9
NOUVELLE AQUITAINE	NON	469	66.8
NOUVELLE AQUITAINE	OUI	233	33.2
OCCITANIE	NON	364	77.4
OCCITANIE	OUI	106	22.6
PAYS DE LA LOIRE	NON	299	74.2
PAYS DE LA LOIRE	OUI	104	25.8
PROVENCE ALPES COTE D AZUR	NON	421	75.3
PROVENCE ALPES COTE D AZUR	OUI	138	24.7

L’INSEE classe les communes de France depuis 2021 en fonction d’une grille de densité permettant de distinguer finement les communes rurales et les communes urbaines. C’est logiquement dans ces dernières que se trouvent davantage de cantines.

La dispersion des résultats ne diffère pas fortement en fonction de la densité de population de la commune.

Respect de la part du bio
Typologie	respect_bio	effectifs	part
rural autonome très peu dense	NON	41	65.1
rural autonome très peu dense	OUI	22	34.9
rural autonome peu dense	NON	607	77.1
rural autonome peu dense	OUI	180	22.9
rural sous faible influence d’un pôle	NON	321	71.0
rural sous faible influence d’un pôle	OUI	131	29.0
rural sous forte influence d’un pôle	NON	245	61.3
rural sous forte influence d’un pôle	OUI	155	38.8
urbain densité intermédiaire	NON	1275	73.1
urbain densité intermédiaire	OUI	470	26.9
urbain dense	NON	1249	74.5
urbain dense	OUI	427	25.5

On peut aussi analyser la part du bio en fonction du niveau de richesse du territoire. Plusieurs indicateurs sont ici mobilisés.

En premier lieu, on prend en compte le revenu médian du territoire. Une corrélation positive avec la part de bio se dessine, à un niveau relativement faible (+0,19). Le nuage de points, accompagné d’une modélisation simple de la relation entre le revenu médian et la part de bio, montre la part croissante de bio en fonction du niveau de revenus du territoire.

## [1] "Niveau de corrélation : 0.19"

Un deuxième indicateur correspond à la part des ménages imposés. La corrélation apparait légèrement plus faible. Le graphique confirme l’absence de relation nette entre ces deux variables.

## [1] "Niveau de corrélation : 0.15"

Le taux de pauvreté constitue un autre indicateur de richesse du territoire. En cohérence avec les résultats précédents, la corrélation apparait ici faiblement négative : plus le taux de pauvreté augmente, plus la part de bio diminue, mais dans une faible mesure.

## [1] "Niveau de corrélation : -0.16"

Dernier indicateur de richesse : la part des revenus d’activité dans les revenus. La corrélation est presque nulle, ce que confirme le graphique.

## [1] "Niveau de corrélation : 0.08"

Disparités selon le modèle économique de la cantine

La plupart des cantines n’investissent qu’un secteur (école, hôpital, etc.). Le respect du seuil apparait sensiblement plus élevé parmi les cantines qui exercent dans plusieurs secteurs d’activité.

Respect de la part du bio
nombre_secteurs	respect_bio	effectifs	part
unique	NON	3411	73.8
unique	OUI	1214	26.2
plusieurs	NON	330	65.9
plusieurs	OUI	171	34.1

La plupart des cantines relèvent du public, et c’est en son sein du public que le respect du seuil apparait le plus fréquent (30% contre 9% dans le privé).

Respect de la part du bio
sphere	respect_bio	effectifs	part
private	NON	706	90.7
private	OUI	72	9.3
public	NON	3035	69.8
public	OUI	1313	30.2

Le jeu de données renseigne également si la gestion de la cantine est directe ou déléguée. Ce dernier cas de figure est moins fréquent mais une plus grande part d’entre elles respectent le seuil.

Respect de la part du bio
gestion	respect_bio	effectifs	part
conceded	NON	503	68.7
conceded	OUI	229	31.3
direct	NON	3238	73.7
direct	OUI	1156	26.3

La production sur site est la plus répandue parmi les cantines, mais c’est ce mode qui respecte le moins souvent le seuil de bio.

Respect de la part du bio
production	respect_bio	effectifs	part
central	NON	71	53.4
central	OUI	62	46.6
central_serving	NON	253	70.5
central_serving	OUI	106	29.5
site	NON	3140	80.1
site	OUI	782	19.9
site_cooked_elsewhere	NON	277	38.9
site_cooked_elsewhere	OUI	435	61.1

On peut chercher un lien entre la dimension de l’établissement de la cantine et la part de bio. La plupart des cantines relèvent de petites structures (équivalent de taille PME) : elles respectent moins fréquemment le seuil que les structures de la dimension moyenne des entreprises de taille intermédiaire, mais davantage que celles de la dimension des grandes entreprises.

Respect de la part du bio
production	respect_bio	effectifs	part
petite	NON	2535	72.3
petite	OUI	973	27.7
moyenne	NON	689	64.8
moyenne	OUI	375	35.2
grande	NON	410	96.0
grande	OUI	17	4.0
manquant	NON	107	84.3
manquant	OUI	20	15.7

Pour terminer l’exploration des données, on procède à une analyse des correspondances multiples (ACM). Cette méthode permet d’explorer les relations entre les caractéristiques des cantines. Nous choisissons les caractéristiques ayant trait : au respect du seuil, à la typologie urbaine ou rurale des territoires et à leur richesse (revenu médian et taux de pauvreté), au modèle économique des cantines et aux domaines d’activité dans lesquels elles exercent.

On retient les deux premiers axes de l’ACM, qui captent un peu moins du quart de l’information disponible :

L’axe horizontal est structuré principalement selon la dimension de la cantine et la sphère publique ou privée, ainsi que par la présence de la cantine dans une clinique.
L’axe vertical correspond plutôt au type de production de la cantine, à la présence de la cantine dans certains domaines, en particulier dans une école primaire ou non. Le graphique ci-dessous illustre ce rapport des caractéristiques avec les deux premiers axes.

On représente ensuite dans le graphique ci-dessous les cantines, en lien avec leurs caractéristiques. Les cantines présentes dans les cliniques, de grande dimension et qui relèvent de la sphère privée, sont plutôt à droite : elles sont peu nombreuses, comme vu précédemment.Ces cantines tendent à moins respecter le seuil de bio : celles qui le respectent se trouvent plutôt dans le cadrant supérieur-gauche du graphique, qui investissent plusieurs domaines d’activité, en particulier les écoles primaires, les crèches ; leur production est plus fréquemment centralisée ou préparée ailleurs.

La représentation interactive ci-dessous reprend les mêmes résultats mais elle permet de mieux visualiser les relations entre les caractéristiques des cantines ; elle signale en outre le nombre de cantines qui possède les différentes caractéristiques. Cependant, il ne faut pas surestimer la portée de l’ACM : la plupart des cantines présentent des profils peu différents entre eux, hormis certaines oppositions plus marquées : les cantines qui investissent les cliniques diffèrent fortement de celles qui sont présentes dans les crèches ou le primaire, et sont aussi très différentes de celles actives dans les collèges ou les lycées. Cependant, il ne parait pas pertinent de bâtir une typologie générale des cantines à partir des caractéristiques figurant dans ce jeu de données.

3 - Modélisation

On procède enfin à une modélisation des données en vue de comprendre l’influence de certains facteurs sur la part de bio dans les cantines. On retient les mêmes facteurs que pour l’ACM.

Régression linéaire multiple

On peut réaliser une première modélisation à l’aide d’une régression linéaire, qui suppose que l’effet marginal d’un facteur donné, par exemple le niveau de richesse du territoire, sur la part de bio est constant. Ce modèle présente l’avantage d’une interprétabilité claire, au prix d’une moindre précision de la prédiction.

Les résultats détaillés figurent ci-dessous. En résumé, le modèle explique environ 32% de la variation de la part de bio (cf R2 ajusté). D’après ce modèle, toutes choses égales par ailleurs, et en contrôlant pour les différents facteurs listés ci-dessus, on retient que :

le type de territoire, urbain ou rural, est sans lien avec la part de bio ;
la richesse du territoire influence de manière résiduelle la part de bio ;
la dimension de la cantine ou le nombre de domaines d’activités n’a pas d’effet sur la part de bio ;
l’appartenance à la sphère publique augmente légèrement la part de bio par rapport au privé, de même que la gestion directe par rapport à la délégation ;
les types de production “central serving” et “site” affectent négativement la part de bio ;
les cantines actives surtout dans les crèches, le primaire, les collectivités territoriales et dans une moindre mesure dans les collèges, affichent des parts de bio plus élevées que les autres ; à l’inverse, la présence dans les EHPAD, les cliniques, les hôpitaux, l’enseignement supérieur et dans une moindre mesure les lycées influence négativement la part de bio.

## 
## Régression linéaire multiple
## =====================================================================================
##                                                      teledeclaration_ratio_bio       
## -------------------------------------------------------------------------------------
## Typologierural autonome peu dense                              0.0041                
##                                                               (0.0151)               
##                                                                                      
## Typologierural sous faible influence d'un pôle                 0.0070                
##                                                               (0.0155)               
##                                                                                      
## Typologierural sous forte influence d'un pôle                  0.0112                
##                                                               (0.0157)               
##                                                                                      
## Typologieurbain densité intermédiaire                          0.0135                
##                                                               (0.0150)               
##                                                                                      
## Typologieurbain dense                                          0.0156                
##                                                               (0.0154)               
##                                                                                      
## MED21                                                       0.000004***              
##                                                              (0.000001)              
##                                                                                      
## TP6021                                                       -0.0015***              
##                                                               (0.0006)               
##                                                                                      
## dimensionmoyenne                                               0.0073                
##                                                               (0.0053)               
##                                                                                      
## dimensiongrande                                               -0.0127                
##                                                               (0.0085)               
##                                                                                      
## dimensionmanquant                                             -0.0098                
##                                                               (0.0108)               
##                                                                                      
## nombre_secteurs_agrplusieurs                                  -0.0149*               
##                                                               (0.0077)               
##                                                                                      
## canteen_economic_modelpublic                                 0.0298***               
##                                                               (0.0064)               
##                                                                                      
## canteen_management_typedirect                                0.0268***               
##                                                               (0.0054)               
##                                                                                      
## canteen_production_typecentral_serving                       -0.0337***              
##                                                               (0.0119)               
##                                                                                      
## canteen_production_typesite                                  -0.0359***              
##                                                               (0.0109)               
##                                                                                      
## canteen_production_typesite_cooked_elsewhere                   0.0104                
##                                                               (0.0117)               
##                                                                                      
## college                                                      0.0285***               
##                                                               (0.0061)               
##                                                                                      
## primaire                                                     0.0778***               
##                                                               (0.0061)               
##                                                                                      
## lycee                                                        -0.0260***              
##                                                               (0.0068)               
##                                                                                      
## ehpad                                                        -0.0648***              
##                                                               (0.0067)               
##                                                                                      
## cliniques                                                    -0.0606***              
##                                                               (0.0107)               
##                                                                                      
## hopitaux                                                     -0.0789***              
##                                                               (0.0090)               
##                                                                                      
## superieur                                                    -0.0726***              
##                                                               (0.0106)               
##                                                                                      
## creche                                                       0.1123***               
##                                                               (0.0089)               
##                                                                                      
## restau_ct                                                    0.0649***               
##                                                               (0.0113)               
##                                                                                      
## restau_etat                                                    0.0073                
##                                                               (0.0125)               
##                                                                                      
## Constant                                                       0.0157                
##                                                               (0.0383)               
##                                                                                      
## N                                                              5,120                 
## R2                                                             0.3226                
## Adjusted R2                                                    0.3191                
## Residual Std. Error                                      0.1143 (df = 5093)          
## F Statistic                                          93.2755*** (df = 26; 5093)      
## =====================================================================================
## Notes:                                         ***Significant at the 1 percent level.
##                                                 **Significant at the 5 percent level.
##                                                 *Significant at the 10 percent level.

Forêt aléatoire

La précision de la modélisation peut probablement être améliorée à l’aide d’un modèle plus complexe, tenant compte d’effets non linéaires des facteurs explicatifs sur la part de bio. On choisit de recourir à une forêt aléatoire. Même si ce modèle résiste en général au risque de surapprentissage, on procède à une partition des données.

Le modèle peut ainsi être entrainé sur une partie seulement des données, et les paramètres du meilleur modèle, i.e. le modèle commettant les plus faibles erreurs de prédiction, sont choisis sur validation croisée.

## Random Forest 
## 
## 4104 samples
##   18 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold, repeated 2 times) 
## Summary of sample sizes: 3278, 3279, 3277, 3277, 3277, 3278, ... 
## Resampling results across tuning parameters:
## 
##   mtry  splitrule   RMSE       Rsquared   MAE       
##    2    variance    0.1120586  0.3689337  0.07642887
##    2    extratrees  0.1138776  0.3439596  0.07795705
##    8    variance    0.1039897  0.4328846  0.06657368
##    8    extratrees  0.1083431  0.3843206  0.06944324
##   14    variance    0.1044352  0.4318257  0.06596134
##   14    extratrees  0.1078984  0.3916397  0.06830719
##   20    variance    0.1051727  0.4270688  0.06619909
##   20    extratrees  0.1080735  0.3931893  0.06830953
##   26    variance    0.1058491  0.4224586  0.06647431
##   26    extratrees  0.1087158  0.3887887  0.06868523
## 
## Tuning parameter 'min.node.size' was held constant at a value of 5
## RMSE was used to select the optimal model using the smallest value.
## The final values used for the model were mtry = 8, splitrule = variance
##  and min.node.size = 5.

Le tableau ci-dessous fournit le détail des performances des modèles entrainés.

Le graphique ci-dessous illustre la recherche du meilleur modèle en fonction du nombre de facteurs utilisés et de la règle de formation de la forêt aléatoire. La performance est mesurée par la racine carrée de l’écart quadratique moyen (RMSE pour root mean squared error).

Les caractéristiques du meilleur modèle entrainé figurent ci-dessous.

## Ranger result
## 
## Call:
##  ranger::ranger(dependent.variable.name = ".outcome", data = x,      mtry = min(param$mtry, ncol(x)), min.node.size = param$min.node.size,      splitrule = as.character(param$splitrule), write.forest = TRUE,      probability = classProbs, ...) 
## 
## Type:                             Regression 
## Number of trees:                  500 
## Sample size:                      4097 
## Number of independent variables:  26 
## Mtry:                             8 
## Target node size:                 5 
## Variable importance mode:         permutation 
## Splitrule:                        variance 
## OOB prediction error (MSE):       0.01068463 
## R squared (OOB):                  0.4391926

On utilise ce meilleur modèle pour prédire la part de bio sur le jeu de test, et on calcule la performance du modèle sur ce dernier.

## [1] "RMSE sur le jeu d'entrainement : 0.104 RMSE sur le jeu de test : 0.1404"

Le faible écart entre les deux mesures de performance constitue une condition nécessaire mais insuffisante pour recommander l’utilisation du modèle. Il faut prolonger l’analyse du modèle par l’effet des facteurs explicatifs sur la part de bio. Le graphique ci-dessous montre les 10 facteurs les plus déterminants pour ce modèle. On note qu’il s’appuie fortement sur certains domaines d’activité, comme le primaire et le collège, ainsi que le niveau de richesse du territoire, à partir du revenu médian et du taux de pauvreté. C’est une différence notable avec le modèle linéaire, qui détectait un effet significatif, mais faible, de la richesse du territoire sur la part de bio.

La forêt aléatoire étant un modèle non linéaire, on peut chercher les variations dans l’effet des variables numériques sur la part de bio. On mobilise pour cela des graphiques de dépendance partielle pour les deux facteurs se rapportant à la richesse du territoire : le taux de pauvreté, le revenu médian. Pour le taux de pauvreté, le graphique suggère un effet fluctuant, ce qui rend son interprétation trop incertaine ; à l’inverse, la part de bio augmente sensiblement avec le niveau de revenu du territoire, du moins entre 20K€ et 30K€.

On peut approfondir l’analyse en se demandant s’il existe un effet conjoint de ces deux indicateurs de richesse sur la part de bio. Le graphique ci-dessous le représente. Les parties en couleur sont celles où le modèle a été entrainé, autrement dit elles correspondent à des territoires figurant dans le jeu de données d’entrainement. Plus la couleur est claire, plus la part de bio est élevée. Ce que l’on peut retenir de ce graphique, c’est que les cantines dans les territoires où le revenu médian est faible et le taux de pauvreté élevé sont celles présentant les plus faibles parts de bio. Toutefois la part de bio n’augmente pas de manière linéaire à mesure que le territoire s’enrichit.

Cette modélisation offre ainsi une vision plus générale et plus lisible de la relation entre ces facteurs explicatifs de richesse et la part de bio, par rapport à un nuage de points, que l’on représente ci-dessous à titre de comparaison.

Remarques conclusives

Cette modélisation mériterait des approfondissements, en particulier une réflexion avec le service producteur de la donnée (Direction générale de l’alimentation), afin de mieux comprendre les caractéristiques des cantines : cela permettrait notamment d’identifier de possibles interactions entre ces caractéristiques (par exemple, entre la sphère publique et la dimension de la structure) qui expliqueraient mieux la part de bio dans la cantine que ces mêmes caractéristiques prises séparément.

Les cantines respectent-elles la loi EGALIM sur le bio ?