Document de travail avancement projet TOSCA

0.1 Contexte

Le projet ITKS2 vise à déterminer la temporalité des pratiques d’enherbement des inter-rangs et de déploiement/repli de filets au sein des parcelles viticoles et arboricoles respectivement, associés à des bassins de production distincts (i.e. le bassin versant de Roujan et le bassin de la Basse Vallée Durance). L’utilisation de la télédétection s’appuyant sur les images satellite Sentinel-1 pour la détermination de ces pratiques constitue l’originalité du projet, et vise à aboutir à une détection quasi-automatique de ces pratiques pour le plus grand nombre de parcelles possible et au grain temporel le plus court permis par l’utilisation de Sentinel-1 (i.e., 3 jours). Un stage de M2 et un travail préliminaire ont établi la difficulté de suivre l’évolution de l’enherbement des inter-rangs au sein des parcelles viticoles en raison de la largeur des inter-rangs et de l’influence de la vigne sur la valeur des bandes utilisées pour la détection de la végétation. Par conséquent, le projet a été réorienté sur les parcelles arboricoles afin de parfaire la technique sur une pratique jugée plus simple à détecter par image satellite.

0.3 Objectifs du CDD

Objectif principal : Au sens large, améliorer la détection de la fermeture/ouverture des filets au sein des parcelles arboricoles de la basse Vallée de la Durance

Cet objectif se décompose en plusieurs étapes :

Cartographier les erreurs de détection
Identifier les facteurs potentiels d’erreur et les corrections envisageables
Extrapoler la méthode, dans un premier temps aux petites parcelles arboricoles du BVD (<1 ha)*

*Selon avancée, étudier efficacité de la méthode/du modèle produit sur des parcelles hors BVD.

Note : Pour faciliter l’interopérabilité du fichier markdown, les figures et les données présentées seront autant que possible préenregistrées.

0.3.1 Première étape : prise en main des données

On reste sur le modèle Random Forest issu de la cross-validation à partir de 70% du jeu de données. A partir de la matrice de confusion en résultant, on observe que le modèle performe bien, avec des erreurs entre l’absence totale de filets et l’ouverture des filets (peu surprenant), mais aussi un nombre non négligeable d’erreurs entre l’absence de filets et des filets refermés, dans les deux sens.

Matrice de confusion initiale On va s’intéresser particulièrement à ces erreurs, en prenant aussi en compte les prédictions de filets ouverts quand ceux-ci sont fermés. En affichant les parcelles pour lesquelles les erreurs de détection ont été les plus fréquentes, aucun schéma spatial clair semble se détacher.

### Deuxième étape : ajout d’informations sur les parcelles

0.3.1.1 1ère semaine

5 informations pourraient être susceptibles d’améliorer la performance des arbres de décisions : l’altitude de la parcelle, sa longitude, sa latitude, sa forme ainsi que son orientation. L’altitude peut être obtenue grâce aux données IGN accessibles en ligne, tandis que les autres informations peuvent être extraites du fichier spatial contenant les parcelles et la présence de filets. La forme de la parcelle sera quantifiée selon sa proximité à un rectangle, mesurée comme la différence entre l’aire de la parcelle et l’aire du plus petit rectangle contenant tous les sommets des polygones (cf. Figure). De manière simplifiée, l’orientation est calculée à partir des coordonnées des sommets du polygone et de l’angle de l’arête avec l’augmentation la plus importante vers le nord (script de Daniel Wollschlaeger https://github.com/ramnathv).

Représentation de la mesure de rectangularité Les nouvelles variables explicatives ajoutées, on relance le modèle RF. L’analyse de la matrice de confusion résultant du nouveau modèle témoigne d’une amélioration importante de la performance du modèle, avec un nombre extrêmement réduit d’erreurs.

Matrice de confusion mise à jour Les graphiques représentant l’importance relative de chaque variable confirme le rôle prépondérant des informations ajoutées, notamment les coordonées XYZ.

Variation de la performance du modèle en fonction des variables

Il reste tout de même des parcelles pour lesquelles la détection est très largement incorrecte sur toute la période 2021-2024. En isolant les valeurs des variables utilisées par le modèle RF pour la classification, on constate que les parcelles erronées ont une altitude moyenne plus basse que les parcelles correctes. Par ailleurs, cette donnée n’est pas directement incluse dans le modèle, les parcelles erronées sont également plus petites. Or celles-ci ont été retirées du jeu de données d’entraînement, on fait donc l’hypothèse que les y ajouter permettrait peut-être d’améliorer encore davantage la performance du modèle.

0.3.1.2 Deuxième semaine

On ajoute donc les parcelles plus petites (note, supérieures > 1000 m2, les parcelles plus petites sont encore retirées pour l’instant). L’ajout ne semble avoir ni amélioré ni dégradé la performance du modèle à l’étude de la matrice de confusion seule.

Matrice de confusion mise à jour avec les parcelles plus petites Cependant, l’affichage des prédictions de fermeture/ouverture est quant à lui bien amélioré, avec notamment une excellente détection des parcelles sans filets.

Prédiction d’état des filets

Document de travail avancement projet TOSCA

Martin Faucher

2025-01-10

0.1 Contexte

0.2 Objectifs

0.3 Objectifs du CDD

0.3.1 Première étape : prise en main des données

0.3.1.1 1ère semaine

0.3.1.2 Deuxième semaine