Contexte du projet

L’ensemble du territoire français compte une multitude d’équipements culturels, musées, bibliothèques, théâtres, cinémas, monuments, conservatoires de danse et musique entre autres. Pourtant ces équipements peuvent être méconnus du grand public et inégalement répartis sur le territoire.

Dans le cadre de l’Open Data University (ODU) et pour ce projet Offre Culturelle, nous étudions cette répartition par le biais d’un “diagnostic culturel” à l’échelle des départements français (métropolitains et d’outre-mer). Puis nous tâchons d’analyser la répartition et la qualité de l’offre culturelle au regard de variables socio-économiques de la population. Enfin, afin de découvrir et de s’orienter dans l’offre culturelle existante, une application comportant une cartographie réactive est également réalisée. Ces réalisations portent sur les deux enjeux majeurs de ce projet :

  • valoriser l’offre culturelle et favoriser l’accès à la culture au plus grand nombre
  • répartir de façon plus équilibrée l’offre culturelle sur les territoires

Librairies

Les librairies R utilisées pour le besoin de ce projet sont les suivantes :

  • tidyverse
  • htmltools
  • stringr
  • highcharter
  • leaflet
  • cluster
  • threejs
  • scatterplot3d
  • reactable
  • reactablefmtr
  • bslib

Sources des données

Cette étude est réalisée à l’aide de données issues de sources diverses. Les données principales sont “les données relatives à la culture” fournies dans le cadre de l’Open Data University (ODU) et accessibles via le site internet https://www.data.gouv.fr. Les voici :

Données sur la culture :

  • Base des lieux et équipements culturels (Basilic) publié par le Ministère de la Culture Données mises à jour le 6 février 2024

    Nous utilisons les variables sous_domaines, n_departement, nom, adresse_postale, longitude et latitude.

  • Les bibliothèques des collectivités territoriales
    adresses et données d’activité publié par le Ministère de la Culture Données au 31/12/2022, mis à jour le 29 août 2023

    Nous utilisons la variable code_departement et conservons les variables nom_de_l_etablissement, adresse, ville, longitude et latitude.

  • Liste des établissements cinématographiques actifs publié par le Centre national du cinéma et de l’image animée (CNC) Données mises à jour le 16 juin 2023

    Nous utilisons la variable CODE_COMMUNE et conservons la variable NOM_ETABLISSEMENT.

Données socio-économiques (proposées par Latitudes) :

  • Revenus et pauvreté des ménages aux niveaux national et local - Revenus localisés sociaux et fiscaux publié par l’Institut National de la Statistique et des Etudes Economiques (Insee) Données de 2018, mises à jour le 25 avril 2024

    Nous utilisons la variable (colonne) DISP_TP6018 qui représente le Taux de pauvreté au seuil de 60 % du revenu disponible par unité et la variable IRIS, Code du département suivi du numéro de commune ou du numéro d’arrondissement municipal suivi du numéro d’IRIS.

  • Population en 2019 Recensement de la population - Base infracommunale (IRIS) publié par l’Institut National de la Statistique et des Etudes Economiques (Insee) Population en 2019 - IRIS - France hors Mayotte diffusé selon la géographie en vigueur au 1er janvier 2021 Paru le : 20/10/2022

    Nous utilisons les variables IRIS, COM (code commune) et P19_POP la population en 2019.

Données géographiques :

  • Coordonnées géographiques extrêmes des départements métropolitains de France publié par HéliApps Données mises à jour le 27 août 2021

    Nous utilisons les variables Departement, Latitude la plus au nord, Latitude la plus au sud, Longitude la plus à l’est et Longitude la plus à l’ouest.

En raison de l’absence de certaines données, des données complémentaires ont été ajouté.

Données complémentaires :

  • le nombre de cinémas actifs de chaque département d’outre-mer a été compté manuellement sur le site internet https://www.allocine.fr (à condition que le cinéma soit mentionné comme possédant au moins une salle) ainsi :

    Département / région numéro nombre de cinémas
    Guadeloupe 971 6
    Martinique 972 2
    Guyane 973 4
    La Réunion 974 8
    Mayotte 976 1
  • La population à Mayotte (environ 262 895 personnes) étant exclue de la base de données concernant le recensement de la population en 2019, cette information a également été ajoutée manuellement en utilisant les informations de l’INSEE suivantes : https://www.insee.fr/fr/statistiques/3291775?sommaire=2120838 2017 https://blog.insee.fr/mayotte-recensement-adapte-a-population-hors-norme/ 2017 à 2022

  • De même pour les taux de pauvreté des départements et régions d’outre-mer d’après : https://www.insee.fr/fr/statistiques/4632225#figure2_radio2

    Département / région numéro taux de pauvreté
    Guadeloupe 971 34,5%
    Martinique 972 26,7%
    Guyane 973 52,9%
    La Réunion 974 35,6%
    Mayotte 976 77,3%
  • Enfin, les coordonnées extrêmes des départements et régions d’outre mer étant absent à nouveau, il a fallu les rechercher et les vérifier notamment à l’aide de https://www.geoportail.gouv.fr, puis les ajouter.

Un premier travail de sélection de la donnée est réalisé dans un fichier R séparé nommé tidy_data_DV.R

Carte des départements

À l’aide des données géographiques, il est possible de visualiser les “centres” de chacun des 101 départements français.

# place un point repère pour chaque département
m <- leaflet(dept) |>
  addTiles() |>
addMarkers(lng = ~longitude, lat = ~latitude, popup = ~nom.departement)

m

Carte des musées

Ici nous plaçons un point repère pour chaque Musée sur le territoire français. Puis nous groupons les plus proches.

leaflet(df1) |> addTiles() |> addMarkers(
  clusterOptions = markerClusterOptions(), popup = ~nom
)

Il est ainsi possible de créer plusieurs cartes à partir des données. Représentant les emplacements d’infrastructures culturelles diverses, filtrés par sous-domaines (musées, bibliothèques, théâtres, monuments…) ou par département, voire les deux. Ceci a permis de créer l’application : ODU_Offre_Culturelle_App, laquelle peut être lancée en ouvrant dans RStudio le fichier app.R situé dans le dossier ODU_Offre_Culturelle_App puis en cliquant sur Run App en haut à droite.

Analyse des données

Afin de réaliser une étude plus poussée sur l’accès à la culture prenant en compte des données socio-économiques telles que la population (nombre officiel d’habitants) dans chaque département ainsi que le taux de pauvreté des ménages, nous réalisons une matrice constituée de 7 colonnes :

  1. population statistique : les 101 départements français
  2. indice de population (nombre officiel d’habitants)
  3. moyenne des taux de pauvreté des ménages par département
  4. nombre de musées
  5. nombre de théâtres
  6. nombre de bibliothèques
  7. nombre de cinémas

Matrice des données

CHA sur les données centrées réduites

Nous appliquons la méthode de classification hiérarchique (méthode de Ward) avec pour objectif la caractérisation de l’éloignement des individus de l’étude à l’aide de dendrogramme des groupes d’individus. Les variables de décompte (d’habitants, musées, théâtres, bibliothèques et cinémas) sont sans unité mais le taux de pauvreté des ménages est donné en pourcentage (au seuil de 60 % du revenu disponible par unité). Pour remédier à des incohérences dues aux unités, il faut appliquer la méthode sur les données centrées réduites.

Nb : Le taux de pauvreté correspond à la proportion d’individus appartenant à des ménages dont le niveau de vie (après transferts, impôts et prestations sociales) est inférieur au seuil de 60 % de la médiane du revenu disponible de l’ensemble de la population.

hc1<-hclust(d1,method="ward.D")
plot(hc1, main = "Dendrogramme des groupes d'individus")

Cluster

Comme énoncé précédemment, l’objectif de la méthode CHA est d’identifier des groupes (cluster) d’observations ayant des caractéristiques similaires. Ainsi, les individus dans un même groupe se ressemblent le plus possible et les individus dans des groupes différents se démarquent le plus possible.

Dans la pratique, il est possible de choisir le nombre de groupes que nous souhaitons former à l’aide de la méthode.

En formant 5 groupes, une première tendance se dessine : Paris est seul ; il ne ressemble à aucun autre département. Les territoires d’outre-mer sont assez semblables et partagent des caractéristiques avec le département des Ardennes et le Territoire de Belfort.

En formant 7 groupes : Nous observons que Paris est toujours unique. Cependant, sur les cinq groupes formés précédemment, deux se sont divisés en deux nouveaux groupes. Ainsi, la Guyane et Mayotte ont des caractéristiques très proches. Tandis que La Réunion, le Territoire de Belfort, la Martinique, les Ardennes et la Guadeloupe sont similaires et plus proches entre eux qu’ils ne le sont de la Guyane et de Mayotte. Bien qu’ils soient tous très éloignés (en matière de caractéristiques) du Var par exemple.

En formant 10 groupes : Le plus grand groupe s’est divisé en trois et le groupe auquel le Var appartenait s’est lui divisé en deux. Former plus de groupes revient à gagner en précision sur la ressemblance des départements (en matière de caractéristiques culturelles et socio-économiques).

ACP

Pour aller plus loin dans l’analyse, il est possible d’appliquer la méthode dite d’analyse des composantes principales (ACP). Les résultats renseignent sur les liaisons entre les variables et sur les ressemblances entre les individus.

Avec la méthode ACP, nous cherchons à exploiter deux ou trois composantes principales (pour des soucis de représentation impossible au-delà de la 3D) qui décriront le mieux notre ensemble de données en perdant le moins d’information possible. Ces composantes principales sont issues d’un ensemble de k nouvelles variables, combinaisons linéaires des p=6 variables initiales.

Nous choisissons ces composantes principales tel que l’importance cumulée (variance cumulée) des deux ou trois premières nouvelles variables soit supérieure à 85%, seuil à partir duquel nous considérons que l’information est suffisamment préservée.

Dans notre cas, le seuil est dépassé avec les trois premières composantes : C1, C2 et C3 pour lesquelles la variance cumulée est de 88,8 %.

## Importance of components:
##                           Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
## Standard deviation     1.8734719 1.0393996 0.8588303 0.57052115 0.47138362
## Proportion of Variance 0.5849828 0.1800586 0.1229316 0.05424906 0.03703375
## Cumulative Proportion  0.5849828 0.7650414 0.8879730 0.94222202 0.97925577
##                            Comp.6
## Standard deviation     0.35279650
## Proportion of Variance 0.02074423
## Cumulative Proportion  1.00000000

CHA sur les composantes principales (C1, C2, C3)

Nous pouvons ensuite appliquer la méthode CHA sur les composantes principales (C1, C2, C3) obtenues avec la méthode ACP. Cela nous permet non seulement de visualiser les écarts entre les individus, mais également les liens entre ces écarts et les composantes principales qui représentent 88,8% de l’information de la donnée d’origine.

Nous obtenons ainsi un nouveau dendrogramme issu de cette nouvelle analyse. Lequel nous renseigne autrement sur l’éloignement des individus.

L’outil visuel qui nous permettra de mettre en exergue les écarts entre les individus et les relations avec les composantes principales C1, C2 et C3 (issues des variables d’origine), est un nuage de points en 3 dimensions en fonction de C1, C2 et C3.

En approfondissant l’analyse à l’aide de la méthode ACP (non détaillé ici), nous remarquons que la composante principale C1, décrit particulièrement la population des départements, le nombre de musées, de théâtres et de cinémas. Pour un département, plus C1 est élevée, plus la population est importante et le nombre de musées, théâtres et cinémas aussi. Plus C3 est élevé, plus le taux de pauvreté et le nombre de bibliothèques le sont aussi. Finalement C2 ne décrit pas aussi bien les variables d’origine que le font C1 et C3.

Visualisation

En formant 12 groupes, nous obtenons le dendrogramme suivant :

Il est possible de visualiser les écarts entre les individus, entre les groupes et les relations avec les composantes principales C1 et C2. Ainsi, nous déduisons que Paris est unique en matière d’équipements culturels car C1 est élevé : sa population est importante et son nombre de musées, théâtres et cinémas aussi. Au contraire, Mayotte et la Guyane possèdent une faible population et des nombres de musées, théâtres et cinémas faibles aussi (C1 est très faible). Cependant l’information n’est pas complète car C1 et C2 représentent seulement 76,5% de l’information donnée par les données brutes.

Pour visualiser l’information donnée par les trois composantes principales nous utilisons le graphique 3D suivant. Cette nouvelle dimension nous renseigne sur l’éloignement des départements en matière de taux de pauvreté et de nombre de bibliothèques. Ainsi, nous observons que Paris bien que doté de plus d’infrastructures que les autres départements, possède moins de bibliothèques en général. De plus le taux de pauvreté moyen y est très faible. Au contraire, à Mayotte et en Guyane de taux de pauvreté moyen est très élevé et le nombre de bibliothèques est plutôt relatif à la taille de la population.

Par ailleurs, une agglomération de départements nous indique que la plupart ont un taux de pauvreté et un nombre de bibliothèques moyen les uns par rapport aux autres. Leurs nombres d’habitants respectifs sont très inférieurs à la population parisienne à l’instar de leurs nombres de musées, théâtres et cinémas. Certains groupes se distinguent cependant par leurs manques d’équipements par rapport aux autres ; c’est le cas du groupe formé par la Réunion, le Territoire de Belfort, la Martinique et la Guadeloupe. D’autres se démarquent par une forte présence d’infrastructures culturelles sur leurs territoires tel que celui formé par le Nord, les Bouches-du-Rhône et le Rhône.

Il est également possible de visualiser ces résultats à l’aide d’un nuage de point “interactif”. Celui-ci permet d’effectuer un zoom sur une zone souhaitée, de pivoter le graphique dans tous les sens pour mieux voir certaines informations. De plus les noms des départements ont été colorés en fonction du cluster auxquels ils appartiennent.

Problématiques

Au regard des visualisations des données brutes et analysées, il nous est possible de répondre aux problématiques issues des enjeux auxquels ce projet est lié.

L’enjeu qui est de valoriser l’offre culturelle et de favoriser l’accès à la culture au plus grand nombre pose une problématique : - Comment valoriser l’offre culturelle et ainsi favoriser l’accès à la culture pour le plus grand nombre ? L’objectif de ce projet est justement d’y apporter une certaine réponse en - permettant à chaque citoyen de découvrir des lieux, des activités et des œuvres, et ainsi participer à la vie culturelle ; - et en permettant aux collectivités territoriales de valoriser la richesse culturelle de leurs territoires d’une part, et de mieux penser leurs stratégies d’aménagement culturel d’autre part.

Ceci a été fait à travers l’application ODU_Offre_Culturelle_App. En effet, cette application est suffisamment intuitive pour être utilisée par tous et peut servir à valoriser la richesse culturelle des territoires en permettant au grand public de découvrir les équipements culturels présents au sein de leur département et au-delà. Elle pourrait également permettre de déceler des carences d’équipements culturels sur le plan géographique, sur lesquels les collectivités territoriales pourraient en partie s’appuyer pour mieux penser leurs stratégies d’aménagement culturel. Elle remplit donc ce double objectif.

L’enjeu d’une répartition plus équilibrée de l’offre culturelle sur les territoires par les pouvoirs publics pose la problématique suivante : - Comment les pouvoirs publics peuvent assurer une répartition équilibrée de l’offre culturelle sur un territoire ?

Pour y répondre il faut sans doute s’appuyer sur l’analyse (ici non exhaustive) des données. Cette dernière nous a, en prenant les exemples extrêmes, permis de détecter l’état “d’hyper-infrastructure” culturelle de Paris et “d’hypo-infrastructure” culturelle de Mayotte et de la Guyane. De telles déductions, à l’échelle des départements voire des villes permettraient sans doute : - au Ministère de la culture de mieux piloter ses actions et ses aides en faveur des territoires et des publics. - et aux collectivités territoriales de mieux penser leurs stratégies d’aménagement culturel.

Pour apporter une réponse plus fournie à cette problématique, il aurait été judicieux de compléter l’analyse en prenant en compte le “dynamisme culturel” et donc les données de pratiques culturelles (fréquentation des monuments nationaux, fréquentation des Musées de France, fréquentation des salles de cinéma…), et les données d’économie de la culture (financements publics…). Il aurait aussi pu être utile d’agrandir la liste des sous-domaines étudiés aux conservatoires, monuments etc. Cela n’a pas été fait par manque de temps.

Pour aller plus loin

La réalisation de ce projet a été confrontée à de nombreuses limitations. Premièrement du fait de la fiabilité des données fournies. En effet, de nombreuses données pourtant officielles sont incomplètes, absentes voire erronées. En particulier concernant les départements d’outre-mer ; pour lesquels des données ont dû être ajoutées à la main. Dans la base de données dite Basilic (Base des lieux et équipements culturels), certains équipements n’appartiennent à aucun sous-domaine. De ce fait j’ai d’abord cru que les bibliothèques et cinémas n’étaient pas inclus dans cette base qui semblait pourtant presque qu’exhaustive. J’ai alors complété les données de cette base par deux autres bases de données renseignant respectivement sur les bibliothèques et les cinémas. En élaborant l’application je m’aperçue que ces équipements sont bien présents mais sans sous-domaine renseigné ce qui rend leur exploitation difficile. En voulant visualiser les emplacements des infrastructures, il est possible d’observer que certaines sont décrites comme étant situées dans un département tandis que leurs coordonnées géographiques les placent ailleurs dans un autre département. De plus la colonne (variable) latitude de la base Basilic étant du type character et non numeric il fallait la convertir du premier vers le second pour pouvoir représenter géographiquement les équipements. Deuxièmement, en raison de données vieillissantes, datant parfois d’il y a plusieurs années.

Toutes ces complications témoignent de la difficulté que représente le travail de traitement, d’analyse et de visualisation de la donnée quand les données brutes sont peu organisées. Il n’est alors pas surprenant que les collectivités territoriales et les instances du gouvernement tel que le Ministère de la culture puissent avoir des difficultés à piloter leurs actions et leurs aides en faveur des territoires et du public. En particulier dans les territoires les plus impactés par cette désorganisation de la donnée.

L’une des solutions à cela, serait dans un premier temps, de recueillir et ordonner la donnée de façon plus régulière et organisée et de s’assurer de sa véracité entre autres. Un travail en amont plus conséquent qui simplifierait le travail en aval. Cela demanderait peut-être de faire appel à des personnes à cette occasion, cependant le gain de temps et l’argent mieux dépensé par la suite n’en valent-ils pas la peine ?