Introduction


Depuis le 18eme siècle, le « revenu » d’un ménage est un enjeu majeur dans l’économie d’un pays et son bon fonctionnement. Souvent tabou ou « sujet qui fâche », il est facteur de nombreuses décisions (activité, niveau de vie et même sa fréquentation). Par ce biais, Nous savons que la France compte 5,2 millions de pauvres si l’on fixe le seuil de pauvreté à 50 % du niveau de vie médian et 9,2 millions si l’on utilise le seuil de 60 %, selon les données 2019. Cependant fait partie des pays de l’Union européenne où le taux de pauvreté et le plus faible (près de 10 points de pourcentage de différences avec l’Espagne par exemple). Par ailleurs, les Français sont parmi les populations disposant d’un des revenus disponibles médians les plus élevés de l’Union européenne (UE), (près de 4 fois supérieur à celui de la Roumanie, mais 1.5 fois inférieur à celui du Luxembourg). En comparaison de ces pays, les écarts de revenus entre régions françaises sont relativement limités. Ce constat ne doit toutefois pas faire oublier le particularisme de certains territoires ultra-marins, où les revenus sont en net retrait par rapport à la moyenne en métropole (pour l’un des DOM affiche le revenu disponible médian le plus faible des régions de l’UE). Mais, certaines régions même au sein de la métropole sont « hors norme » (comme la région Ile-de-France qui héberge à la fois le département le plus riche (Paris) et le plus pauvre en métropole (Seine-Saint-Denis). On peut donc se demander :


Quelles différences, comment et pourquoi au sein d’un seul et même pays nous pouvons remarquer de tels éloignement ?


Lors de cette étude nous allons nous pencher sur la question de « quel sont les principales différences de revenu et de pauvreté en France en 2019 » et nous essayerons d’expliquer ces différences. Ainsi, cette étude sera accès sur les revenus et la pauvreté Française en 2019, selon les résultats de l’INSEE (L’Institut national de la statistique et des études économiques). Majoritairement mon étude portera sur les différences départementales et régionales. Grâce à ce choix, les analyses statistiques qui suivront permettrons, de comparer, d’identifier, d’analyser, de comprendre, de percevoir, et faire des hypothèses plus facilement.


SOMMAIRE


1.MÉTHODOLOGIE

1.1 Le choix du sujet et la sélection des données

1.2 L’objectif

1.3 L’importation des données et la création du schéma relationnel

1.4 Mise en contexte


2. PREMIERE APPROCHE AVEC LES DONNÉES

2.1 La répartition

2.2 Données brutes par régions


3. INFLUENCE ET ANALYSE DU TAUX DE PAUVRETÉ

3.1 En générale

3.2 Au particulier


4. ANALYSE DES FACTEURS ECONOMIQUES

4.1 Tendance, premiere approche et démographie

4.2 Leurs impacts sur la répartition


5. SYNTHÈSE

5.1 Graphique synthèses générales

5.2 Conlusion

5.3 abstract


5. ANNEXE


MÉTHODOLOGIE

Afin d’effectuer une étude statistique qualitatives et donc de répondre le plus justement à la question ci-dessus, selon moi, plus on a de données plus l’analyse sera précise et pertinente. Cependant, qui dit nombre ne dit pas qualité, et même le grand nombre de données sera une difficulté puisque beaucoup trop d’idée et on se perd dans l’étude, et les données perdent d’efficacités. Malgré les avertissements, j’ai fait choix (et pris le risque) de prendre toutes les données disponibles, sur l’INSEE. Une fois récolté, j’ai dû les comprendre, les analyser afin de créer un schéma relationnel (pour les implanter dans un serveur php et faire des requêtes qu’avec les données qui m’intéressent en fonction de ma volonté). J’ai eu énormément de problème pour sa création (visualisation simplifier du schéma en annexe).
Une fois cette épreuve passée, l’analyse a pu enfin commencer. Pour plus de compléments, chaque étape et exemple ci-dessous.


1.1 Le choix du sujet et la séléction des données


Comme dans toute analyse, nous avons besoin de données, notre tutrice nous a demandé de les prendre sur l’INSEE. Mais avant, il nous était proposé 5 thématiques. J’ai donc choisi le revenu et pauvreté, puisque premièrement, selon moi, c’est un sujet m’intéresse et venant de la région parisienne (Boulogne-Billancourt), voyant la différence avec ici à Avignon où la pauvreté est plus présente, il me semblait intéressant de connaître les facteurs qui différencient autant ces régions/départements. Par ailleurs, comme expliquer ci-dessous, j’ai pris le risque de prendre toutes mes données disponibles. Cependant, je me rendrais compte que cette initiative a été plus une perte de temps à titre d’exemple j’ai eu beaucoup de difficultés avec les liens des arrondissement et les communes associés, mais dans mon étude, je n’ai jamais étudié les arrondissements, et ceux pareille pour les cantons, air d’attraction…

1.2 L’objectif


Mon analyse porte sur le sujet de revenu et pauvreté en France et je voulais quelque chose qui pourrait intéresser tout le monde. J’ai donc choisi la dernière publication de l’INSEE sur ce sujet (2019). J’ai aussi fait le choix de faire « beaucoup » de graphiques puisque certaines personnes comprennent mieux visuellement (donc avec des graphiques, tableaux, cartographie…) et d’autre avec l’écrit. Ensuite, j’ai commencé l’importation.


1.3 L’importation des données et la création du schéma relationnel


Le schéma relationnel est une manière de modéliser les relations existantes entre plusieurs informations, et de les ordonner entre elles. Cependant, sa création est plus dure que sa définition. Comme expliqué ci-dessus j’ai eu beaucoup de problèmes pour sa modélisation, son implémentation…(cf annexe). Cependant, l’importation des données est un tournant dans l’étude. Selon moi, c’est à ce moment-là que nous entrant dans réellement l’analyse.

1.4 Mise en contexte


Mais, avant de commencer toute analyse, il me semble primordial de savoir son sujet. Quand je dis son sujet, c’est tous ce qui relève de la compréhension « de base », puisque selon moi, une bonne compréhension d’analyse est possible que lorsque sont lecteurs, auditoire, public a bien compris l’étude, ces difficultés, modalités… Ainsi, je vous dans cette partie vous présenter les principales données étudiées, leurs définitions, l’origine…


L’origine:
Comme expliquer rapidement ci-dessus, ces données proviennent de l’INSEE s’appelant « revenu et pauvreté des ménages en 2019 ». C’est un Fichier Localisé Social et Fiscal (FiLoSoFi) avec ça dernière mise en ligne le 17/01/2022.


Téléchargement des données :
https://guacamole.univ-avignon.fr/nextcloud/index.php/s/q8CL25rqf9HAQ8Y


Champ :
Le champ couvert est celui de l’ensemble des ménages fiscaux ordinaires : il exclut les personnes sans domicile ou vivant en institution (prison, foyer, maison de retraite…). Les résultats sont fournis pour la France métropolitaine, la Martinique et La Réunion. La part des ménages fiscaux imposés est calculée sur le champ des ménages dont le revenu déclaré est positif ou nul. Les autres indicateurs sont calculés sur le champ des ménages dont le revenu disponible est positif ou nul. Les communes sans habitant ou sans habitant soumis à la taxe d’habitation ne sont pas dans la liste des communes. Les données sont arrondies à la dizaine pour les déciles et quartiles de revenu et arrondies à quelques décimales pour les autres Indicateurs.


Géographie et année:
Les statistiques de l’année 2019 sont proposées dans la géographie communale en vigueur au 01/01/2021.


Probleme du secret statistique et seuil de diffusion:
Le secret statistique exclut que des données collectées à des fins statistiques puissent être utilisées ou réutilisées à des fins de décision à l’égard des personnes concernées ; personnes physiques comme personnes morales. En particulier, il exclut strictement toute utilisation ou réutilisation de ces données à des fins de contrôle fiscal ou de répression économique. Toute personne accédant à des données collectées ou traitées à des fins statistiques (enquêteur, agent recenseur, statisticien, demandeur habilité) est soumise au secret statistique.


Definition des principales varialbles selon l’insee:
Le « ménage fiscal » est un ménage constitué par le regroupement des foyers fiscaux répertoriés dans un même logement. Son existence, une année donnée, tient au fait que coïncident au moins une déclaration indépendante de revenus et l’occupation d’un logement connu à la Taxe d’Habitation. Les ménages constitués de personnes ne disposant pas de leur indépendance fiscale (essentiellement des étudiants) sont comptés dans les ménages où ils déclarent leurs revenus même s’ils occupent un logement indépendant.


Le terme « foyer fiscal » désigne l’ensemble des personnes inscrites sur une même déclaration de revenus. Il peut y avoir plusieurs foyers fiscaux dans un seul ménage : par exemple, un couple non marié où chacun remplit sa propre déclaration de revenus compte pour deux foyers fiscaux.


Le « revenu disponible » est le revenu à la disposition du ménage pour consommer et épargner. Il comprend les revenus d’activité nets des cotisations sociales, les indemnités de chômage, les retraites et pensions, les revenus du patrimoine (fonciers et financiers) et les autres prestations sociales perçues, nets des impôts directs.


Le « taux de pauvreté » monétaire correspond à la proportion d’individus (ou de ménages) étant en situation de pauvreté monétaire.

Si on ordonne une distribution, « la médiane » partage cette distribution en deux parties d’effectifs égaux. Ainsi, pour une distribution de salaires, 50 % des salaires se situent sous la médiane et 50 % au-dessus.


Si on ordonne une distribution de salaires, de revenus, de chiffres d’affaires, etc., « les déciles » sont les valeurs qui partagent cette distribution en dix parties d’effectifs égaux. Ainsi, pour une distribution de salaires :
• le premier décile (noté généralement D1) est le salaire au-dessous duquel se situent 10 % des salaires ;
• le neuvième décile (noté généralement D9) est le salaire au-dessous duquel se situent 90 % des salaires.
Le premier décile est, de manière équivalente, le salaire au-dessus duquel se situent 90 % des salaires ; le neuvième décile est le salaire au-dessus duquel se situent 10 % des salaires.


Les rapports « interdéciles » des revenus sont utilisés pour mettre en évidence les disparités (ou écarts) entre les plus riches et les plus pauvres.



PREMIERE APPROCHE AVEC LES DONNÉE


Après vous avoir présenté les principaux termes spécifiques de l’étude, nous allons vous présenter une première approche graphique des données afin d’appuyer votre compréhension et d’avancer petit à petit dans l’analyse. En effet, dans un premier temps nous allons étudier la répartition des départments et des communes. Puis dans un second temps nous allons avoir “une première approche avec les données conditionnées selon les régions.

2.1 La répartition

Ainsi comme expliqué auparavant, nous allons représenter la répartition du nombre de départements dans chaque région française, puis la répartition du nombre de communes dans chaque département français.

SELECT "dep", D2."reg", "libgeo", "nbmenfisc19","tp6019", "nbpersmenfisc19", "med19", "pimp19","pact19","pcho19", "ppat19", "ppfam19", "pplogt19", "pimpot19", "rd19", R."libelle"
FROM sae."dep_2022" AS D2, sae."dep_2019" AS D1, "reg_2022" AS R
WHERE D1."codgeo"=D2."dep" and D2."reg"=R."reg"
X6 <- read_csv("X6.csv")
myTable=X6[, c(1:3,16) ]
myFrame=as.data.frame(table(myTable$libelle))
ggplot(myFrame, aes(x=Freq, y= Var1, fill= Freq)) + geom_col( col="red", width = .6, ) + scale_x_continuous(breaks = seq(0,16, 2)) + theme_bw() + geom_text(aes(label = Freq, hjust = 1.2), color = "red", size=5)+labs(x= "nombre de département", y="région", title = "nombre de département dans chaque régions") +theme(plot.title = element_text(color="black", size=14, face="bold.italic"),axis.title.x = element_text(color="red", size=14, face="bold"),axis.title.y = element_text(color="black", size=14, face="bold"))


Ce graphique nous permet de mettre en avant les différences du nombre de départements au sein des régions françaises et d’outre-mer. Ainsi, on remarque très vite qu’il y a de grandes différences entre les régions d’outre-mer et la France métropolitaine. En effet, chaque DOM ne possède qu’un département, alors qu’en France métropolitaine (hors corse) puisque le nombre de départements varient de 4 (pour la Bretagne) à 13 (pour l’Occitanie). Nous remarquons aussi qu’en moyenne, il y a environ 8 départements dans chaque région (grâce à la légende), donc pour tous les DOM-TOM, ils ont 7 départements de moins que la moyenne. Ainsi, on peut déjà dire que les régions d’outre-mer sont « différentes » que les autres.


SELECT DISTINCT *
FROM sae."com_2022" AS C2, sae."dep_2022" AS D
WHERE C2."dep"=D."dep"
dump_15 <- read_csv("dump-15.csv")
mytable=dump_15[,c(2,4,7,16)]
myframe=as.data.frame(table(mytable$ncc...16))
ggplot(myframe, aes(x=Freq, y= Var1, fill= Freq)) + geom_col( width = .6, ) + 
  labs (fill = "nb de commune") + scale_x_continuous(breaks = seq(0,16, 2)) + theme_bw() + geom_text(aes(label = Freq, hjust = 1.2), color = "red", size=3.3)+labs(x= "nombre de commune", y="département", title = "nombre de commune dans chaque département") +theme(plot.title = element_text(color="black", size=14, face="bold.italic"),axis.title.x = element_text(color="red", size=14, face="bold"),axis.title.y = element_text(color="black", size=14, face="bold")
)


Sur ce graphique nous remarquons aussi de grandes différences mais au niveau du nombre de communes par département.
En effet, on remarque en moyenne que le nombre de communes varient de 17 (Mayotte) à près de 890 (Pas-de-Calais).
Cette si grosse différence est entre autres expliquée par les départements d’outre-mer, ils sont effectivement bien en dessous de la moyenne qui est d’environ 400 communes, puisqu’elles en ont qu’entre 17 et 34 communes (hors Mayenne). Cependant on remarque aussi que la proche banlieue parisienne (Val-de-Marne, Hauts-de-Seine, Saint-Denis, Paris) est aussi bien plus faible que la moyenne puisqu’ils en ont qu’entre 17 à 56 communes.


Grâce à ces deux graphiques nous pouvons retenir dans un premier temps, que la répartition des département et des communes n’est pas égales en générales pour les régions/départements d’outre-mer, puis dans un second temps que le découpage communale dans la région de l’Île-de-France et plus précisément dans la proche banlieue de Paris est inégales avec les autres départements.


Données brutes par régions

KABLEE <- read_csv("KABLEE.csv")
kbl(KABLEE, escape = F, align = "c") %>%
    kable_paper(full_width = F) %>% row_spec(0, angle = 0) %>%
  column_spec(1, color = "black",
              link = "https://fr.wikipedia.org/wiki/Région_française") %>%
  column_spec(3, color = "white",
              background = spec_color(KABLEE$nbmenfisc19,end = .99),
              popover = paste("am:", KABLEE$nbmenfisc19)) %>%
  column_spec(4, color= spec_color(KABLEE$med19, end = .9, option = "E", direction = 1)) %>%
  column_spec(6, color = spec_color(KABLEE$rd19,end = .99)) %>%
  column_spec(5, color = "white",
              background = spec_color(KABLEE$tp6019,end = .99),
              popover = paste("am:", KABLEE$tp6019)) %>%
  column_spec(7, color = "white",
              background = spec_color(KABLEE$pact19,end = .99),
              popover = paste("am:", KABLEE$pact19)) %>%
  column_spec(8, color = spec_color(KABLEE$pimpot19,end = .99)) %>%
  column_spec(9, color = "white",
              background = spec_color(KABLEE$rd19,end = .99),
              popover = paste("am:", KABLEE$rd19)) %>%
  footnote(general = "NOM DES COLONNES DÉTAILLÉS ",
           general_title = "NB: ",
           alphabet = c("libgeo: nom du departement", 
                        "codgeo: nom du département", 
                      "nbmenfisc19: nombre d'habitant", 
                      "med19: Médiane du niveau vie (€)",
                      "tp6019: Taux de pauvreté-Ensemble (%)",
                      "tp60tol119: Taux de pauvreté-propriétaires (%)",
                      "pact19: Part des revenus d'activité (%)",
                      "pimpot19: Part des impôts (%)",
                      "rd19: Rapport interdécile 9e décile/1er décile"),
           alphabet_title = "colonne respectivement :",
           footnote_as_chunk = F, title_format = c("italic", "underline"))
libgeo codgeo nbmenfisc19 med19 tp6019 tp60tol119 pact19 pimpot19 rd19
Centre-Val de Loire 24 1131828 21710 13 6 69 -16 3
Normandie 28 1438006 21380 13 6 69 -16 3
Occitanie 76 2623383 20980 17 9 68 -16 3
Auvergne-Rhône-Alpes 84 3434965 22610 13 6 74 -17 3
Corse 94 126908 20950 18 11 68 -18 4
Nouvelle-Aquitaine 75 2706556 21540 13 7 67 -16 3
Grand Est 44 2366349 21800 15 6 69 -16 3
Île-de-France 11 5001831 24060 16 6 86 -23 4
Bourgogne-Franche-Comté 27 1240046 21640 13 6 69 -16 3
Bretagne 53 1490113 21990 11 6 68 -16 3
Hauts-de-France 32 2459959 20360 18 7 72 -16 3
Pays de la Loire 52 1642803 21850 11 5 72 -16 3
Provence-Alpes-Côte d’Azur 93 2275217 21590 17 8 69 -18 4
NB:
NOM DES COLONNES DÉTAILLÉS
colonne respectivement :
a libgeo: nom du departement
b codgeo: nom du département
c nbmenfisc19: nombre d’habitant
d med19: Médiane du niveau vie (€)
e tp6019: Taux de pauvreté-Ensemble (%)
f tp60tol119: Taux de pauvreté-propriétaires (%)
g pact19: Part des revenus d’activité (%)
h pimpot19: Part des impôts (%)
i rd19: Rapport interdécile 9e décile/1er décile


Ce tableau nous permet de rentrer plus concrètement dans l’analyse. Ici, j’ai fait le choix de supprimer les DOM-TOM puisque (dut à leur valeur extrêmement haute, taux de pauvreté par exemple, ou basse, revenu médian par exemple) nous ne pouvions pas voir de différences avec les régions métropolitaines.
Ainsi, nous pouvons voir et affirmer que la région de l’Île-de-France est une région ayant les plus fortes valeurs dans la majorité des colonnes.
En effet, la région numéro 11 est celle qui hébergent le plus d’habitants de France (plus de 5 000 000), et où le niveau de vie médian est le plus élevé (de plus de 1 500 € avec le deuxième), et logiquement la région reversant le plus d’impôts (23% de leur revenu disponible).
Par ailleurs on peut aussi remarquer que la région Île-de-France et Corse font partie des régions où le rapport interdécile est le plus élevé (4%), alors que pour l’un (Île-de-France) le revenu médian et le plus haut et pour l’autre (Corse) le revenu médian est le plus faible.
On peut d’ores et déjà émettre l’hypothèse qu’en Île-de-France il y a beaucoup de riches et une minorité pauvre (autrement dit 90% de riches et 10% de pauvres) et inversement pour la course (90% de pauvres et le reste de très riches). On remarque aussi que les régions du sud de la France ont plus tendance à avoir un haut taux de pauvreté (exemple de l’Occitanie ou de la Provence-Alpes-Cotes d’Azur)

Cette première partie nous a permis d’une part de remarquer de grandes différences de nombre de départements/communes (donc territoriales). Et d’autre part de les identifier puisque nous savons que l’Île-de-France et les DOM-TOM (ainsi que la Corse dans une moindre mesure) sont des régions différentes des autres régions/départements dut a différents facteurs que nous identifierons dans la suite de cette analyse. Par ailleurs, elle nous a aussi permis des tendances régionales et départementales importantes, comme un rapport interdécile important en Île-de-France par exemple, ou un taux de pauvreté fort dans les régions du sud de la France (Occitanie, Provence-Alpes-Cote-d’Azur)

INFLUENCE ET ANALYSE DU TAUX DE PAUVRETÉ


Dans cette partie, nous allons plus s’orienter sur l’influence et les raisons du taux de pauvreté dans un premier au niveau général puis au niveau du particulier. Autrement dit nous, allons d’une part étudier de façon régionale les différences de taux de pauvreté de toutes les régions françaises puis dans une seconde partie regardé plus précisément où, pourquoi, comment, quel âge, le taux de pauvreté est plus fort dans cette régions etc…

3.1 En généralité


Donc comme expliquer ci-dessus, cette partie a pour objectif de “dégrossir” et de rendre parlant des données de grand territoire.
Cette partie permettra aussi d’identifier quelques tendances et ainsi d’aider la compréhension et interprétation avec des données plus précises.

query='SELECT* FROM sae."reg_2019" AS T;'
X1 = dbGetQuery(connexion,query)
query='SELECT* FROM sae."dep_2019" AS T;'
X = dbGetQuery(connexion,query)
X1 <- read_csv("X1.csv")
X <- read_csv("X.csv")
X1$libgeo= as.factor(X1$libgeo)
couleur=c("blue", "red")
f= X$libgeo=="Mayotte"|X$libgeo=="Guyane"|X$libgeo=="Guadeloupe"|X$libgeo=="Martinique"|X$libgeo=="La Réunion"
f2 = !f
a=X$libgeo
par(bg="slategray3",fg="cyan")
plot(X$med19,X$tp6019, pch=19,main="graphique représentant le taux de pauvreté et le \n niveau de vie des departement en France", xlab="niveau de vie",ylab="taux de pauvreté")
points(X$med19[f],X$tp6019[f], pch=19,col="red",cex=2)
points(X$med19[!f],X$tp6019[!f], pch=19,col="blue",cex=1)
text(X$med19[f],X$tp6019[f], X$libgeo[f],pos=3,xpd=NA,cex=2, col="red")
text(X$med19[!f],X$tp6019[!f], X$libgeo[!f],pos=3,xpd=NA,cex=.5, col = "blue")
legend("bottomleft",c("METROPOLE","DOM-TOM"),pch=15,col=couleur, text.col=couleur)


Ce graphique nous permet de représenter le taux de pauvreté de tous les départements français en fonction de leur niveau de vie médian. Ainsi, il nous permet de remarquer plus concrètement la différence de revenu et de pauvreté engendre par celui-ci.
En effet, on voit clairement deux « blocs » qui se forme :
L’un constitué des départements DOM-TOM (en rouge).
L’autre (en bleu) constitué des départements en France métropolitaine.
De manière générale, nous remarquons qu’il y a bien une corrélation entre la médiane du niveau de vie du département et son taux de pauvreté (ce qui paraît logique ; plus les nombres d’habitants du département gagne peu plus le taux de pauvreté et susceptible de monter). On peut aussi relever que le niveau de vie médian des départements français varie d’environ 4 000€/an à plus de 28 000€/an (ce qui représente près de 7 fois plus !).
On peut aussi, au sein de ces « blocs » tirés des observations :
Parmi les DOM-TOM on remarque, une grande différence de niveau de vie (Mayotte et la Martinique, différence d’environ 15 000€) pour un taux de pauvreté variant de 75% à 27%.
Parmi les départements en France métropolitaine, on voit que la grande majorité ont un niveau de vie médian entre 19 000 et 24 000€/an pour un taux de pauvreté variant de 27% (Seine-Saint-Denis) à moins de 8%, cependant, on remarque aussi un petit groupe qui se détache. Ces départements sont exactement les départements de la banlieue proche de Paris, avec un niveau de vie en moyenne 2 500€ de plus que les autres régions métropolitaines.

Ainsi ce graphique nous a permis de mettre en évidence la présence d’une corrélation entre le niveau de vie médian des départements français avec son taux de pauvreté. Il nous a aussi permis de remarqué premièrement, deux blocs (DOM-TOM/métropolitain) et leur tendance, puis ensuite, nous a permis d’identifier un autre groupe (banlieue parisienne) et leur différence avec les autres départements de l’hexagone.

par(bg="slategray",fg="cyan")
w=c("yellow","orange")
g3=barplot(rbind(X1$tp60age119,X1$tp60age619),beside=T,horiz=T,col=w,
          main="Taux de pauvrete dans les régions de France (en %)",col.main="black", border = NA)
text(0,g3[2,],X1$libgeo,pos=4,cex=.7,xpd=NA,col="black")
legend("right",c("% Taux de pauvreté-moins de 30 ans ","% Taux de pauvreté-75 ans ou plus"),pch=15,
       text.col=c("yellow", "orange"),col=c("yellow", "orange"))


Ce graphique nous permet premièrement de faire des comparaisons de l’évolution du taux de pauvreté français au niveau régionales en 2019. Premièrement, on peut remarquer que la région « Mayotte » est la région ayant les taux de pauvreté les plus fort (près de 100% pour les 75 ans ou plus, et environ 85% pour les moins de 30 ans).
Cependant, on voit que la Mayotte et la seule région à avoir d’aussi haut taux. Elle est aussi la seul à avoir un taux de pauvreté des ménages de plus de 75 ans supérieurs au moins de 30 ans.
De manière générale, le taux de pauvreté des plus de 75 ans est inferieurs au taux des moins de 30 ans d’environ 6 points de pourcentages. On voit aussi, pour les régions métropolitaines le taux de pauvreté reste équilibré entre elle, cependant les régions ayant le plus haut taux de pauvreté sont l’Occitanie et l’Haute-de-France et le plus faible sont Pays de la Loire et l’Auvergne-Rhône-Alpes.
Par ailleurs, ce graphique nous permet de remarquer une assez forte différence entre les régions d’outre-mer (Mayotte, Guyane, Guadeloupe, la Réunion, Martinique) et les régions Métropolitaines.
En effet, tous les taux de pauvreté confondu des régions d’outremer, sont supérieurs au plus haut taux de pauvreté des régions métropolitaines.


Comme souhaitée cette première partie nous a permis d’avoir quelque idée et tendance. On peut notamment. Retenir que les DOM-TOM ont généralement un taux de pauvreté bien supérieurs à la moyenne française, que toutes les régions (sauf Mayotte) le taux de pauvreté été plus fort pour les moins de 30 ans que pour les plus de 75 ans, que la banlieue de Paris ont d’une part un niveau de vie médian bien supérieur aux autres départements, mais qu’il que le taux de pauvreté reste faible et donc qu’il y a une corrélation entre le niveau de vie médian et le taux de pauvreté.


3.2 Au particulier


Dans cette partie, nous allons plus s’orienter sur l’influence et les raisons du taux de pauvreté dans un premier au niveau général puis au niveau du particulier. Autrement dit nous, allons d’une part étudier de façon régionale les différences de toutes les régions françaises puis dans une seconde partie regardée plus précisément où, pourquoi, comment, quel âge…

f3= X6$libgeo=="Mayotte"|X6$libgeo=="Guyane"|X6$libgeo=="Guadeloupe"|X6$libgeo=="Martinique"|X6$libgeo=="La Réunion"
f4 = !f3
X6$reg=as.numeric(X6$reg)
couleurs=c("Blue","beige","orange", "pink", "red", "yellow","grey","brown","green","purple","black","turquoise","darkblue","darkorange","cyan", "gold", "slategray3", "lightblue")
ega=c(order(X6$tp6019,decreasing=FALSE)[1:10],order(X6$tp6019,decreasing=TRUE)[1:10])
par(bg="slategray3",fg="cyan")
coul=c(rep("red",10),rep("cyan",10))
g=barplot(X6$tp6019[ega],horiz = T, beside = T ,border = NA, col = coul, 
main="les 10 plus haut et plus faible taux de pauvreté des départements francais")
text(11, g, X6$libgeo[ega],xpd=NA, col="black", font=2,pos=2)
abline(v=mean(X6$tp6019),col="orange")
abline(v=mean(X6$tp6019[f3]),col="red")
abline(v=mean(X6$tp6019[f4]),col="blue")


Ce graphique nous permet de regarder plus précisément les départements faisant partie des extrêmes (taux de pauvreté le plus faible/ le plus fort), avec les indications de la barre verticales représentants :
-en bleu la moyenne du taux de pauvreté pour les départements de la France métropolitaine.
-en orange la moyenne du taux de pauvreté pour les départements de la France.
-en rouge la moyenne du taux de pauvreté pour les départements d’outre-mer.


Ainsi, on remarque clairement, que les départements d’outre-mer sont les cinq dans le « top 5 » des départements ayant le haut taux de pauvreté et que la moyenne de ces départements est à environ 47% alors que sans eux, les départements français sont seulement à 14% (en bleu), donc une différence de 33 points de pourcentages!
Cependant, on voit grâce à la droite orange que la différence avec la droite bleue reste tout de même faible, puisque qu’elle augmente que de 2 points de pourcentages (dut aux nombreux départements métropolitains ayant un faible taux de pauvreté).

On peut aussi relever que les deux régions ayant le plus faible taux de pauvreté sont Haute-Savoie et la Vendée et inversement (hors DOM-TOM) pour la Seine-Saint-Denis et les Pyrénées-Orientales.

SELECT DISTINCT R."libgeo", R."tp6019", R."tp60age119",  R."tp60age219",  R."tp60age319",  R."tp60age419", R."tp60age519", R."tp60age619"
FROM sae.reg_2019 AS R;
#library(fmsb)
graphique_spider <- function(data, color = "#00AFBB", 
                                        vlabels = colnames(data), vlcex = 0.7,
                                        caxislabels = NULL, title = NULL, ...){
  radarchart(
    data, axistype = 1,
    # Personnaliser le polygone
    pcol = color, pfcol = scales::alpha(color, 0.5), plwd = 2, plty = 1,
    # Personnaliser la grille
    cglcol = "grey50", cglty = 5, cglwd = 0.7,
    # Personnaliser l'axe
    axislabcol = "grey50", 
    # Étiquettes des variables
    vlcex = vlcex, vlabels = c("tp ensemble", "tp -30ans", "tp 30-39ans", "tp 40-49ans", "tp 50-59ans", "tp 60-74ans", "tp 75ans et +"),
    caxislabels = c(5, 15, 25, 35, 45), title = title, ...
  )
}
col_max = apply(tpage, 2, max)
col_min = apply(tpage, 2, min)
col_summary <- t(data.frame(Max = col_max, Min = col_min))
tpagee <- as.data.frame(rbind(col_summary, tpage))

tpageeguad= tpagee[ ,2:8]
tpageeauve= tpagee[ ,2:8]
tpageeocci= tpagee[ ,2:8]
tpageecentre= tpagee[ ,2:8]
tpageecorse= tpagee[ ,2:8]
tpageeile= tpagee[ ,2:8]
tpageeprov= tpagee[ ,2:8]
tpageehaut= tpagee[ ,2:8]
tpageereunion= tpagee[ ,2:8]
tpageebretagne= tpagee[ ,2:8]
tpageeguyane= tpagee[ ,2:8]
tpageebourgogne= tpagee[ ,2:8]
tpageeaquitaine= tpagee[ ,2:8]
tpageepays= tpagee[ ,2:8]
tpageemayotte= tpagee[ ,2:8]
tpageegrand= tpagee[ ,2:8]
tpageenormandie= tpagee[ ,2:8]
tpageemartinique= tpagee[ ,2:8]
tpageemoydom= tpagee[ ,2:8]
tpageemoymetro= tpagee[ ,2:8]


par(mfrow=c(1,3))
graphique_spider(tpageeauve,  color = "orange", title = "Auvergne-Rhône-Alpes")
graphique_spider(tpageeocci,  color = "grey", title = "Occitanie")
graphique_spider(tpageecentre,  color = "orange", title = "Centre-Val de Loire")
graphique_spider(tpageecorse,  color = "grey", title = "Corse", )
graphique_spider(tpageeile,  color = "grey", title = "Île-de-France", )
graphique_spider(tpageeprov, color = "grey", title = "Provence-Alpes-Côte d'Azur")
graphique_spider(tpageehaut,  color = "grey", title = "Hauts-de-France")
graphique_spider(tpageebretagne, color = "orange", title = "Bretagne")
graphique_spider(tpageebourgogne, color = "orange", title = "Bourgogne-Franche-Comté")
graphique_spider(tpageeaquitaine, color = "orange", title = "Nouvelle-Aquitaine")
graphique_spider(tpageepays,  color = "orange", title = "Pays de la Loire")
graphique_spider(tpageegrand,  color = "grey", title = "Grand Est")
graphique_spider(tpageenormandie, color = "orange", title = "Normandie")
graphique_spider(tpageemoydom, color = "lightblue", title = "DOM-TOM")
graphique_spider(tpageemoymetro, color = "lightblue", title = "France métropolitaine")

… …

Lecture du graphique : les graphiques en fonds bleu sont les moyennes, les graphiques en fonds jaune sont les régions inférieures à la moyenne métropolitaines et les graphiques en fonds gris sont les régions supérieures à la moyenne métropolitaines. J’ai fait le choix de supprimé les régions d’outre-mer car elles été bien trop grande et pas intéressante à étudier puisque nous savons déjà que ce sont les régions les plus pauvres et nous le voyons avec le graphique moyen des DOM-TOM.

Ces graphiques nous représentent les taux de pauvreté pour chaque catégorie d’âge dans les régions de la France métropolitaine.
Premièrement, nous voyons assez rapidement que dans la grande majorité des régions, le taux de pauvreté le plus élevé sont pour les moins de 30 ans. Nous voyons aussi qu’en majorité le taux de pauvreté diminue en fonction de l’âge du ménage (exemple flagrant avec le graphique moyen pour la France métropolitaine). Cependant, on peut relever quelque exception comme en Corse où la différence de l’age influe peu sur la pauvreté.
Deuxièmement, on peut remarquer que le graphique moyen pour les régions d’outre-mer suit (a peu prêt) la même tendance que pour les régions métropolitaines.
Troisièmement, on peut aussi observer que les deux régions ayant le plus haut taux de pauvreté sont hauts-de-France (majoritairement du au taux de pauvreté des moins de 30 ans supérieurs à 25%) et la Corse (taux de pauvreté à peu près égal dans toutes les catégories d’age).

Ces graphiques nous a permis d’expliquer plus précisément le taux de pauvreté en fonction de régions métropolitaines française. D’identifier une tendance de décroissement du taux de pauvreté en fonction de l’âge et de remarquer un phénoméne de manque d’éducation scolaire dans certaines régions.

X6tp <- read_csv("X6tp.csv")
X6tp$reg=as.numeric(X6tp$reg)
p1 = ggplot(X6tp, aes(x =X6tp$pact19 , y = X6tp$tp60tol119, color= libgeo )) + geom_point(aes(size = nbmenfisc19, frame = libelle, ids = libgeo)) +
 labs(x= "par des revenu d'activité (%)", y="taux de pauvreté propriétaire (%)", title = "allure des taux de pauvreté propriétaire en fonction\n des revenu d'activité des departement pour chaque région") +
  theme(plot.title = element_text(color="red", size=14, face="bold.italic"),
        axis.title.x = element_text(color="black", size=14, face="bold"),
        axis.title.y = element_text(color="black", size=14, face="bold")
        )
## Warning: Ignoring unknown aesthetics: frame, ids
ggplotly(p1 + aes(frame = libelle)) |> animation_opts(frame = 1500, transition = 300)
## Warning in p$x$data[firstFrame] <- p$x$frames[[1]]$data: le nombre d'objets à
## remplacer n'est pas multiple de la taille du remplacement


Lecture de graphique:
Pour une meilleur compréhension je vus préconise d’utilisé le zoom (appuyer sur le graphique et glisser et cela créa un zoom dans la zone),
la taille du point varient en fonction du nombre de ménages
lorsque l’on passe la souri sur un des point nous avons polus d’information sur celui-ci
si on appuis sur play le défilement des régions sera automatique sinon, utilise le rond blanc pour la régions souhaité
la couleur n’a de signification, elle permet une meilleure compréhension pour mieux différencié les points.
pact19:part revenu d’activité
tp60tol19: taux de pauvreté propriétaire
nbmenfisc19: nombre de ménages fiscaux

Ce graphique nous permet de remarquer plusieurs phénomènes importants. En effet, on voit assez facilement qu’en fonction de la région la répartition du taux de pauvreté et la part des revenus d’activité varient. Par ailleurs, de manière générale, on voit une corrélation entre la part de revenu et le taux de pauvreté propriétaire (plus le revenu est haut plus le taux est bas et inversement). Ainsi, on voit que les régions (où il y a peu d’activité, beaucoup de villages, prix au mètre carré faible…) sont privilégiées pour les ménages à faible part de revenu (Occitanie, Provence-Alpes-Cotes-D’Azur, Nouvelle-Aquitaine) et inversement (Île-de-France).


Ainsi cette partie nous a permis de remarquer que le taux de pauvreté a des raisons, facteurs, qui expliquent ce taux. En effet, comme nous avons pu le remarquer les régions départements ayant le plus haut taux de pauvreté sont les DOM-TOM et comme vu précédemment leur économie, leur culture, leur localisation, la vie en général est totalement différente de la métropole. Par ailleurs, on a aussi remarqué que les taux de pauvreté était beaucoup plus présent chez les jeunes (moins de 30 ans) et que progressivement le taux descend pour toutes les régions cette observation été flagrante sauf pour la région parisienne. Par ailleurs, on sait que le taux de réussite et le nombre d’écoles supérieures sont majoritairement en région parisienne. Ainsi, on peut émettre l’hypothèse de l’éducation, et de l’activité économique de la région.
On peut faire l’hypothése qu’il est influencé par l’activité économique, aux caractéristiques de leur population, selon l’activité, l’âge, ou encore au niveau de diplôme, activité touristique…

ANALYSE DES FACTEURS ECONOMIQUES


Dans cette partie, l’objectif est de démontrer et d’appuyer par d’autres variables disponibles (majoritairement économiques), leur influence sur le nombre de ménages, le revenu de vie… Par ailleurs, cela nous permettra de comprendre certains phénomènes de déplacement de la population vers d’autres secteurs et les répercussions sur le taux de pauvreté, l’emploi…

4.1 Tendance, premiere approche et démagraphie

query='SELECT DISTINCT E."libgeo",E."rd19", C."dep",C."codgeo", E."nbmenfisc19" FROM sae."epci_2019" AS E, sae."comdef2k20" AS C WHERE E."codgeo"=C."epci";'
Xepcird = dbGetQuery(connexion,query, sep=";")
write.table(Xepcird,"Xepci_2.csv",row.names=F,sep=";",col.names=T,quote=F)
par(mar=c(0,0,1.2,0))
plot(dep, col = rgb(250/256,235/256,214/256), border =" grey50",
     bg = "grey50", lwd=2)
choroLayer(spdf = X13, df = X13@data, spdfid = "INSEE_COM",
           dfid = "INSEE_COM", var = "med19", border = NA,
           col = carto.pal("blue.pal", 5), legend.pos = "topleft",
           add = TRUE, method = "quantile", nclass = 5, legend.title.txt = "niveau de vie median ")

plot(dep, lwd = 1.7, col = NA, border = "black", add = TRUE)
layoutLayer(title = "niveau de vie median par epci",
            source = "INSEE",
            author = "THOMAS COUTAREL",
            col = "black",
            coltitle = "white")
text(x = 968326 , y = 6235020, 
     labels = ".", 
     col = "red", font = 300, cex= 5)


Cette cartographie représentant au niveau intercommunale (EPCI), le niveau de vie médian. Ainsi, cela nous permet de se faire une idée plus concrètement de la répartition qu’en tableau.

On remarque d’une part une dispersion des niveaux de vie médians assez équitable (pas qu’une région qui a le plus fort niveau de vie, ou inversement), d’autre part on voit que par EPCI le revenu médian varie entre 16 850€/an à 38 140€/an.
Toutefois, on aperçoit une tendance “d’encerclement d’une zone” :
Lorsque l’on voit la couleur la plus foncer sur la carte, générale, elle est encerclée par une gradation de bleu (au centre bleu foncé, puis bleu, bleu clair…), comme le créer la région représenter par le carré rouge.
On peut donc en conclure premièrement qu’une commune avec une bonne activité économique a de bonne répercutions sur les communes dans les alentours (plus haut niveau de vie puisque plus de travail donc plus d’emploi et du coup moins pauvreté) …
Puis deuxièmement, de manière plus générale, le niveau médians est plus élevé au niveau des territoire frontaliers et autour de grandes villes économique (Paris, Lyon, Strasbourg, Nantes…).
A contrario, où le niveau de vie médian sont les plus faible sont dans les endroits avec peu d’activité comme la Lozère, cher, cantal…


Ainsi cette partie nous a permis de se rendre compte (au niveau le plus précis possible) que certaines communes arrive à avoir un taux de pauvreté faible grâce aux communes au alentour (exemple de Paris, Marseille). Cette tendance rend donc influencent les communes alentour (sinon chômage et pauvreté) mais aussi le centre (pôle économique) puisque sans travailleur, plus d’activité.
Par ailleurs, on retient aussi que les communes frontalières tire à la hausse le niveau de vie médian des départments/régions. Viennent ensuite les départements abritant la plupart des capitales régionales.


4.2 Leurs impacts sur la répartition


Comme expliqué dans l’introduction de la partie, nous allons essayer d’expliquer avec des phénomènes économiques connus, les tendances et les raisons des facteurs influençanst les taux de pauvretés..
Pour ce faire, dans un premier temps nous regarderons l’influence qu’a le revenu d’activité sur les ménages et ensuite les facteurs des villes sur les communes et leurs influences.

X6$reg=as.factor(X6$reg)
par(bg="slategray",fg="cyan")
couleurs=c("black","beige","orange", "pink", "red", "yellow","grey","brown","green","purple","darkgreen","turquoise","darkblue","darkorange","cyan", "gold", "Blue", "lightblue")
g5=plot(X6$nbmenfisc19,X6$pact19, main= "différence entre le nombre de ménages et la part \n des revenus d'activité en pourcentage des departement en France", ylab = "part des revenu d'activité (en %)", xlab = "le nombre de ménages (en millier)", pch=15, col=couleurs[unclass(X6$reg)] )
text(X6$nbmenfisc19,X6$pact19,X6$libgeo, col=couleurs[unclass(X6$reg)], cex= 0.7, xpd=NA, pos = 3)
reg=lm( X6$pact19 ~ X6$nbmenfisc19 )
abline (reg)
legend("bottomright",c("Guadeloupe", "Martinique", "Guyane", "La reunion", "Mayotte","Ile de france","Centre val de loire","Bourgogne franche compté", "Normandie","haut de france","grand est", "Pays de la loire", "Bretagne","Nouvelle aquitaine","Occitanie" ,"Auvergne Rhone Alpes","PACA", "Corse"),pch=15,col= couleurs ,text.col=couleurs, cex=.5, title="région")


Ce graphique nous représente la part des revenus d’activité (en %) en fonction du nombre de ménages de tous les département français, avec les indications de la région où se trouve le départements (grâce à la couleur et la légende) et une courbe représentant la droite de régression (courbe qui représente le mieux la distribution des deux variables).
Ainsi, on remarque rapidement que les départements sont distribués de façon équitables. Cependant, on peut tout de même remarquer quelques exceptions :
En effet, au niveau de département, selon moi, 3 départements ce démarquent, Paris, les Hauts-de-Seine et Mayotte. Paris par son nombre d’habitants et pour autant ces parts des revenus d’activité supérieur à la droite, les Hauts-de-Seine par son nombre d’habitants plus faible que Paris mais ces parts de revenu d’activité bien plus haut que la droite, et enfin Mayotte dans la même logique que Paris et les Hauts-de-Seine ; un nombre de ménages bien plus faible que l’Hauts-de-Seine mais une part de revenus d’activité égal.
Par ailleurs, au niveau régionale on peut tirer une observation importante, puisque lorsqu’on regarde bien le tableau, on remarque que tous les départements de la région Île-de-France se trouve dans le « haut du graphique ».

Ce que nous pouvons retenir de ce graphique est que les départements français en général suivent une logique de « plus il y a de ménages dans le département plus la part de revenu d’activité augmente ». Ce graphique nous a aussi permis de remarquer que les habitants de la région Île-de-France sont nombreux et très dépendants de leurs revenus d’activités puisqu’ils représentent plus 80% et enfin, on peut déjà affirmer que l’Île-de-France et la région où il y a le plus d’emploi en France au vu des observations précédentes. Ainsi, on peut affirmer, ces écarts renvoient en partie au profil des populations selon l’activité, la catégorie socioprofessionnelle, le niveau de diplôme ou l’âge : par exemple, à Mayotte (et pour la majorité des régions/départements français), il y a en proportion moins d’actifs occupés et parmi eux plus d’ouvriers et moins de cadres qu’en Île-de-France (Hauts-de-Seine, Paris…). On peut aussi dire, que dans la proche banlieue de Paris, on sait que les logements sont “rares”. Ainsi ce phénomène fait augmenté les prix des logements, ce qui écarte la pauvreté et attire les ménages riches (ce qui créait un cercle vicieux).

SELECT DISTINCT "libgeo", "reg", "dep","can","arr", "nbmenfisc19","tp6019", "nbpersmenfisc19", "med19", "pimp19","pact19","pcho19", "ppat19", "pben19", "ppsoc19","ppfam19", "pplogt19", "pimpot19", "rd19"
FROM sae."ze_2020" AS Z, sae."com_2022" AS C
WHERE Z."libgeo"=C."libelle"
X12_11c = X12[X12$CODE_REG == 11, ]
X12_11d = dep[dep$CODE_REG == 11, ]
com11= com[com$CODE_REG == 11, ]
dep11 = dep[dep$CODE_REG == 11, ]

par(mar=c(0,0,1.2,0))
plot(dep, col = rgb(250/256,235/256,214/256), border =" grey50", 
     bg = "grey50", lwd=2,xlim = bbox(com11)[1, ], ylim = bbox(com11)[2, ])

choroLayer(spdf = com11, df = com11@data, spdfid = "INSEE_COM", 
           dfid = "INSEE_COM", var = "POPULATION", border = NA, 
           col = carto.pal("kaki.pal", 5), legend.pos = "topleft", 
           add = TRUE, method = "quantile", nclass = 5, legend.title.txt = "population")
propSymbolsLayer(spdf = X12_11c, df = X12_11c@data, spdfid = "INSEE_COM", 
                 dfid = "INSEE_COM", col = rgb(100,100,100,100, maxColorValue = 255), var = "nbmenfisc19",
                 border = "grey90", lwd = 0.5, inches = 0.3, legend.pos = "topright", 
                 legend.style = "c", legend.title.txt = "Zone d'Emploi (ZE)")

plot(dep11, lwd = 1.7, col = NA, border = "black", add = TRUE)
legend("bottomright",c("departement","villes ou ce trouve la ze"), text.col=c("lightgreen", "orange "))

layoutLayer(title = "zone d'emploi region ile de france",
            source = "INSEE",
            author = "THOMAS COUTAREL",
            col = "black",
            coltitle = "white")

 text(dep11$X_CENTROID,dep11$Y_CENTROID, dep11$NOM_DEPT,cex=.66, col="lightgreen")
text(X12_11c$X_CHF_LIEU,X12_11c$Y_CHF_LIEU, X12_11c$libelle,cex=1, col="orange")

com94= com[com$CODE_REG == 94, ]
dep94 = dep[dep$CODE_REG == 94, ]
X12_94c = X12[X12$CODE_REG == 94, ]
X12_94d = dep[dep$CODE_REG == 94, ]
par(mar=c(0,0,1.2,0))
par(bg="lightblue")
plot(dep, col = rgb(250/256,235/256,214/256), border =" grey50", 
     bg = "lightblue", lwd=2,xlim = bbox(com94)[1, ], ylim = bbox(com94)[2, ])
choroLayer(spdf = com94, df = com94@data, spdfid = "INSEE_COM", 
           dfid = "INSEE_COM", var = "POPULATION", border = NA, 
           col = carto.pal("kaki.pal", 5), legend.pos = "topleft", 
           add = TRUE, method = "quantile", nclass = 5, legend.title.txt = "population")
propSymbolsLayer(spdf = X12_94c, df = X12_94c@data, spdfid = "INSEE_COM", 
                 dfid = "INSEE_COM", col = rgb(100,100,100,100, maxColorValue = 255), var = "nbmenfisc19",
                 border = "grey90", lwd = 0.5, inches = 0.3, legend.pos = "topright", 
                 legend.style = "c", legend.title.txt = "Zone d'Emploi (ZE)")

plot(dep94, lwd = 1.7, col = NA, border = "black", add = TRUE)
legend("bottomright",c("departement","villes ou ce trouve la ze"), text.col=c("lightgreen", "orange "))

layoutLayer(title = "zone d'emploi region Corse",
            source = "INSEE",
            author = "THOMAS COUTAREL",
            col = "black",
            coltitle = "white")

text(dep94$X_CENTROID,dep94$Y_CENTROID, dep94$NOM_DEPT,cex=.66, col="lightgreen")
text(X12_94c$X_CHF_LIEU,X12_94c$Y_CHF_LIEU, X12_94c$libelle,cex=1, col="orange")
text(x = 1088733 , y = 6130000, 
     labels = "MER\n MEDITERRANNÉE", 
     col = "darkblue", font = 3, srt=20, cex=1.5)

com76= com[com$CODE_REG == 76, ]
dep76 = dep[dep$CODE_REG == 76, ]
X12_76c = X12[X12$CODE_REG ==76, ]
X12_76d = dep[dep$CODE_REG == 76, ]
par(mar=c(0,0,1.2,0))
plot(dep, col = rgb(250/256,235/256,214/256), border =" grey50",
     bg = "lightblue", lwd=2,xlim = bbox(com76)[1, ], ylim = bbox(com76)[2, ])
choroLayer(spdf = com76, df = com76@data, spdfid = "INSEE_COM",
           dfid = "INSEE_COM", var = "POPULATION", border = NA,
           col = carto.pal("kaki.pal", 5), legend.pos = "topleft",
           add = TRUE, method = "quantile", nclass = 5, legend.title.txt = "population")
propSymbolsLayer(spdf = X12_76c, df = X12_76c@data, spdfid = "INSEE_COM",
                 dfid = "INSEE_COM", col = rgb(100,100,100,100, maxColorValue = 255), var = "nbmenfisc19",
                  border = "grey90", lwd = 0.5, inches = 0.3, legend.pos = "topright",
                  legend.style = "c", legend.title.txt = "Zone d'Emploi (ZE)")

plot(dep76, lwd = 1.7, col = NA, border = "black", add = TRUE)
legend("bottomright",c("departement","villes ou ce trouve la ze"), text.col=c("lightgreen", "orange "))

layoutLayer(title = "zone d'emploi region Occitanie",
            source = "INSEE",
            author = "THOMAS COUTAREL",
            col = "black",
            coltitle = "white")

text(dep76$X_CENTROID,dep76$Y_CENTROID, dep76$NOM_DEPT,cex=.66, col="lightgreen")
text(X12_76c$X_CHF_LIEU,X12_76c$Y_CHF_LIEU, X12_76c$libelle,cex=1, col="orange")
text(x = 538872 , y = 6166476, 
     labels = "MER\n MEDITERRANNÉE", 
     col = "darkblue", font = 3, srt=-10)

com44= com[com$CODE_REG == 44, ]
dep44 = dep[dep$CODE_REG == 44, ]
X12_44c = X12[X12$CODE_REG ==44, ]
X12_44d = dep[dep$CODE_REG == 44, ]
par(mar=c(0,0,1.2,0))
plot(dep, col = rgb(250/256,235/256,214/256), border =" grey50",
     bg = "grey50", lwd=2,xlim = bbox(com44)[1, ], ylim = bbox(com44)[2, ])
choroLayer(spdf = com44, df = com44@data, spdfid = "INSEE_COM",
           dfid = "INSEE_COM", var = "POPULATION", border = NA,
           col = carto.pal("kaki.pal", 5), legend.pos = "topleft",
           add = TRUE, method = "quantile", nclass = 5, legend.title.txt = "population")
propSymbolsLayer(spdf = X12_44c, df = X12_44c@data, spdfid = "INSEE_COM",
                 dfid = "INSEE_COM", col = rgb(100,100,100,100, maxColorValue = 255), var = "nbmenfisc19",
                  border = "grey90", lwd = 0.5, inches = 0.3, legend.pos = "topright",
                  legend.style = "c", legend.title.txt = "Zone d'Emploi (ZE)")

plot(dep44, lwd = 1.7, col = NA, border = "black", add = TRUE)
legend("bottomright",c("departement","villes ou ce trouve la ze"), text.col=c("lightgreen", "orange "))

layoutLayer(title = "zone d'emploi region Grand Est",
            source = "INSEE",
            author = "THOMAS COUTAREL",
            col = "black",
            coltitle = "white")

text(dep44$X_CENTROID,dep44$Y_CENTROID, dep44$NOM_DEPT,cex=.66, col="lightgreen")
text(X12_44c$X_CHF_LIEU,X12_44c$Y_CHF_LIEU, X12_44c$libelle,cex=1, col="orange")
text(x = 1122205 , y = 6846074, 
     labels = "ALLEMAGNE", 
     col = "darkblue", font = 3, srt=68, cex=1.5)


Lecture de la carte : le fonds de cartes est la population de la région (plus c’est vert foncé, plus le nombre de ménages est élevé.). Les cercles signifient le nombre de personnes dans la Zone d’Emploi (plus le cercle est grand, plus le nombre de ménages dans cette ville est important.). Les mots en vert clair représentent les départements et les mots en orange représente les villes où se trouve la Zone d’Emploi et ayant une forte activité économique de la région.

Ces cartographies sont révélatrices nombreux facteurs.
En effet, on remarque assez facilement qu’a chaque zone d’emploi (donc lorsqu’il y a un cercle), il y a une augmentation de population dans et à l’extérieur de la ville (exode rural). On peut aussi remarquer qu’en général (sauf Paris), les villes les plus importantes de la région sont soit proche des frontières pour diverses raisons (touristique pour la Corse, principalement d’échanges économiques avec d’autres pays pour le Grand-Est, et les deux pour l’Occitanie).
On peut aussi relever que cette cartographie explique de nombreuses différences.
Grâce à ces représentations, on peut comprendre pourquoi Paris et sa banlieue proche (Hauts-de-Seine, Val-de-Marne…) a un niveau de vie et un taux de pauvreté aussi faible, simplement puisque Paris a une telle zone d’emploi et donc une activité économique qu’il est plus difficile de ne pas avoir d’emploi que d’en avoir un. Par ailleurs, dû à l’exode rural, le nombre de ménages est très élevé, par conséquent la vie en général et plus chère et les emplois (par compensation) sont mieux payer (mais l’INSEE n’en prend pas compte.).

Ainsi ces 4 cartographies nous ont permis de se rendre compte que les zones d’emploi ont une forte influence sur le nombre de ménages au sein de la ville et dans les communes alentour. Et on peut affirmer que l’offre d’emploi, l’activité économique de la régions/départements/communes sont des facteurs de revenu et donc de niveau de vie médian.


Cette partie nous a donc appris que l’économie locales/départements/régionales, l’influence économique, socioprofessionnel, culturel, d’accessibilité/offre à l’emploi… sont des facteurs influençant le taux de pauvreté, et même la France en général.

SYNTHÈSE


5.1 Graphique synthèses générales

col = findColours(
    classIntervals(var = X7$med19, n = 20 , style="quantile"),
    smoothColors(rgb(0.05,0.2,0.4),98,"white"))

leg = findColours(
  classIntervals(var = X7$med19, n = 5 , style="quantile"),
  smoothColors(rgb(0.05,0.2,0.4),6,"white"),
  under="moins de", over="plus de", between="-", cutlabels=FALSE)

par(mar=c(0,0,0,0))
par(bg="lightblue")
plot(frontieres,  col="white")
plot(frontieres,  col=rgb(0.8,0.8,0.8), lwd=13, add=TRUE)
plot(X7,col=col, border="white",lwd=.7, add=TRUE)
plot(frontieres,  col=rgb(0.4,0.4,0.4), lwd=.4, add=TRUE)

legend("right",fill=attr(leg, "palette"),cex=0.75,
       legend=names(attr(leg,"table")),
       title = "niveau de vie moyen departement:")


 propSymbolsChoroLayer(spdf = X7, df = X7@data,
                       spdfid = "CODE_DEPT", dfid = "CODE_DEPT", var = "nbmenfisc19",
                       var2 = "tp6019", method = "geom", nclass = 6, border = "white",
                       lwd = 0.5,col=carto.pal("wine.pal" ,6, transparency = T),
                       legend.var.pos = "topleft",
                       legend.var.title.txt = "Nb d'habitants en millier",
                       legend.var2.pos = "left", legend.var2.title.txt = "taux de pauvrete",
                       legend.var2.values.rnd = 0)
 layoutLayer(title = "Population et superficie dans la région PACA",
             source = "INSEE",
             author = "ThOMAS COUTAREL",
             frame = FALSE,
             col = "black",
             coltitle = "white")

 text(X7$X_CENTROID,X7$Y_CENTROID,X7$NOM_DEPT,cex=.46)


zoom sur l’Ile-de-France

col = findColours(
    classIntervals(var = X7$med19, n = 20 , style="quantile"),
    smoothColors(rgb(0.05,0.2,0.4),98,"white"))

leg = findColours(
  classIntervals(var = X7$med19, n = 5 , style="quantile"),
  smoothColors(rgb(0.05,0.2,0.4),6,"white"),
  under="moins de", over="plus de", between="-", cutlabels=FALSE)


regionn = X7[X7$CODE_REG == 11, ]

par(mar=c(0,0,0,0))
plot(regionn,  col="gray50")
plot(X7,col=col, border="black",lwd=2, add=TRUE)

legend("right",fill=attr(leg, "palette"),cex=0.75,
       legend=names(attr(leg,"table")),
       title = "niveau de vie moyen departement:")


 propSymbolsChoroLayer(spdf = X7, df = X7@data, 
                       spdfid = "CODE_DEPT", dfid = "CODE_DEPT", var = "nbmenfisc19", 
                       var2 = "tp6019", method = "geom", nclass = 6, border = "white", 
                       lwd = 0.5,col=carto.pal("wine.pal" ,6, transparency = T),
                       legend.var.pos = "topleft",
                       legend.var.title.txt = "Nb d'habitants en millier", 
                       legend.var2.pos = "left", legend.var2.title.txt = "taux de pauvrete",
                       legend.var2.values.rnd = 0)
 layoutLayer(title = "Population et superficie dans la région PACA", 
             source = "INSEE", 
             author = "ThOMAS COUTAREL",
             frame = FALSE,
             col = rgb(205/256,210/256,212/256),
             coltitle = rgb(138/256,85/256,67/256))
 text(X7$X_CENTROID,X7$Y_CENTROID,X7$NOM_DEPT,cex=.66)


Cette carte parait assez difficile à comprendre, cependant, elle permet de résumer un grand nombre d’information, de les synthétiser et de les comprendre, et de les comparer plus facilement qu’avec tableau.


Lecture de la carte: toutes les données des variables sont au niveau départemental. Le fond de carte représente le niveau de vie médian (plus c’est foncé plus le niveau de vie est faible), les cercles représentent la population dans les départements (plus c’est couleur vin plus le taux de pauvreté est fort.), la couleur du cercle représente le taux de pauvreté (plus c’est couleur vin plus le taux de pauvreté est fort) et enfin, les mots représentent les noms des départements.
En effet, il permet de voir si corrélation il y a entre le taux de pauvreté le, nombre d’habitants et leur niveau de vie médian par départements. Cependant, elle remplace/synthétise pas l’analyse.
Premièrement, de manière générale que les cercles (représentant le nombre de ménages) sur le département frontalier sont plus gros que dans les terres (Lozère, cantal, creuse, lot…). Ainsi, cela signifie que les ménages sont généralement plus attirés par les départements frontaliers (Pas-de-Calais, Nord, Bouches-du-Rhône…) et par les endroits actifs (offre d’emploi, secteur économique…).
Deuxièmes, on remarque aussi assez facilement (et logiquement par les différentes démonstrations ci-dessus), que lorsque le niveau de vie médian est haut, le département subit moins de pauvreté. On peut très facilement le voir grâce à la différence entre les Pyrénées-Orientales et la Savoie (ici pour un nombre de ménages similaire) ou pour la Gironde et la Haute-Corse (ici pour un nombre de ménages différents).
Troisièmes, on perçoit que généralement le niveau de vie d’un département et souvent similaire au département qui l’entoure. Par exemple, la Savoie, l’Haute-Savoie, l’Ain, Isère… sont dans la même catégorie de niveau de vie. Cependant, comme on peut le voir sur le zoom de la région Île-de-France, tous les départements sont similaires sauf Seine-Saint-Denis qui le total opposé des départements alentour (hauts taux de pauvreté, niveau de vie médian très faible).
Quatrièmes, on aperçoit que le nombre de ménages dans le département n’a aucune influence avec le taux de pauvreté et le niveau de vie médian de celle-ci. En effet, on peut très bien avoir un département riche avec un nombre de ménages hauts (Paris, Hauts-de-Seine, gironde) ou un département aussi riche mais avec un nombre de ménages faibles (Savoie, jura) et vice versa…

5.2 Conclusion

Au cours de cette étude, l’objectif était de trouver quelle différence et comment et pourquoi remarque-t-on de telles différences au sein d’un même pays. Ce basant sur l’année 2019 et sur les données ouverte de l’INSEE « revenu et taux de pauvreté des ménages en 2019 » Pour commencer, cette étude a d’abord identifier (avant même d’analyser concrètement les données) une différence importante entre les DOM-TOM et la France métropolitaines (et de moindre mesure entre la région de l’Île-de-France et les autres régions métropolitaines). En effet, que ça soit au niveau départemental (5 départements pour 5 régions alors qu’en France métropolitaine (hors Corse) Les départements varient de 4 à 13 départements par régions.), au niveau régional (la région Île-de-France « leader » dans quasiment toutes les catégories) ou par communes (pour une moyenne de 400 communes en France les DOM-TOM (hors Mayotte) varient entre 17 à 34 communes par département et 17 à 54 pour la banlieue proche de Paris).

Ensuite, nous sommes entrés plus concrètement dans l’étude et dans l’analyse du taux de pauvreté. Grâce à de nombreuses analyses et graphiques, nous avons remarqué que le taux de pauvreté des départements/régions d’outre-mer, ont un taux de pauvreté bien supérieur à la moyenne (33 points de pourcentages de différences). Par ailleurs, on a remarqué qu’il y a une corrélation entre le revenu médian (niveau de vie médian) et le taux de pauvreté, cependant que le nombre de ménages n’avait aucune influence avec le taux de pauvreté que ça soit départemental ou régional. On a aussi relevé que la majorité des régions ont tendance à avoir un haut taux de pauvreté pour les jeunes ménages (moins de 30 ans), mais diminue peu à peu. Ainsi, affirme que le taux de pauvreté a aussi une influence avec des facteurs « économique », comme l’éducation, le secteur d’activité… Ensuite, nous nous sommes plus précisément penchés sur les facteurs économique pouvant influencer les ménages et par la suite le taux de pauvreté. Premièrement, nous avons remarqué où ce situé majoritairement les villes attractives (frontières, capitales régionales/départementales), puis nous avons remarqué que les villes ayant une forte activité, influence indirectement les communes alentour par l’emploi (et comme vu précédemment, si on a un emploi le niveau de vie augmente et le taux de pauvreté diminue). Ainsi, nous avons vu au long de cette étude que l’offre d’emploi, la localisation, l’âge, l’activité, l’éducation, ont un impact (plus ou moins fort) sur le taux de pauvreté et sur la vie en général des ménages français.

Par ailleurs, connaissant ces facteurs il est simple de trouvé des solutions afin de le diminués (comme meilleur répartition des villes économique et donc des ménages, permettent à tous des formations de qualités (surtout pour les DOM-TOM)…).

5.3 Abstract

As part of my STID (Statistical Information Technology and Decision Support) training, we were asked, during the second semester, to carry out an analysis on a subject chosen from among 5 themes. Once chosen, we had to choose precisely the data among the one proposed in open data of the INSEE. After this step we had to do all the steps (import, relational schema, creation, analysis, query…) to study variables (as a situation in the professional world). Thus, during this study, the objective was to find out what difference and how and why we notice such differences within the same country. Based on the year 2019 and on the open data of INSEE “household income and poverty rate in 2019

To begin with, this study has first identified (even before analyzing the data concretely) an important difference between the DOM-TOM and metropolitan France (and to a lesser extent between the Île-de-France region and other metropolitan regions). Indeed, whether at the departmental level (5 departments for 5 regions, whereas in metropolitan France (excluding Corsica) the departments vary from 4 to 13 departments per region), at the regional level (the Île-de-France region is the “leader” in almost all categories) or by municipality (for an average of 400 municipalities in France, the French overseas departments and territories (excluding Mayotte) vary between 17 and 34 municipalities per department and 17 to 54 for the suburbs near Paris). Then we entered more concretely in the study and in the analysis of the poverty rate. Thanks to numerous analyses and graphs, we have noticed that the poverty rate of the overseas departments/regions is much higher than the average (33 percentage points of difference). Moreover, we noticed that there is a correlation between the median income (median standard of living) and the poverty rate, while the number of households had no influence on the poverty rate, either at the departmental or regional level. It was also noted that the majority of regions tend to have a high poverty rate for young households (under 30 years old), but this is gradually decreasing. Thus, it is argued that the poverty rate is also influenced by “economic” factors, such as education, sector of activity, etc. Next, we looked more specifically at the economic factors that can influence households and subsequently the poverty rate. First, we noticed where the attractive cities are located (borders, regional/departmental capitals), then we noticed that the cities with a strong activity, indirectly influence the surrounding communes by the employment (and as seen previously, if one has a job the standard of living increases and the poverty rate decreases). Thus, we have seen throughout this study that the availability of jobs, location, age, activity, education, have an impact (more or less strong) on the poverty rate and on the life in general of French households.

Moreover, knowing these factors, it is easy to find solutions in order to decrease it (as better distribution of economic cities and therefore of households, allow everyone to have quality trainings (especially for the DOM-TOM) …).

ANNEXE

Connexion a la base de donnée PHPpgadmin

library(DBI)
connexion <- dbConnect(odbc::odbc(), .connection_string = "Driver={PostgreSQL Unicode};", 
    timeout = 10)


Création des tables dans la base de donnée

CREATE TABLE sae.ctcd_2019(
codgeo VARCHAR (4) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 FLOAT,
ptsa19 FLOAT,
pcho19 FLOAT,
pben19 FLOAT,
ppen19 FLOAT,
ppat19 FLOAT,
ppsoc19 FLOAT,
ppfam19 FLOAT,
ppmini19 FLOAT,
pplogt19 FLOAT,
pimpot19 FLOAT,
d119 FLOAT,
d919 FLOAT,
rd19 FLOAT
);

CREATE TABLE sae.com_2019(
codgeo VARCHAR (5) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 FLOAT,
ptsa19 FLOAT,
pcho19 FLOAT,
pben19 FLOAT,
ppen19 FLOAT,
ppat19 FLOAT,
ppsoc19 FLOAT,
ppfam19 FLOAT,
ppmini19 FLOAT,
pplogt19 FLOAT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.arr_2019(
codgeo VARCHAR (4) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.epci_2019(
codgeo VARCHAR (9) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.ept_2019(
codgeo VARCHAR (9) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.dep_2019(
codgeo VARCHAR (3) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.reg_2019(
codgeo VARCHAR (3) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.uu_2020(
codgeo VARCHAR (5) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.aav_2020(
codgeo VARCHAR (3) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.ze_2020(
codgeo VARCHAR (4) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);

CREATE TABLE sae.dep_2019(
codgeo VARCHAR (3) NOT NULL,
libgeo CHAR (255),
nbmenfisc19 INT,
nbpersmenfisc19 INT,
med19 INT,
pimp19 INT,
tp6019 INT,
tp60age119 INT,
tp60age219 INT,
tp60age319 INT,
tp60age419 INT,
tp60age519 INT,
tp60age619 INT,
tp60tol119 INT,
tp60tol219 INT,
pact19 INT,
ptsa19 INT,
pcho19 INT,
pben19 INT,
ppen19 INT,
ppat19 INT,
ppsoc19 INT,
ppfam19 INT,
ppmini19 INT,
pplogt19 INT,
pimpot19 FLOAT,
d119 INT,
d919 INT,
rd19 INT
);
CREATE TABLE sae.arrdef2k20(
codgeo VARCHAR (5) NOT NULL,
libgeo CHAR (255),
dep VARCHAR(5),
com  VARCHAR(2),
reg CHAR(2),
epci CHAR(9),
nature_epci CHAR(2),
arr VARCHAR (4),
cv VARCHAR (5),
ze2010 CHAR (4),
uu2010 CHAR (5),
tuu2016 CHAR (1),
tduu2016 CHAR (2),
au2010 CHAR (3),
tau2016 CHAR(2)
cataeu2016 CHAR (3),
bv2012 CHAR (5),
);

CREATE TABLE sae.comdef2k20(
codgeo CHAR (5) NOT NULL,
libgeo CHAR (255),
dep VARCHAR(3),
reg CHAR(2),
epci CHAR(9),
nature_epci CHAR (2),
arr VARCHAR (4),
cv VARCHAR (5),
ze2010 CHAR (4),
uu2010 CHAR (5),
tuu2016 CHAR (1),
tduu2016 CHAR (2),
au2010 CHAR (3),
cataeu2010 VARCHAR (3),
bv2012 CHAR (5)
);


CREATE TABLE sae.arr_2022(
arr VARCHAR (4) NOT NULL,
dep VARCHAR (3),
reg CHAR(2),
cheflieu CHAR(5),
tncc CHAR(1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255)
);

CREATE TABLE sae.can_2022(
can VARCHAR (5) NOT NULL,
dep VARCHAR (3),
reg CHAR(2),
compct CHAR(1),
burcentral CHAR(5),
tncc CHAR(1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255),
typect CHAR (1)
);
CREATE TABLE sae.com_2022(
typecom VARCHAR (4),
com CHAR (5) NOT NULL,
reg  VARCHAR (4),
dep VARCHAR(3),
arr VARCHAR(4),
tncc CHAR (1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255),
can VARCHAR (5),
comparent CHAR(5)
);
CREATE TABLE sae.com_2022(
typecom VARCHAR (4),
com CHAR (5) NOT NULL,
reg  VARCHAR (4),
dep VARCHAR(3),
ctcd VARCHAR(4),
arr VARCHAR(4),
tncc CHAR (1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255),
can VARCHAR (5),
comparent CHAR(5)
);

CREATE TABLE sae.ctcd_2022(
ctcd VARCHAR (4) NOT NULL,
reg CHAR(2),
tncc CHAR(1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255)
);

CREATE TABLE sae.dep_2022(
dep VARCHAR (3) NOT NULL,
reg CHAR(2),
cheflieu CHAR(5),
tncc CHAR(1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255)
);

CREATE TABLE sae.epci_2022(
epci VARCHAR (9) NOT NULL,
libepci VARCHAR (255),
nature_epci CHAR(2),
nb_com VARCHAR(3)
);

CREATE TABLE sae.reg_2022(
reg CHAR (2) NOT NULL,
cheflieu CHAR(5),
tncc CHAR(1),
ncc VARCHAR (255),
nccenr VARCHAR (255),
libelle VARCHAR (255)
);

Création du schéma

CREATE SCHEMA sae;

Création des clés primaires

ALTER TABLE sae.com_2019 ADD CONSTRAINT pk_com PRIMARY KEY (codgeo);
ALTER TABLE sae.arr_2019 ADD CONSTRAINT pk_arr PRIMARY KEY (codgeo);
ALTER TABLE sae.ctcd_2019 ADD CONSTRAINT pk_ctcd PRIMARY KEY (codgeo);
ALTER TABLE sae.ze_2020 ADD CONSTRAINT pk_ze PRIMARY KEY (codgeo);
ALTER TABLE sae.aav_2020 ADD CONSTRAINT pk_aav PRIMARY KEY (codgeo);
ALTER TABLE sae.ept_2019 ADD CONSTRAINT pk_ept PRIMARY KEY (codgeo);
ALTER TABLE sae.dep_2019 ADD CONSTRAINT pk_dep PRIMARY KEY (codgeo);
ALTER TABLE sae.uu_2020 ADD CONSTRAINT pk_uu PRIMARY KEY (codgeo);
ALTER TABLE sae.reg_2019 ADD CONSTRAINT pk_reg PRIMARY KEY (codgeo);
ALTER TABLE sae.epci_2019 ADD CONSTRAINT pk_epci PRIMARY KEY (codgeo);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT pk_comdef PRIMARY KEY (codgeo);
ALTER TABLE sae.arrdef2k20 ADD CONSTRAINT pk_arrdef PRIMARY KEY (codgeo);
ALTER TABLE sae.arr_2022 ADD CONSTRAINT pk_arr22 PRIMARY KEY (arr);
ALTER TABLE sae.can_2022 ADD CONSTRAINT pk_can22 PRIMARY KEY (can);
ALTER TABLE sae.com_2022 ADD CONSTRAINT pk_com22 PRIMARY KEY (com);
ALTER TABLE sae.ctcd_2022 ADD CONSTRAINT pk_ctcd22 PRIMARY KEY (ctcd);
ALTER TABLE sae.dep_2022 ADD CONSTRAINT pk_dep22 PRIMARY KEY (dep);
ALTER TABLE sae.reg_2022 ADD CONSTRAINT pk_reg22 PRIMARY KEY (reg);
ALTER TABLE sae.epci_2022 ADD CONSTRAINT pk_epci22 PRIMARY KEY (epci);

Création des clés etrangère

ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_com FOREIGN KEY (codgeo) REFERENCES sae.com_2022 (com);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_dep FOREIGN KEY (dep) REFERENCES sae.dep_2022 (dep);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_reg FOREIGN KEY (reg) REFERENCES sae.reg_2022 (reg);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_epci FOREIGN KEY (epci) REFERENCES sae.epci_2022 (epci);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_arr FOREIGN KEY (arr) REFERENCES sae.arr_2022 (arr);
ALTER TABLE sae.comdef2k20 ADD CONSTRAINT fk_cv FOREIGN KEY (cv) REFERENCES sae.can_2022 (can);

Copie des données dans php

copy sae.can_2022 FROM 'canton_2022.csv' CSV DELIMITER ',' HEADER;
copy sae.arr_2022 FROM 'arrondissement2020.csv' CSV DELIMITER ',' HEADER;
copy sae.com_2022 FROM 'communes2020v.csv' CSV DELIMITER ',' HEADER;
copy sae.dep_2022 FROM 'departement.csv' CSV DELIMITER ',' HEADER;
copy sae.reg_2022 FROM 'region.csv' CSV DELIMITER ',' HEADER;
copy sae.ctcd_2022 FROM 'ctcd_2022.csv' CSV DELIMITER ',' HEADER;
copy sae.epci_2022 FROM 'epci_2022.csv' CSV DELIMITER ',' HEADER ;
copy sae.arrdef2k20 FROM 'arrdef2k20.csv' CSV DELIMITER ',' HEADER;
copy sae.comdef2k20 FROM 'comdef2k20v6.csv' CSV DELIMITER ',' HEADER;
copy sae.com_2019 FROM 'com_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.aav_2020 FROM 'aav_2020.csv' CSV DELIMITER ',' HEADER;
copy sae.arr_2019 FROM 'arr_2020.csv' CSV DELIMITER ',' HEADER;
copy sae.ctcd_2019 FROM 'ctcd_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.dep_2019 FROM 'dep_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.epci_2019 FROM 'epci_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.ept_2019 FROM 'ept_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.reg_2019 FROM 'reg_2019.csv' CSV DELIMITER ',' HEADER;
copy sae.uu_2020 FROM 'uu2020.csv' CSV DELIMITER ',' HEADER;
copy sae.ze_2020 FROM 'ze2020.csv' CSV DELIMITER ',' HEADER;


si erreur dans l’importation faire les merges ci-dessous puis réexecuter

#pour enleve les cantons manquant

can=read.delim("canton2020V.csv",header=T,sep=",")

comm=read.delim("comdef2k20v2.csv",header=T,sep=",")
head(comm)

dim(comm)
comBis=merge(x=com,y=can,by.x="CV",by.y="can")
dim(comBis)

colnames(com)
colnames(comBis)
comBis=comBis[,c(2:8,1,9:16)]

# vérif ...
colnames(com)
colnames(comBis)
head(comBis)
write.table(comBis,"comdef2k20v3.csv",row.names=F,col.names=T,sep=",",quote=F)
# pour enleve les epci manquants
com=read.delim("comdef2k20v3.csv",header=T,sep=",")
head(comdef2k20v3)
dim(com)
epci=read.delim("epci_2022.csv", header = T, sep=",")
head(epci)
dim(epci)
epciBis=merge(x=com,y=epci,by.x="EPCI",by.y="EPCI")
dim (epciBis)

colnames(com)
colnames(epciBis)
epciBis=epciBis[,c(2:5,1,6:16)]
# vérif ...
colnames(com)
colnames(epciBis)
head(comBis)
write.table(epciBis,"comdef2k20v4.csv",row.names=F,col.names=T,sep=",",quote=F)
#pour enleve les communes manquantes
com=read.delim("comdef2k20v4.csv",header=T,sep=",")
head(comdef2k20v4)
dim(com)
com20=read.delim("communes2020v.csv", header = T, sep=",")
head(com20)
dim(com20)
commBis=merge(x=com,y=com20,by.x="CODGEO",by.y="com")
dim (commBis)

colnames(com)
colnames(commBis)
commBis=commBis[,c(1:16)]
# vérif ...
colnames(com)
colnames(commBis)
head(commBis)
write.table(commBis,"comdef2k20v5.csv",row.names=F,col.names=T,sep=",",quote=F)

# pour enleve les zzzz
com=read.delim("comdef2k20v5.csv",header=T,sep=",")
head(comdef2k20v5)
dim(com)
arr=read.delim("arrondissement_2022.csv", header = T, sep=",")
head(arr)
dim(arr)
arrBis=merge(x=com,y=arr,by.x="ARR",by.y="ARR")
dim (arrBis)

colnames(com)
colnames(arrBis)
arrBis=arrBis[,c(2:7,1,8:16)]
# vérif ...
colnames(com)
colnames(arrBis)
head(arrBis)
write.table(arrBis,"comdef2k20v6.csv",row.names=F,col.names=T,sep=",",quote=F)
# et cela pour chaque erreur d'importation

Schéma relationnel