Introduction


Le déménagement est une action qui consiste à ôter tout ou partie des biens mobiliers contenus dans un logement pour les transporter vers un autre. Il peut concerner un logement, des bureaux, un local commercial, une usine, etc. Comme de nombreux secteurs de l’économie, le marché du déménagement en France a été très impacté par la révolution digitale. Aujourd’hui il est possible de visiter un appartement de manière virtuel ce qui incite de plus en plus de français à passer le pas. Toutefois déménager n’est pas une décision sans conséquences, c’est un vrai bouleversement dans une vie, quelle que soit la raison qu’il l’est motivé. Chaque année, trois millions de Français de tous âges et de toutes origines sociales choisissent de déménager, soit 10 % des foyers. Le temps où l’on conservait le même logement tout au long de sa vie semble révolu puisqu’un Français déménagera 4,6 fois en moyenne durant son existence, cela sans compter les logements étudiants. Si ces chiffres peuvent paraître élevés, ils demeurent néanmoins les plus faibles de l’Union Européenne.
En cause ? Un attachement à la propriété et au désir de transmettre un bien immobilier à ses enfants encore très ancré dans l’Hexagone. On peut alors se demander quelles sont les motivations des personnes décidant de changer de lieu de vie en répondant a la problématique suivante :


Ancien logement, origine, motifs de changement, âge, qui sont ces français qui décident de changer de lieu de vie ?


Lors de cette étude nous allons nous intéresser aux différents facteurs qui pourraient pousser les individus à déménager. Cette étude portera sur la France, chaque région / département ne bénéficiant pas des mêmes caractéristiques, j’ai décidé de m’attarder davantage sur 2 départements qui sont les suivant : l’Aube et l’Aude. Ces départements se situant dans deux région radicalement différente ; l’Aube dans la région Grand Est et l’Aude dans la région Occitanie. Ce choix est par conséquent les analyses statistiques qui suivront, nous permettront dans un premier temps de comparer les déménagements entre ces deux départements ainsi que d’identifier les différents facteurs pouvant jouer un rôle dans les déplacements des différents ménages.


Sommaire


1.Méthodologie

1.1 Le sélection de mes données

1.2 Importation des données

1.3 Le choix de la population


2. Analyse générale de la population

2.1 La répartition

2.1 La provenance


3. Influence des différentes caractéristiques

3.1 Le sexe

3.2 L’âge

3.3 La catégorie socio-professionnelle


4. Analyse des département et de leurs communes

4.1 Démographie des communes

4.2 Les communes ayant accueilli le plus de personnes



Méthodologie

Pour mener mon étude statistique à bien et ainsi répondre à la problématique vu ci-dessus il m’a fallu récolter des données. Une fois cela fait il j’ai dû les analyser afin de créer un schéma relationnel, imaginer les potentielles analyses statistiques pouvant découler de ces dernières. Ces données étant à l’échelle de la France métropolitaine il m’a ensuite fallu trier ces dernières pour en extraire une population à étudier. Les données étant un recensement de la population dépendant de plusieurs variables, il était impératif de mettre en place différents tries pour isoler chacune d’elle. Chacune de ces étapes est explicitement détaillée ci-dessous.


1.1 La sélection de mes données


Pour répondre à ma problématique j’ai eu besoin de données à interpréter. Ces dernières n’étant pas nécessairement fiable j’ai décidé de me référer au site de l’Insee comme cela nous a été préconisé par notre tutrice, l’insee étant un institut dont les missions consistent à collecter, produire, analyser et diffuser des informations à caractère économique et sociale en France. Les analyses découlant des données récoltées pourront de ce fait être considérées comme relativement fiable. Les données que j’ai sélectionné étaient réparties en deux tableaux de données comportant des informations complémentaires comme les catégories-sociaux professionnelles pouvant être mis en relation avec les déménagements, tout comme les différentes tranches d’âge. Il m’a donc fallut interpréter chacune des variables présente dans mon tableau de données, imaginer ceux a quoi elles pourraient servir à démontrer. Une fois mes données choisies il m’a fallu passer à la prochaine étape qui n’était pas des moindres.

1.2 Importation des données


L’importation des données représente une étape clé dans la direction que nous souhaitons donner à notre étude. En effet, une fois les données choisies il faut les liées entre elles. Pour cela nous disposions d’un logiciel permettant de stocker/gérer des bases de données (Phppgadmin) ainsi que du logiciel Rstudio. Dans un premier temps il nous fallait construire un schéma relationnel nous permettant de nous repérer une fois notre base de donnée créée. Les deux logiciels étant connectés entre eux, la totalité des codes ont été réalisé sur Rstudio. Jongler entre ces deux entités numériques n’a pas était simple d’autant que nous n’avions jamais réalisé une importation de donnée d’une tel envergure. Vous pouvez retrouver l’intégralité des codes dans l’Annexe de ce rapport.


1.3 Le choix de la population


Une fois l’importation des données réussi il m’a fallu sélectionner une population* à étudier. Le choix de la population lors d’une étude statistique est une étape cruciale. En effet, si cette dernière est composée de différents individu/territoires sans réel points communs, la cohérence de l’étude en question se verra impactée. C’est pour cette raison que j’ai pris soin de ne pas axer mon étude sur deux zones géographiques aléatoires. De plus j’ai veillé à ne pas sélectionner une trop grande population afin de garder un maximum de précision sur les zones concernées par mon étude. J’ai dans un premier temps pris le temps de comparer chaque département français (France métropolitaine) sur un aspect géographique, l’objectif étant de sélectionner deux département offrant des cadres de vie différents (températures, reliefs …). J’ai ensuite comparer la démographie de chacun d’entre eux ainsi que le nombre de commune ; l’Aube et l’Aude étant deux département avec un nombre de commune et d’habitant relativement similaire, mon choix s’est donc porté sur ces deux départements. Les différents facteurs que j’ai choisi de prendre en compte à savoir la géographie ainsi que la démographie me permettrons de conclure sur un éventuel attrait d’un des deux départements et() plus largement d’une des deux régions.


Analyse générale de la population


2.1 La répartition

Pour commencer notre étude statistique portant sur les personnes qui changent de lieu de vie, il me semble important d’illustrer la répartition de notre population. Parmi mes données se trouve la variable « iranr » qui, à l’aide d’un chiffre allant de 1 à 8 nous donne le « lieu de résidence 1 an auparavant ». Ce chiffre est un nombre décimale car l’Insee rapporte la population concernée par une certaine caractéristique sur l’ensemble de la population. Cette variable m’a était particulièrement utile pour mon enquête, cette dernière est présente dans la plupart de mes analyses.

Commençons donc par établir la répartition de notre population.

SELECT m."libgeo",m."iranr", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE a."dep"='10' AND m."codgeo"=a."codgeo"

GROUP BY m."libgeo" , m."iranr"
library(readr)
sum_iranr10 <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/sum_iranr10.csv")
par(mfrow=c(1,2))
library("dplyr")
library("ggplot2")
sum_iranr10 <- sum_iranr10 %>%
  arrange(desc(sum_iranr10$lieu_de_vie)) %>%
  mutate(lab.ypos = cumsum(sum_iranr10$resultat) - 0.5*sum_iranr10$resultat)
 sum_iranr10$NEW=round(sum_iranr10$resultat)


C<- ggplot(sum_iranr10, aes(x = 2, y = resultat, fill = lieu_de_vie)) +
  geom_bar(stat = "identity", color = "white") +
  coord_polar(theta = "y", start = 0)+
  scale_fill_manual(values = c("grey","black")) +
  geom_text(aes(y = lab.ypos, label = NEW), color = "white")+
  theme_void()+
  xlim(0.5, 2.5)
C

Sur le premier graphique circulaire réalisé à l’aide de la librairie « ggplot2 », nous pouvons constater que les personnes ayant emménager dans le département de l’Aube représente tout de même environ 35 319 personnes. A l’aide d’un produit en croix on se rend compte que les personnes ayant emménagé en 2018 représentent un peu plus de 11% de la population de ce département (35319*100/35319+271445).

Analysons maintenant la deuxième partie de notre population ;

SELECT m."libgeo",m."iranr", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE a."dep"='11' AND m."codgeo"=a."codgeo"

GROUP BY m."libgeo" , m."iranr"
library(readr)
sum_iranr11 <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/sum_iranr11.csv")
sum_iranr11 <- sum_iranr11 %>%
  arrange(desc(sum_iranr11$lieu_de_vie)) %>%
  mutate(lab.ypos = cumsum(sum_iranr11$resultat) - 0.5*sum_iranr11$resultat)
 sum_iranr11$NEW=round(sum_iranr11$resultat)

B<- ggplot(sum_iranr11, aes(x = 2, y = resultat, fill = lieu_de_vie)) +
  geom_bar(stat = "identity", color = "white") +
  coord_polar(theta = "y", start = 0)+
  scale_fill_manual(values = c("grey","black")) +
  geom_text(aes(y = lab.ypos, label = NEW) , color="white")+
  theme_void()+
  xlim(0.5, 2.5)
B


Sur ce second graphique circulaire figure la répartition de la population du département de l’Aube. Premièrement on constate que nos deux graphiques se ressemblent fortement. Au premier abord, la répartition semble être la même que celle vu précédemment. Celle-ci est relativement similaire bien qu’elle soit un peu plus élevée. En effet les gens ayant emménagé dans ce département représentent un peu plus de 12% de la population totale (45905*100/45905+323495). Bien que ces deux graphiques soient plutôt explicites, on ne constate pas de réelles différences dans la répartition de ces deux départements. Malgré qu’ils soient plutôt minimalistes, ces derniers nous laissent penser que ces deux départements ont une attractivité similaire. Les résultats que l’on obtient étant étonnamment proche cela nous permet de conclure que notre population, dans son ensemble, est plutôt homogène.


A travers les deux graphiques précédents nous avons pu constater qu’une partie de notre population venez d’emménager. C’est le point de départ de notre étude qui a pour but de déceler les facteurs pouvant influencer cette décision. Nous allons donc maintenant étudier ces individus afin de tenter de trouver des explications.


2.2 La provenance

Dans un premier temps, nous allons nous intéresser au lieu d’origine de ces personnes ; Viennent t’ils d’une autre région ? D’une commune non loin de celle dans laquelle ils ont emménagé ? Je me suis référé à la même variable que celle utilisée pour la répartition de ma population, en me focalisant cette fois-ci sur cette dernière.

SELECT DISTINCT m."iranr", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='11' OR a."dep"='10')

GROUP BY m."iranr
#Graphique illustrant le nombre de personne ayant emménage ainsi que le nombre de personne étant resté chez eux. On notera l'origine des personnes ayant emménage.
library(readr)
sum_iranr <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/sum_iranr.csv")
par(bg="white",fg="black")
couleurs=c("black","darkolivegreen4","blue", "red", "green","orange","purple")
g=barplot(sum_iranr$resultat,horiz=T,col=couleurs,main="repartition du nombre d'habitants en fonction du lieux de vie
          antérieur (1 an)",col.main="black", xlim = c(0,max(sum_iranr$resultat)*1.3),border=NA)
text(sum_iranr$resultat,g,sum_iranr$iranr,pos=4,xpd=NA,col="black")
sum_iranr$NEW=round(sum_iranr$resultat)
legend("topright",legend = (sum_iranr$NEW),pch=19, col=couleurs, text.col = couleurs)

Le graphique en barre horizontale ci-dessus met en avant l’origine de tous les individus de la population étudiée. On y constate de manière évidente que la majeure partie de cette dernière réside au même endroit qu’un an auparavant. La variable « même logement » correspond enfaite à la somme des personnes n’ayant pas déménagé dans l’Aube et l’Aude. (271 445 + 323 495 =594940).


La partie la plus intéressante de ce graphique réside en réalité dans les différents autre lieu d’origine. On constate que les deux valeurs les plus hautes (parmi les gens ayant changé de lieu de vie) sont « Autre commune du même département » ainsi que « Autre logement de la même commune ». Ces deux catégories ainsi que leurs effectifs nous laissent penser que les individus, lorsqu’ils changent de domicile, se tourne davantage vers des logements se situant à proximité du lieu dans lequel ils résidaient. L’Aube et l’Aude ne semblent donc pas accueillir beaucoup de « nouvelles personnes », ces dernières provenant la plupart du temps du même département. On distingue tout de même un peu plus de 23 000 personnes (7771 + 12259 + 710 + 2323) provenant d’un département différent. 12 259 d’entre eux se trouvaient même dans une autre région un an au paravent. Ces deux départements ont tout de même accueilli plus de 2300 personnes provenant d’un pays différent ou n’ayant pas la nationalité française.


Après l’analyse de ce graphique nous pouvons conclure que les deux départements que sont l’Aube et l’Aude ont tendance à « satisfaire » leurs habitants sans pour autant en attirer beaucoup provenant d’une autre région. Ainsi, plus de 71% des personnes ayant emménagé en provienne du même département. ((27 182+30 979) *100/ (65932 + 12259 + 710 + 2323).


Cette constatation est intrigante, les individus déménagent mais ne change pas, pour la plupart complétement de cadre de vie. Serait-ce lié à la profession de ces derniers, leurs âges ou même leurs sexe ? Nous allons orienter notre étude en ce sens. Pour ce faire nous étudierons l’échantillon des personnes ayant changé de domicile en fonction de chacun de ces critères.

Influence des différentes caractéristiques


3.1 La catégorie socio-professionnelle


Dans les données récupérées au préalable sur le site de l’Insee figure la variable « cs2_24 ». Elle définit la catégorie socioprofessionnelle détaillée (24 postes) de chaque individu. Cette dernière va nous être utile pour en apprendre davantage. J’ai décidé de présenter le nombre de chacun des individus appartenant aux différentes catégories à l’aide du graphique en barre horizontale que voici ;

SELECT DISTINCT m."cs2_24", SUM (m."nb") AS resultat

FROM sae_206."mig2" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND m."iranr"!='1' AND (a."dep"='10' OR a."dep"='11')

GROUP BY m."cs2_24"

J’exclu une nouvelle fois “iranr”=‘1’ car cela repesente les gens qui n’ont pas emmenagé or, je souhaite etudier les differents facteurs qui font que les personnes demmenagent ou non. J’associe chaque numero de categorie à sa definition dans un tableur pour que ce soit plus clair lorsque l’on regarde le graphique , on a pas à aller chercher la definition de chaque categorie.

library(readr)
categorie_socio_professionelle <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/categorie_socio_professionelle.csv")
colo=rgb(1,seq(0,1,length.out=nrow(categorie_socio_professionelle)),0)
par(bg="white",fg="yellow")
g=barplot(categorie_socio_professionelle$resultat[order(categorie_socio_professionelle$resultat,decreasing=T)],horiz=T,col=colo,main="déménagement en fonction de la catégorie
         socio professionelle détaillée",col.main="black",border="yellow")
text(categorie_socio_professionelle$resultat[order(categorie_socio_professionelle$resultat,decreasing=T)],g,categorie_socio_professionelle$cs2_24[order(categorie_socio_professionelle$resultat,decreasing=T)],pos=4,xpd=NA,col="black",cex=0.75)

En observant ce graphique nous pouvons comparer, de manière plutôt rapide les différentes catégories sociaux professionnelles représentées. L’une d’elle se démarque particulièrement avec plus de 30 000 individus, ce sont les personnes classées comme inactive. Cela peut paraître étonnant mais cette forte proportion est dû à la classification des individus au sein des catégories. En effet, est considéré comme inactif une personne n’exerçant pas d’activité professionnelle rémunérée ou ne cherchant pas d’emploi. Cette catégorie regroupe également, les anciens actifs (retraités) et les autres inactifs (malades, femmes au foyer, jeunes de 0 à 24 ans). Aux yeux de la définition donnée ci-dessus il est relativement normal que cette catégorie arrive en tête.


Le secteur tertiaire* regroupe lui aussi une bonne partie des personnes ayant pris la décision de déménager. En effet, les professions relatives aux services sont plutôt bien représentées à l’image des « employés de la fonction publique » ou même des « professions intermédiaires de l’enseignement, de la sante, de la fonction publique et assimiles ». Ce constat est lui aussi plutôt logique lorsque l’on sait que les services représentent environ 70 % de la richesse nationale. Depuis le début du XXe siècle : la part des activités de services dans l’économie ne cesse de progresser, au détriment des activités agricoles et industrielles. Ces dernières sont en déclin et cette tendance se confirme sur notre graphique : « agriculteurs exploitant » et « ancien agriculteur exploitant » possèdent respectivement la 23ème et 22ème place, juste après les « chefs d’entreprises de 10 salariés ou plus ». Ces derniers ne sont pas nombreux dans cette répartition, nous pouvons imaginer plusieurs raisons ; la plus cohérente serait de rappeler que les chefs d’entreprise sont bien souvent leurs propres patrons et n’ont pas par conséquent, à répondre à diverses contraintes professionnelles tels que les mutations. Ces derniers s’ils ne résident pas proche de leurs entreprises peuvent sous-traiter leurs tâches ou bien travailler à distance ce qui n’est pas envisageable pour un ouvrier par exemple. Les ouvriers qualifiés sont quant à eux la seconde catégorie la plus représentée sur ce graphique. Ces individus ayant obtenu un diplôme ou une formation qualifiante sont plus à même de postuler pour des postes plutôt loin de leur domicile que des personnes peu qualifiées. C’est selon moi une des raisons pour lesquelles cette catégorie est plutôt bien représentée parmi les gens ayant déménagés.


3.2 L’âge


Nous allons maintenant nous intéresser à l’âge des personnes ayant déménagés. Une catégorie d’âge se démarque t’elle particulièrement ? C’est la question à laquelle nous sommes sur le point de répondre.

Population par tranche d’âge ayant déménagé

SELECT DISTINCT m."agemen8_c", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"!='1'

GROUP BY m."agemen8_c"

Population par tranche d’âge n’ayant pas déménagé

SELECT DISTINCT m."agemen8_c", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"='1'

GROUP BY m."agemen8_c"
library(readr)
age_demenagement <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/age_demenagement.csv")
lim= c(1,15,20,25,40,55,65,80)
E <- ggplot(age_demenagement, aes(x = age_demenagement$agemen8_c, y = age_demenagement$resultat)) +
  geom_col(aes(fill = age_demenagement$lieu_de_vie, ),position = position_stack()) +
  scale_color_manual(values = c("#0073C2FF", "#EFC000FF"))+
  scale_x_continuous(breaks = lim, labels = as.character(lim)) +
  scale_fill_manual(values = c("#0073C2FF", "#EFC000FF"))+
  xlab("Catégorie d'âge") +
  ylab("Effectifs")+
  labs(fill = "Lieu de vie")
E

Le graphique présent ci-dessus illustre, à l’aide de barres parallèles la répartition de plusieurs classes d’âge en fonction de leur lieu de vie antérieur pour les départements de l’Aube et l’Aude. Pour tirer toutes les informations essentielles de ce dernier il faut dans un premier temps analyser l’axe des abscisses. Sur ce dernier figure les différentes classes d’âge ; chaque nombre (1, 15, 20, 25, 40, 55, 65, 80) marque le début ainsi que la fin de la classe d’âge précédente.

Les classes d’âge sont donc les suivantes :
  • 1 à 15 ans
  • 15 à 20 ans
  • 20 à 25 ans
  • 80 ans et plus

Chacune de ces classes est représentée par une barre verticale sur laquelle figure la proportion de personne ayant déménagé (en bleu) et n’ayant pas déménagé (en jaune). On constate dans un premier temps que la classe d’âge la plus représentée dans les deux départements est la catégorie des gens ayant entre 40 et 55 ans. Cette constatation n’est pas vraiment étonnante car cette classe d’âge est plus étendue que les autres (15-20 ans par exemple), il est donc plutôt normal que celle-ci comptabilise davantage de personne. Les 3 catégories d’âge les plus représentées sont ainsi dans le même cas. Intéressons-nous maintenant aux classes d’âge qui apparaissent comme étant les plus « mobiles »;

On voit que ce sont les 25-40 ans qui arrivent en tête avec un peu plus de 1/5ème de la population ayant déménagé ((23095100) /108921). Bien qu’il soit compréhensible que cette classe soit la plus mobile (les gens changent de travail, achète leurs premières maisons, fuient la routine) la proportion reste tout de même étonnante ! En seconde position nous retrouvons les personnes âgées de 1 à 15 ans, on peut imaginer qu’une grande partie ce cette catégorie d’âge représente les enfants des personnes ayant entre 25 et 40 ans. Ces derniers étant les plus mobiles, la tendance se répercute sur leurs enfants qui déménagent pour la plupart en même temps qu’eux. Les personnes ayant entre 65 et 80 ans font partie des personnes ayant le moins déménagé avec les personnes ayant 80 ans et plus. Pour autant ces derniers sont la classe d’âge la plus représentée après les 25 - 40 ans. On peut en déduire que les personnes appartenant à cette tranche d’âge ont beaucoup moins tendance a déménager que les autres.

A l’aide du graphique précédent nous avons constaté que les personnes les plus susceptibles de changer de logements sont les personnes les plus jeunes (parents induisent les enfants). Toutefois le résultat obtenu implique l’ensemble des communes des deux département (Aube et Aude). Certaines communes ont une moyenne d’âge par habitant plus élevée que certaines, notamment dans les zones rurales.
Nous allons par conséquent analyser cette même caractéristique que représente l’âge mais cette fois-ci au sein des préfectures
concentrant bien souvent, une bonne partie de l’activité du département.

Je sélectionne les personnes ayant emménagées dans les préfectures grâce au “libgeo” des communes

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"!='1'

AND (m."libgeo"='Troyes' OR m."libgeo"='Carcassonne')

GROUP BY m."agemen8_c"
library(readr)
classe_d_age_prefectures <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/classe_d'age_prefectures.csv")
w=classe_d_age_prefectures$agemen8_c
c=c("darkblue","blue2","cornflowerblue","cyan","red","orange","purple","black")
par(bg="white",fg="black")
plot(classe_d_age_prefectures$demenagement,classe_d_age_prefectures$total ,main="Repartition des habitants des prefectures en fonction 
     de leurs lieu de vie antérieur", xlab="Personne ayant démménagé",ylab="total des personnes", cex=2,col=c,pch=15,col.main="black",col.lab="red")
text(classe_d_age_prefectures$demenagement,classe_d_age_prefectures$total,classe_d_age_prefectures$agemen8_c,pos=3,cex=0.75, col="black",xpd=NA)
legend("bottomright",legend=classe_d_age_prefectures$agemen8_c,pch=15,col=c)

Le nuage de point ci-dessus représente la répartition des personnes ayant déménagé en fonction des tranches d’âge vu précédemment dans la préfecture de l’Aube (Troyes) ainsi que celle de l’Aube (Carcassonne). Au premier abord on constate que ce sont les tranches d’âge les plus jeunes (se situant davantage à droite) qui ont le plus emménagées dans ces deux villes. Cependant, la catégorie la plus représentée dans l’ensemble de la population n’est pas la même que celle vu précédemment. Les 25-40 ans ont devancés les 40-55 ans. Ces deux villes concentrant plus d’activité et potentiellement de formation attire d’avantage que les autres communes des deux départements. De plus on constate que les personnes ayant entre 20 et 25 ans, bien qu’ils ne représentent pas une grande partie de la population totale sont plus nombreux à avoir emménagé que les enfants de 1 à 15 ans ce qui n’était pas non plus le cas avant. Cette catégorie est pourtant moins étendue, seulement 5 ans ; cela nous prouve bien que les préfectures attirent particulièrement les jeunes de par leurs attractivités, qu’elles soient économiques ou culturelles.

3.3 Le sexe


Passons sans plus attendre au dernier critère de notre étude, le sexe des individus.
Je séléctionne la part des hommes et femmes ayant déménagés

SELECT DISTINCT m."sexe", SUM (m."nb") AS resultat

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"!='1'

GROUP BY m."sexe"

Je séléctionne ensuite la part des hommes et femmes n’ayant pas changés de domicile , je réunis les résultats dans un fichier “sexe.csv”

library(scales)
library(readr)
sexe <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/sexe.csv")
a<-ggplot(sexe) +
  aes(x = sexe, fill = Ammenagement) +
  geom_bar(position = "fill") +
  xlab("Sexe") +
  ylab("Proportion") +
  labs(fill = "Ammenagement") +
  scale_y_continuous(labels = percent)
a


Je ne suis pas parvenu a faire apparaître la proportion “A” en dessous de celle de “PA”. Cela n’impacte pas la pertinence de mon graphique mais cela paraît bizarre au premier abord.

Sur le graphique ci-dessus nous constatons que la proportion de personnes ayant déménagé, en fonction du sexe ne change pas vraiment. En effet seulement 1 point de pourcentage sépare les hommes des femmes. Ce résultat suit en réalité la proportion de chaque sexe au sein de notre population qui est de 349 784 femmes pour 326 381 hommes. La différence constatée sur ce graphique est non seulement trop petite pour pouvoir être interprétée de manière fiable mais elle est en plus justifiée !
Le sexe ne semble donc pas avoir d’influence sur le déménagement des individus.




Analyse des départements et leurs communes


4.1 Démographie des communes

Nous avons, au cours de ces analyses statistiques constaté divers points en commun, divergences entre toutes les personnes ayant choisi de changer de domicile. Même si cela nous aide à mettre la lumière sur les différentes caractéristiques de ces derniers, nous n’avons pour l’instant aucun indice sur la destination qu’ils choisissent.

Précédemment nous avons vu que les personnes ayant emménagé dans ces départements venez pour une grosse majorité de la même région (58 161 personnes). Mais ou est-ce que ces personnes décident-elles d’emménager ? Les communes les plus peuplées attirent-elles plus que les communes d’avantage considérées comme rurales ?

Pour répondre à ces différentes interrogations nous allons, dans un premier temps, pouvoir nous appuyer sur les deux cartes ci-dessous.

Département de l’Aude

# library(cartography)
# com$SUPERFICIE=as.numeric(as.character(com$SUPERFICIE))
# comAUDE = com[com$CODE_DEPT == "11", ]
# depAUBE = dep[dep$CODE_DEPT == "11", ]
# com$INSEE_COM
# comAUBE$NOM_COM
# POPCOM1=merge(comAUDE,population_aude_aube, by.x="NOM_COM" , by.y="libgeo")
# par(mar=c(0,0,1.2,0))
# comAUBE
# col=findColours(
#   classIntervals(var=population_aude_aube$resultat, n=20 ,style = "quantile"),
#   smoothColors("chartreuse4",20,"white"))
# leg = findColours(
#   classIntervals(var = population_aude_aube$resultat, n = 20 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# par(mar=c(0,0,0,0))
# #plot(comAUBE)
# #plot(depAUBE, lwd = 3.5, col=NA, border = "blue", add = TRUE)
# plot(POPCOM1, col=col)
# bg = rgb(181/256,208/256,208/256), xlim = bbox(comReg)[1, ], ylim = bbox(comReg)[2, ])
# leg = findColours(
#   classIntervals(var = population_aude_aube$resultat, n = 5 , style="quantile"),
#   smoothColors("white", 20 ,"chartreuse4"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# par(mar=c(0,0,0,0))
# legend("bottomright",fill=attr(leg, "palette"),cex=0.75,
#        legend=names(attr(leg,"table")),
#        title = "personne résidant dans chaques communes:")

Département de l’Aube

# library(cartography)
# com$SUPERFICIE=as.numeric(as.character(com$SUPERFICIE))
# 
# 
# 
# comAUBE = com[com$CODE_DEPT == "10", ]
# depAUBE = dep[dep$CODE_DEPT == "10", ]
# 
# com$INSEE_COM
# comAUBE$NOM_COM
# 
# 
# 
# 
# 
# POPCOM=merge(comAUBE,population_aude_aube, by.x="NOM_COM" , by.y="libgeo")
# 
# par(mar=c(0,0,1.2,0))
# comAUBE
# 
# 
# 
# 
# 
# 
# col=findColours(
#   classIntervals(var=population_aude_aube$resultat, n=20 ,style = "quantile"),
#   smoothColors("chartreuse4",20,"white"))
# 
# leg = findColours(
#   classIntervals(var = population_aude_aube$resultat, n = 20 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# par(mar=c(0,0,0,0))
# #plot(comAUBE)
# #plot(depAUBE, lwd = 3.5, col=NA, border = "blue", add = TRUE)
# plot(POPCOM, col=col)
# bg = rgb(181/256,208/256,208/256), xlim = bbox(comReg)[1, ], ylim = bbox(comReg)[2, ])
# 
# leg = findColours(
#   classIntervals(var = population_aude_aube$resultat, n = 5 , style="quantile"),
#   smoothColors("white", 20 ,"chartreuse4"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# par(mar=c(0,0,0,0))
# 
# 
# legend("topright",fill=attr(leg, "palette"),cex=0.75,
#        legend=names(attr(leg,"table")),
#        title = "personne résidant dans chaque communes:")



Sur ces deux premières cartographies figure le nombre d’habitants par commune allant du blanc (peu d’habitants) au vert (beaucoup d’habitants). La légende est relative au nombre d’habitants des deux département (réunis) afin de pouvoir comparer la population de ces derniers plus facilement. L’Aude a un peu plus d’habitants que l’Aube ce qui explique les légères différences de couleurs que l’on peut constater sur ces cartographies. Les différences sont en réalité concentrées dans le dernier quantile, on peut voir qu’il y a davatange de commune fortement peuplées dans l’Aude.

On constate, que ces deux cartes sont relativement hétérogènes. Certaines communes ont peu d’habitants tandis que d’autres en ont beaucoup. On peut observer cela a l’aide de la légende qui nous indique les différents quantiles* (il y en a 5). Dans cette légende figure des nombres décimaux, la variable étudiée étant un nombre de personne on arrondira ces derniers à l’unité supérieure.

On se rend également compte que les préfectures (Troyes et Carcassonne) font partie comme on pouvait s’y attendre, des communes les plus peuplées. Elles sont suivies de près par différentes communes ayant elles aussi un nombre d’habitants conséquent. Carcassonne passe même en seconde position dans son département comme l’illustre ce classement des 10 villes les plus peuplées (Aube Aude réunis).



SELECT DISTINCT m."libgeo", SUM (m."nb") AS resultat, a."dep"

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"!='1'

GROUP BY m."libgeo",a."dep"

Je séléctionne ensuite les 10 premières communes en ayant mit le résultat de la requête dans l’ordre décroissant

library(readr)
communes_pop <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/communes_pop.csv")
 library(kableExtra)
kbl(communes_pop, escape = F, align = "c") %>%
  kable_paper(c("striped","condensed"), full_width = F, position = "center") %>%
  row_spec(c(0), bold = T,underline = T, color = "black", background = "white",font_size=20)%>% 
  row_spec(c(1), bold = T, color = "black", background = "yellow",font_size=20)%>%
  row_spec(c(2), bold = T, color = "black", background = "grey",font_size = 20)%>%
  row_spec(c(3), bold = T, color = "black", background = "chocolate",font_size = 20)%>%
  row_spec(c(4:6), bold = T, color = "black", background = "coral",font_size=15)%>%
  row_spec(c(4:10), bold = T, color = "black", background = "bisque",font_size=15)%>%
  row_spec(0, angle = 15,font_size=-15)
Ville nombre d’habitants departement
Troyes 61230 10
Narbonne 54795 11
Carcassonne 46008 11
Romilly-sur-Seine 14195 10
Saint-André-les-Vergers 12448 10
Castelnaudary 11839 11
La Chapelle-Saint-Luc 11707 10
Lézignan-Corbières 11131 11
Sainte-Savine 10300 10
Limoux 10036 11



4.2 Les communes ayant accueilli le plus de personnes


Maintenant que nous sommes d’avantage renseigné sur la démographie* de ces départements, voyons quelles sont les communes ayant le plus accueillies de nouveaux habitants en 2018.

Département de l’Aude

# par(mfrow=c(1,1))
# comAUDE = com[com$CODE_DEPT == "11", ]
# depAUDE = dep[dep$CODE_DEPT == "11", ]
# 
# com$INSEE_COM
# comAUDE$INSEE_COM
# 
# 
# COMAUDE=merge(comAUDE,demenagement11, by.x="INSEE_COM" , by.y="codgeo")
# 
# 
# 
# 
# par(mar=c(0,0,1.2,0))
# comAUDE$CODE_COM
# 
# 
# 
# plot(depAUDE, lwd = 3.5, col=NA, border = "blue", add = TRUE)
# 
# 
# col=findColours(
#   classIntervals(var=demenagement11$resultat, n=20 ,style = "quantile"),
#   smoothColors("darkblue",20,"white"))
# 
# leg = findColours(
#   classIntervals(var = demenagement11$resultat, n = 20 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# 
# 
# plot(depAUDE, lwd = 3.5, col=NA, border = "blue", add = TRUE)
# plot(COMAUDE, col=col)
# bg = rgb(181/256,208/256,208/256), xlim = bbox(comReg)[1, ], ylim = bbox(comReg)[2, ])
# 
# leg = findColours(
#   classIntervals(var = demenagement11$resultat, n = 5 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# par(mar=c(0,0,0,0))
# 
# 
# legend("bottomright",fill=attr(leg, "palette"),cex=0.75,
#        legend=names(attr(leg,"table")),
#        title = "Population ayant emménagé :")

Département de l’Aube

# library(cartography)
# com$SUPERFICIE=as.numeric(as.character(com$SUPERFICIE))
# 
# 
# 
# comAUBE = com[com$CODE_DEPT == "10", ]
# depAUBE = dep[dep$CODE_DEPT == "10", ]
# 
# com$INSEE_COM
# comAUBE$INSEE_COM
# 
# x=tapply(demenagement10$resultat,$codgeo,sum)
# D=data.frame(CODE_COMMUNE=names(x),NOMBRE=x)
# head(D)
# 
# 
# COMAUBE=merge(comAUBE,demenagement10, by.x="INSEE_COM" , by.y="codgeo")
# 
# par(mar=c(0,0,1.2,0))
# comAUBE$CODE_COM
# 
# 
# 
# 
# 
# 
# col=findColours(
#   classIntervals(var=demenagement10$resultat, n=20 ,style = "quantile"),
#   smoothColors("darkblue",20,"white"))
# 
# leg = findColours(
#   classIntervals(var = demenagement10$resultat, n = 20 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#   under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# par(mar=c(0,0,0,0))
# #plot(comAUBE)
# #plot(depAUBE, lwd = 3.5, col=NA, border = "blue", add = TRUE)
# plot(COMAUBE, col=col)
#      bg = rgb(181/256,208/256,208/256), xlim = bbox(comReg)[1, ], ylim = bbox(comReg)[2, ])
# 
# leg = findColours(
#   classIntervals(var = demenagement10$resultat, n = 5 , style="quantile"),
#   smoothColors("white", 20 ,"darkblue"),
#    under="moins de", over="plus de", between="-", cutlabels=FALSE)
# 
# par(mar=c(0,0,0,0))
# 
# 
# legend("bottomleft",fill=attr(leg, "palette"),cex=0.75,
#        legend=names(attr(leg,"table")),
#        title = "Population ayant emménagé :")








Il est bon de rapeller que les nombres décimaux qui figurent dans la légende représentent un nombre de personnes, on arrondira ces derniers à l’unité supérieure. De plus, sur les deux cartographies ci-dessus les légendes sont cette fois exclusivement en lien avec le département dont il est question pour avoir une meilleure idée de la destination que choisissent les personnes.

Le département de l’Aube semble avoir accueilli moins de personnes que celui de l’Aude car son dernier quantile (les 20% les plus élevés) est 2 fois plus petit. Cela paraît relativement normal car l’Aude comporte plus d’habitants que l’Aube, nous avions constaté au début de notre étude que le pourcentage de personne accueilli était quasiment similaire pour ces deux départements.

On constate grâce aux légendes des cartographies ci-dessus ainsi que les précédentes, que ce sont les communes les plus peuplées qui accueillent, bien souvent, le plus de personnes. Beaucoup de personnes semblent avoir opté pour des communes relativement peuplées, sans doute en quête de travail, d’activité. Mais alors quelles sont les communes ayant eu le plus de succès en 2018 ?

Nous répondrons à cette dernière question à l’aide du classement suivant, répertoriant les 10 communes ayant accueillies le plus de personnes ;

SELECT DISTINCT m."libgeo", SUM (m."nb") AS resultat, a."dep"

FROM sae_206."mig1" AS m , sae_206."appartenance_geo_commune" AS a

WHERE m."codgeo"=a."codgeo" AND (a."dep"='10' OR a."dep"='11') AND m."iranr"!='1'

GROUP BY m."libgeo",a."dep"

Je séléctionne ensuite les 10 premières communes, en ayant mit le résultat de la requête dans l’ordre décroissant

library(readr)
nouveaux_residant <- read_csv("/srv/alumni/iut2202609/SAE_Analyse/fichier_interpretation/nouveaux_residant.csv")
 library(kableExtra)
kbl(nouveaux_residant, escape = F, align = "c") %>%
  kable_paper(c("striped","condensed"), full_width = F, position = "center") %>%
  row_spec(c(0), bold = T,underline = T, color = "black", background = "white",font_size=20)%>% 
  row_spec(c(1), bold = T, color = "black", background = "yellow",font_size=20)%>%
  row_spec(c(2), bold = T, color = "black", background = "grey",font_size = 20)%>%
  row_spec(c(3), bold = T, color = "black", background = "chocolate",font_size = 20)%>%
  row_spec(c(4:6), bold = T, color = "black", background = "coral",font_size=15)%>%
  row_spec(c(4:10), bold = T, color = "black", background = "bisque",font_size=15)%>%
  row_spec(0, angle = 15,font_size=-15)
libgeo resultat dep
Troyes 10830 10
Narbonne 8214 11
Carcassonne 6770 11
Sainte-Savine 1590 10
Saint-André-les-Vergers 1590 10
Castelnaudary 1520 11
Romilly-sur-Seine 1517 10
Lézignan-Corbières 1399 11
Limoux 1343 11
La Chapelle-Saint-Luc 1140 10



Bien que dans les 3 premières places il n’y est pas de changement, nous pouvons voir que l’ordre n’est plus le même dès la 4ème place. Ce sont pour autant les mêmes villes qui sont présentent dans ce classement et celui des communes les plus peuplés. Les communes les plus peuplées attirent donc d’avantage de personnes que les communes n’ayant guère d’habitants. L’impression donnée par la cartographie précédente est donc vérifiée.






Conclusion



Nous avons au cours de cette étude statistique cherché les points communs, les différences entre toutes les personnes ayant choisi de déménager durant l’année 2017 (recensement réalisé en 2018).
Cette étude a commencée en modélisant la répartition des gens ayant déménagé ou non au sein des deux départements qui nous intéressaient à savoir l’Aube et l’Aude. Il se trouve qu’en plus de comporter un nombre de communes relativement proche, ces deux départements ont, en proportion accueilli un nombre de personnes quasiment similaire (11% pour l’Aube , 12% pour l’Aude). Bien qu’ils n’aient pas le même profil , ils semblent tout deux attirer bon nombre de ménages.
Nous nous sommes alors dans un premier temps interrogés sur la profession des personnes ayant choisi de changer de lieu de vie. Les inactifs sont en majorité représentés, peu étonnant lorsque l’on sait qu’en 2020 le taux de personnes considérées comme inactifs atteignait les 24.4%. Les professions liées aux services sont non loin derrière tandis que les personnes exerçant dans le secteur primaire* (agriculteurs exploitants) ferment la marche.
L’étude des différentes tranches d’âge nous a permis de conclure que ce sont les personnes ayant entre 25 et 40 ans qui ont le plus déménagé en 2018, entrainant pour un bon nombre d’entre eux leurs enfants ce qui fait augmenter la part des enfants de moins de 15 ans. Après analyse de cette variable, le sexe des individus, comme on pouvait s’y attendre ne semble pas jouer de rôle dans cette prise de décision.

Pour finir, la démographie des différentes communes nous a permis de constater que ce sont les communes ayant le plus d’habitants qui attirent le plus de nouveaux résidants de par leurs activités économiques/culturelles. L’étude de toutes ces caractéristiques nous indique qu’aucun de ces départements ne se démarque particulièrement de l’autre. Ils ont tous deux accueilli, en 2018, un peu plus de 10% de leur population. Cette étude reste pour autant à prendre avec précautions car le prix du mètre carré (en moyenne) est 400 euros plus cher dans l’Aude que dans l’Aube. L’Aude semble donc tout de même tirer son épingle du jeu en attirant un peu plus de personnes en ayant un prix au mètre carré relativement plus cher.






Abstract


The statistical study you’re about to discover was done in my first universtitary year. In this study, I am interested in people who were identified in 2018 as having moved in. I find it interesting to study this subject a little more closely, which affects each of us on average about 4.6 times in our lives.

To do this, I first selected data related to this topic on the INSEE website. I made the choice to refer to two similar departments at the level of the area as well as the municipalities but having a different geomorphology. Once these data were selected, I created the schema as well as the various tables of the latter in order to accommodate the data in a database (PHPpgadmin). It followed the implementation of the various primary and foreign keys to optimize the information transmitted by each of my files.


During this statistical survey, we focused on various characteristics (social-occupational category, age, sex) our objective being to learn more about the people who chose to take in during 2018. First of all, we had to show that the relocation concerned a fairly substantial part of our population in order for our study to make sense. Once this was done we moved on to the study of the different characteristics. The socio-professional category and age seem to be factors that have an impact on such decision-making. On the other hand, there is no difference in the sex of individuals.


We then looked at our population, and you can see from the graphs that these are the most populous cities that attract the most people. The two departments attract (in relation to their number of habitants) the same proportion of households. The Aude is a department where the square metre is more expensive than in the Aube, we end up concluding that this department seems a little more attractive, despite its high price per square meter (400 euros more still) the Aude welcomes a little more people than the Aube.











Annexe



Bibliographie

https://www.homebox.fr/magazine/les-statistiques-du-demenagement-en-france.
https://fr.wikipedia.org/wiki/Nombre_de_communes_par_d%C3%A9partement_en_France_au_1er_janvier_2014
https://fr.wikipedia.org/wiki/Superficie_des_d%C3%A9partements_fran%C3%A7ais
1ere06.canalblog.com/archives/2006/12/17/3454715.html
https://www.maxicours.com/se/cours/tertiarisation-et-changement-social/b
https://fr.statista.com/statistiques/518979/part-actifs-inactifs-france/
https://fr.realadvisor.com/fr/prix-m2-immobilier/10-aube
https://fr.realadvisor.com/fr/prix-m2-immobilier/11-aude
https://particuliers.engie.fr/demenagement/conseils-demenagement/conseils-bons-plans-tendances/infographie-francais-et-demenagement.html
https://www.maison-travaux.fr/maison-travaux/amenagement/reve-de-combles/amenager/point-demenagements-france-fp-195601.html


Glossaire

Population : En statistique descriptive, une population est un ensemble fini d’objets (les individus ou unités statistiques) sur lesquels une étude se porte et dont les éléments répondent à une ou plusieurs caractéristiques communes.

Secteur primaire : domaine des activités productrices de matières premières

Secteur tertiaire : Le secteur tertiaire produit des services, il fait partie du domaine de l’économie.
C’est le troisième secteur défini dans la loi des trois secteurs. Il est parmi les trois secteurs économiques définis dans la comptabilité nationale et est de fait défini par complémentarité avec les activités agricoles et industrielles (secteurs primaire et secondaire respectivement)

Préfecture : région ou département administré par un préfet, haut fonctionnaire représentant le pouvoir central dans un département ou une région.

Démographie : Étude de la population, de son taux de croissance, de renouvellement, de sa répartition géographique.

Quantile : Série de valeurs d’une fraction d’une distribution statistique, pouvant être un quartile (partage en quatre groupes) un décile (partage en dix groupes) etc.


Connexion a la base de donnée PHPpgadmin

library(DBI)
con <- dbConnect(odbc::odbc(), .connection_string = "Driver={PostgreSQL Unicode};",timeout = 10)


Téléchargement des fichiers

https://guacamole.univ-avignon.fr/nextcloud/index.php/s/PdnFXW8Li9RFiPw

Création des tables dans la base de donnée

CREATE TABLE sae_206.arrondissement(
arr VARCHAR(4),
dep VARCHAR(3),
reg CHAR(2),  
cheflieu CHAR(5),
tncc CHAR(1),    
ncc VARCHAR(255),  
nccenr VARCHAR(255),
libelle VARCHAR(255)
);
CREATE TABLE sae_206.region(
reg CHAR(2),  
cheflieu CHAR(5),
tncc CHAR(1),    
ncc VARCHAR(255),  
nccenr VARCHAR(255),
libelle VARCHAR(255)
);
CREATE TABLE sae_206.canton( 
can VARCHAR(5),
dep VARCHAR(3),     
reg CHAR(2),  
comptc CHAR(1),
burcentral CHAR(5),
tncc CHAR(1),
ncc VARCHAR(255),  
nccenr VARCHAR(255),
libelle VARCHAR(255),
typect CHAR(1)
);
CREATE TABLE sae_206.epci(
epci CHAR(3),     
libepci VARCHAR(255), 
nature_epci CHAR(2),
nb_com VARCHAR(3)  
);
CREATE TABLE  sae_206.mig1(
nivgeo CHAR(3),
codgeo CHAR(5),
libgeo VARCHAR(255), 
inatc  VARCHAR(2),
sexe CHAR(1),   
agemen8_c FLOAT,  
iranr CHAR(2),
nb FLOAT
);
CREATE TABLE sae_206.mig2(
nivgeo CHAR(3),
codgeo VARCHAR(5),
libgeo VARCHAR(255) , 
cs2_24 VARCHAR(2),
iranr  VARCHAR(2),
nb FLOAT
);
CREATE TABLE sae_206.dep(
dep VARCHAR(3),
reg CHAR(2),
cheflieu CHAR(5),
tncc VARCHAR(255),    
ncc VARCHAR(255),  
nccenr VARCHAR(255),
libelle VARCHAR(255)
);
CREATE TABLE sae_206.pop1(
nivgeo VARCHAR(255),
codgeo VARCHAR(5),
libgeo VARCHAR(255),
sexe CHAR(1),
aged100 VARCHAR(3),
nb FLOAT
);
CREATE TABLE sae_206.Appartenance_geo_commune(
codgeo VARCHAR(5),
libgeo VARCHAR(255),
dep VARCHAR(3),
reg CHAR(2),
epci CHAR(9),
nature_epci CHAR(2),
arr VARCHAR(4),
cv VARCHAR(5),
ze2020 VARCHAR(4),
uu2020 VARCHAR(5),
tuu2017 VARCHAR(2),
tduu2017 VARCHAR(2),
aav2020 CHAR(3),
taav2017 CHAR(1),
tdaav2017 VARCHAR(3),
cateaav2020 CHAR(2),
bv2012 CHAR(5)
);

Création des clés primaires

ALTER TABLE sae_206.arrondissement ADD CONSTRAINT table_app_id_var1_pkey PRIMARY KEY (arr) ;
ALTER TABLE sae_206.region ADD CONSTRAINT table_sae206_reg_var1_pkey PRIMARY KEY (reg) ;
ALTER TABLE sae_206.canton ADD CONSTRAINT table_sae206_can_var1_pkey PRIMARY KEY (can) ;
ALTER TABLE sae_206.epci ADD CONSTRAINT table_sae206_epci_var1_pkey PRIMARY KEY (epci) ;
ALTER TABLE sae_206.dep ADD CONSTRAINT table_sae206_dep_var1_pkey PRIMARY KEY (dep) ;
ALTER TABLE sae_206.Appartenance_geo_commune ADD CONSTRAINT table_sae206_Appartenance_geo_commune_var1_pkey PRIMARY KEY (codgeo) ;

Création des clés étrangères

ALTER TABLE sae_206.pop1 ADD CONSTRAINT fk_id_codgeo FOREIGN KEY (codgeo) REFERENCES sae_206.Appartenance_geo_commune (codgeo);
ALTER TABLE sae_206.Appartenance_geo_commune ADD CONSTRAINT fk_id_cv FOREIGN KEY (cv) REFERENCES sae_206.canton (can);
ALTER TABLE sae_206.Appartenance_geo_commune ADD CONSTRAINT fk_id_arr FOREIGN KEY (arr) REFERENCES sae_206.arrondissement (arr);
ALTER TABLE sae_206.Appartenance_geo_commune ADD CONSTRAINT fk_id_reg FOREIGN KEY (reg) REFERENCES sae_206.region (reg);
ALTER TABLE sae_206.mig1 ADD CONSTRAINT fk_id_reg FOREIGN KEY (CODGEO) REFERENCES sae_206.Appartenance_geo_commune (CODGEO);
ALTER TABLE sae_206.mig2 ADD CONSTRAINT fk_id_codgeo FOREIGN KEY (CODGEO) REFERENCES sae_206.Appartenance_geo_commune (CODGEO);

Copie des fichiers

\copy sae_206.pop1 FROM 'pop1.csv' CSV DELIMITER ';' HEADER
\copy sae_206.canton FROM 'canton2021.csv' CSV DELIMITER ',' HEADER
\copy sae_206.arrondissement FROM 'arrondissement_2022.csv' CSV DELIMITER ',' HEADER;
\copy sae_206.region FROM 'region (1).csv' CSV DELIMITER ',' HEADER;
\copy sae_206.dep FROM 'departement2021.csv' CSV DELIMITER ',' HEADER;
\copy sae_206.mig1 FROM 'mig1.csv' CSV DELIMITER ';' HEADER ;
\copy sae_206.mig2 FROM 'BTT_TD_MIG2_2018.CSV' CSV DELIMITER ';' HEADER
\copy sae_206.arrondissement FROM 'arrondissement_2022.csv' CSV DELIMITER ';' HEADER 
dbWriteTable(con,Id(schema="sae_206",table="epci"),as.data.frame(EPCIV2))

Les merges réalisés

reg=read.delim("region2021 (1).csv",header=T,sep=",")
head(reg) 
head(app)
toto2=merge(x=app,y=region2021_1_ ,by.x="REG",by.y="REG")
colnames(toto2)
colnames(app)
toto2=toto2[,c(2:4,1,5:17)]
colnames(toto2)
write.table(toto2,"appartenance_geo_commune_merge1.csv",row.names=F,col.names=T,sep=";",quote=F)
can=read.delim("canton_2022(1).csv",header=T,sep=",")
head(can)
app=read.delim("appartenance_geo_commune_merge1.csv",header=T,sep=";")
head(app)
dim(appartenance_geo_commune_merge1)
toto3=merge(x=app,y=can ,by.x="CV",by.y="CAN")
dim(toto3)
colnames(toto3)
colnames(app)
toto3=toto3[,c(2:8,1,9:17)]
head(toto3)
write.table(toto3,"appartenance_geo_commune_merge2.csv",row.names=F,col.names=T,sep=";",quote=F)
mig11=read.delim("fichier_sae06/BTT_TD_MIG1_2018.CSV",header=T,sep=";")
head(mig11)
app=read.delim("fichier_sae06/appartenance_geo_commune_merge2.csv",header=T,sep=";")
head(app)
dim(appartenance_geo_commune_merge2)
nv_mig1=merge(x=mig11,y=app ,by.x="CODGEO",by.y="CODGEO")
dim(nv_mig1)
colnames(nv_mig1)
colnames(BTT_TD_MIG1_2018)
nv_mig1=nv_mig1[,c(2,1,3:8)]
head(nv_mig1)
write.table(nv_mig1,"mig1.csv",row.names=F,col.names=T,sep=";",quote=F)
mig22=read.delim("fichier_sae06/BTT_TD_MIG2_2018.CSV",header=T,sep=";")
head(mig22)
app=read.delim("fichier_sae06/appartenance_geo_commune_merge2.csv",header=T,sep=";")
head(app)
dim(appartenance_geo_commune_merge2)
nv_mig2=merge(x=mig22,y=app ,by.x="CODGEO",by.y="CODGEO")
dim(nv_mig2)
colnames(nv_mig2)
colnames(BTT_TD_MIG2_2018)
nv_mig2=nv_mig2[,c(2,1,3:6)]
head(nv_mig2)
write.table(nv_mig2,"mig2.csv",row.names=F,col.names=T,sep=";",quote=F)
colnames(mig2.csv)
pop=read.delim("fichier_sae06/BTT_TD_POP1B_2018.csv",header=T,sep=";")
head(pop)
app=read.delim("table_appartenance_geo_commune_merge2.csv",header=T,sep=";")
head(app)
dim(appartenance_geo_commune_merge2)
newpop=merge(x=pop,y=app ,by.x="CODGEO",by.y="CODGEO")
dim(newpop)
colnames(newpop)
colnames(pop)
newpop=newpop[,c(2,1,3:6)]
head(newpop)
write.table(newpop,"pop1.csv",row.names=F,col.names=T,sep=";",quote=F,dec = ",")


Schéma relationnel


Imprévu

Une fois arrivée a l’étape des intervalles de confiance, j’ai rencontré le problème suivant :

- Les intervalles réalisé au cours de l’année se faisaient avec des valeurs numériques distinctes (longueur de pétale , salaire plus ou moins élevé). L’argument length, mean ainsi que sd avaient du sens.
Seulement voila, mon fichier de donnée est une somme de différente caractéristique avec un nombre de personne concerné en bout de ligne. J’aurai voulu comparé les chiffres d’internet “environ 10% des francais déménagent chaque année avec ma population mais je me retrouve bloqué.

ic.ar <- function(moyenne_demenagement_de_ma_population,niv=0.95) {
  n=676164
  moy = 0.1365247
  ect <- sd(moyenne_demenagement_de_ma_population)
  alp <- 1-niv
  qu <- qnorm(1-(alp/2))
  binf <- moy -((qu*ect)/sqrt(n))
  bsup <- moy +((qu*ect)/sqrt(n))
  c(binf,bsup)
}
ic.ar(moyenne_demenagement_de_ma_population)

Dans ce code je peux attribuer une valeur à “length” à savoir le nombre de personnes dans ma population, idem pour la moyenne.
Une fois arrivé a l’argument “ect” je me retrouve bloqué car mes données ne sont pas cohérente , une variance des nombres d’habitants aurait aucun sens. C’est pourquoi il n’y a pas d’intervalles de confaince dans cette étude.