THEME : Participation à la Force de Travail à ISASTATE
Le docteur Isa est la ministre du travail de ISASTATE.Elle cherche à déterminer les facteurs qui expliquent la participation de ses citoyens à la force de travail.Pour cela elle réalise une enquête sur l’emploi où elle a effectivement interrogé 7512 individus sur 10 variables.
Introduction
Le travail peut être défini au sens économique, comme étant une activité rémunérée qui permet la production de bien et service. La force de travail est l’ensemble de la population active qui représente la portion de la population en âge de travailler. Du point de vue Marxiste, cette force est offerte par les demandeurs d’emplois en échange d’un salaire auprès des employeurs et elle joue un rôle très important dans la hausse de l’économie d’un pays. Cependant, plusieurs facteurs déterminent la force de travail. Ainsi, la ministre d’ISASTATE, pour bien mener sa politique d’emploi, mène une enquête dans le but de déterminer les facteurs expliquant la participation de ses citoyens à la force de travail.
Dans la suite de notre étude, nous utiliserons la régression logistique en choisissant PFT comme la variable dépendante pour aider la ministre à répondre aux différentes préoccupations. Enfin, en prenant le modèle logistique, nous tracerons sur un même graphe la courbe de la Prob (PFT = 1), en mettant en abscisse la variable agecat pour les différentes variables de réponse.
L’analyse univariée est l’étude statistique des modalités d’une seule variable ou de plusieurs variables considérées dans le but de décrire l’échantillon.
L’analyse bivariée permet de déterminer une relation entre deux variables de l’échantillon. Dans notre cas, il permet de voir une relation entre la variable dépendante et les autres variables explicatives. Pour les variables explicatives qualitatives, nous allons faire un test de khi-deux pour voir le lien entre la variable dépendante et les variables explicatives tandis que pour les variables quantitatives, nous ferons le test de Student pour expliquer le lien entre la variable dépendante et les variables explicatives.
Le modèle probit et le modèle logit sont pratiquement identiques. La seule différence se trouve au niveau des fonctions de liens. Ces deux modèles sont des modèles de régressions linéaires binomiales. La régression logit est beaucoup plus utilisée que la régression probit du fait de sa simplicité en matière d’interprétation et de représentation.
La régression logistique ou régression probit est une approche statistique qui est employée pour évaluer et caractériser les relations entre une variable réponse de type binaire (tel que les types « oui/non », « malade/ non malade », « pratique de travail force/ ne pratique pas de travail force ») et une ou plusieurs variables explicatives. Un modèle de régression logistique ou probit permet aussi de prédire la probabilité qu’un événement arrive ou non à partir de l’optimisation des coefficients de régression.
Dans un modèle de choix binaire, nous cherchons à modéliser une alternative (\({Y}_i=0\) ou 1) et donc à estimer la probabilité associé à l’évènement (\({Y}_i\)).
Il existe plusieurs fonctions de lien mais nous préférons la fonction logit car elle conduit à une interprétation simple des résultats.\[g=logit(\pi)\] ou \[{log}_e=[\pi/1-\pi]\]
La fonction de regression s’écrit ;\[\alpha+\beta X\]
La transformation inverse permet de retrouve les probabilités inverses: \[\pi=exp(g)/[1+exp(g)]\]
Pour une valeur de \({\pi}_i\) données , le rapport entre la probabilité de participer au travail force \(\pi\) et la probabilité de ne pas participer \(1-\pi\) est appelé chance ou côte, en anglais ODDS. Il est égal à \(\pi/1 − \pi = exp(g)\) et est toujours compris entre 0 et 1.
Il est définit comme la réciproque de \(⏀−1:]0,1[→ 𝑅\) de la fonction de répartition de la loi normale centrée réduite.Le modèle s’écrit de la façon suivante :$𝑃(𝑌 = 1/𝑋) = ⏀ (𝑋′𝛽) $. Le rapport de côte est aussi utilisé en régression probit de la même manière que celle de la régression logistique.
Notre base de données est constituée de 10 variables et de 7512 observations.
Variable | Description de la variable | Type de variable | Modalité | |
---|---|---|---|---|
pft | Participation à la force du travail. | qualitative | 0 non 1 oui | |
sexe | Sexe | qualitative | 1 homme 2 femme | |
agecat | Classe d’âge | qualitative | 1 ; 15-20 2 :20-25 3 :25-30 4 :30-35 5 :35-40 6 :40-45 7 :40-50 8 50 et plus | |
stamat | Situation matrimoniale | qualitative | 1 : marié monogamie 2 : marié polygame 3 : union libre 4 : célibataire 5 : divorcé/ séparé 6 : veuf | |
nivetud | Niveau d’étude | Qualitative | 1 : primaire 2 : collège générale 3 : collège technique 4 : lycée générale 5 : lycée technique 6 : supérieur | |
nat | nationalité | qualitative | 1 : natifs de Tsatate 2 : immigrées permanente 3 : autres | |
tail | Taille du ménage | quantitative | Valeurs entières positives | |
nconj | Nombre de conjoint | quantitative | Valeurs entières positives | |
nenf | Nombre d’enfant | quantitative | Valeurs entières positives |
La ministre Isa veut mesurer les facteurs qui expliquent la participation de ses citoyens à la force du travail. De là, nous constatons que c’est la participation à la force de travail de ses citoyens qu’elle cherche à comprendre donc sa variable d’intérêt est cette dernière. La variable d’intérêt Y est la participation à la force de travail des citoyens.
## Dossier de travail
repertoire<-"F:/SAAD S1/Semestre 2/économétrie avancées/économie des variables qualitatives/Projet_VarQual"
setwd(repertoire)
## Importation de la base de données
library(readxl)
base<-read_excel("F:/SAAD S1/Semestre 2/économétrie avancées/économie des variables qualitatives/Projet_VarQual/projdat.xlsx")
attach(base)
## Le type des variables
str(base)
## tibble [7,512 × 10] (S3: tbl_df/tbl/data.frame)
## $ id : num [1:7512] 1 2 3 4 5 6 7 8 9 10 ...
## $ pft : num [1:7512] 1 1 1 1 1 1 1 1 1 1 ...
## $ sexe : num [1:7512] 2 1 1 2 1 1 2 1 1 2 ...
## $ agecat : num [1:7512] 7 3 5 2 8 2 4 2 4 4 ...
## $ statmat: num [1:7512] 6 4 1 1 1 4 1 4 1 1 ...
## $ taille : num [1:7512] 3 3 6 6 5 5 5 5 4 4 ...
## $ nconj : num [1:7512] 0 0 1 1 1 1 1 1 1 1 ...
## $ nenf : num [1:7512] 1 1 2 2 1 1 1 1 1 1 ...
## $ nat : num [1:7512] 1 1 2 2 1 1 2 2 2 2 ...
## $ nivetud: num [1:7512] 0 2 0 0 5 2 0 3 2 2 ...
## Preparation des données
# vérifions s'il y a des valeurs manquantes
anyNA(base) # il y a des valeurs manquantes
## [1] FALSE
## Transformation de variable en factor
## pft
base$pft<- factor(base$pft, level=c(0,1), labels=c("Non", "Oui"))
is.factor(base$pft)
## [1] TRUE
## sexe
base$sexe<- factor(base$sexe, level=c(1,2), labels=c("homme", "femme"))
is.factor(base$sexe)
## [1] TRUE
## sexe
base$agecat<- factor(base$agecat)
is.factor(base$agecat)
## [1] TRUE
## statmat
base$statmat<- factor(base$statmat, level=c(1:6),
labels=c("marié monogame", "marié polygame","union libre"
,"célibataire","divorcé / séparé","veuf"))
is.factor(base$statmat)
## [1] TRUE
## nivetud
base$nivetud<-factor(base$nivetud,level=c(1:6),
labels=c("primaire","college general",
"college technique","lycee general",
"lycee technique","superieur"))
is.factor(base$nivetud)
## [1] TRUE
## nat
base$nat<-factor(base$nat, levels=c(1:3),
labels=c("natifs de ISASTATE",
"immigrés permanents","autres"))
is.factor(base$nat)
## [1] TRUE
L’analyse univariée consistera à décrire la distribution des variables prises individuellement.
X11();barplot(prop.table(table(base$pft)), col = c("red","green"),
main = "Distribution de la variable Participation à la force de travail", ylim=c(0,0.8), axisnames = T)
xtabs(~pft)/7512
## pft
## 0 1
## 0.2952609 0.7047391
Répartition de la population selon la participation ou non à la force de travail.
Nous constatons que la majorité de la population d’étude participe à la force de travail. En effet, sur les 7512 individus, 70,47% participent à la force de travail.
## sexe
X11();barplot(prop.table(table(base$sexe)), col = c("blue","orange"),
main = "Repartition de la population en fonction du sexe", ylim=c(0,0.6), axisnames = T)
xtabs(~sexe)/7512
## sexe
## 1 2
## 0.5003994 0.4996006
Répartition de la population d’étude en fonction du sexe
La population d’étude est répartie de façon presque homogène selon le sexe. En effet, elle est constituée de 49,96 % de femmes et 50,04% d’hommes.
## agecat
X11();barplot(prop.table(table(base$agecat)), col = c(2:10),
main = "Repartition de la population en fonction des tranches d'âge", ylim=c(0,0.25), axisnames = T)
xtabs(~agecat)/7512
## agecat
## 1 2 3 4 5 6 7
## 0.18610224 0.20314164 0.17132588 0.13218850 0.09225240 0.07561235 0.05311502
## 8
## 0.08626198
Répartition de la population d’étude en fonction des tranches d’âge
Notre population d’étude est globalement jeune. En effet, 69,26% ont moins de 35 ans.
## statmat
X11();barplot(prop.table(table(base$statmat)), col = c(2:10),
main = "Repartition de la population en fonction du statut matrimonial", ylim=c(0,0.6), axisnames = T)
xtabs(~statmat)/7512
## statmat
## 1 2 3 4 5 6
## 0.33852503 0.03647497 0.05830671 0.51850373 0.02209798 0.02609159
Répartition de la population d’étude en fonction du statut matrimonial
La majorité de la population d’étude est célibataire (51,85%). La deuxième modalité prépondérante est celle des « mariés monogames » avec une proportion de 33,85%.
## nat
X11();barplot(prop.table(table(base$nat)), col = c(2:10),
main = "Repartition de la population en fonction de la nationalité", ylim=c(0,0.8), axisnames = T)
xtabs(~nat)/7512
## nat
## 1 2 3
## 0.75053248 0.21033014 0.03913738
Répartition de la population d’étude en fonction de la nationalité
Seulement 24,94% des individus de notre population d’étude ne sont pas natifs d’ISASTATE avec 21,03% d’immigrés.
## nivetud
X11();barplot(prop.table(table(base$nivetud)), col = c(2:10),
main = "Repartition de la population en fonction du niveau d'étude", ylim=c(0,0.4), axisnames = T)
xtabs(~nivetud)/7512
## nivetud
## 0 1 2 3 4 5 6
## 0.30790735 0.23349308 0.20846645 0.03820554 0.07428115 0.02582535 0.11182109
Répartition de la population d’étude en fonction du niveau d’étude
Les individus de notre population d’étude ayant un niveau primaire (30,79%) sont les plus nombreux, suivis des individus qui font le collège général (23,35%). Seulement 11,18% des individus ont un niveau supérieur.
## taille
summary(base$taille)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 6.000 6.623 9.000 23.000
## nconj
summary(base$nconj)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 1.0000 0.6353 1.0000 3.0000
## nenf
summary(nenf)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 2.0 2.7 4.0 14.0
Les ménages enquêtés pour l’étude ont en moyenne 6,62 membres. Par ailleurs, 25% des ménages n’ont que 3 membres et 75% en ont 9.
Le nombre de conjoints des individus enquêtés varie entre 0 et 3. Mais environ 75% des individus ont un seul conjoint.
Les ménages ont en moyenne 2,7 enfants. Cependant, 25% des ménages n’ont aucun enfant et 75% en ont 4.
Variables | Obs | Mean | Ecart type | Min | Max | Médiane[IIQ] |
---|---|---|---|---|---|---|
Taille | 7512 | 6,62 | 4,29 | 1 | 23 | 6[3 ;9] |
Nconj | 7512 | 0,63 | 0,59 | 0 | 3 | 1[0 ;1] |
Nenf | 7512 | 2,7 | 2,65 | 0 | 14 | 2[0 ;4] |
Dans cette section, nous allons voir la répartition de la variable d’interêt (pft) en fonction de nos différentes variables explicatives.
library(questionr)
## Analyse bi-variée
## pft et sexe
addmargins(prop.table(table(base$pft,base$sexe),1))
##
## homme femme Sum
## Non 0.4012624 0.5987376 1.0000000
## Oui 0.5419343 0.4580657 1.0000000
## Sum 0.9431967 1.0568033 2.0000000
mosaicplot(base$pft~base$sexe, shade=T,
main = "Repartition de la variable participation à la force du travail en fonction du sexe")
## Test de khi-deux
chisq.test(base$pft,base$sexe)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: base$pft and base$sexe
## X-squared = 123.17, df = 1, p-value < 2.2e-16
Répartition de la variable participation à la force du travail en fonction du sexe (mosaicplot)
Nous constatons que les hommes sont plus enclins à participer à la force du travail que les femmes (54,19% contre 45,81%). En effet, la hauteur du rectangle de la figure 7 pour les hommes dans la modalité « Oui » est plus long que celui des femmes.
## pft et agecat
addmargins(prop.table(table(base$pft,base$agecat),1))
##
## 1 2 3 4 5 6
## Non 0.36023445 0.27141569 0.12623986 0.05770965 0.03065825 0.02614968
## Oui 0.11314696 0.17453721 0.19021534 0.16339252 0.11805818 0.09633547
## Sum 0.47338140 0.44595290 0.31645519 0.22110217 0.14871643 0.12248516
##
## 7 8 Sum
## Non 0.02073940 0.10685302 1.00000000
## Oui 0.06667926 0.07763506 1.00000000
## Sum 0.08741866 0.18448808 2.00000000
tab=xtabs(~pft+agecat, base)
tab/7512
## agecat
## pft 1 2 3 4 5 6
## Non 0.106363152 0.080138445 0.037273695 0.017039404 0.009052183 0.007720980
## Oui 0.079739084 0.123003195 0.134052183 0.115149095 0.083200213 0.067891374
## agecat
## pft 7 8
## Non 0.006123536 0.031549521
## Oui 0.046991480 0.054712460
barplot(cprop(tab,total=F), main="Repartition de la variable participation à la force du travail en fonction de l'âge")
X11();barplot(cprop(tab,total=F),beside=T, ylim = c(0,100),xlab = "Tranche d'âge", ylab = "Fréquence", main="Repartition de la variable participation à la force du travail en fonction de l'âge",
legend.text = c("Participation à la force de travail: Non", "Participation à la force de travail: Oui"))
Répartition de la variable participation à la force du travail en fonction de l’âge
Nous voyons clairement que la part de la population qui participe à la force de travail a tendance à augmenter au fur et à mesure que l’âge augmente. Mais la tranche d’âge ‘’50 et plus‘’ en fait exception
## pft et statmat
tab2=xtabs(~pft+statmat, base)/7512
X11();barplot(cprop(tab2,total=F),beside=T, ylim = c(0,100),xlab = "Statut matrimonial", ylab = "Fréquence", main="Repartition de la variable participation à la force du travail en fonction du statut matrimonial",
legend.text = c("Participation à la force de travail: Non", "Participation à la force de travail: Oui"))
Répartition de la variable participation à la force du travail en fonction du statut matrimonial
Ici, nous constatons que les célibataires et les veufs participent moins à la force de travail que les autres.
## pft et nat
tab3=xtabs(~pft+nat, base)
X11();barplot(cprop(tab3,total=F),beside=T, ylim = c(0,100),xlab = "Nationalité", ylab = "Fréquence", main="Repartition de la variable participation à la force du travail en fonction de la nationalité",
legend.text = c("Participation à la force de travail: Non", "Participation à la force de travail: Oui"))
Répartition de la variable participation à la force du travail en fonction de la nationalité
Les individus natifs d’ISASTATE ont tendance à moins participer à la force du travail que les autres.
tab4<-xtabs(~pft+nivetud, base)
X11();barplot(cprop(tab4,total=F),beside=T, ylim = c(0,100), main="Repartition de la variable participation à la force du travail en fonction du niveau d'étude",
legend.text = c("Participation à la force de travail: Non", "Participation à la force de travail: Oui"))
Répartition de la variable participation à la force du travail en fonction du niveau d’étude
Les individus des collèges et lycées de type général sont les moins à participer à la force du travail. Tandis que les individus ayant un niveau primaire sont les plus enclins à participer. Cela nous amène à dire que plus le niveau d’instruction augmente plus les individus ont tendance à ne pas participer à la force du travail
## pft et taille
x11();boxplot(base$taille~base$pft,col=c("red","green"), main="Distribution de la variable taille en fonction de la participation à la force du travail")
# le lien entre la variable pft et la variable taille
Répartition de la variable participation à la force du travail en fonction de la taille du ménage
On constate en regardant la figure 12 que plus la taille du ménage est grande plus le taux de participation à la force du travail est faible.
## pft et nconj
x11();boxplot(base$nconj~base$pft,col=c("red","green"), main="Distribution de la variable nombre de conjoints en fonction de la participation à la force du travail")
Répartition de la variable participation à la force du travail en fonction du nombre de conjoints
La répartition de la population en fonction de la participation à la force du travail et du nombre conjoints semble homogène.
## pft et nenf
x11();boxplot(base$nenf~base$pft,col=c("red","green"), main="Distribution de la variable nombre d'enfants en fonction de la participation à la force du travail")
Répartition de la variable participation à la force du travail en fonction du nombre d’enfants
Il nous est donné de constater ici, que le taux de participation à la force du travail à tendance à diminuer au fur et à mesure que le nombre d’enfants augmente dans le ménage.
Les resultats du modèles probit est pratiquement identique à celle du modèles logique. Toutes nos variables explicatives ont un effet statistiquement significatifs sur la participation à la force du travail à l’exception de la variable statmat et la nconj.
mod1<-glm(pft~sexe+agecat+nat+statmat+nivetud+taille+nconj+nenf,
data=base,family = binomial(logit))
summary(mod1) # 24 paramètres
##
## Call:
## glm(formula = pft ~ sexe + agecat + nat + statmat + nivetud +
## taille + nconj + nenf, family = binomial(logit), data = base)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.0466 -0.7833 0.4041 0.7476 2.0785
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.740813 0.167325 4.427 9.54e-06 ***
## sexefemme -0.564200 0.074219 -7.602 2.92e-14 ***
## agecat2 1.021979 0.097711 10.459 < 2e-16 ***
## agecat3 2.058565 0.116010 17.745 < 2e-16 ***
## agecat4 2.827452 0.155413 18.193 < 2e-16 ***
## agecat5 3.193956 0.198874 16.060 < 2e-16 ***
## agecat6 3.689739 0.258119 14.295 < 2e-16 ***
## agecat7 3.480818 0.272773 12.761 < 2e-16 ***
## agecat8 1.669298 0.189659 8.802 < 2e-16 ***
## natimmigrés permanents 0.436130 0.126350 3.452 0.000557 ***
## natautres 0.109136 0.222286 0.491 0.623446
## statmatmarié polygame -0.502837 0.300350 -1.674 0.094097 .
## statmatunion libre 0.206237 0.185569 1.111 0.266406
## statmatcélibataire -0.027210 0.121291 -0.224 0.822498
## statmatdivorcé / séparé -0.002893 0.308626 -0.009 0.992521
## statmatveuf -0.663689 0.350883 -1.891 0.058560 .
## nivetudcollege general -1.025374 0.092491 -11.086 < 2e-16 ***
## nivetudcollege technique -1.226113 0.169344 -7.240 4.48e-13 ***
## nivetudlycee general -1.608667 0.127507 -12.616 < 2e-16 ***
## nivetudlycee technique -1.403887 0.197710 -7.101 1.24e-12 ***
## nivetudsuperieur -1.694395 0.117202 -14.457 < 2e-16 ***
## taille -0.026531 0.012444 -2.132 0.033009 *
## nconj 0.016948 0.075270 0.225 0.821849
## nenf -0.070096 0.019168 -3.657 0.000255 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 6574.7 on 5198 degrees of freedom
## Residual deviance: 4963.0 on 5175 degrees of freedom
## (2313 observations deleted due to missingness)
## AIC: 5011
##
## Number of Fisher Scoring iterations: 5
mod2<-glm(pft~sexe+agecat+nat+statmat+nivetud+taille+nconj+nenf,
data=base,family = binomial(probit))
summary(mod2)
##
## Call:
## glm(formula = pft ~ sexe + agecat + nat + statmat + nivetud +
## taille + nconj + nenf, family = binomial(probit), data = base)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -3.2584 -0.8068 0.4126 0.7646 2.0893
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.406336 0.097175 4.181 2.90e-05 ***
## sexefemme -0.354990 0.042836 -8.287 < 2e-16 ***
## agecat2 0.611175 0.058357 10.473 < 2e-16 ***
## agecat3 1.207776 0.067112 17.996 < 2e-16 ***
## agecat4 1.624922 0.085244 19.062 < 2e-16 ***
## agecat5 1.795030 0.104091 17.245 < 2e-16 ***
## agecat6 2.038523 0.129281 15.768 < 2e-16 ***
## agecat7 1.940512 0.141537 13.710 < 2e-16 ***
## agecat8 0.948647 0.110159 8.612 < 2e-16 ***
## natimmigrés permanents 0.248001 0.071753 3.456 0.000548 ***
## natautres 0.061932 0.126542 0.489 0.624549
## statmatmarié polygame -0.245677 0.170101 -1.444 0.148654
## statmatunion libre 0.108661 0.103996 1.045 0.296085
## statmatcélibataire -0.028332 0.068576 -0.413 0.679500
## statmatdivorcé / séparé 0.021343 0.168980 0.126 0.899492
## statmatveuf -0.322460 0.198368 -1.626 0.104042
## nivetudcollege general -0.542211 0.052950 -10.240 < 2e-16 ***
## nivetudcollege technique -0.640120 0.096466 -6.636 3.23e-11 ***
## nivetudlycee general -0.875228 0.072688 -12.041 < 2e-16 ***
## nivetudlycee technique -0.733507 0.113121 -6.484 8.91e-11 ***
## nivetudsuperieur -0.906691 0.066413 -13.652 < 2e-16 ***
## taille -0.015518 0.007229 -2.147 0.031830 *
## nconj 0.008107 0.044339 0.183 0.854921
## nenf -0.042160 0.011247 -3.748 0.000178 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 6574.7 on 5198 degrees of freedom
## Residual deviance: 4992.6 on 5175 degrees of freedom
## (2313 observations deleted due to missingness)
## AIC: 5040.6
##
## Number of Fisher Scoring iterations: 5
Conclusion
Notre travail a consisté à aider la ministre à déterminer les facteurs qui expliquent la participation à la force de travail. Dans la première partie nous avons réalisé la description des données, composée d’analyse univariée et bivariée. L’analyse univariée nous renseigne sur la représentativité de chaque variable. Ensuite, l’analyse bivariée nous a permis de mettre en évidence les variables qui interviennent dans la participation de la force de travail.