library(easieR)[1] "[INFO] Version française chargée."
Un chercheur s’intéresse à la réussite scolaire des étudiants. Plus particulièrement, il veut savoir si les étudiants (codés 0 dans la variable groupe) et les enseignants (codés 1 dans la variable groupe) accordent de l’importance aux mêmes aspects pour permettre la réussite. Il fait donc passer un questionnaire avec 4 questions (le questionnaire est fourni ci-dessous). Est-il possible de distinguer à l’aide de ce questionnaire les étudiants par rapport aux enseignants ? En d’autres termes, est-ce que certains items de ce questionnaire permettent de prédire le groupe d’appartenance du répondant ?
library(easieR)[1] "[INFO] Version française chargée."
[1] "Dans quel format est enregistre votre fichier ?"
Veuillez specifier la feuille de calcul que vous souhaitez importer
Des caracteres non autorises ont ete utilises pour le nom. Ces caracteres ont ete remplaces par des points
'data.frame': 300 obs. of 5 variables:
$ groupe: Factor w/ 2 levels "enseignant","etudiant": 2 2 2 1 1 1 2 2 2 2 ...
$ Q1 : num 1 1 3 4 2 3 3 2 2 4 ...
$ Q2 : num 4 4 4 4 3 4 2 3 2 4 ...
$ Q3 : num 2 4 4 3 1 1 2 2 3 2 ...
$ Q4 : num 4 2 2 1 2 1 4 4 4 2 ...
Et recoder la variable groupe.
TD6.1$groupe<-ifelse(TD6.1$groupe=="etudiant", 0,1)regressions.log()se questionner sur la nécessité de choisir des options. Il n’y a pas d’hypothèse qui suggère de devoir faire une analyse hiérarchique vu qu’il n’y a pas de question relative à une combinaison de variables. Les méthodes de sélection ne semblent pas non plus indispensable car on n’est pas dans un contexte exploratoire, et qu’il n’y a aucun accent particulier sur le fait de sélectionner les variables les plus importantes.
Vérifier si les données sont cohérentes avec l’énoncé
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 300 | 0.53 | 0.5 | 1 | 0.537 | 0 | 0 | 1 | 1 | -0.12 | -1.99 | 0.0289 |
| 2 | 300 | 2.49 | 1.12 | 2 | 2.49 | 1.48 | 1 | 4 | 3 | 0.0378 | -1.38 | 0.0648 |
| 3 | 300 | 2.83 | 1 | 3 | 2.92 | 1.48 | 1 | 4 | 3 | -0.276 | -1.11 | 0.058 |
| 4 | 300 | 2.51 | 0.901 | 3 | 2.51 | 1.48 | 1 | 4 | 3 | -0.0471 | -0.784 | 0.052 |
| 5 | 300 | 2.48 | 1.1 | 2 | 2.48 | 1.48 | 1 | 4 | 3 | 0.028 | -1.32 | 0.0634 |
On observe que tous les minimums sont à 1 et tous les maximums sont à 4. Cela correspond à l’énoncé.
Facteur d'inflation de la variance Tolerance
Q1 1.020 0.9801
Q2 1.018 0.9821
Q3 1.002 0.9981
Q4 1.028 0.9729
Aucune tolérance n’est inférieure à 0.10. Il n’y a donc pas de problème particulier.
| chi.2.modele | ddl | valeur.p | Hosmer and Lemeshow R^2 | Cox and Snell R^2 | Nagelkerke R^2 |
|---|---|---|---|---|---|
| 68.9 | 4 | 0 | 0.166 | 0.205 | 0.274 |
La probabilité associée au \(\chi^2\) du modèle est inférieure à 0.001, le modèle est donc globalement significatif. Il explique 27,4% de la variance.
| ddl.predicteur | MV | ddl.residuels | MV.residuel | valeur.p |
|---|---|---|---|---|
| 299 | 415 | |||
| 1 | 0.95 | 298 | 414 | 0.33 |
| 1 | 9.03 | 297 | 405 | 0.0027 |
| 1 | 58.5 | 296 | 346 | 0 |
| 1 | 0.343 | 295 | 346 | 0.558 |
On observe qu’avec un \(chi^2\) du maximum de vraisemblance de 9.03 et de 58.55, les questions 2 et 3 ont un impact significatif. Ce qui n’est pas le cas pour les autres variables.
| b | Erreur.standard | valeur.Z | p.Wald | Wald | Odd.ratio | 2.5 % | 97.5 % | interpretation |
|---|---|---|---|---|---|---|---|---|
| 0.151 | 0.131 | 1.16 | 0.246 | 1.34 | 1.16 | 0.901 | 1.51 | 1.1635 fois plus |
| -0.0619 | 0.117 | -0.53 | 0.596 | 0.281 | 0.94 | 0.747 | 1.18 | 1.0638 fois moins |
| 0.281 | 0.132 | 2.12 | 0.0336 | 4.52 | 1.32 | 1.02 | 1.72 | 1.3243 fois plus |
| -1.14 | 0.168 | -6.78 | 0 | 46 | 0.32 | 0.227 | 0.439 | 3.1299 fois moins |
| -0.0703 | 0.12 | -0.585 | 0.558 | 0.342 | 0.932 | 0.736 | 1.18 | 1.0728 fois moins |
La question 2 permet est associée à un rapport de cote de 1.32 et la question 3 de 0.32. Cela signifie que chaque fois qu’on augmente d’une unité sur la Q2, on multiplie la probabilité d’être enseignant de -6.78 ; chaque fois qu’on augmente d’une unité sur la question 3, on multiplie la probabilité d’être étudiant par 0.
note : pour éviter les situations compliquées sur la suppression des valeurs influentes, la règle qu’on applique dans le cadre de ce cours est de ne supprimer les valeurs influentes dans les régressions logistiques. Vous pouvez néanmoins éventuellement les identifier.
Ligne de commande easieR
regressions.log(TD6.1, modele= groupe~Q1+Q2+Q3+Q4, outlier=c('Donnees completes'), inf=F)Pour tester l’hypothèse selon laquelle les enseignants et les étudiants n’accordent pas la même importance aux différents aspects pour favoriser la réussite académique, nous avons réalisé une régression logistique avec le groupe (étudiant vs. enseignant) comme variable dépendante et les questions comme variables indépendantes. Les conditions d’applications sont respectées. Le modèle révèle un effet significatif, \(\chi^2(4)= 68.87\), p < .001, pseudoR² = 0.274. L’analyse des différents prédicteurs est présentée dans le Tableau 1 et montre que les questions 2 et 3 permettent de discriminer signficativement les étudiants des enseignants alors que les deux groupes accordent approximativement la même importances aux critères évalués par les questions 1 et 4.
Prédicteur | b | chi 2 | ddl | p | Rapport de Cotes (intervalle de confiance à 95%) | R² de Nagelkerke |
|---|---|---|---|---|---|---|
Q1 | -0.0619 | 0.9497 | 1 | 0.33 | 0.94 (0.7473 – 1.1815) | 0.004 |
Q2 | 0.2809 | 9.0287 | 1 | 0.003 | 1.3243 (1.0241 – 1.7219) | 0.044 |
Q3 | -1.1411 | 58.5461 | 1 | <.001 | 0.3195 (0.2265 – 0.4388) | 0.273 |
Q4 | -0.0703 | 0.3430 | 1 | 0.558 | 0.9321 (0.7355 – 1.1792) | 0.274 |
La question 2 permet est associée à un rapport de cote de 1.32 et la question 3 de 0.32. Cela signifie que chaque fois qu’on augmente d’une unité sur la Q2, on multiplie la probabilité d’être enseignant de 1.32 ; chaque fois qu’on augmente d’une unité sur la question 3, on multiplie la probabilité d’être étudiant par 3.13.
Oshima et al. (2012) se sont intéressés à l’association entre l’utilisation nocturne du téléphone chez des adolescents et leur santé mentale, incluant des idées suicidaires et des auto-multilations. Ils veulent montrer que les adolescents qui sont mal dans leur peau (idées suicidaire, santé mentale à risque, et auto-mutilations) font fréquemment des appels à l’aide. A ce titre, l’utilisation nocturne de leur téléphone (temps passé au téléphone et nombre de texto envoyés la nuit) constituerait une bonne mesure de ces appels à l’aide. Les résultats sont présentés dans le fichier TD6, exercice 2.
Testez si l’utiliation du téléphone la nuit est associé à des troubles de l’humeur (dépression, anxiété ) en contrôlant l’effet de l’âge. Faites l’analyse en séparant les adolescents dont les parents sont divorcés de ceux qui ne le sont pas. Le dictionnaire des variables est présenté ci-dessous :
Variable | Signification |
|---|---|
utilisation | utilisation du téléphone la nuit (oui = 1; non = 0) |
minutes | temps passé au téléphone (minutes) |
texto | nombre maximum de textos envoyés en une nuit |
sante | santé mentale à risque (1 = oui, 0 = non) |
idee-suic | idées suicidaires (1 = oui, 0 = non) |
automut | Présence d'automutilation (1 = oui; 0 = non) |
age | âge |
divorce | parents divorcés (1 = oui; 0 = non) |
BDI | score à l'échelle de dépression de Beck |
STAY | score à l'échelle d'anxiété d'Hamilton |
library(easieR)[1] "Dans quel format est enregistre votre fichier ?"
Veuillez specifier la feuille de calcul que vous souhaitez importer
Des caracteres non autorises ont ete utilises pour le nom. Ces caracteres ont ete remplaces par des points
'data.frame': 1999 obs. of 10 variables:
$ utilisation: num 0 1 0 1 1 0 1 0 1 0 ...
$ minutes : num 86 200 180 159 85 23 20 200 63 81 ...
$ texto : num 48 17 14 42 24 20 37 21 41 2 ...
$ sante : num 1 0 0 0 1 0 1 1 1 1 ...
$ idee.suic : num 1 0 0 0 0 0 1 1 0 0 ...
$ automut : num 1 0 0 0 0 0 1 0 0 0 ...
$ age : num 12 13 17 12 11 13 14 17 17 12 ...
$ divorce : num 1 0 1 0 1 1 1 0 1 1 ...
$ BDI : num 65 50 55 23 58 37 53 19 1 25 ...
$ STAY : num 16 29 39 24 30 26 22 44 19 29 ...
corr.matrice()
corr.matrice(X=c('minutes','texto','BDI','STAY'), Y=NULL, Z =c('age'),data=TD6.2,method="pearson", p.adjust='holm', group=c('divorce'), param=c('Tests de H0'), save=FALSE,outlier=c('Donnees sans valeur influente'), info=T, rscale=NULL, n.boot=NULL)Etant donné que les variables sont numériques, les corrélations de Bravais-Pearson représentent la solution la plus logique et cohérente.
Comme on nous demande de faire la distinction entre les adolescents dont les parents sont divorcés de ceux qui ne le sont pas, nous allons faire les analyses par sous groupe en indiquant ‘divorce’ comme variable de catégorisation.
Il est tout à fait raisonnable de supprimer les valeurs influentes ici. easieR indique qu’il n’y en a pas.
on vérifie les statistiques descriptives.
$`Variables numériques`
vars n mean sd median trimmed mad min max range skew kurtosis
minutes 1 1999 98.48 58.15 98 98.14 74.13 1 200 199 0.04 -1.20
texto 2 1999 25.15 14.47 25 25.12 17.79 1 50 49 0.01 -1.18
BDI 3 1999 32.91 18.60 32 32.89 23.72 1 65 64 0.02 -1.18
STAY 4 1999 26.91 10.46 27 26.78 13.34 10 45 35 0.08 -1.23
age 5 1999 14.57 2.29 15 14.59 2.97 11 18 7 -0.05 -1.24
se
minutes 1.30
texto 0.32
BDI 0.42
STAY 0.23
age 0.05
Il n’y a pas d’informations sur les questionnaires mais ils sont très connus. La BDI a 21 questions (ou 13 dans l’autre version) notés de 0 à 3. Avec un score maximum de 65, les données ne sont pas cohérentes vu que le score maximum est censé être sur 63. Il n’y a pas de problème sur la STAY ni sur l’âge (la tranche d’âge couvre effectivement l’adolescence). L’utilisation du téléphone ne présente pas réellement de particularité si ce n’est qu’il n’y a personne qui n’utilise absoluement pas son téléphone. Ici, il serait logique de s’arrêter ici et d’indiquer qu’en raison de problèmes dans les données, poursuivre les analyses ne fait pas sens.
| n | test | Statistique de Mardia | valeur.p |
|---|---|---|---|
| 1999 | Asymetrie multivariee de Mardia | 0.064 | 0.967 |
| 1999 | Aplatissement multivariee de Mardia | 28.7 | 0 |
| 1999 | Asymetrie multivariee de Mardia pour petits echantillons | 21.4 | 0.966 |
On contate qu’il y a un applatissement mais pas d’asymétrie. Les conditions d’application ne sont pas respectées. Il faut refaire l’analyse en utilisant les corrélations de Spearman.
corr.matrice()
corr.matrice(X=c('minutes','texto','BDI','STAY'), Y=NULL, Z =c('age'),data=TD6.2,method="spearman", p.adjust='holm', group=c('divorce'), param=c('Tests de H0'), save=FALSE,outlier=c('Donnees sans valeur influente'), info=T, rscale=NULL, n.boot=NULL)note : s’il y avait eu des valeurs influentes, vous pouvez dire à easieR de supprimer les valeurs influentes jusqu’à qu’il n’en trouve plus. La logique voulue ici dnas la procédure est de permettre à l’utilisateur d’identifier les observations considérées comme influentes et de pouvoir se positionner sur la pertinence de les supprimer.
Le chargement a nécessité le package : pych
Converted 8 of 8 package citations to BibTeX
Writing 8 Bibtex entries ... OK
Results written to file 'C:\Users\stefan01\AppData\Local\Temp\Rtmpyyhab6\references.bib'
Saving 7 x 7 in imageSaving 7 x 7 in imageSaving 7 x 7 in image
Pour tester l’hypothèse selon laquelle l’utilisation nocturne du téléphone est associée à des fragilités pyychologiques, nous avons réalisé une une matrice de corrélation partielle n le temps passé au téléphone, le nombre de texto envoyés, le score de dépression évalue par la BDI, le score d’anxiété évalué par la STAY. Etant donné que la normalité multivariée n’était pas respectée, nous avons opté pour des corrélations de Spearman et nous avons appliqué la correction de Holm. Par ailleurs, pour s’assurer que les résultats ne pouvaient être attribués à la situation familiale (et en particulier au fait que les parents de l’adolescent soit divorcé), nous avons également réalisé ces analyses par sous-groupe. Les résultats sont présentés dans la Tableau 1 (échantillon complète), 2 (pour les adolescents dont les parents ne sont pas divorcés), et 3 (pour les adolescents dont les parents sont divorcés). Dans ces Figures, la valeur rapportée est la valeur de la corrélation. En dessous de la diagonale sont présentées
Variable | minutes | texto | BDI | STAY |
|---|---|---|---|---|
minutes | 0.011 | 0.018 | -0.015 | |
texto | -0.04 | 0.048 | ||
BDI | -0.017 | |||
STAY |
Nou constatons qu’aucune corrélation n’est significative (les corrélations significatives serait marquée d’une astérisque).
note alternativement, on peut présenter le tableau détaillé avec les intervalles de confiance, comme on va le faire pour les sous-groupes.
Les résultats sont préentés dans les Tableaux 2 et 3 par sous-groupe. Dans ce tableau, lim.inf et lim.sup font référence respectivemnt à la limite inférieure et supérieure de l’intervalle de confiance. La valeur p est la valeur de la probabilité non corrigée et la colonne p corrigée est la valeur de la probabilité corrigée avec la correction de Holm. On constate que seule le lien entre la STAY et le nombre de textos est significatif lorsque la probabilité est non corrigée mais cette corrélation devient non significative après correction.
Corrélation | lim.inf | r | lim.sup | valeur.p | p.corrigee |
|---|---|---|---|---|---|
mints-texto | -0.0289 | 0.0325 | 0.0936 | 0.2994 | 1.0000 |
mints-BDI | -0.0443 | 0.0171 | 0.0783 | 0.5851 | 1.0000 |
mints-STAY | -0.0671 | -0.0058 | 0.0556 | 0.8542 | 1.0000 |
texto-BDI | -0.1120 | -0.0510 | 0.0104 | 0.1032 | 0.5160 |
texto-STAY | 0.0040 | 0.0653 | 0.1261 | 0.0368 | 0.2208 |
BDI-STAY | -0.0893 | -0.0281 | 0.0333 | 0.3696 | 1.0000 |
Pour le groupe des personnes dont les parents sont divorcées, aucune corrélation n’est significative, même avant correction.
Corrélation | lim.inf | r | lim.sup | valeur.p | p.corrigee |
|---|---|---|---|---|---|
mints-texto | -0.0733 | -0.0105 | 0.0523 | 0.7423 | 1 |
mints-BDI | -0.0439 | 0.0189 | 0.0816 | 0.5547 | 1 |
mints-STAY | -0.0840 | -0.0214 | 0.0415 | 0.5051 | 1 |
texto-BDI | -0.0917 | -0.0291 | 0.0337 | 0.3640 | 1 |
texto-STAY | -0.0355 | 0.0273 | 0.0900 | 0.3937 | 1 |
BDI-STAY | -0.0676 | -0.0048 | 0.0580 | 0.8799 | 1 |
note On aurait pu rajouter une colonne avec les R².