TD6

Author

Nicolas Stefaniak

Exercice 1

Un chercheur s’intéresse à la réussite scolaire des étudiants. Plus particulièrement, il veut savoir si les étudiants (codés 0 dans la variable groupe) et les enseignants (codés 1 dans la variable groupe) accordent de l’importance aux mêmes aspects pour permettre la réussite. Il fait donc passer un questionnaire avec 4 questions (le questionnaire est fourni ci-dessous). Est-il possible de distinguer à l’aide de ce questionnaire les étudiants par rapport aux enseignants ? En d’autres termes, est-ce que certains items de ce questionnaire permettent de prédire le groupe d’appartenance du répondant ?

  1. on charge easieR, on vérifie qu’on est sur la bonne version de R et de easieR (au moment de ce TD, version >=4.4 de R et version du 19 mars 2025 de easieR)
library(easieR)
[1] "[INFO] Version française chargée."
  1. Importer les données
[1] "Dans quel format est enregistre votre fichier ?"
Veuillez specifier la feuille de calcul que vous souhaitez importer
Des caracteres non autorises ont ete utilises pour le nom. Ces caracteres ont ete remplaces par des points
'data.frame':   300 obs. of  5 variables:
 $ groupe: Factor w/ 2 levels "enseignant","etudiant": 2 2 2 1 1 1 2 2 2 2 ...
 $ Q1    : num  1 1 3 4 2 3 3 2 2 4 ...
 $ Q2    : num  4 4 4 4 3 4 2 3 2 4 ...
 $ Q3    : num  2 4 4 3 1 1 2 2 3 2 ...
 $ Q4    : num  4 2 2 1 2 1 4 4 4 2 ...

Et recoder la variable groupe.

TD6.1$groupe<-ifelse(TD6.1$groupe=="etudiant", 0,1)
  1. Choisir l’analyse : on veut prédire l’appartenance à groupe (étudiant vs. enseignant) sur la base de plusieurs éléments. La variable dépendante est dichotomique, on doit faire une régression logistique.
regressions.log()
  1. se questionner sur la nécessité de choisir des options. Il n’y a pas d’hypothèse qui suggère de devoir faire une analyse hiérarchique vu qu’il n’y a pas de question relative à une combinaison de variables. Les méthodes de sélection ne semblent pas non plus indispensable car on n’est pas dans un contexte exploratoire, et qu’il n’y a aucun accent particulier sur le fait de sélectionner les variables les plus importantes.

  2. Vérifier si les données sont cohérentes avec l’énoncé

varsnmeansdmediantrimmedmadminmaxrangeskewkurtosisse
13000.530.5  10.5370   011-0.12  -1.99 0.0289
23002.491.12 22.49 1.481430.0378-1.38 0.0648
33002.831    32.92 1.48143-0.276 -1.11 0.058 
43002.510.90132.51 1.48143-0.0471-0.7840.052 
53002.481.1  22.48 1.481430.028 -1.32 0.0634

On observe que tous les minimums sont à 1 et tous les maximums sont à 4. Cela correspond à l’énoncé.

  1. Vérifier les conditions d’application
   Facteur d'inflation de la variance Tolerance
Q1                              1.020    0.9801
Q2                              1.018    0.9821
Q3                              1.002    0.9981
Q4                              1.028    0.9729

Aucune tolérance n’est inférieure à 0.10. Il n’y a donc pas de problème particulier.

  1. Regarder si le modèle global est significatif
chi.2.modeleddlvaleur.pHosmer and Lemeshow R^2Cox and Snell R^2Nagelkerke R^2
68.9400.1660.2050.274

La probabilité associée au \(\chi^2\) du modèle est inférieure à 0.001, le modèle est donc globalement significatif. Il explique 27,4% de la variance.

  1. Regarder quels prédicteurs sont significatifs
ddl.predicteurMVddl.residuelsMV.residuelvaleur.p
    299415     
10.95 2984140.33  
19.03 2974050.0027
158.5  2963460     
10.3432953460.558 

On observe qu’avec un \(chi^2\) du maximum de vraisemblance de 9.03 et de 58.55, les questions 2 et 3 ont un impact significatif. Ce qui n’est pas le cas pour les autres variables.

  1. Regarder les rapports de cotes.
bErreur.standardvaleur.Zp.WaldWaldOdd.ratio2.5 %97.5 %interpretation
0.151 0.1311.16 0.246 1.34 1.16 0.9011.51 1.1635 fois plus
-0.06190.117-0.53 0.596 0.2810.94 0.7471.18 1.0638 fois moins
0.281 0.1322.12 0.03364.52 1.32 1.02 1.72 1.3243 fois plus
-1.14  0.168-6.78 0     46    0.32 0.2270.4393.1299 fois moins
-0.07030.12 -0.5850.558 0.3420.9320.7361.18 1.0728 fois moins

La question 2 permet est associée à un rapport de cote de 1.32 et la question 3 de 0.32. Cela signifie que chaque fois qu’on augmente d’une unité sur la Q2, on multiplie la probabilité d’être enseignant de -6.78 ; chaque fois qu’on augmente d’une unité sur la question 3, on multiplie la probabilité d’être étudiant par 0.

  1. on rédige les résultats

note : pour éviter les situations compliquées sur la suppression des valeurs influentes, la règle qu’on applique dans le cadre de ce cours est de ne supprimer les valeurs influentes dans les régressions logistiques. Vous pouvez néanmoins éventuellement les identifier.

Ligne de commande easieR

regressions.log(TD6.1, modele= groupe~Q1+Q2+Q3+Q4,  outlier=c('Donnees completes'), inf=F)

Pour tester l’hypothèse selon laquelle les enseignants et les étudiants n’accordent pas la même importance aux différents aspects pour favoriser la réussite académique, nous avons réalisé une régression logistique avec le groupe (étudiant vs. enseignant) comme variable dépendante et les questions comme variables indépendantes. Les conditions d’applications sont respectées. Le modèle révèle un effet significatif, \(\chi^2(4)= 68.87\), p < .001, pseudoR² = 0.274. L’analyse des différents prédicteurs est présentée dans le Tableau 1 et montre que les questions 2 et 3 permettent de discriminer signficativement les étudiants des enseignants alors que les deux groupes accordent approximativement la même importances aux critères évalués par les questions 1 et 4.

Prédicteur

b

chi 2

ddl

p

Rapport de Cotes (intervalle de confiance à 95%)

R² de Nagelkerke

Q1

-0.0619

0.9497

1

0.33

0.94 (0.7473 – 1.1815)

0.004

Q2

0.2809

9.0287

1

0.003

1.3243 (1.0241 – 1.7219)

0.044

Q3

-1.1411

58.5461

1

<.001

0.3195 (0.2265 – 0.4388)

0.273

Q4

-0.0703

0.3430

1

0.558

0.9321 (0.7355 – 1.1792)

0.274

La question 2 permet est associée à un rapport de cote de 1.32 et la question 3 de 0.32. Cela signifie que chaque fois qu’on augmente d’une unité sur la Q2, on multiplie la probabilité d’être enseignant de 1.32 ; chaque fois qu’on augmente d’une unité sur la question 3, on multiplie la probabilité d’être étudiant par 3.13.

Exercice 2

Oshima et al. (2012) se sont intéressés à l’association entre l’utilisation nocturne du téléphone chez des adolescents et leur santé mentale, incluant des idées suicidaires et des auto-multilations. Ils veulent montrer que les adolescents qui sont mal dans leur peau (idées suicidaire, santé mentale à risque, et auto-mutilations) font fréquemment des appels à l’aide. A ce titre, l’utilisation nocturne de leur téléphone (temps passé au téléphone et nombre de texto envoyés la nuit) constituerait une bonne mesure de ces appels à l’aide. Les résultats sont présentés dans le fichier TD6, exercice 2.

Testez si l’utiliation du téléphone la nuit est associé à des troubles de l’humeur (dépression, anxiété ) en contrôlant l’effet de l’âge. Faites l’analyse en séparant les adolescents dont les parents sont divorcés de ceux qui ne le sont pas. Le dictionnaire des variables est présenté ci-dessous :

Variable

Signification

utilisation

utilisation du téléphone la nuit (oui = 1; non = 0)

minutes

temps passé au téléphone (minutes)

texto

nombre maximum de textos envoyés en une nuit

sante

santé mentale à risque (1 = oui, 0 = non)

idee-suic

idées suicidaires (1 = oui, 0 = non)

automut

Présence d'automutilation (1 = oui; 0 = non)

age

âge

divorce

parents divorcés (1 = oui; 0 = non)

BDI

score à l'échelle de dépression de Beck

STAY

score à l'échelle d'anxiété d'Hamilton

  1. on charge easieR, on vérifie qu’on est sur la bonne version de R et de easieR (au moment de ce TD, version >=4.4 de R et version du 19 mars 2025 de easieR)
library(easieR)
  1. Importer les données
[1] "Dans quel format est enregistre votre fichier ?"
Veuillez specifier la feuille de calcul que vous souhaitez importer
Des caracteres non autorises ont ete utilises pour le nom. Ces caracteres ont ete remplaces par des points
'data.frame':   1999 obs. of  10 variables:
 $ utilisation: num  0 1 0 1 1 0 1 0 1 0 ...
 $ minutes    : num  86 200 180 159 85 23 20 200 63 81 ...
 $ texto      : num  48 17 14 42 24 20 37 21 41 2 ...
 $ sante      : num  1 0 0 0 1 0 1 1 1 1 ...
 $ idee.suic  : num  1 0 0 0 0 0 1 1 0 0 ...
 $ automut    : num  1 0 0 0 0 0 1 0 0 0 ...
 $ age        : num  12 13 17 12 11 13 14 17 17 12 ...
 $ divorce    : num  1 0 1 0 1 1 1 0 1 1 ...
 $ BDI        : num  65 50 55 23 58 37 53 19 1 25 ...
 $ STAY       : num  16 29 39 24 30 26 22 44 19 29 ...
  1. Choisir l’analyse : On cherche des associations entre des variables en contrôlant l’impact de l’âge. Etant donné que nous avons plusieurs variables qui peuvent mesurer l’utilisation du téléphone la nuit, il est raisonnable de faire une matrice de corrélation partielle plutôt que de faire deux régressions multiples (bien que ce soit également une possibilité acceptable). Par ailleurs, vu qu’on veut également les analyses par sous-groupe, cela fait sens de s’orienter vers les matrices de corrélations partielles puisqu’on peut faire les analsyes par sous-groupe.
corr.matrice()
corr.matrice(X=c('minutes','texto','BDI','STAY'), Y=NULL, Z =c('age'),data=TD6.2,method="pearson", p.adjust='holm', group=c('divorce'), param=c('Tests de H0'), save=FALSE,outlier=c('Donnees sans valeur influente'), info=T, rscale=NULL, n.boot=NULL)
  1. Etant donné que les variables sont numériques, les corrélations de Bravais-Pearson représentent la solution la plus logique et cohérente.

  2. Comme on nous demande de faire la distinction entre les adolescents dont les parents sont divorcés de ceux qui ne le sont pas, nous allons faire les analyses par sous groupe en indiquant ‘divorce’ comme variable de catégorisation.

  3. Il est tout à fait raisonnable de supprimer les valeurs influentes ici. easieR indique qu’il n’y en a pas.

  4. on vérifie les statistiques descriptives.

$`Variables numériques`
        vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
minutes    1 1999 98.48 58.15     98   98.14 74.13   1 200   199  0.04    -1.20
texto      2 1999 25.15 14.47     25   25.12 17.79   1  50    49  0.01    -1.18
BDI        3 1999 32.91 18.60     32   32.89 23.72   1  65    64  0.02    -1.18
STAY       4 1999 26.91 10.46     27   26.78 13.34  10  45    35  0.08    -1.23
age        5 1999 14.57  2.29     15   14.59  2.97  11  18     7 -0.05    -1.24
          se
minutes 1.30
texto   0.32
BDI     0.42
STAY    0.23
age     0.05

Il n’y a pas d’informations sur les questionnaires mais ils sont très connus. La BDI a 21 questions (ou 13 dans l’autre version) notés de 0 à 3. Avec un score maximum de 65, les données ne sont pas cohérentes vu que le score maximum est censé être sur 63. Il n’y a pas de problème sur la STAY ni sur l’âge (la tranche d’âge couvre effectivement l’adolescence). L’utilisation du téléphone ne présente pas réellement de particularité si ce n’est qu’il n’y a personne qui n’utilise absoluement pas son téléphone. Ici, il serait logique de s’arrêter ici et d’indiquer qu’en raison de problèmes dans les données, poursuivre les analyses ne fait pas sens.

  1. Vérifier les condition d’application
ntestStatistique de Mardiavaleur.p
1999Asymetrie multivariee de Mardia0.0640.967
1999Aplatissement multivariee de Mardia28.7  0    
1999Asymetrie multivariee de Mardia pour petits echantillons21.4  0.966

On contate qu’il y a un applatissement mais pas d’asymétrie. Les conditions d’application ne sont pas respectées. Il faut refaire l’analyse en utilisant les corrélations de Spearman.

corr.matrice()
corr.matrice(X=c('minutes','texto','BDI','STAY'), Y=NULL, Z =c('age'),data=TD6.2,method="spearman", p.adjust='holm', group=c('divorce'), param=c('Tests de H0'), save=FALSE,outlier=c('Donnees sans valeur influente'), info=T, rscale=NULL, n.boot=NULL)
  1. on rédige les résultats

note : s’il y avait eu des valeurs influentes, vous pouvez dire à easieR de supprimer les valeurs influentes jusqu’à qu’il n’en trouve plus. La logique voulue ici dnas la procédure est de permettre à l’utilisateur d’identifier les observations considérées comme influentes et de pouvoir se positionner sur la pertinence de les supprimer.

Le chargement a nécessité le package : pych
Converted 8 of 8 package citations to BibTeX
Writing 8 Bibtex entries ... OK
Results written to file 'C:\Users\stefan01\AppData\Local\Temp\Rtmpyyhab6\references.bib'
Saving 7 x 7 in imageSaving 7 x 7 in imageSaving 7 x 7 in image

Pour tester l’hypothèse selon laquelle l’utilisation nocturne du téléphone est associée à des fragilités pyychologiques, nous avons réalisé une une matrice de corrélation partielle n le temps passé au téléphone, le nombre de texto envoyés, le score de dépression évalue par la BDI, le score d’anxiété évalué par la STAY. Etant donné que la normalité multivariée n’était pas respectée, nous avons opté pour des corrélations de Spearman et nous avons appliqué la correction de Holm. Par ailleurs, pour s’assurer que les résultats ne pouvaient être attribués à la situation familiale (et en particulier au fait que les parents de l’adolescent soit divorcé), nous avons également réalisé ces analyses par sous-groupe. Les résultats sont présentés dans la Tableau 1 (échantillon complète), 2 (pour les adolescents dont les parents ne sont pas divorcés), et 3 (pour les adolescents dont les parents sont divorcés). Dans ces Figures, la valeur rapportée est la valeur de la corrélation. En dessous de la diagonale sont présentées

Variable

minutes

texto

BDI

STAY

minutes

0.011

0.018

-0.015

texto

-0.04

0.048

BDI

-0.017

STAY

Nou constatons qu’aucune corrélation n’est significative (les corrélations significatives serait marquée d’une astérisque).

note alternativement, on peut présenter le tableau détaillé avec les intervalles de confiance, comme on va le faire pour les sous-groupes.

Les résultats sont préentés dans les Tableaux 2 et 3 par sous-groupe. Dans ce tableau, lim.inf et lim.sup font référence respectivemnt à la limite inférieure et supérieure de l’intervalle de confiance. La valeur p est la valeur de la probabilité non corrigée et la colonne p corrigée est la valeur de la probabilité corrigée avec la correction de Holm. On constate que seule le lien entre la STAY et le nombre de textos est significatif lorsque la probabilité est non corrigée mais cette corrélation devient non significative après correction.

Corrélation

lim.inf

r

lim.sup

valeur.p

p.corrigee

mints-texto

-0.0289

0.0325

0.0936

0.2994

1.0000

mints-BDI

-0.0443

0.0171

0.0783

0.5851

1.0000

mints-STAY

-0.0671

-0.0058

0.0556

0.8542

1.0000

texto-BDI

-0.1120

-0.0510

0.0104

0.1032

0.5160

texto-STAY

0.0040

0.0653

0.1261

0.0368

0.2208

BDI-STAY

-0.0893

-0.0281

0.0333

0.3696

1.0000

Pour le groupe des personnes dont les parents sont divorcées, aucune corrélation n’est significative, même avant correction.

Corrélation

lim.inf

r

lim.sup

valeur.p

p.corrigee

mints-texto

-0.0733

-0.0105

0.0523

0.7423

1

mints-BDI

-0.0439

0.0189

0.0816

0.5547

1

mints-STAY

-0.0840

-0.0214

0.0415

0.5051

1

texto-BDI

-0.0917

-0.0291

0.0337

0.3640

1

texto-STAY

-0.0355

0.0273

0.0900

0.3937

1

BDI-STAY

-0.0676

-0.0048

0.0580

0.8799

1

note On aurait pu rajouter une colonne avec les R².