1) Nature des variables et résumé descriptif

Sexe :
- Catégorielle (1 = Homme, 2 = Femme)

Age :
- Quantitative continue (âge en année)

Taille :
- Quantitative continue (taille en cm)

Poids :
- Quantitative continue (poids en kg)

Statut tabagique :
Catégorielle (0 = “ne fume pas”, 1 = “a arrêté de fumer”, 2 = “fume”)

Estimation de consommation pour les fumeurs et ex-fumeurs :
- Quantitative continue (nombre de paquets/année)

Activité physique :
- Catégorielle (0 = “Non”, 1 = "Oui)

Mesure de l’Intima-Media :
- Quantitative continue (épaisseur en cm). C’est la mesure de l’épaisseur entre la membre nommée Intima et la membrane nommée Media de l’artère carotide

Consommation d’alcool :
- Catégorielle (0 = “Ne boit pas”, 1 = “Boit occasionellement”, 2 = “Boit régulièrement”)

Data Frame Summary

data

Dimensions: 110 x 9
Duplicates: 0
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 sexe [factor] 1. 1 2. 2
53(48.2%)
57(51.8%)
110 (100.0%) 0 (0.0%)
2 age [numeric] Mean (sd) : 39.5 (11.2) min < med < max: 22 < 39.5 < 64 IQR (CV) : 18 (0.3) 40 distinct values 110 (100.0%) 0 (0.0%)
3 taille [numeric] Mean (sd) : 168.7 (9.4) min < med < max: 150 < 169 < 187 IQR (CV) : 16 (0.1) 32 distinct values 110 (100.0%) 0 (0.0%)
4 poids [numeric] Mean (sd) : 67.8 (13.4) min < med < max: 43 < 68 < 115 IQR (CV) : 18.8 (0.2) 41 distinct values 110 (100.0%) 0 (0.0%)
5 tabac [factor] 1. 0 2. 1 3. 2
72(65.5%)
18(16.4%)
20(18.2%)
110 (100.0%) 0 (0.0%)
6 paqan [numeric] Mean (sd) : 13.9 (11) min < med < max: 1 < 10 < 45 IQR (CV) : 15 (0.8) 16 distinct values 38 (34.5%) 72 (65.5%)
7 sport [factor] 1. 0 2. 1
61(55.5%)
49(44.5%)
110 (100.0%) 0 (0.0%)
8 mesure [numeric] Mean (sd) : 0.5 (0.1) min < med < max: 0.4 < 0.5 < 0.8 IQR (CV) : 0.1 (0.2) 31 distinct values 110 (100.0%) 0 (0.0%)
9 alcool [factor] 1. 0 2. 1 3. 2
23(20.9%)
71(64.5%)
16(14.5%)
110 (100.0%) 0 (0.0%)

Generated by summarytools 0.9.8 (R version 4.0.4)
2021-02-19

Partie A. Analyse de la significativité des corrélations linéaires

2) calculer la matrice des corrélations entre les variables continues de la table de données et 3) Tester la significativité des coefficients de corrélation linéaire en prenant un risque de 1% puis de 5%. On posera convenablement les hypothèses nulles et alternatives

Ce graphique ci-dessus nous montre :

  • Les histogrammes des variables poids, age, taille, paquets/année et l’épaisseur Intima-Media

  • Les nuages de points au point de croisement entre deux variables

  • Le coefficient de corrélation avec leur seuil de significativité
    On utilisera le coefficient de corrélation de Pearson.

    • H0: Pas de corrélation entre les deux variables : ρ = 0
    • H1: Corrélation entre les deux variables : ρ ≠ 0
  • p-values(0, 0.001, 0.01, 0.05, 0.1, 1) <=> symboles(***,**,*, ., " “)

Au seuil de 1% :

  • Les variables age et taille sont significativement corrélées
  • Les variables age et mesure sont significativement corrélées
  • Les variables poids et taille sont significativement corrélées
  • Les variables age et taille sont significativement corrélées

Au seuil de 5% :

  • Les variables poids et mesure sont significativement corrélées
  • Les variables age et taille sont significativement corrélées
  • Les variables age et mesure sont significativement corrélées
  • Les variables poids et taille sont significativement corrélées
  • Les variables age et taille sont significativement corrélées

4) Tracer le nuage de points de l’Intima-Media en fonction de l’âge

On note une tendance à l’augmentation de la distance Intima-Media avec une augmentation de l’âge

5) Précisez et estimer l’indicateur de liaison qui permet de mesurer la relation entre ces deux variables

On calcule la covariance entre l’âge et la mesure de distance Intima-Media :

## La covarariance entre l'âge et la distance Intima-Media vaut : 0.53

On a donc une relation positive qui lie ces deux variables.

6) Construire le modèle de régression linéaire et estimer les paramètres

Le test d’évaluation de la significativité du lien linéaire entre les deux variables est valide, si les résidus :

  • sont indépendants

  • sont distribués selon une loi Normale de moyenne 0

  • sont distribués de façon homogènes, c’est à dire, avec une variance constante.

    Représentation de la régression linéaire

## `geom_smooth()` using formula 'y ~ x'

Quitting from lines 151-152 (CR_TP3_PAWLAK.Rmd) Error in summary(model) : objet ‘model’ introuvable Calls: … withVisible -> eval -> eval -> %>% -> pander -> summary De plus : Warning message: In in_dir(input_dir(), evaluate(code, envir = env, new_device = FALSE, : You changed the working directory to /home/geoffrey/Documents/M_DSS/M2/Nguessan/Statbayes_TP2 (probably via setwd()). It will be restored to /home/geoffrey/Documents/M_DSS/M2/Nguessan/StatbayesTP3. See the Note section in ?knitr::knit

Seul l’âge est significatif dans ce modèle.

a) Significativité globale du modèle

Le modèle construit est peu probant avec un R2 égal à 0.229

b) De combien augmenterait l’intima-media si l’âge augmentait d’une année ?

L’intima-media augmenterait de 0.002 mm si la personne vieillirait d’un an.

7) Etude des résidus pour validation du modèle

  1. Etude de l’indépendance des résidus Les hypothèses testées sont les suivantes :
  • H0 : Les résidus sont indépendants
  • H1 : les résidus sont corrélés
##  lag Autocorrelation D-W Statistic p-value
##    1     -0.05553601      2.105936   0.598
##  Alternative hypothesis: rho != 0

Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.654, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.

  1. Evaluation de l’hypothèse de normalité des résidus

L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.

Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent. Ceci sera prit en compte dans la suite de l’étude par la suppression de ces valeurs aberrantes.

dbTest = durbinWatsonTest(model)
print(dbTest)
##  lag Autocorrelation D-W Statistic p-value
##    1     -0.05553601      2.105936     0.6
##  Alternative hypothesis: rho != 0

Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.6, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.

  1. Evaluation de l’hypothèse de normalité des résidus

  1. Evaluation de l’hypothèse d’homogénéité des résidus

Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.

Les résidus ont tendance à être répartis de façon homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est acceptée.

Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 19.79667, Df = 1, p = 8.6133e-06

Ici, le test rejette l’hypothèse d’homogénéité.

  1. Evaluation à posteriori de l’hypothèse de linéarité

les résidus sont non uniformément répartis, la régression est donc mal adaptée aux données.

Estimer l’intervalle de prévision de la mesure de l’intima-media pour une personne de 33 ans et interpréter

fit lwr upr
0.5026 0.3579 0.6473

On estime l’épaisseur Intima-Media chez une personne de 33 ans entre 0.3579 mm et 0.6473 mm.

Construire et interpéter le modèle de régression linéaire de l’Intima-Media en fonction du carré de l’âge. Comparer avec le premier modèle

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4391 0.01447 30.35 1.084e-54
I(data$age^2) 5.427e-05 7.588e-06 7.152 1.069e-10
Fitting linear model: data\(mesure ~ I(data\)age^2)
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07171 0.3214 0.3151

Le R^2 de notre nouveau modèle est légèrement meilleur que l’ancien (0.3151 VS 0.229), mais reste médiocre.

Etude sur la régression linéaire multiple

On s’intéresse au tabac au travers de la variable paquan comme facteur d’exposition principal. On décide de garder cette variable dans le modèle même si elle n’est pas significative. ### 10) Présenter un diagramme de dispersion de toutes les paires de ces variables (âge, sport, alcool, paqan, imc).

On constate que certains nuages de points ont une tendance linéaire, on peut avoir une colinéarité entre nos variables.

11) Effectuer une analyse univariée de la mesure Intima-Media sur chaque variable des variables explicatives

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.361 0.02553 14.14 2.539e-26
age 0.00429 0.0006229 6.886 3.953e-10
Fitting linear model: mesure ~ age
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07257 0.3051 0.2987
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5379 0.01109 48.49 3.936e-75
sport1 -0.01705 0.01662 -1.026 0.3072
Fitting linear model: mesure ~ sport
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08663 0.009654 0.0004839
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5013 0.01772 28.3 1.71e-51
alcool1 0.02912 0.02038 1.429 0.1561
alcool2 0.06995 0.02766 2.529 0.0129
Fitting linear model: mesure ~ alcool
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08496 0.05641 0.03877
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5234 0.009258 56.53 4.677e-82
paqan 0.001432 0.0008909 1.608 0.1108
Fitting linear model: mesure ~ paqan
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08603 0.02337 0.01433
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.3701 0.0484 7.648 9.008e-12
imc 0.006744 0.00201 3.354 0.001098
Fitting linear model: mesure ~ imc
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08285 0.09436 0.08597

La variable sport a une p-value > 0.25, elle ne sera pas conservée pour la suite.

12) Testez maintenant, une à une, les interactions possibles entre les variables explicatives sélectionnées (age, alcool et imc) et la variable d’exposition principale paqan

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.3655 0.0282 12.96 1.368e-23
age 0.004122 0.0007043 5.853 5.451e-08
paqan -0.001022 0.004563 -0.2239 0.8232
age:paqan 3.38e-05 0.0001038 0.3257 0.7453
Fitting linear model: mesure ~ age * paqan
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.0731 0.308 0.2884
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4885 0.01847 26.45 5.637e-48
as.factor(alcool)1 0.03674 0.0218 1.685 0.09489
as.factor(alcool)2 0.0892 0.03148 2.833 0.005533
paqan 0.005998 0.002775 2.161 0.03296
as.factor(alcool)1:paqan -0.004821 0.003084 -1.563 0.121
as.factor(alcool)2:paqan -0.006608 0.003092 -2.137 0.03492
Fitting linear model: mesure ~ as.factor(alcool) * paqan
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08393 0.1049 0.0619
## Analysis of Variance Table
## 
## Model 1: mesure ~ as.factor(alcool) + paqan
## Model 2: mesure ~ as.factor(alcool) * paqan
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1    106 0.76532                           
## 2    104 0.73260  2  0.032718 2.3223 0.1031
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.3514 0.06227 5.642 1.411e-07
imc 0.007358 0.002639 2.788 0.006278
paqan 0.004531 0.005978 0.7579 0.4502
imc:paqan -0.0001462 0.0002422 -0.6038 0.5473
Fitting linear model: mesure ~ imc * paqan
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.08301 0.1076 0.08234

L’interaction entre paqan et alcool est la seule significative.

13) Estimez et analyser le modèle contenant toutes les variables décalrées significatives lors des analyses univariées et les termes d’interaction significatifs à 10%.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.264 0.04681 5.64 1.525e-07
age 0.003739 0.0006504 5.748 9.439e-08
factor(alcool)1 0.01854 0.0187 0.9913 0.3239
factor(alcool)2 0.0409 0.02774 1.475 0.1434
paqan 0.002824 0.002404 1.175 0.2428
imc 0.004219 0.001808 2.333 0.0216
factor(alcool)1:paqan -0.002559 0.002644 -0.9678 0.3354
factor(alcool)2:paqan -0.003698 0.002661 -1.389 0.1677
Fitting linear model: mesure ~ age + factor(alcool) * paqan + imc
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07119 0.3685 0.3252

Les termes d’interaction ne sont plus significatifs.

14) Les termes d’interaction sont-ils encore significatifs ? Enlevez ces termes d’interaction s’ils ne sont plus significatifs au seuil de 10%

L’interaction enlevée nous obtenons ce modèle :

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2594 0.04637 5.594 1.806e-07
age 0.003847 0.0006432 5.982 3.161e-08
factor(alcool)1 0.01309 0.01729 0.7574 0.4505
factor(alcool)2 0.02397 0.02471 0.9701 0.3343
paqan -1.167e-06 0.0007803 -0.001496 0.9988
imc 0.004513 0.001781 2.534 0.01276
Fitting linear model: mesure ~ age + factor(alcool) + paqan + imc
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07119 0.3561 0.3252

15) A partir du modèle trouvé à la question précédente, enlevez une à une les variables non significatives au seuil de 5% en vous assurant que l’élimination des variables ne change pas considérablement l’estimation du coefficient associé au statut tabagique.

On enlève donc la variable alcool :

Analysis of Variance Table
Res.Df RSS Df Sum of Sq F Pr(>F)
106 0.5321 NA NA NA NA
106 0.5664 0 -0.03435 NA NA
  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2623 0.04519 5.805 6.774e-08
age 0.003968 0.0006272 6.325 6.137e-09
paqan 0.0001549 0.0007559 0.2049 0.838
imc 0.004659 0.001767 2.637 0.009615
Fitting linear model: mesure ~ age + paqan + imc
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07085 0.3499 0.3315

La variable alcool n’apporte pas d’explication à notre modèle.

16) Construire le modèle final

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2623 0.04519 5.805 6.774e-08
age 0.003968 0.0006272 6.325 6.137e-09
paqan 0.0001549 0.0007559 0.2049 0.838
imc 0.004659 0.001767 2.637 0.009615
Fitting linear model: mesure ~ age + paqan + imc
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07085 0.3499 0.3315

1) Intepréter la qualité globale du modèle

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2623 0.04519 5.805 6.774e-08
age 0.003968 0.0006272 6.325 6.137e-09
paqan 0.0001549 0.0007559 0.2049 0.838
imc 0.004659 0.001767 2.637 0.009615
Fitting linear model: mesure ~ age + paqan + imc Le modèle final est peut explicatif de nos données par a un R2 égal à 0.3315.
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
110 0.07085 0.3499 0.3315

2) Tester la significativité globale du modèle en prenant un seuil de 5%

## 
## Call:
## lm(formula = mesure ~ age + imc + paqan, data = data_MLR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.15193 -0.04832 -0.00529  0.03567  0.25041 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.2623458  0.0451913   5.805 6.77e-08 ***
## age         0.0039677  0.0006272   6.325 6.14e-09 ***
## imc         0.0046588  0.0017665   2.637  0.00962 ** 
## paqan       0.0001549  0.0007559   0.205  0.83800    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.07085 on 106 degrees of freedom
## Multiple R-squared:  0.3499, Adjusted R-squared:  0.3315 
## F-statistic: 19.02 on 3 and 106 DF,  p-value: 6.087e-10

La F-statistique a une p-value > 0.05, notre modèle est statistiquement significatif au seuil de 5%.

3) Intepréter les coefficients

La mesure de l’Intima-Media augmente avec l’âge et l’IMC quelque soit le nombre de paquet fumé par années.

4) Estimer l’intervalle de prévision de la mesure de l’intima-media pour une personne de 33 ans, avec un imc de 29 et non fumeur et interpréter.

fit lwr upr
0.5284 0.3855 0.6713

17) Etudier les résidus pour valider le modèle

  1. Etude de l’indépendance des résidus Les hypothèses testées sont les suivantes :
  • H0 : Les résidus sont indépendants
  • H1 : les résidus sont corrélés
##  lag Autocorrelation D-W Statistic p-value
##    1     -0.03816228      2.074792   0.676
##  Alternative hypothesis: rho != 0

Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.716, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.

  1. Evaluation de l’hypothèse de normalité des résidus

L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.

Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent (dont ceux avec l’index 100, 59 et 101). Ceci sera prit en compte dans la suite de l’étude.

  1. Evaluation de l’hypothèse d’homogénéité des résidus

Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.

Les résidus ont tendance à être répartis de façon non homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est rejetée.

Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 20.56583, Df = 1, p = 5.7615e-06

Cela confirme le rejet de l’hypothèse d’homogénéité des résidus

  1. Evaluation à posteriori de l’hypothèse de linéarité

les résidus ne sont pas uniformément distribués de part et d’autre de 0. Cela montre, qu’en moyenne, la droite de régression n’est pas adaptée aux données, et donc que l’hypothèse de linéarité n’est pas acceptable ici.

** On ne valide donc pas ce modèle **

18) Analyse des points atypiques et / ou influents

On mesure les distances de Cook pour détecter les outliers.

Les points dont la distance de cook est supérieur à 4/n, avec n = nombre d’instances dans notre jeu de données, sont considérés comme point influents.

19) Appliquer une procédure pas à pas pour sélectionner les variables explicatives les plus significatives en gardant la variable d’exposition principale paqan. Interprétez le modèle trouvé.