Sexe :
- Catégorielle (1 = Homme, 2 = Femme)
Age :
- Quantitative continue (âge en année)
Taille :
- Quantitative continue (taille en cm)
Poids :
- Quantitative continue (poids en kg)
Statut tabagique :
Catégorielle (0 = “ne fume pas”, 1 = “a arrêté de fumer”, 2 = “fume”)
Estimation de consommation pour les fumeurs et ex-fumeurs :
- Quantitative continue (nombre de paquets/année)
Activité physique :
- Catégorielle (0 = “Non”, 1 = "Oui)
Mesure de l’Intima-Media :
- Quantitative continue (épaisseur en cm). C’est la mesure de l’épaisseur entre la membre nommée Intima et la membrane nommée Media de l’artère carotide
Consommation d’alcool :
- Catégorielle (0 = “Ne boit pas”, 1 = “Boit occasionellement”, 2 = “Boit régulièrement”)
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | sexe [factor] | 1. 1 2. 2 |
|
110 (100.0%) | 0 (0.0%) | |||||||||||||
| 2 | age [numeric] | Mean (sd) : 39.5 (11.2) min < med < max: 22 < 39.5 < 64 IQR (CV) : 18 (0.3) | 40 distinct values | 110 (100.0%) | 0 (0.0%) | |||||||||||||
| 3 | taille [numeric] | Mean (sd) : 168.7 (9.4) min < med < max: 150 < 169 < 187 IQR (CV) : 16 (0.1) | 32 distinct values | 110 (100.0%) | 0 (0.0%) | |||||||||||||
| 4 | poids [numeric] | Mean (sd) : 67.8 (13.4) min < med < max: 43 < 68 < 115 IQR (CV) : 18.8 (0.2) | 41 distinct values | 110 (100.0%) | 0 (0.0%) | |||||||||||||
| 5 | tabac [factor] | 1. 0 2. 1 3. 2 |
|
110 (100.0%) | 0 (0.0%) | |||||||||||||
| 6 | paqan [numeric] | Mean (sd) : 13.9 (11) min < med < max: 1 < 10 < 45 IQR (CV) : 15 (0.8) | 16 distinct values | 38 (34.5%) | 72 (65.5%) | |||||||||||||
| 7 | sport [factor] | 1. 0 2. 1 |
|
110 (100.0%) | 0 (0.0%) | |||||||||||||
| 8 | mesure [numeric] | Mean (sd) : 0.5 (0.1) min < med < max: 0.4 < 0.5 < 0.8 IQR (CV) : 0.1 (0.2) | 31 distinct values | 110 (100.0%) | 0 (0.0%) | |||||||||||||
| 9 | alcool [factor] | 1. 0 2. 1 3. 2 |
|
110 (100.0%) | 0 (0.0%) |
Generated by summarytools 0.9.8 (R version 4.0.4)
2021-02-19
Ce graphique ci-dessus nous montre :
Les histogrammes des variables poids, age, taille, paquets/année et l’épaisseur Intima-Media
Les nuages de points au point de croisement entre deux variables
Le coefficient de corrélation avec leur seuil de significativité
On utilisera le coefficient de corrélation de Pearson.
p-values(0, 0.001, 0.01, 0.05, 0.1, 1) <=> symboles(***,**,*, ., " “)
Au seuil de 1% :
Au seuil de 5% :
On note une tendance à l’augmentation de la distance Intima-Media avec une augmentation de l’âge
On calcule la covariance entre l’âge et la mesure de distance Intima-Media :
## La covarariance entre l'âge et la distance Intima-Media vaut : 0.53
On a donc une relation positive qui lie ces deux variables.
Le test d’évaluation de la significativité du lien linéaire entre les deux variables est valide, si les résidus :
sont indépendants
sont distribués selon une loi Normale de moyenne 0
sont distribués de façon homogènes, c’est à dire, avec une variance constante.
Représentation de la régression linéaire
## `geom_smooth()` using formula 'y ~ x'
Quitting from lines 151-152 (CR_TP3_PAWLAK.Rmd) Error in summary(model) : objet ‘model’ introuvable Calls:
Seul l’âge est significatif dans ce modèle.
Le modèle construit est peu probant avec un R2 égal à 0.229
L’intima-media augmenterait de 0.002 mm si la personne vieillirait d’un an.
## lag Autocorrelation D-W Statistic p-value
## 1 -0.05553601 2.105936 0.598
## Alternative hypothesis: rho != 0
Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.654, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.
L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.
Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent. Ceci sera prit en compte dans la suite de l’étude par la suppression de ces valeurs aberrantes.
dbTest = durbinWatsonTest(model)
print(dbTest)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.05553601 2.105936 0.6
## Alternative hypothesis: rho != 0
Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.6, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.
Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.
Les résidus ont tendance à être répartis de façon homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est acceptée.
Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 19.79667, Df = 1, p = 8.6133e-06
Ici, le test rejette l’hypothèse d’homogénéité.
les résidus sont non uniformément répartis, la régression est donc mal adaptée aux données.
| fit | lwr | upr |
|---|---|---|
| 0.5026 | 0.3579 | 0.6473 |
On estime l’épaisseur Intima-Media chez une personne de 33 ans entre 0.3579 mm et 0.6473 mm.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.4391 | 0.01447 | 30.35 | 1.084e-54 |
| I(data$age^2) | 5.427e-05 | 7.588e-06 | 7.152 | 1.069e-10 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07171 | 0.3214 | 0.3151 |
Le R^2 de notre nouveau modèle est légèrement meilleur que l’ancien (0.3151 VS 0.229), mais reste médiocre.
On s’intéresse au tabac au travers de la variable paquan comme facteur d’exposition principal. On décide de garder cette variable dans le modèle même si elle n’est pas significative. ### 10) Présenter un diagramme de dispersion de toutes les paires de ces variables (âge, sport, alcool, paqan, imc).
On constate que certains nuages de points ont une tendance linéaire, on peut avoir une colinéarité entre nos variables.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.361 | 0.02553 | 14.14 | 2.539e-26 |
| age | 0.00429 | 0.0006229 | 6.886 | 3.953e-10 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07257 | 0.3051 | 0.2987 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.5379 | 0.01109 | 48.49 | 3.936e-75 |
| sport1 | -0.01705 | 0.01662 | -1.026 | 0.3072 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08663 | 0.009654 | 0.0004839 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.5013 | 0.01772 | 28.3 | 1.71e-51 |
| alcool1 | 0.02912 | 0.02038 | 1.429 | 0.1561 |
| alcool2 | 0.06995 | 0.02766 | 2.529 | 0.0129 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08496 | 0.05641 | 0.03877 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.5234 | 0.009258 | 56.53 | 4.677e-82 |
| paqan | 0.001432 | 0.0008909 | 1.608 | 0.1108 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08603 | 0.02337 | 0.01433 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.3701 | 0.0484 | 7.648 | 9.008e-12 |
| imc | 0.006744 | 0.00201 | 3.354 | 0.001098 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08285 | 0.09436 | 0.08597 |
La variable sport a une p-value > 0.25, elle ne sera pas conservée pour la suite.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.3655 | 0.0282 | 12.96 | 1.368e-23 |
| age | 0.004122 | 0.0007043 | 5.853 | 5.451e-08 |
| paqan | -0.001022 | 0.004563 | -0.2239 | 0.8232 |
| age:paqan | 3.38e-05 | 0.0001038 | 0.3257 | 0.7453 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.0731 | 0.308 | 0.2884 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.4885 | 0.01847 | 26.45 | 5.637e-48 |
| as.factor(alcool)1 | 0.03674 | 0.0218 | 1.685 | 0.09489 |
| as.factor(alcool)2 | 0.0892 | 0.03148 | 2.833 | 0.005533 |
| paqan | 0.005998 | 0.002775 | 2.161 | 0.03296 |
| as.factor(alcool)1:paqan | -0.004821 | 0.003084 | -1.563 | 0.121 |
| as.factor(alcool)2:paqan | -0.006608 | 0.003092 | -2.137 | 0.03492 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08393 | 0.1049 | 0.0619 |
## Analysis of Variance Table
##
## Model 1: mesure ~ as.factor(alcool) + paqan
## Model 2: mesure ~ as.factor(alcool) * paqan
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 106 0.76532
## 2 104 0.73260 2 0.032718 2.3223 0.1031
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.3514 | 0.06227 | 5.642 | 1.411e-07 |
| imc | 0.007358 | 0.002639 | 2.788 | 0.006278 |
| paqan | 0.004531 | 0.005978 | 0.7579 | 0.4502 |
| imc:paqan | -0.0001462 | 0.0002422 | -0.6038 | 0.5473 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.08301 | 0.1076 | 0.08234 |
L’interaction entre paqan et alcool est la seule significative.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.264 | 0.04681 | 5.64 | 1.525e-07 |
| age | 0.003739 | 0.0006504 | 5.748 | 9.439e-08 |
| factor(alcool)1 | 0.01854 | 0.0187 | 0.9913 | 0.3239 |
| factor(alcool)2 | 0.0409 | 0.02774 | 1.475 | 0.1434 |
| paqan | 0.002824 | 0.002404 | 1.175 | 0.2428 |
| imc | 0.004219 | 0.001808 | 2.333 | 0.0216 |
| factor(alcool)1:paqan | -0.002559 | 0.002644 | -0.9678 | 0.3354 |
| factor(alcool)2:paqan | -0.003698 | 0.002661 | -1.389 | 0.1677 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07119 | 0.3685 | 0.3252 |
Les termes d’interaction ne sont plus significatifs.
L’interaction enlevée nous obtenons ce modèle :
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.2594 | 0.04637 | 5.594 | 1.806e-07 |
| age | 0.003847 | 0.0006432 | 5.982 | 3.161e-08 |
| factor(alcool)1 | 0.01309 | 0.01729 | 0.7574 | 0.4505 |
| factor(alcool)2 | 0.02397 | 0.02471 | 0.9701 | 0.3343 |
| paqan | -1.167e-06 | 0.0007803 | -0.001496 | 0.9988 |
| imc | 0.004513 | 0.001781 | 2.534 | 0.01276 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07119 | 0.3561 | 0.3252 |
On enlève donc la variable alcool :
| Res.Df | RSS | Df | Sum of Sq | F | Pr(>F) |
|---|---|---|---|---|---|
| 106 | 0.5321 | NA | NA | NA | NA |
| 106 | 0.5664 | 0 | -0.03435 | NA | NA |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.2623 | 0.04519 | 5.805 | 6.774e-08 |
| age | 0.003968 | 0.0006272 | 6.325 | 6.137e-09 |
| paqan | 0.0001549 | 0.0007559 | 0.2049 | 0.838 |
| imc | 0.004659 | 0.001767 | 2.637 | 0.009615 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07085 | 0.3499 | 0.3315 |
La variable alcool n’apporte pas d’explication à notre modèle.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.2623 | 0.04519 | 5.805 | 6.774e-08 |
| age | 0.003968 | 0.0006272 | 6.325 | 6.137e-09 |
| paqan | 0.0001549 | 0.0007559 | 0.2049 | 0.838 |
| imc | 0.004659 | 0.001767 | 2.637 | 0.009615 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07085 | 0.3499 | 0.3315 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.2623 | 0.04519 | 5.805 | 6.774e-08 |
| age | 0.003968 | 0.0006272 | 6.325 | 6.137e-09 |
| paqan | 0.0001549 | 0.0007559 | 0.2049 | 0.838 |
| imc | 0.004659 | 0.001767 | 2.637 | 0.009615 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 110 | 0.07085 | 0.3499 | 0.3315 |
##
## Call:
## lm(formula = mesure ~ age + imc + paqan, data = data_MLR)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.15193 -0.04832 -0.00529 0.03567 0.25041
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.2623458 0.0451913 5.805 6.77e-08 ***
## age 0.0039677 0.0006272 6.325 6.14e-09 ***
## imc 0.0046588 0.0017665 2.637 0.00962 **
## paqan 0.0001549 0.0007559 0.205 0.83800
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07085 on 106 degrees of freedom
## Multiple R-squared: 0.3499, Adjusted R-squared: 0.3315
## F-statistic: 19.02 on 3 and 106 DF, p-value: 6.087e-10
La F-statistique a une p-value > 0.05, notre modèle est statistiquement significatif au seuil de 5%.
La mesure de l’Intima-Media augmente avec l’âge et l’IMC quelque soit le nombre de paquet fumé par années.
| fit | lwr | upr |
|---|---|---|
| 0.5284 | 0.3855 | 0.6713 |
## lag Autocorrelation D-W Statistic p-value
## 1 -0.03816228 2.074792 0.676
## Alternative hypothesis: rho != 0
Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.716, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.
L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.
Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent (dont ceux avec l’index 100, 59 et 101). Ceci sera prit en compte dans la suite de l’étude.
Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.
Les résidus ont tendance à être répartis de façon non homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est rejetée.
Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 20.56583, Df = 1, p = 5.7615e-06
Cela confirme le rejet de l’hypothèse d’homogénéité des résidus
les résidus ne sont pas uniformément distribués de part et d’autre de 0. Cela montre, qu’en moyenne, la droite de régression n’est pas adaptée aux données, et donc que l’hypothèse de linéarité n’est pas acceptable ici.
** On ne valide donc pas ce modèle **
On mesure les distances de Cook pour détecter les outliers.
Les points dont la distance de cook est supérieur à 4/n, avec n = nombre d’instances dans notre jeu de données, sont considérés comme point influents.