0.0.1 I.Régression linéaire Simple

0.1 I.I. Alcool et Densité

Il faut inserer ton intro ici jusqu’a l’étude des variable explicative.

Sachant qu’il existe une corrélation non négligeable entre l’alcool et la densité (voir tableau de corrélation). C’est donc notre première piste d’étude.

Les p-valeurs pour les deux paramètres sont inférieurs à 2e-16. On rejette l’hypothèse h0 tel que beta1 et beta2 soit égale à O. La régression linéaire fit relativement bien le nuage de point.

1.2 Analyse des Résidus

A.Valeurs Aberrantes

Il y’a “seulement” 50 points hors de la zone [-2,2]. Ce qui constitue les 3% de l’effectif. La majorité de points hors de la zone [-2,2] reste proche de la limite. Par contre il existe 7 points relativement éloigné supérieur à 3.5. C’est infime.

B.Point Levier Il y a 59 point leviers, dont la majorité est inférieur à la droite y = 0.006. Cela qui constitue un peu plus 3% de l’effectif. Les autres points sont peut-être très influents. On réflichira à supprimer les valeurs extrèmes potentielles.

C.On peut plot le Affichage sur un même plot des deux.

D.Gaussianité des résidu

L’alignement n’est pas parfait mais n’est pas non plus mauvais. Cela implique que les résidus théoriques suivent une loi normale.

E.Comparaison des résidus studentisés et des résidus normalisés

On peut voir que les deux résidus correspondent pour pratiquement toutes les observations.

F.Distance de Cook Aucun point ne dépasse le premier seuil, ainsi aucun point n’est aberrant au sens de la distance de Cook. La distance de Cook combine les poids hii et les résidus.

Intervalles de Prédiction et Intervalles ## 1.2 Deuxième Régression Linéaire : pH et Acidité Fixée

La corrélation pH et fixed acidity est de 0.68. Les p-valeurs pour les deux paramètres sont inférieurs à 2e-16. On rejette l’hypothèse h0 tel que beta1 et beta2 soit égale à O.

1.2 Analyse des Résidus

A.Valeurs Aberrantes #Il y’a 82 valeurs abérrantes,ils sont relativement proche des seuils prédéfini. #Sauf 7 observations qui semble réellement abérrants.

B.Points levier Il y’a 54 point levier et une dizaine de point loin du deuxième seuil.

C.On peut plot le Affichage sur un même plot des deux. D.Gaussianité des résidus L’alignement est bon. Cela implique que les résidus théoriques suivent une loi normale.

E.Comparaison des résidus studentisés et des résidus normalisés On peut voir que les deux résidus correspondent pour pratiquement toutes les observations.

F.Distance de Cook Aucun point ne dépasse le premier seuil, ainsi aucun point n’est aberrant au sens de la distance de Cook. La distance de Cook combine les poids hii et les résidus.

2.Ajouter Intervalles de Prédiction et Intervalles

Partie 2 : Régression Multilinéaire

## 
## Call:
## lm(formula = wine1$alcohol ~ ., data = wine1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.00813 -0.39188 -0.05233  0.35351  2.43449 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           3.685e+02  3.943e+01   9.345  < 2e-16 ***
## fixed.acidity         5.166e-01  2.101e-02  24.593  < 2e-16 ***
## volatile.acidity      3.709e-01  1.132e-01   3.276 0.001076 ** 
## citric.acid           7.949e-01  1.367e-01   5.815 7.32e-09 ***
## residual.sugar        2.790e-01  1.215e-02  22.955  < 2e-16 ***
## chlorides            -1.383e+00  3.917e-01  -3.531 0.000425 ***
## free.sulfur.dioxide  -3.749e-03  2.083e-03  -1.799 0.072170 .  
## total.sulfur.dioxide -1.642e-03  7.015e-04  -2.340 0.019392 *  
## density              -6.061e+02  1.338e+01 -45.309  < 2e-16 ***
## pH                    3.726e+00  1.541e-01  24.175  < 2e-16 ***
## sulphates             1.311e+00  1.027e-01  12.771  < 2e-16 ***
## density_sort          2.303e+02  3.676e+01   6.264 4.82e-10 ***
## fixedAc_sort         -2.170e-01  4.050e-02  -5.359 9.60e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6052 on 1586 degrees of freedom
## Multiple R-squared:  0.6799, Adjusted R-squared:  0.6774 
## F-statistic: 280.7 on 12 and 1586 DF,  p-value: < 2.2e-16

Pvalue < 5%, TOUTES les variables sauf pour free.sulfur.dioxide. On accepte l’hypothèse H0 pour les FSD. Test de Fisher : Au moins une variable explicative est significativement différente de zéro.

Analyse des résidus.

Traçons d’abord les résidu de différentes manières afin de détecter une quelquonque structure ou pattern dans les résidus. Objectif : Déceler un mauvais ajustement du modèle ou un manque d’indépendance ou homoscédasticité des résidus.

Définissons les résidus studentisé.

VALEURS ABERRANTES

Il y a 70 variable hors qui apparaissent comment étant “abérrantes”. Cela représente 4% de l’effectif. 73% des observations hors de la zone [-2,2] reste relativement proche (i.e. dans la zone [-3,3]). Néammoins il subsite parmis les observations limite (hors de la zone [-2,2]) une vingtaine d’observation (1% de l’effetif total de l’observation) à surveiller. car elle peuvent avoir une influence conséquentes sur l’estimation des béta

Point levier

Il y’a 50 points leviers ce qui fait un peu moins de 3%. Leur poids sont nettement au dessus du seuil. #Certains point sont très influent.

Distance de Cook

Aucun point n’est suspect selon le critère de la distance de Cook. Rappelons que dans la distance de Cook interviennent le poids h_ii (qui est élevé pour les points leviers) ainsi que le résidu (élevé pour les valeurs aberrantes). La distance de Cook combine alors les caractéristiques des points leviers et des valeurs aberrantes. C’est bizzare qu’il n’y pas de points au dessus des limites. Aussi les seuils sont plutôt hauts

Hypothèse de Normalité des résidus

L’alignement des points sur la première bissectrice est satisfaisant, ce qui confirme l’hypothèse selon laquelle les residus théoriques suivent la loi normale.

Selection de Variable

La fonction leaps calcule tous les modèle possibles sachant toutes las variables. Selon le critère BIC, le meilleure modèle effacerait la variable : Dioxyde de Sulfure Libre. Selon le critère du R^2 ajusté, on garde toutes les variables. Selon le critère Cp, on enlève, encore une fois la variable : Dioxyde de Sulfure Libre. La dénominateur commun ici étant le Dioxyde de Sulfure Libre, nous essayons un modèle ou ce dernier n’est pas présent.

Modèle Ajusté

## 
## Call:
## lm(formula = wine1$alcohol ~ fixed.acidity + volatile.acidity + 
##     citric.acid + residual.sugar + chlorides + total.sulfur.dioxide + 
##     density + pH + sulphates, data = wine)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.06145 -0.39706 -0.03917  0.34928  2.44848 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           6.059e+02  1.302e+01  46.535  < 2e-16 ***
## fixed.acidity         5.300e-01  2.051e-02  25.846  < 2e-16 ***
## volatile.acidity      3.809e-01  1.128e-01   3.377 0.000749 ***
## citric.acid           8.548e-01  1.359e-01   6.289 4.12e-10 ***
## residual.sugar        2.827e-01  1.219e-02  23.198  < 2e-16 ***
## chlorides            -1.487e+00  3.949e-01  -3.766 0.000172 ***
## total.sulfur.dioxide -2.775e-03  5.123e-04  -5.416 7.02e-08 ***
## density              -6.160e+02  1.335e+01 -46.125  < 2e-16 ***
## pH                    3.739e+00  1.534e-01  24.369  < 2e-16 ***
## sulphates             1.242e+00  1.036e-01  11.984  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.614 on 1589 degrees of freedom
## Multiple R-squared:  0.6699, Adjusted R-squared:  0.668 
## F-statistic: 358.2 on 9 and 1589 DF,  p-value: < 2.2e-16

Partie 3 : ANOVA Le but de l’ANOVA est de 1) comparer la moyenne de l’alcool présent dans les vin de différentes qualités et 2) vérifier si ces différences sont statistiquement significatives.

## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18

Le boxplot nous dis qu’il existe des différence de moyenne entre les différent groupe. Mais ce n’est pas suffisant. Les moyennes sont certes différentes mais l’écart à la moyenne aussi. Nous devons faire un test et comparer les hypothèses : H0 : que les moyennes sont toutes égales parmi les différents groupes. H1 : qu’il existe au moins une moyenne différente des autres.

Vérification d’hypothèse

La F Valeur est de 115. En d’autre termes, la variation du degré d’alcool parmi les différent groupe de qualité (numérateur) est bien plus grande que la variation du degré d’alcool dans chaque groupe de qualité. De plus la p valeur est extrèmement basse(2e-16). On accepte donc l’hypothèse Alternative qu’il existe donc une forte relation entre qualité et alcool. Nous savons donc que toutes les moyennes ne sont pas égales.

## 
## Call:
## lm(formula = alcohol ~ quality.f, data = wineanova)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2944 -0.5997 -0.1997  0.5705  5.0003 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.95500    0.28904  34.442  < 2e-16 ***
## quality.fE   0.31009    0.31513   0.984   0.3252    
## quality.fD  -0.05529    0.29115  -0.190   0.8494    
## quality.fC   0.67452    0.29129   2.316   0.0207 *  
## quality.fB   1.51091    0.29621   5.101 3.79e-07 ***
## quality.fA   2.13944    0.36049   5.935 3.60e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.914 on 1593 degrees of freedom
## Multiple R-squared:  0.2667, Adjusted R-squared:  0.2644 
## F-statistic: 115.9 on 5 and 1593 DF,  p-value: < 2.2e-16

La F Valeur est de 115. En d’autre termes, la variation du degré d’alcool parmi les différent groupe de qualité (numérateur) est bien plus grande que la variation du degré d’alcool dans chaque groupe de qualité. De plus la p valeur est extrèmement basse(2e-16). On accepte donc l’hypothèse Alternative qu’il existe donc une forte relation entre qualité et alcool. Nous savons donc que toutes les moyennes ne sont pas égales.

#Vérification de la Gaussianité de la variable : Alcool

## 
##  Shapiro-Wilk normality test
## 
## data:  wineanova$alcohol
## W = 0.92884, p-value < 2.2e-16

En fait normalement elle verifie une normal mais faut trouver les bon paramètre. L’alignement n’a rien à voir avec la première bisectrice. L’alcool ne semble être modélisé par une loi Gaussienne. Ce constat est confirmé par un test de Shapiro.