Comment choisir une modelisation lineaire. A la main :

Cible = Poids; Regresseur = Sport

Presentation du jeu de donnees :

## 'data.frame':    20 obs. of  6 variables:
##  $ AGE   : num  2 4 6 8 10 24 48 12 34 20 ...
##  $ POIDS : num  10 15 19 25 45 48 49 50 55 58 ...
##  $ TAILLE: num  109 121 115 126 146 147 149 151 158 151 ...
##  $ SPORT : num  4.5 4.4 4.2 3.6 2.5 1.9 2.1 1.9 1.7 1.5 ...
##  $ MCDO  : num  1 2 1 2 3 2 2 3 4 6 ...
##  $ TV    : num  0.24 1.08 1.68 2.4 3.7 ...

##       AGE           POIDS           TAILLE          SPORT       
##  Min.   : 2.0   Min.   :10.00   Min.   :109.0   Min.   :-0.100  
##  1st Qu.:11.5   1st Qu.:47.25   1st Qu.:146.8   1st Qu.: 1.000  
##  Median :28.0   Median :58.00   Median :151.0   Median : 1.550  
##  Mean   :27.4   Mean   :51.65   Mean   :151.6   Mean   : 1.895  
##  3rd Qu.:40.5   3rd Qu.:62.50   3rd Qu.:162.5   3rd Qu.: 2.200  
##  Max.   :58.0   Max.   :81.00   Max.   :187.0   Max.   : 4.500  
##       MCDO             TV       
##  Min.   : 1.00   Min.   :0.240  
##  1st Qu.: 2.00   1st Qu.:3.646  
##  Median : 5.00   Median :3.953  
##  Mean   : 8.40   Mean   :3.574  
##  3rd Qu.: 9.25   3rd Qu.:4.186  
##  Max.   :50.00   Max.   :5.100

Nous avons donc \(20\) observations de \(6\) variables, on compte : AGE, POIDS, TAILLE (en entier). SPORT, MCDO, TV (en réel)

Pour la suite nous prendrons notre variable cible \(Y\) : la variable du POIDS.

Soit \(X\) = SPORT, on a alors :

## 
## Call:
## lm(formula = cible ~ X)
## 
## Coefficients:
## (Intercept)            X  
##       80.13       -15.03

Les variables semblent avoir une relation linéaire avec un coefficient negatif. Nous pouvons donc essayer un modèle de régression linéaire simple. Rappelons les hypothèses :

\[ Y_i = a.1 + b*X_i + u \] ou \(u\) est l’erreur tel que :

\[ \begin{aligned} &1-\mathbb E[U] =0 \\ & 2-Var(U_i) = \sigma^2 \\ & 3- \mathbb E[U_iU_j] = 0 \forall i \neq j \\ \end{aligned} \]

Autrement dit, les résidus doivent suivre une loi \(\mathcal N(0, (\sigma^2_i))\) de plus, \(a\), \(b\) et \(\sigma^2\) sont les parametres reels du modeles.

Il faut donc determiner a et b :

\[ \left \{ \begin{array}{c @{=} c} 20a + (\sum_{i=1}^{20} X_i)b = \sum_{t=1}^{20}Y_t \\ (\sum_{i=1}^{20}X_i)a + (\sum_{i=1}^{20}X_i^2)b = \sum_{i=1}^{20} X_iY_i \end{array} \right. \Leftrightarrow \left(\begin{array}{cc} 20 & \sum_{i=1}^{20} X_i\\ \sum_{t=i}^{20}X_i & \sum_{i=1}^{20}X_i^2 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b \end{array}\right) = \left(\begin{array}{cc} \sum_{i=1}^{20}Y_i\\ \sum_{i=1}^{20} X_iY_i \end{array}\right) \Leftrightarrow \left(\begin{array}{cc} 20 & 37.9\\ 37.9 & 104,59 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b \end{array}\right) = \left(\begin{array}{cc} 1033\\ 1465 \end{array}\right) \]

## [1]  80.13239 -15.03029

Nous avons donc avons \(\hat a = 80.13239\) et \(\hat b = -15.03029\)

## [1] 0.00019905

Vérifions l’égalité de la variance

\[ \frac 1n \sum^n_{i=1}(Y_i - \bar Y)^2 = \frac 1n \sum^n_{i=1}(\hat Y_i - \hat Y^{bar}) + \frac 1n\sum^n_{i=1}(\hat u - \hat u^{bar}) \]

## [1] -0.005324088

Cible = Poids; Regresseur = Taille

## [1] "Ainsi la part de variance expliquée de notre cible par le regresseur est égale à :"

## [1] 0.9414238

Cible = Poids; Regresseur = McDo

## [1] "Ainsi la part de variance expliquée de notre cible par le regresseur est égale à :"

## [1] 0.4042035

Cible = Poids; Regresseur = Age

## [1] "Ainsi la part de variance expliquée de notre cible par le regresseur est égale à :"

## [1] 0.5718709

Cible = Poids; Regresseur = TV

## [1] "Ainsi la part de variance expliquée de notre cible par le regresseur est égale à :"

## [1] 0.9330779

Remarque interessante: POIDS/TV

Comment choisir une modélisation linéaire procédure R

Evaluation

Le lien entre la variable \(X\) et \(Y1\) ne semble pas linéaire mais lié à un carré. On proposera le changement de variable suivant = \(Z = X^2\), et on posera alors le modèle de regression linéaire \(Y = a + bZ+u\). Tandis que le lien entre \(X\) et \(Y2\) semble linéaire, nous pourrons proposer un modèle de regression lineaire simple.

Regression lineaire

## [1] 8.579167

## [1] "Moyenne des residus Y1 & Y2"

## [1] -2.890453e-18

## [1] 1.263373e-19

Bizarrement, la regression lineaire sur une variable qui ne semblait pas lineairement liee donne egalement une regression lineaire quasi similaire a la variable Y2. Faisons une breve etude des residus afin d’en savoir plus, fixons notre seuil d’erreur à 5% et effectuons un test de shapiro :

## 
##  Shapiro-Wilk normality test
## 
## data:  reg1$residuals
## W = 0.81209, p-value = 0.002263

Remarquons qu’avec notre seuil \(\alpha = 0,06\), les résidus ne semblent pas issues d’une population normalement distribuee. Bien que l’indice statistique \(W > 0,8\) la conclusion sera que les residus ne sont pas gaussiens, et de fait, la regression lineaire ne sera pas valable.

## 
##  Shapiro-Wilk normality test
## 
## data:  reg2$residuals
## W = 0.94643, p-value = 0.3718

Ici les residus semblent bien homoscédastiques. De plus le test de Shaprio-Wilk est satisfaisant effecivement nous avons une \(p-value = 0,37 > 0,05\), ainsi on acceptera l’hypothèse \(H_0\) de gaussianité de nos residus.

Regression polynomiale

Tentons de modéliser la variable Y1 en fonction de X car on pense savoir qu’il y a une relation non linéaire entre les deux variables. La courbe semble parabolique nous tenterons de modéliser une par une fonction du second degré seulement. On cherche donc :

\[ \underset{a,b,c}{min}S(a,b,c) = \underset{a,b,c}{min}(a*X^2+b*X+c - Y1)^2 \]

Prouvons la convexité de la fonction S(a,b,c) pour ainsi avoir un minimum par l’annulation du gradient :

\[ \nabla S(a,b,c) = \left(\begin{array}{cc} \sum^{18}_{i=1} 2*X_i^2(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \sum^{18}_{i=1} 2*X_i(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \sum^{18}_{i=1} 2(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \end{array}\right) = \left(\begin{array}{cc} 0\\ 0\\ 0\\ \end{array}\right) \]

La convexité de la fonction S se prouve par la positivité de la matrice Hessienne \[ H(S) = \left(\begin{array}{cc} \sum^{18}_{i=1}2*X_i^4 && \sum^{18}_{i=1}2*X_i^3 && \sum^{18}_{i=1}2X_i^2\\ \sum^{18}_{i=1}2*X_i^3 && \sum^{18}_{i=1}2*X_i^2 && \sum^{18}_{i=1}2X_i\\ \sum^{18}_{i=1}2*X_i^2 && \sum^{18}_{i=1}2*X_i && \sum^{18}_{i=1}2\\ \end{array}\right) \]

Autrement dit on cherche a“chapeau”, b“chapeau” et c“chapeau tel que” :

\[ \left(\begin{array}{cc} \sum^{18}_{i=1}X_i^4 && \sum^{18}_{i=1}X_i^3 && 18*\sum^{18}_{i=1}X_i^2 \\ \sum^{18}_{i=1}X_i^3 && \sum^{18}_{i=1}X_i^2 && 18*\sum^{18}_{i=1}X_i\\ \sum^{18}_{i=1}X_i^2 && \sum X_i && 18 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b\\ \hat c\\ \end{array}\right) = \left(\begin{array}{cc} \sum_{i=1}^{18}X_i^2Y1_i\\ \sum_{i=1}^{18}X_iY1_i\\ \sum_{i=1}^{18}Y1_i \end{array}\right) \]

## [1] -1.666667e+00  2.000000e+00 -3.480412e-17

La regression polynomiale est une reussite, tous les points sont sur la droite :

## [1] -1.171902e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  RES3
## W = 0.76849, p-value = 0.0005636

Les résidus sont quasi-nuls ce qui témoigne de l’efficacite de la modelisation de \(Y1\) par une fonction polynomiale de \(X\).

Ainsi nous pouvons tracer le graphe suivant :

Regression lineaire

Jean Charvet

7 fevrier 2019

Comment choisir une modelisation lineaire. A la main :

Cible = Poids; Regresseur = Sport

Cible = Poids; Regresseur = Taille

Cible = Poids; Regresseur = McDo

Cible = Poids; Regresseur = Age

Cible = Poids; Regresseur = TV

Comment choisir une modélisation linéaire procédure R

Evaluation

Regression lineaire

Regression polynomiale