Le lien entre la variable \(X\) et \(Y1\) ne semble pas linéaire mais lié à un carré. On proposera le changement de variable suivant = \(Z = X^2\), et on posera alors le modèle de regression linéaire \(Y = a + bZ+u\). Tandis que le lien entre \(X\) et \(Y2\) semble linéaire, nous pourrons proposer un modèle de regression lineaire simple.
## [1] 8.579167
## [1] "Moyenne des residus Y1 & Y2"
## [1] -2.890453e-18
## [1] 1.263373e-19
Bizarrement, la regression lineaire sur une variable qui ne semblait pas lineairement liee donne egalement une regression lineaire quasi similaire a la variable Y2. Faisons une breve etude des residus afin d’en savoir plus, fixons notre seuil d’erreur à 5% et effectuons un test de shapiro :
##
## Shapiro-Wilk normality test
##
## data: reg1$residuals
## W = 0.81209, p-value = 0.002263
Remarquons qu’avec notre seuil \(\alpha = 0,06\), les résidus ne semblent pas issues d’une population normalement distribuee. Bien que l’indice statistique \(W > 0,8\) la conclusion sera que les residus ne sont pas gaussiens, et de fait, la regression lineaire ne sera pas valable.
##
## Shapiro-Wilk normality test
##
## data: reg2$residuals
## W = 0.94643, p-value = 0.3718
Ici les residus semblent bien homoscédastiques. De plus le test de Shaprio-Wilk est satisfaisant effecivement nous avons une \(p-value = 0,37 > 0,05\), ainsi on acceptera l’hypothèse \(H_0\) de gaussianité de nos residus.
Tentons de modéliser la variable Y1 en fonction de X car on pense savoir qu’il y a une relation non linéaire entre les deux variables. La courbe semble parabolique nous tenterons de modéliser une par une fonction du second degré seulement. On cherche donc :
\[ \underset{a,b,c}{min}S(a,b,c) = \underset{a,b,c}{min}(a*X^2+b*X+c - Y1)^2 \]
Prouvons la convexité de la fonction S(a,b,c) pour ainsi avoir un minimum par l’annulation du gradient :
\[ \nabla S(a,b,c) = \left(\begin{array}{cc} \sum^{18}_{i=1} 2*X_i^2(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \sum^{18}_{i=1} 2*X_i(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \sum^{18}_{i=1} 2(\hat a*X_i^2+\hat b *X_i + \hat c-Y1_i)\\ \end{array}\right) = \left(\begin{array}{cc} 0\\ 0\\ 0\\ \end{array}\right) \]
La convexité de la fonction S se prouve par la positivité de la matrice Hessienne \[ H(S) = \left(\begin{array}{cc} \sum^{18}_{i=1}2*X_i^4 && \sum^{18}_{i=1}2*X_i^3 && \sum^{18}_{i=1}2X_i^2\\ \sum^{18}_{i=1}2*X_i^3 && \sum^{18}_{i=1}2*X_i^2 && \sum^{18}_{i=1}2X_i\\ \sum^{18}_{i=1}2*X_i^2 && \sum^{18}_{i=1}2*X_i && \sum^{18}_{i=1}2\\ \end{array}\right) \]
Autrement dit on cherche a“chapeau”, b“chapeau” et c“chapeau tel que” :
\[ \left(\begin{array}{cc} \sum^{18}_{i=1}X_i^4 && \sum^{18}_{i=1}X_i^3 && 18*\sum^{18}_{i=1}X_i^2 \\ \sum^{18}_{i=1}X_i^3 && \sum^{18}_{i=1}X_i^2 && 18*\sum^{18}_{i=1}X_i\\ \sum^{18}_{i=1}X_i^2 && \sum X_i && 18 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b\\ \hat c\\ \end{array}\right) = \left(\begin{array}{cc} \sum_{i=1}^{18}X_i^2Y1_i\\ \sum_{i=1}^{18}X_iY1_i\\ \sum_{i=1}^{18}Y1_i \end{array}\right) \]
## [1] -1.666667e+00 2.000000e+00 -3.480412e-17
La regression polynomiale est une reussite, tous les points sont sur la droite :
## [1] -1.171902e-16
##
## Shapiro-Wilk normality test
##
## data: RES3
## W = 0.76849, p-value = 0.0005636
Les résidus sont quasi-nuls ce qui témoigne de l’efficacite de la modelisation de \(Y1\) par une fonction polynomiale de \(X\).
Ainsi nous pouvons tracer le graphe suivant :
Comment choisir une modelisation lineaire. A la main :
Cible = Poids; Regresseur = Sport
Presentation du jeu de donnees :
Nous avons donc \(20\) observations de \(6\) variables, on compte : AGE, POIDS, TAILLE (en entier). SPORT, MCDO, TV (en réel)
Pour la suite nous prendrons notre variable cible \(Y\) : la variable du POIDS.
Soit \(X\) = SPORT, on a alors :
Les variables semblent avoir une relation linéaire avec un coefficient negatif. Nous pouvons donc essayer un modèle de régression linéaire simple. Rappelons les hypothèses :
\[ Y_i = a.1 + b*X_i + u \] ou \(u\) est l’erreur tel que :
\[ \begin{aligned} &1-\mathbb E[U] =0 \\ & 2-Var(U_i) = \sigma^2 \\ & 3- \mathbb E[U_iU_j] = 0 \forall i \neq j \\ \end{aligned} \]
Autrement dit, les résidus doivent suivre une loi \(\mathcal N(0, (\sigma^2_i))\) de plus, \(a\), \(b\) et \(\sigma^2\) sont les parametres reels du modeles.
Il faut donc determiner a et b :
\[ \left \{ \begin{array}{c @{=} c} 20a + (\sum_{i=1}^{20} X_i)b = \sum_{t=1}^{20}Y_t \\ (\sum_{i=1}^{20}X_i)a + (\sum_{i=1}^{20}X_i^2)b = \sum_{i=1}^{20} X_iY_i \end{array} \right. \Leftrightarrow \left(\begin{array}{cc} 20 & \sum_{i=1}^{20} X_i\\ \sum_{t=i}^{20}X_i & \sum_{i=1}^{20}X_i^2 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b \end{array}\right) = \left(\begin{array}{cc} \sum_{i=1}^{20}Y_i\\ \sum_{i=1}^{20} X_iY_i \end{array}\right) \Leftrightarrow \left(\begin{array}{cc} 20 & 37.9\\ 37.9 & 104,59 \end{array}\right) \left(\begin{array}{cc} \hat a\\ \hat b \end{array}\right) = \left(\begin{array}{cc} 1033\\ 1465 \end{array}\right) \]
Nous avons donc avons \(\hat a = 80.13239\) et \(\hat b = -15.03029\)
Vérifions l’égalité de la variance
\[ \frac 1n \sum^n_{i=1}(Y_i - \bar Y)^2 = \frac 1n \sum^n_{i=1}(\hat Y_i - \hat Y^{bar}) + \frac 1n\sum^n_{i=1}(\hat u - \hat u^{bar}) \]
Cible = Poids; Regresseur = Taille
Cible = Poids; Regresseur = McDo
Cible = Poids; Regresseur = Age
Cible = Poids; Regresseur = TV
Remarque interessante: POIDS/TV