#Exercice 1 ##I. Le modele lineaire general ### Question 1 On dispose de \(n\) observations liées par la relation suivante:
\(Y_{i} = \beta_{0}+ \beta_{1}X_{1,i}+\ldots+\beta_{K}X_{K,i}+\epsilon_{i}\), \(i=1,\ldots,n\)
Nous savons par ailleurs que: \((H1)\): les \(X_{i}\) sont déterministes. \((H2)\): \(\epsilon_{i}\) sont \(iid\) \(\mathcal{N}(0,\sigma^2)\)
Ecrivons le modèle sous forme matricielle.
\[ \left( \begin{array}{c} Y_1 \\ \vdots \\ Y_n \end{array} \right)= \begin{pmatrix} 1 & X_{1,1} & \ldots & X_{K,1} \\ \vdots & \vdots & & \vdots \\ 1 & X_{1,n} & \dots & X_{K,n} \end{pmatrix} \left( \begin{array}{c} \beta_{0} \\ \vdots \\ \beta_{K} \end{array} \right)+ \left( \begin{array}{c} \epsilon_{1} \\ \vdots \\ \epsilon_{n} \end{array} \right) \]
On a donc :
\(Y = X\beta+\epsilon\) où:
\(Y\) est le modèle, \(X\) est la matrice, \(\beta\) est le coefficient de regression et \(\epsilon\) est le résidu.
Afin que l’estimateur des moindres carrés ordinaires existe et soit unique, nous devons faire l’hypothèse suivante: \(H(MCO)\) : La matrice \((^tXX)\) est inversible. D’ou en faisant l’hypothèse des MCO, l’estimateur est défini par
\(\hat{\beta}\) = \((^tXX)^{-1} (^tXY)\)
Nous souhaitons montrer que \(\hat{\beta}\) est sans biais.
\(\mathbb{E}(\hat{\beta})\) = \(\mathbb{E}[(^tXX)^{-1} (^tXY)]\) = \((^tXX)^{-1} (^tX)\mathbb{E}(Y)\)
Or d’après la question 1, on sait que \(Y\) = \(X\beta+\epsilon\) d’ou:
\(\mathbb{E}(Y)\) = \(\mathbb{E}(X\beta+\epsilon)\) et par linéarité:
\(\mathbb{E}(Y)\) = \(X\mathbb{E}(\beta) + \mathbb{E}(\epsilon)\).
Enfin \(\mathbb{E}(\epsilon)\) vaut 0 car \(\epsilon_{i}\) ~ \(\mathcal{N}(0,\sigma^2)\)
\(\mathbb{E}(Y)\) = \(X\beta\)
Donc \(\mathbb{E}(\hat{\beta})\) = \((^tXX)^{-1}(^tXX)\beta\) = \(\beta\). Donc \(\beta\) est un estimateur sans biais.
Variable qualitative Z :
On transforme cet variable en variable binaires tel que les modealités devienent :
\[\begin{align} V^{(A)} = \mathrm1_{Z = A} &= \left(\begin{array} {rr} 1 & \text{si Z = A} \\ 0 & \text{sinon}\\ \end{array}\right)\\ \\ V^{(B)} = \mathrm{1_{Z = B}}&= \left(\begin{array} {rr} 1 & \text{si Z = B} \\ 0 & \text{sinon}\\ \end{array}\right)\\ \\ V^{(C)} = \mathrm{1_{Z = C}}&= \left(\begin{array} {rr} 1 & \text{si Z = C} \\ 0 & \text{sinon}\\ \end{array}\right)\\ \\ \end{align}\]On note \(V^{(A)} = 1\) (resctivement \(V^{(B)} = 1\) ou \(V^{(C)} = 1\)) si et seulement si \(V^{(B)} = 0\) et \(V^{(C)} = 0\) (respectivement \(V^{(A)} = 0, V^{(C)} = 0\) ou \(V^{(B)} = 1, V^{(A)} = 0\)
Ainsi on choisit A comme modalité de référence.
On réecri le modèle précedent (1) avec la variable Z :
\[\begin{align} Y_i = \beta_0 + \beta_1X_1 + ... + \gamma_B\mathrm{1_{Z=B}} + \gamma_C\mathrm{1_{Z=C}} + \epsilon_i && ... && (2) \end{align}\]On peut réecrire le modèle suivant sous forme matricielle tel que
Y = X+ Z +
Donc les estimateurs de \(\hat{\beta}\) et \(\hat\gamma\) qui minimise la fonction,
f(,) = _{i = 1}^n(y_i - _o - (1X{1,i} + … + _B+ _C))^2
Alors,
\[\begin{align} \left(\begin{array} {rr} \hat\beta \\ \hat\gamma \\ \end{array} \right) & = argmin_{\beta,\gamma \in \mathrm{R}}||Y - X\beta - Z\gamma||^2 \end{align}\]grace a la premiere ligne on a
\(\gamma = (^tZY - ^tZX\beta)(^tZZ)^{-1}\)
et grace a la ligne 2 on peut deduire \(\beta\) tel que la ligne 2 est:
\[\begin{align} ^tXX\beta + ^tXZ(^tZY - ^tZX\beta)(^tZZ)^{-1}, \\ ^tXX\beta + ^tXZ^tZY(^tZZ)^{-1} - ^tXZ^tZX\beta(^tZZ){-1}, \\ ^tXX\beta + ^tX^tZ(^tZZ)^{-1}ZY - ^tX^tZ(^tZZ)^{-1}ZX\beta ,\\ ^tXX\beta + (^tXY - ^tXX\beta)M_z, \end{align}\]On injecte notre nouveau developement a la ligne 2 et on obtient
\[\begin{align} ^tXX\beta + ^tX^tZ(^tZZ)^{-1}ZY - ^tX^tZ(^tZZ)^{-1}ZX\beta = ^tXY, \\ ^tXX\beta + ^tZ(^tZZ)^{-1}Z^tXY - ^tZ(^tZZ)^{-1}Z^tXX\beta = ^tXY, \\ ^tZ(^tZZ)^{-1}Z^tXX\beta = ^tXY - ^tXX\beta + ^tZ(^tZZ)^{-1}Z^tXY, \\ ^(I_n - ^tZ(^tZZ)^{-1}Z)^tXX\beta = (I_n - ^tZ(^tZZ)^{-1}Z)^tXY, \\ M_1 = I_n - ^tZ(^tZZ)^{-1}Z \\ M_2 = I_n - ^tZ(^tZZ)^{-1}Z \end{align}\]Donc on a \(\beta = M_2^tXY(^tXX)^{-1}M_2^{-1}\)
\(K=1\)
\(U_i\) et \(Y\) sont des variables quantitatives
\(Y_i\) = \(\beta_{0} + \beta_{1}U_{i} + \epsilon_{i}\)
\(\hat{\beta_{0}}\) = \(\overline{Y}-\hat{\beta_{1}}\overline{U}\) ou \(\overline{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i\) et \(\overline{u}\) = \(\frac{1}{n}\sum_{i=1}^{n} u_i\) \(\hat{\beta_{1}}\) = \(\frac{S_{uy}}{S_{u^2}}\) ou \(S_{u^2}\) = \(\frac{1}{n}\sum_{i=1}^{n} (u_i-\overline{u})^2\)
et \(S_{uy} = \frac{1}{n}\sum_{i=1}^{n} (u_i-\overline{u})(Y_i-\overline{Y})\)
Loi de \(Y_{i}\), \(i \in [1,n]\)
Les \(U_i\) sont déterministes et \(\epsilon_{i} \sim \mathcal{N}(0,\sigma^2)\).
Donc \(\epsilon_{i}\) est un vecteur gaussien, donc les \(Y_i\) sont eux aussi gaussiens.
Il faut donc calculer l’espérance et la variance de \(Y_i\).
\(\mathbb{E}(Y_i)\) = \(\mathbb{E}(\beta_{0}+\beta_{1}Ui+\epsilon_i)\) = \(\mathbb{E}(\beta_{0}+\beta_{1}Ui) + \mathbb{E}(\epsilon_i)\) et comme \(\mathbb{E}(\epsilon_i)\) = \(0\), alors on a:
\(\mathbb{E}(Y_i)\) = \(\beta_{0}+\beta_{1}Ui\)
\(Var(Y_i)\) = \(Var(\beta_{0}+\beta_{1}Ui+\epsilon_i)\) = \(Var(\epsilon_i)\) = \(\sigma^2\) Donc \(Y_{i} \sim \mathcal{N}(\beta_{0}+\beta_{1}Ui,\sigma^2)\).
on a
\(\varepsilon \sim N(\Phi_i, \sigma^2)\) \(Y_i \sim N(X\beta, \sigma^2)\)
On sait que la loi d’une variable gaussienne est de la forme suivante
\(f_{Y_1,..,Y_n}(y_1,..,y_n) = \prod_{i=1}^nf_{y_i}(y_i)\)
Et donc: \(\prod_{i=1}^nf_{y_i}(y_i) = \prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}exp(\frac{-1}{2\sigma^2}(y_i-a-bx_i)^2)\)
Alors: \(\prod_{i=1}^nf_{y_i}(y_i) = (2\pi\sigma^2)^{-n/2}\prod_{i=1}^nexp(\frac{-1}{2\sigma^2}(y_i-a-bx_i)^2)\)
Enfin: \(\prod_{i=1}^nf_{y_i}(y_i) = (2\pi\sigma^2)^{-n/2}exp(\frac{-1}{2\sigma^2}\sum_{i=1}^n(y_i-a-bx_i)^2)\)
On passe au log-vraissemblance :
\(log(\hat\beta_0,\hat\beta_1, \sigma^2) = log((2\pi\sigma^2)^{-n/2}exp(\frac{-1}{2\sigma^2}\sum_{i=1}^n(y_i-a-bx_i)^2))\)
Donc: \(log(\hat\beta_0,\hat\beta_1, \sigma^2) = log((2\pi\sigma^2)^{-n/2}) + log(exp(\frac{-1}{2\sigma^2}\sum_{i=1}^n(y_i-a-bx_i)^2)))\)
Enfin: \(log(\hat\beta_0,\hat\beta_1, \sigma^2) = \frac{-nlog((2\pi\sigma^2))}{2} - \frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-a-bx_i)^2\)
\(R^2 = \frac{S_{uy}}{S_u^2S_y^2}\) Le coefficient de determination mesure la qualite du modele, il est definit par le rapport des sommes carr?s expliqu?s (SCE) et la somme des carr?s totale (SCT). Plus celui ci est proche de 1, plus le mod?le est ad?quat aux donn?es. Un nuage de point tres disp?rs? indique une augmentation de \(R^2\).
Au du graphique, on remarque une corrélation des données entre les \(U_i\) et les \(Y_i\). De plus, on voit qu’il y a des données qui sont éloignées, et une très éloignée. Le coefficient de détermination nous en apprendra plus quant à la qualité du modèle.
\(\beta_0\) = 444.2
\(\beta_1\) = 0.7225
Lorsque le montant des dépenses dans le i-ème état dans les magasins d’alimentation augmente de 1 millions de dollars, alors le montant des dépenses dans le i-ème état dans les restaurants augmente de 0.7225 millions de dollars.
\(\beta_0\) correspond au montant minimum des dépenses dans le i-ème état dans les restaurants.
On va calculer le coefficient de détermination \(R^2\). \(R^2 = \frac{S^2_{UY}}{S^2_U S^2_Y}\)
\(R^2 = \frac{12431.1^2}{14624.9^2 * 10711.5^2}\)
12431.1^4 / (14624.9^2 * 10711.5^2)
## [1] 0.9730874
D’où le modèle \((2) : Y_i = \beta_0 + \beta_1 U_i + \epsilon_i\) explique \(97,3%\) de la variance des montants de dépenses dans les restaurants. Ce modèle est donc assez intéressant
En ce qui concerne le modèle 4; le modèle s’écrit sous la forme suivante: \(Y = \hat{\beta_{0}} + \hat{\beta_{1}}\overline{P}\)
On a \(\hat{\beta_{1}\) = \(\frac{S_{py}}{S_{p^2}}\), il s’agit donc de chercher \(S_{py}\)
On a \(R^2\) = \(\frac{S_{py}^2}{(S_{p^2})(S_{y^2})} \leftrightarrow S_{py} = R \times S_{p} \times S_{y} = \sqrt{0.98} \times 6658.4 \times 10711.5\)
Donc \(S_{py}\) = 70784520
Ainsi \(\beta_1 = \frac{70784520}{(6658.4^2)}\simeq 1.6\)
Et \(\hat{\beta_{0}} = \overline{Y}-\overline{P}\hat{\beta_{1}} = 9187.4 - 5961.9 \times 1.6\)
En ce qui concerne le modèle 5:
\(U = \hat{\beta_{0}^{2}} + \hat{\beta_{1}^{2}}\overline{P}\) \(\hat{\beta_{1}^{2}} = \frac{S_{pu}}{S_{p^2}}\). Or \(S_{pu} = R \times S_{p} \times S_{u} = 95460670.55\)
D’ou
\(\hat{\beta_{1}^{2}} = \frac{95460670.55}{(6658.4^2)} = 2.15\)
De plus, \(\hat{\beta_{0}^{2}} = \overline{U}-\hat{\beta_{1}}\overline{p} = 12102 - 2.15(5961.9) \simeq -736.6\)
\(X_1\) est une variable qualitative aux modalités : Homme, femme. Ici, Homme est pris comme variable de référence, \(X_2\) est une variable binaire. L’introduction des variables \((X_{3,i})^2\) ajoute une quelconque significativité au modèle et explique mieux la variable et \(\mathbb{1}_{i = 1217}\) est suspectée d’etre une variable atypique. Ainsi en calculant le \(R^2\) avant et apres ajout des variables, on compare et regarde si possede une grande difference, ainsi on pourra decider de garder \((X_{3,i})^2\) et \(\mathbb{1}_{i = 1217}\)
Estimateur des MCO \(\hat{\beta}\)
Fonction qui minimise
\(\phi_{\hat{\beta}}\) = \(\frac{1}{n}\sum_{i=1}^{n} (Y_i-\beta_{0} - \beta_{1}\mathbb{1}_{(X_{1,i}=F)}-\beta_{2}X_{2,i}-\beta_{3}X_{3,i}-\beta_{4}X_{3,i}^2-\beta_{5}\mathbb{1}_{(i=1217)})^2\)
\(R^2\) = 0,82
Le modele empirique 82% du cout de la sante.
Afin de savoir si le modèle est globalement significatif, on applique le test de fisher global.
On teste :
\(H_0\) : “\(\beta_{1} = \ldots \beta_{5} = 0\)” \(H_1\) : “au moins un \(\beta_{K} \ne 0\)” \(K \in [1,5]\)
Dans ce cas, la statistique de fisher est :
\(F = \frac{\frac{R^2}{K}}{(1-R^2)(n-K-1)}\) ici: \(R^2\)=0,82, K=5, n=1217 \(F = \frac{\frac{0,82}{5}}{(1-0,82)(1217-5-1)}\) = 1103.
F = 1103 et \(q_{0,95}F(5,1211)\) = 2,22
F> \(q_{0,95}F(5,1211)\). On rejette \(H_{0}\), on conclut \(H_1\) au niveau 5%.
Le modèle est donc globalement significatif.
Appliquons les test de Fisher sur chacun des coefficients
f_test = function(x, sig){
return(x/sig)
}
B0 = f_test(419.60, 16)
B1 = f_test(-7.53, 5.81)
B2 = f_test(60.4, 15.56)
B3 = f_test(-54.22, 3.72)
B4 = f_test(104.70, 7.12)
B5 = f_test(4001.28, 100.90)
c(B0, B1, B2, B3, B4, B5)
## [1] 26.225000 -1.296041 3.881748 -14.575269 14.705056 39.655897
D’apres les donnees on peut en conclure que \(\beta_0\) \(\beta_2\) \(\beta_3\) \(\beta_5\) \(\beta_4\) ne sont pas des coefficients significatifs car on rejette \(H_0\)
\(\beta_1\) est significatif d’apres nos hypotheses
D’après la question 4, on conclut que toutes les variables sont significatives, excepté celles du sexe.
Le modèle est globalement significatif vu le \(R^2\), les variable age et \(X_2\), influe sutr Y de facon croissante(i.e. plus l’âge augmente plus Y augmente). Le cout de la sante est modelise de maniere polynomiale et non lineaire au vus de l’ajout de la variable \((X_{i,3})^2\)