Analyse multivariée de la variance (MANOVA)
Introduction
Dans de nombreuses études en sciences sociales, en économie, en éducation ou en biostatistique, l’objectif n’est pas seulement d’analyser l’évolution d’une variable isolée, mais plutôt de comprendre comment plusieurs dimensions d’un même phénomène évoluent simultanément. En contexte scolaire, par exemple, la performance d’un élève ne se résume pas à une seule note : elle est souvent décrite par un ensemble de résultats (Mathématiques, Français, Physique, etc.). De la même manière, en santé publique, un individu peut être caractérisé par plusieurs indicateurs corrélés (tension artérielle, fréquence cardiaque, taux de glycémie, etc.), et en économie, une unité peut être décrite par plusieurs mesures liées (revenu, consommation, épargne).
Lorsque plusieurs variables réponses sont observées chez un même individu, elles ne sont généralement pas indépendantes : il existe souvent des corrélations naturelles entre elles. Par exemple, un élève performant en Mathématiques tend fréquemment à être performant en Physique ; certaines variables de santé évoluent conjointement ; certains indicateurs économiques se renforcent ou se compensent mutuellement. Analyser séparément chaque variable par des ANOVA univariées peut alors conduire à une vision fragmentée du phénomène étudié et à une perte d’information importante.
Il devient donc essentiel de disposer d’un cadre méthodologique permettant d’analyser plusieurs variables dépendantes de façon cohérente et intégrée. C’est précisément dans ce cadre que s’inscrit l’Analyse de la Variance Multivariée (MANOVA), qui constitue l’extension naturelle de l’ANOVA lorsque la variable réponse n’est plus un scalaire, mais un vecteur de dimension \(D\).
Concrètement, la MANOVA permet de répondre à des questions du type :
Les profils de performance scolaire (Maths, Français, Physique) diffèrent-ils globalement selon le type d’établissement ?
Les profils de santé (tension artérielle, glycémie, cholestérol) diffèrent-ils entre plusieurs groupes de patients ou traitements ?
Les profils économiques (revenu, consommation, épargne) sont-ils différents selon les catégories socio-professionnelles ou les régions ?
L’intérêt principal de cette approche est qu’elle exploite les corrélations entre variables réponses et qu’elle peut mettre en évidence des différences globales invisibles lorsqu’on procède par ANOVA séparées, notamment lorsque les effets se compensent sur certaines dimensions mais apparaissent clairement sur des combinaisons linéaires des variables. Dans ce travail, nous présentons les fondements théoriques de la MANOVA, ses hypothèses, ses statistiques de test (Wilks, Pillai, Hotelling-Lawley, Roy), ainsi que ses extensions à un ou deux facteurs avec ou sans interaction. Nous illustrons ensuite ces résultats par des applications empiriques sous R et une comparaison avec des ANOVA univariées.
Résumé
Ce travail présente la MANOVA comme une extension naturelle de l’ANOVA lorsque plusieurs variables dépendantes corrélées sont observées simultanément. Après la formulation du modèle linéaire multivarié, nous exposons les hypothèses, l’estimation des paramètres et les principaux tests multivariés (Wilks, Pillai, Hotelling-Lawley, Roy). La méthode est appliquée à des cas pratiques sous R, en situation à un facteur puis à deux facteurs avec et sans interaction. Les résultats montrent que la MANOVA permet de détecter des effets globaux de groupe absents dans des ANOVA séparées. Une comparaison avec l’ANOVA univariée met en évidence l’intérêt d’un cadre multivarié intégrant les corrélations entre variables. Les limites méthodologiques de la MANOVA sont enfin discutées.
I. Hypohèses
La MANOVA repose sur les hypothèses suivantes :
Indépendance des observations : les observations doivent être indépendantes les unes des autres. On vérifie ici l’indépendance entre les vecteurs aléatoires \(Y_{ik}\) et \(Y_{i^\prime k}\). C’est-à-dire, \(Cov(Y_{ik},Y_{i^\prime k})=0_{p \times p} \text{, } \forall (i,k) \neq (i^\prime,k)\) où \(0_{p\times p}\) désigne la matrice nulle de dimension \(p \times p\).
Normalité multivariée : les données doivent être normalement distribuées dans chaque groupe.
Homoscédasticité (ou Homogénéité des matrices variances-covariances) : les matrices de covariance des p variables sont identiques dans tous les groupes : c’est-à-dire \(\Sigma_1=\Sigma_2=...=\Sigma_K=\Sigma\)
Absence de multicolinéarité forte : Les variables dépendantes (à expliquer) doivent être modérément corrélées. Si les corrélations sont trop élevées (supérieures à 0.9), cela indique une multicolinéarité, ce qui pose problème pour MANOVA. Ceci est généralement éliminé à l’aide de méthodes telles que le coefficient de corrélation de Pearson.
II. Manova à un facteur
L’objectif de la MANOVA à un facteur est d’étudier l’infuence des niveaux du facteur sur les valeurs du vecteur réponse \(Y ( Y \in \mathbb{R}^D\) avec \(D \in \mathbb{N}, D \geq 2)\).
Partie 1 : Notations
Afin de determiner si un le profil multivarié (\(Y\)) dépend d’une variable explicative qualitative (appelée facteur) dont les modalités permettent de former des groupes, on suppose que chaque individu appartient à l’une des modalités d’une variable qualitative :
\(F\) : facteur qualitatif (ex. classe A/B/C ; traitement 1/2/3 ; région ; méthode pédagogique, etc.) ;
Les modalités de \(F\) définissent \(J\) groupes disjoints.
L’idée générale est de comparer les profils moyens multivariés des groupes.
On considère \(J\) groupes, correspondant aux \(J\) modalités du facteur \(F\). Pour chaque groupe \(j = 1,..., J\), on note \(n_j\) l’effectif du groupe \(j\). L’effectif total est \(n= \sum_{j=1}^{J} n_j\). Chaque individu est observé sur \(D\) variables quantitatives. La réponse est donc multivariée de dimension \(D\).
On organise les observations dans une matrice \(\mathbf{Y}\) de taille \(n\times D\) :En notant \(y_{id}\) la valeur observée pour l’individu \(i\) sur la variable \(d\), on écrit explicitement : \[ \mathbf{Y}= \begin{pmatrix} y_{11} & y_{12} & \cdots & y_{1D}\\ y_{21} & y_{22} & \cdots & y_{2D}\\ \vdots & \vdots & \ddots & \vdots\\ y_{n1} & y_{n2} & \cdots & y_{nD} \end{pmatrix} \in \mathbb{R}^{n\times D}. \] La ligne \(i\) correspond à un individu, et la colonne \(d\) correspond à une variable réponse. L’appartenance au groupe \(j\) est une information qualitative associée à chaque individu.
1. Moyennes
a. Moyenne globale
Pour chaque variable \(d\), la moyenne globale est : \[ \bar{y}_{\cdot d}=\frac{1}{n}\sum_{i=1}^{n}y_{id}. \] En regroupant les \(D\) composantes, on obtient le vecteur moyen global : \[ \bar{\mathbf{y}}= \begin{pmatrix} \bar{y}_{\cdot 1}\\ \bar{y}_{\cdot 2}\\ \vdots\\ \bar{y}_{\cdot D} \end{pmatrix} \in\mathbb{R}^{D}. \]
b. Moyenne par groupe
Pour chaque groupe \(j\), on note \(G_j\) l’ensemble des indices des individus appartenant au groupe \(j\). Pour la variable \(d\), la moyenne du groupe \(j\) est : \[ \bar{y}_{jd}=\frac{1}{n_j}\sum_{i\in G_j} y_{id}. \] Le profil moyen (vecteur moyen) du groupe \(j\) est alors : \[ \bar{\mathbf{y}}_j= \begin{pmatrix} \bar{y}_{j1}\\ \bar{y}_{j2}\\ \vdots\\ \bar{y}_{jD} \end{pmatrix} \in\mathbb{R}^{D}. \] Comme dans le cas du profil moyen global, le vecteur \(\bar{\mathbf{y}}_j\) décrit le profil moyen du groupe \(j\) sur l’ensemble des \(D\) variables.
2. Variances
En ANOVA univariée, la variabilité est résumée par un scalaire (la
variance).
En MANOVA, la variabilité est décrite par une matrice de
covariance de taille \(D\times
D\).
a. Matrice de covariance
On note \(\boldsymbol{\Sigma}\in\mathbb{R}^{D\times D}\) la matrice de covariance théorique du profil \(\mathbf{Y}\) : \[ \boldsymbol{\Sigma}= \begin{pmatrix} \mathrm{Var}(Y_1) & \mathrm{Cov}(Y_1,Y_2) & \cdots & \mathrm{Cov}(Y_1,Y_D)\\ \mathrm{Cov}(Y_2,Y_1) & \mathrm{Var}(Y_2) & \cdots & \mathrm{Cov}(Y_2,Y_D)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(Y_D,Y_1) & \mathrm{Cov}(Y_D,Y_2) & \cdots & \mathrm{Var}(Y_D) \end{pmatrix}. \] Les termes diagonaux mesurent la dispersion de chaque variable, tandis que les termes hors-diagonaux capturent les relations (corrélations) entre variables.
b. Covariance empirique globale
À partir des données, une estimation empirique globale est donnée par : \[ \mathbf{S} =\frac{1}{n-1}\sum_{i=1}^{n}(\mathbf{y}_{i}-\bar{\mathbf{y}})(\mathbf{y}_{i}-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}, \] où \(\mathbf{y}_{i}\) désigne le vecteur-colonne des \(D\) mesures de l’individu \(i\).
3. Décomposotion de la variance
L’idée est de décomposer la dispersion totale en une composante et une composante . En MANOVA, ces quantités sont des (Sum of Squares and Cross-Products).
a. Matrice de dispersion totale
La dispersion totale mesure l’écart global des profils individuels à la moyenne globale : \[ \mathbf{T} =\sum_{j=1}^{J}\sum_{i=1}^{n_j} (\mathbf{y}_{i}-\bar{\mathbf{y}})(\mathbf{y}_{i}-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
b. Matrice de dispersion intra-groupes W (Within)
La dispersion intra-groupes mesure l’écart des individus à la moyenne de leur groupe : \[ \mathbf{W} =\sum_{j=1}^{J}\sum_{i\in G_j} (\mathbf{y}_{i}-\bar{\mathbf{y}}_j)(\mathbf{y}_{i}-\bar{\mathbf{y}}_j)^\top \in\mathbb{R}^{D\times D}. \]
c. Matrice de dispersion inter-groupes B (Between)
La dispersion inter-groupes mesure l’écart des moyennes de groupes à la moyenne globale : \[ \mathbf{B} =\sum_{j=1}^{J} n_j\, (\bar{\mathbf{y}}_j-\bar{\mathbf{y}})(\bar{\mathbf{y}}_j-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
d. Décomposition
On obtient alors la décomposition fondamentale (analogue multivarié de l’ANOVA) : \[ \boxed{\ \mathbf{T}=\mathbf{W}+\mathbf{B}\ }. \] Cette relation indique que la dispersion totale (autour de la moyenne globale) se décompose en :Partie 2 : Ecriture du modèle
1. Ecriture initiale
Pour chaque expérience \((i, j)\) (\(i\)-ième observation réalisée au niveau \(j\) de \(F\)), on écrit le vecteur aléatoire réponse \(Y_{ij}\) de \(\mathbb{R}^D\) sous la forme : \[ Y_{ij} = \beta_j + U_{ij} \]
Les trois éléments de cette écriture doivent être vus comme des vecteurs-lignes de \(\mathbb{R}^D\), comme précisé ci-dessous.
Le vecteur \(\beta_j = (\beta_j^1 ...\beta_j^d ... \beta_j^D)\) est un paramètre à estimer ; il modélise la valeur de la réponse \(Y\) au niveau \(j\) de \(F\).
Le terme \(U_{ij} = (U_ij^1 ... U_{ij}^D)\) est le vecteur aléatoire des erreurs. On suppose que les \(U_{ij}\) sont i.i.d., de loi \(\mathcal{N}(0_D,\Sigma)\), où \(\Sigma\) est une matrice symétrique et strictement définie-positive ; on doit également estimer \(\Sigma\). On notera que \(\Sigma\) ne dépend pas de \(j\), autrement dit on est toujours dans le cadre d’un modèle homoscédastique.
Les vecteurs aléatoires \(Y_{ij}\) sont donc indépendants, de loi \(\mathcal{N}_D(\beta_j,\Sigma)\). Finalement, il y a \(J \times D\) paramètres de moyenne \(\beta_j^d\) à estimer, ainsi que \(\frac{D(D+1)}{2}\) paramètres de variance \((\Sigma)_d^{d^{\prime}} (1 \leq d \leq D ; 1 \leq d' \leq D)\). Comme on dispose de \(nD\) observations, on doit veiller à ce que la taille \(n\) de l’échantillon utilisé vérifie : \(n \geq J + \frac{D+1}{2}\)
2. Écriture matricielle
L’ensemble des \(nD\) observations réalisées peut se mettre sous la forme matricielle suivante : \[Y = X\beta + U\]
Dans l’écriture ci-dessus, \(X\) et \(\beta\) sont des matrices réelles (non aléatoires) de dimensions respectives \(n \times J\) et \(J \times D\).
Comme dans le cas unidimensionnel, les colonnes de la matrice d’incidence \(X\) sont les indicatrices \(Z^j\) des niveaux du facteur \(F\), de sorte que \(X\) ne comporte que des 0 et des 1.
Les termes \(Y\) et \(U\) sont des matrices aléatoires de dimension \(n \times D\). Elles sont gaussiennes et vérifient \(\mathbb{E}(U) = 0_{n \times D}; \quad \mathbb{E}(Y) = X\beta; \quad \text{Var}(Y) = I_n \otimes \Sigma\) où \(I_n\) est matrice identité d’ordre \(n\) et \(\otimes\) le produit matriciel direct, ou produit de Kronecker.
Afin d’estimer les paramètres, deux méthodes peuvent être utilisées :
- Paramétrage centré
Ce paramétrage consiste à décomposer chaque vecteur-ligne \(\beta_j\) sous la forme :
\[ \beta_j=\mu+\alpha_j \text{ avec } \mu=\frac{1}{J}\sum_{j=1}^J\beta_j\text{, } \alpha_j=\beta_j-\mu \text{ et } \sum_{j=1}^J\alpha_j=0_D \]
- Paramétrage SAS
Pour ce paramétrage, on pose \(m = \beta_J\) et \(a_j = \beta_j - \beta_J\) (de sorte que, encore une fois, \(a_J = 0_D\)). Les paramètres \(m\) et \(a_j\) sont également des vecteurs de \(\mathbb{R}^D\).
Partie 3 : Estimation des paramètres
Pour estimer les paramètres de ce modèle, on utilise la méthode du maximum de vraisemblance.
1. Vraisemblance et log-vraisemblance
la vraisemblance de l’échantillon des \(y_{ij}\) est
\[ \begin{aligned} L(y_{ij},\beta,\Sigma)&=\prod_{j=1}^J\prod_{i=1}^{n_j} \frac{1}{(2\pi)^{D/2}(\det\Sigma)^{1/2}} \exp\left[- \frac12(y_{ij}-\beta_j)\Sigma^{-1}(y_{ij}- \beta_j)^\prime\right]\\ &=C_1(\det \Sigma)^{- n/2} \exp\left[- \frac12\sum_{j=1}^{J}\sum_{i=1}^{n_j}(y_{ij}-X_j\beta)\Sigma^{-1}(y_{ij}- \beta_j)^\prime\right] \end{aligned} \]
Où \(C_1\) est une constante et \(X_j\) un vecteur à \(J\) éléments, comportant un comportant un 1 en \(j\)-ième colonne et des 0 partout ailleurs (en fait, \(X_j\) est n’importe laquelle des lignes de la matrice \(X\) correspondant aux observations du niveau \(j\) de \(F\)).
La log-vraisemblance s’écrit
\[ \begin{aligned} l(y_{ij},\beta,\Sigma)&=\log[L(y_{ij},\beta,\Sigma)]\\ &=C_2-\frac{n}{2}\log(\det\Sigma)-\frac12\|Y-X\beta\|^2_{I_n,\Sigma^{-1}} \end{aligned} \]
Où \(C_2=\log(C_1)\) et la norme d’une matrice \(A\) (de dimension \(n \times p\) est définie par
\[ \|A\|^2_{N,P}=\text{tr}(APA'N) \]
2. Estimation du maximum de vraisemblance
En maximisant la log-vraisemblance, on obtient \(\hat{B}\) l’estimateur de \(\beta\) et qui est défini par \(\hat{B}=(X^\prime X)^{-1}X^{\prime}Y\)
Pour un niveau \(j\) donné, et pour toute observation \(i\) faite à ce niveau, la valeur prédite correspondante est : \(\hat{y}_{ij}=\hat{\beta}_j=\bar{y}_{\cdot j}\) (vecteur de \(\mathbb{R}^D\)). On note \(\hat{Y}\) la matrice aléatoire \(n\times D\) de l’ensemble des valeurs prédites.
Les résidus sont donnés par \(\hat{u}_{ij}=y_{ij}-\hat{y}_{ij}=y_{ij}-\bar{y}_{\cdot j}\) (vecteur de \(\mathbb{R}^D\)). On note \(\hat{U}\) la matrice aléatoire \(n\times D\) des résidus ainsi définis.
La matrice de covariance est estimée par \(\hat{\Sigma}=\frac1{n-J}\hat{U}^\prime \hat{U}\) (matrice \(D\times D\))
3. Propirétés des estimateurs du maximum de vraisemblance
Les matrices \(\hat{B}\) , de dimension \(J \times D\), \(\hat{Y}\), de dimension \(n \times D\), et \(\hat{U}\) , de dimension \(n \times D\), sont des matrices aléatoires gaussiennes, d’espérances respectives \(\beta \text{, } X\beta \text{ et } 0n\times D\).
La matrice aléatoire \(\hat{U}\) est indépendante des matrices aléatoires \(\hat{B}\) et \(\hat{Y}\).
Enfin, \((n-j)\hat{\Sigma}=\hat{U}^\prime\hat{U}\) est une matrice aléatoire distribuée selon une loi de Wishart (une sorte de généralisation multidimentionnelle de la loi du khi-deux) de dimension \(D\), à \(n-J\) degrés de liberté et de matrice associée \(\sigma\).
Partie 4 : Tests
On veut tester la significativité du facteur \(F\). L’hypothèse nulle s’écrit sous l’une des formes suivantes : \(\text{H}_0\text{ : }F\) n’a pas d’effet sur \(Y \iff \text{H}_0 \text{ : }\beta_1=...=\beta_J\iff \text{H}_0 \text{ : }\alpha_1=...=\alpha_J=0\)
Afin de mettre en œuvre un test permettant de tester \(\text{H}_0\) contre son contraire \(\text{H}_1\), avec un niveau \(\alpha\) fixé, il est nécessaire de généraliser le test de Fisher qui ne peut plus être utilisé ici.
Rappelons que dans le cas unidimentionnel (ANOVA), la statistique de test utilisée est : \[ F=\frac{\frac{SSF}{J-1}} {\frac{SSE}{n-J}}=\frac{\frac{H}{J-1}} {\frac{E}{n-J}} \] Où \(H\) (la somme des carrés expliquée) est égale à \(\sum_{j=1}^{J}n_j(\bar{y}_{\cdot j}-\bar{y})^2\) et \(E\) (la some des carrés résiduelle) est égale à \(\sum_{j=1}^{J}\sum_{i=1}^{n_j}(y_{ij}-\bar{y}_{\cdot j})^2\)
Lorsqu’on revient dans le cas multidimentionnel, on généralise \(H\) et \(E\) comme suit :
\[ \begin{aligned} H&=\sum_{j=1}^{J}n_j(\bar{y}_{\cdot j}-\bar{y})^{\prime}(\bar{y}_{\cdot j}-\bar{y})\\ E&=\sum_{j=1}^{J}\sum_{i=1}^{n_j}(y_{ij}\bar{y}_{\cdot j})^{\prime}(y_{ij}\bar{y}_{\cdot j}) \end{aligned} \]
Le dégrés de libertés associé à \(H\) qui vaut toujours \(J-1\), sera noté \(\nu_H\) et celui associé à \(E\), qui vaut toujours \(n-J\) sera noté \(\nu_E\). La somme des carrés totale, \(H+E\) a pour dégré de libertés \(n-1\).
1. Le test de Wilks
Il s’agit du test le plus courant dans le contexte de la MANOVA qui est, en fait, une adaptation du test du rapport des vraisemblances. Notons \(\theta\) le vecteur de tous les paramètres du modèle, \(\hat\theta\) son estimation par le maximum de vraisemblance et \(\hat{\theta}_0\) son estimation par le maximum de vraisemblance sous la contrainte définie par \(\text{H}_0\).
La statistique du test du rapport des vraisemblances est \(\frac{L(y,\hat{\theta}_0)}{L(y,\hat{\theta})}\), dont on peut vérifier qu’elle vaut : \([\frac{\det(E)}{\det(H+E)}]^{n/2}\). Le test de Wilks consiste à considérer la puissance \(2/n\) de cette quantité, autrement dit sa statistique est définie par : \[ \Lambda=\frac{\det(E)}{\det(H+E)}=\prod_{k=1}^{s}\frac{1}{1+\lambda_k} \]
Où les \(\lambda_k\) sont les valeurs propres de la matrice \(HE^{-1}\) et \(s =\inf(D, J - 1)\) est le nombre de valeurs propres non nulles de cette matrice.
On peut considerer 3 cas particuliers et généraliser pour les autres cas.
a. Cas d’un facteur à 2 niveaux
Dans ce cas avec \(D\) quelconque, on a :
\[ \frac{1-\Lambda}{\Lambda}\frac{\nu_E-D+1}{D}=\frac{1-\Lambda}{\Lambda}\frac{n-(D+1)}{D}\sim F_{D;n-(D+1)} \]
Les tables de la distribution de Fisher permettent donc de faire un test exact.
b. Cas d’un facteur à 3 niveaux
Dans ce cas, avec \(D\) quelconque, on a :
\[ \frac{1-\sqrt{\Lambda}}{\sqrt{\Lambda}}\frac{\nu_E-D+1}{D}=\frac{1-\sqrt{\Lambda}}{\sqrt{\Lambda}}\frac{n-(D+2)}{D}\sim F_{2D;2(n-(D+2))} \] On peut faire un test de Fisher exact.
c. Cas où Y est à 2 dimensions
Dans ce cas, avec \(J\) quelconque, on a :
\[ \frac{1-\sqrt{\Lambda}}{\sqrt{\Lambda}}\frac{\nu_E-1}{\nu_H}=\frac{1-\sqrt{\Lambda}}{\sqrt{\Lambda}}\frac{n-(J+1)}{J-1}\sim F_{2\nu_H;2(\nu_E-1)}(F_{2(J-1);2(n-(J+1))}) \]
On peut faire un test de Fisher exact.
d. Généralisation: approximation de Fisher
On peut faire un test de Fisher approché (d’autant meilleur que n est grand) en utilisant le résultat suivant :
\[ \phi=\frac{1-\Lambda^{1/t}}{\Lambda^{1/t}}\frac{ft-g}{D_{\nu_H}}\sim F_{D_{\nu_H};ft-g} \text{ (approximativement)} \]
Avec : \[ \begin{aligned} f&=\nu_H+\nu_E-\frac{\nu_H+D+1}{2}=(n-1)-\frac{J+D}{2}\text{ ;}\\ g&=\frac{D\nu_H}{2}-1\text{ ;}\\ t&=[\frac{D^2\nu_H^2-4}{D^2+\nu_H^2-5}]^{1/2} \end{aligned} \]
Remarque : Des tables du test de Wilks on été établies et permettent de faire encore un test exact dans de nombreux autres cas (on les trouve dans les ouvrages de statistique multidimensionnelle). Pour les niveaux 10%, 5%, 2%, 5%, 1% et 0,5%, on dispose de tables pour \(D\) variant de 3 à 10, pour \(\nu_H\) variant de 3 à 13 (et souvent plus) et pour \(\nu_E\) variant de 1 à 20, ainsi que pour les valeurs 30, 40, 60 et 120.
2. Autres tests
Dans la littérature statistique, on trouve d’autres tests permettant d’éprouver la même hypothèse nulle.
a. Le test de la trace de Lawley-Hotelling
La statistique de ce test est
\[ T^2=\nu_E \text{ trace}(HE^{-1})=(n-J)\sum_{k=1}^{s}\lambda_k \]
Pour un niveau de test \(\alpha\) = 5%, pour des valeurs de \(D\) variant de 2 à 6, pour \(\nu_H=J-1\) variant de \(D\) à 6, puis prenant les valeurs 8, 10, 12, 15, 20, 25, 40 et 60, enfin pour \(\nu_E=n-J\) variant de \(D\) à 8, puis prenant les valeurs 10, 20, 30 … 100 et 200, on dispose de tables pour la statistique \(\frac{T^2}{\nu_E}=\sum_{k=1}^{s}\lambda_k\) permettant de faire un test exact. Dans les autres cas, on utilise l’approximation suivante :
\[ \frac{T^2}{c \nu_E}=\frac{1}{c}\text{trace}(HE^{-1})\sim F_{a;b}\text{ (approximativement)} \] Avec \(a=D \nu_H\);\(b=4+\frac{a+2}{B-1}\) où \(B=\frac{(\nu_E+\nu_H-D-1)(\nu_E-1)}{(\nu_E-D-3)(\nu_E-D)}\) et \(c=\frac{a(b-2)}{b(\nu_E-D-1)}\).
b. Le test de la trace de Pillai
La statistique de ce test est \[ V=\text{trace}[H(H+E)^{-1}]=\sum_{k=1}^{s}\mu_k=\sum_{k=1}^{s}\frac{\lambda_k}{1+\lambda_k} \] Où \(s = \inf(D, J -1)\), les \(\mu_k\) sont les valeurs propres de la matrice \(H(H+E)^{-1}\) et les \(\lambda_k\) celles de la matrice \(HE^{-1}\). Si l’on pose \(k_1=\frac12(|D-\nu_H|-1)\) et \(k_2=\frac12(\nu_E-D-1)\), des tables permettent de réaliser un test exact de Pillai pour \(\alpha\) = 5%, s variant de 2 à 6, \(k_1\) et \(k_2\) variant de 0 à 10 ou bien prenant les valeurs 15, 20 ou 25.
Dans les autres cas, on utilisera l’approximation suivante : \[ \frac{V}{s-V}\frac{2k_2+s+1}{2k_1+s+1}=\frac{V}{s-V}\frac{n+\inf(D,J-1)-(D+J)}{\sup(D,J-1)}\sim F_{s(2k_1+s+1);s(2k_2+s+1)}\text{ (approximativement)} \]
c. Le test de la plus grande racine de Roy
La statistique de ce dernier test est \(\lambda_{\text{max}}\), la plus grande des valeurs propres de \(HE^{-1}\). On trouve diverses approximations qui permettent de mettre en œuvre ce test parmi lesquelles la suivante :
\[ S=\frac{\lambda_{\text{max}}(\nu_H+\nu_E-r)}{r}\sim F_{r;\nu_H+\nu_E-r}\text{ (approximativemnt)} \] Où \(r=\max(D,\nu_H)\).
NB : ce test est déconseillé
III. Manova à deux facteurs sans interactions
Dans de nombreuses applications, un profil multivarié peut dépendre simultanément de facteurs qualitatifs. En contexte scolaire, par exemple, un profil de notes (Maths, Français, Physique, etc.) peut dépendre à la fois : Une vise à étudier comment le profil multivarié varie :Comme en ANOVA à deux facteurs, l’objectif est de structurer la variabilité totale en composantes attribuables aux effets principaux, à l’interaction et à la variabilité résiduelle intra-cellules, mais en utilisant des objets . La partie avec interaction sera présentée dans la partie qui suit.
Partie 1 : Notations
On considère deux facteurs qualitatifs :Chaque individu appartient à une \((r,s)\) correspondant à une combinaison d’un niveau de \(A\) et d’un niveau de \(B\).
1. Effectifs et dimension
On note \(n_{rs}\) l’effectif de la cellule \((r,s)\), et l’effectif total : \[ n=\sum_{r=1}^{a}\sum_{s=1}^{b} n_{rs}. \] On définit également les effectifs marginaux : \[ n_{r\cdot}=\sum_{s=1}^{b}n_{rs},\qquad n_{\cdot s}=\sum_{r=1}^{a}n_{rs}. \]
Chaque individu est observé sur \(D\) variables quantitatives (profil multivarié). La réponse est donc de dimension \(D\).
On reprend notre matrice d’observations \(\mathbf{Y}\) de taille \(n\times D\) : \[ \mathbf{Y}= \begin{pmatrix} y_{11} & y_{12} & \cdots & y_{1D}\\ y_{21} & y_{22} & \cdots & y_{2D}\\ \vdots & \vdots & \ddots & \vdots\\ y_{n1} & y_{n2} & \cdots & y_{nD} \end{pmatrix} \in \mathbb{R}^{n\times D}. \]
L’appartenance à une cellule \((r,s)\) est une information qualitative associée à chaque individu : elle permet de définir les moyennes de cellule et les moyennes marginales présentées ci-dessous.
2. Moyennes
a. Moyenne de cellule
Pour chaque cellule \((r,s)\), on note \(G_{rs}\) l’ensemble des indices des individus appartenant à cette cellule. La moyenne de cellule est : \[ \bar{y}_{rs,d}=\frac{1}{n_{rs}}\sum_{i\in G_{rs}} y_{id}, \qquad d=1,\dots,D. \] En regroupant les \(D\) composantes, on définit le profil moyen de cellule : \[ \bar{\mathbf{y}}_{rs}= \begin{pmatrix} \bar{y}_{rs,1}\\ \bar{y}_{rs,2}\\ \vdots\\ \bar{y}_{rs,D} \end{pmatrix} \in\mathbb{R}^{D}. \]
b. Moyennes marginales
- Moyenne marginale pour le facteur \(A\)
Pour le niveau \(r\) du facteur \(A\), la moyenne marginale (moyenne sur tous les niveaux de \(B\)) est : \[ \bar{y}_{r\cdot,d}=\frac{1}{n_{r\cdot}}\sum_{s=1}^{b}\sum_{i\in G_{rs}} y_{id}, \qquad d=1,\dots,D, \] où \(n_{r\cdot}=\sum_{s=1}^{b}n_{rs}\). Le vecteur moyen marginal est : \[ \bar{\mathbf{y}}_{r\cdot}= \begin{pmatrix} \bar{y}_{r\cdot,1}\\ \bar{y}_{r\cdot,2}\\ \vdots\\ \bar{y}_{r\cdot,D} \end{pmatrix} \in\mathbb{R}^{D}. \]
- Moyenne marginale pour le facteur \(B\)
Pour le niveau \(s\) du facteur \(B\), la moyenne marginale (moyenne sur tous les niveaux de \(A\)) est : \[ \bar{y}_{\cdot s,d}=\frac{1}{n_{\cdot s}}\sum_{r=1}^{a}\sum_{i\in G_{rs}} y_{id}, \qquad d=1,\dots,D, \] où \(n_{\cdot s}=\sum_{r=1}^{a}n_{rs}\). Le vecteur moyen marginal est : \[ \bar{\mathbf{y}}_{\cdot s}= \begin{pmatrix} \bar{y}_{\cdot s,1}\\ \bar{y}_{\cdot s,2}\\ \vdots\\ \bar{y}_{\cdot s,D} \end{pmatrix} \in\mathbb{R}^{D}. \]
- Moyenne globale
Pour chaque variable \(d\), la moyenne globale est : \[ \bar{y}_{\cdot\cdot,d}=\frac{1}{n}\sum_{k=1}^{n} y_{kd}, \qquad d=1,\dots,D. \] On regroupe ces composantes dans le vecteur moyen global : \[ \bar{\mathbf{y}}= \begin{pmatrix} \bar{y}_{\cdot\cdot,1}\\ \bar{y}_{\cdot\cdot,2}\\ \vdots\\ \bar{y}_{\cdot\cdot,D} \end{pmatrix} \in\mathbb{R}^{D}. \]
3. Variabilité multivariée
Comme dans toute MANOVA, la variabilité conjointe entre les \(D\) variables est décrite par une matrice de covariance \(\boldsymbol{\Sigma}\in\mathbb{R}^{D\times D}\).
a. Covariance empirique par cellule
Pour une cellule \((r,s)\), on peut estimer la covariance empirique : \[ \mathbf{S}_{rs} =\frac{1}{n_{rs}-1}\sum_{i\in G_{rs}} (\mathbf{y}_{i}-\bar{\mathbf{y}}_{rs})(\mathbf{y}_{i}-\bar{\mathbf{y}}_{rs})^\top \in\mathbb{R}^{D\times D}. \]
b. Covariance pour toutes cellules
Une covariance poolée (toutes cellules) peut être définie par : \[ \mathbf{S}_p= \frac{\sum_{r=1}^{a}\sum_{s=1}^{b}(n_{rs}-1)\mathbf{S}_{rs}}{n-ab} \in\mathbb{R}^{D\times D}. \]
4. Décomposition de la variabilité (SSCP)
De façon analogue à l’ANOVA à deux facteurs, on décompose la dispersion totale en :Ces quantités sont des matrices SSCP de taille \(D\times D\).
a. Dispersion totale
La dispersion totale est définie par : \[ \mathbf{T} =\sum_{r=1}^{a}\sum_{s=1}^{b}\sum_{i\in G_{rs}} (\mathbf{y}_{i}-\bar{\mathbf{y}})(\mathbf{y}_{i}-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
b. Dispersion intra-cellules W (Within)
La dispersion intra-cellules mesure l’écart des individus à la moyenne de leur cellule : \[ \mathbf{W} =\sum_{r=1}^{a}\sum_{s=1}^{b}\sum_{i\in G_{rs}} (\mathbf{y}_{i}-\bar{\mathbf{y}}_{rs})(\mathbf{y}_{i}-\bar{\mathbf{y}}_{rs})^\top \in\mathbb{R}^{D\times D}. \]
Dispersion due au facteur \(A\) : \(\mathbf{H}_A\) : la dispersion attribuable au facteur \(A\) s’exprime à partir des moyennes marginales \(\bar{\mathbf{y}}_{r\cdot}\) : \[ \mathbf{H}_A =\sum_{r=1}^{a} n_{r\cdot}\, (\bar{\mathbf{y}}_{r\cdot}-\bar{\mathbf{y}})(\bar{\mathbf{y}}_{r\cdot}-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
Dispersion due au facteur \(B\) : \(\mathbf{H}_B\) : la dispersion attribuable au facteur \(B\) s’exprime à partir des moyennes marginales \(\bar{\mathbf{y}}_{\cdot s}\) : \[ \mathbf{H}_B =\sum_{s=1}^{b} n_{\cdot s}\, (\bar{\mathbf{y}}_{\cdot s}-\bar{\mathbf{y}})(\bar{\mathbf{y}}_{\cdot s}-\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
Dispersion due à l’interaction \(A\times B\) :
\(\mathbf{H}_{AB}\) : l’interaction mesure l’écart des moyennes de cellule au-delà de ce qui est expliqué par les effets marginaux. On définit : \[ \mathbf{H}_{AB} =\sum_{r=1}^{a}\sum_{s=1}^{b} n_{rs}\, (\bar{\mathbf{y}}_{rs}-\bar{\mathbf{y}}_{r\cdot}-\bar{\mathbf{y}}_{\cdot s}+\bar{\mathbf{y}}) (\bar{\mathbf{y}}_{rs}-\bar{\mathbf{y}}_{r\cdot}-\bar{\mathbf{y}}_{\cdot s}+\bar{\mathbf{y}})^\top \in\mathbb{R}^{D\times D}. \]
c. Décomposition fondamentale
On obtient la décomposition fondamentale à deux facteurs : \[ \boxed{\ \mathbf{T}=\mathbf{W}+\mathbf{H}_A+\mathbf{H}_B+\mathbf{H}_{AB}\ }. \] Cette relation indique que la dispersion totale se partage entre :Partie 2 : Ecriture du modèle
1. Ecriture scalaire du modèle
Le modèle MANOVA à deux facteurs sans interaction s’écrit, pour chaque observation : \[ Y_{ijk} = \mu + \alpha_i + \beta_j + U_{ijk} \text{, où } U_{ijk} \overset{\text{i.i.d}}{\sim} \mathcal{N}_D(0_D, \Sigma) \text{ (1.1)} \]
Avec :
\(\mu = (\mu^1,..., \mu^D)^\prime \in \mathbb{R}\) D : vecteur moyenne générale ;
\(\alpha_i \in \mathbb{R}^D\) : effet principal du niveau \(i\) du facteur \(A\) ;
\(\beta_j \in \mathbb{R}^D\) : effet principal du niveau \(j\) du facteur \(B\) ;
\(U_{ijk}\) : vecteur d’erreur aléatoire, i.i.d. \(\mathcal{N}_D(0_D, \Sigma)\).
La matrice \(\Sigma (D \times D)\) est symétrique définie positive.
Le modèle (1.1) est sur-paramétré. Pour assurer l’unicité des estimateurs, on impose les contraintes de somme nulle (vecteur nul de \(\mathbb{R}^D\) :
\[ \sum_{i=1}^{a} \alpha_i=0_D \text{ } \sum_{j=1}^{b} \beta_j=0_D \text{ (1.2)} \] Ainsi, le vecteur moyenne théorique de la cellule \((i, j)\) est \(\mu_{ij} = \mathbb{E}[Y_{ijk}] = \mu + \alpha_i + \beta_j\).
2. Ecriture matricielle du modèle
L’ensemble des \(n\) observations et des paramètres se représentent par des matrices.
Matrice des observations : \(Y \in \mathbb{R}^{n \times D}\)
Matrice d’incidence : \(X \in \mathbb{R}^{n \times p}\), où \(p = 1 + (a − 1) + (b − 1) = a + b − 1\) est le nombre de colonnes nécessaires pour coder le modèle (par exemple, une colonne pour la moyenne générale, \(a − 1\) colonnes pour \(A\), \(b − 1\) colonnes pour \(B\)).
Matrice des paramètres : \(\beta \in \mathbb{R}^{p \times D}\) (chaque colonne correspond à une variable réponse).
Matrice des erreurs : \(U \in \mathbb{R}^{n \times D}\), avec \(\mathbb{E}[U] = 0_{n \times D}\) et \(Var(vec(U))= \Sigma \otimes I_n\), où \(\otimes\) désigne le produit de Kronecker.
Le modèle s’écrit alors sous la forme compacte : \[ Y = X\beta + U \text{, } \mathbb{E}[Y] = X\beta \text{, } Var(vec(Y))= \Sigma \otimes I_n \text{ (1.3)} \]
Remarque : Une autre paramétrisation possible est la paramétrisation cellmeans où contient directement les \(ab\) moyennes \(\mu_{ij}\) . Dans ce cas, \(X\) est la matrice d’indicatrices des cellules (dimension \(n \times ab\)), et les contraintes (1.2) servent ensuite à définir les effets.
Partie 3 : Estimation des paramètres
1. Estimateurs des paramètres
Pour chaque variable réponse \(d = 1,..., D\), le modèle univarié \(y_d = X\beta_d + u_d\) (où \(y_d\) est la \(d\)-ième colonne de \(Y\)) admet l’estimateur des moindres carrés ordinaires : \(\hat{\beta}=(X^\prime X)^{-1}X^\prime y_d\) où \((X^\prime X)^{-1}\) désigne une inverse généralisée. En empilant les colonnes, on obtient la matrice des estimateurs.
\(\hat{\beta} \in \mathbb{R}^{p \times D}\)
\(\hat{\beta}\) est sans biais : \(\mathbb{E}[\hat{\beta}]=\beta\)
Les valeurs ajustées sont \(\hat{Y}=X\hat{\beta}=P_X Y\) où \(P_X = X(X^\prime X)^{-1}X^\prime\) est le projecteur orthogonal (par rapport au produit scalaire usuel) sur l’espace engendré par les colonnes de \(X\). La matrice des résidus est \(\hat{U} = Y − \hat{Y} = (I_n − P_X)Y\).
L’estimateur sans biais de \(\Sigma\) est \(\hat{\Sigma}=\frac{1}{n-p} \hat{U}^{\prime} \hat{U}=\frac{1}{n-p}E\) où \(p = \text{rang}(X)\) et \(E = \hat{U}^{\prime} \hat{U}\) est la matrice de dispersion résiduelle.
2. Propriétés des estimateurs
Les estimateurs \(\hat{\beta}\) et \(\hat{U}\) (donc \(\hat{\Sigma}\)) sont indépendants.
Sous les hypothèses du modèle,
vec\((\hat{\beta})\sim \mathcal{N}_{pD}(\text{vec}(\beta), \Sigma \otimes (X^{\prime}X)^{-1})\)
\(E =\hat{U}^{\prime}\hat{U} \sim \mathcal{W}_D(n − p, \Sigma)\) (loi de Wishart)
\(\hat{\beta}\) et \(E\) sont indépendantes.
Partie 4 : Tests
Pour un plan équilibré (\(n_{ij} = m\) constant), on a \(T = E + H_A + H_B\), avec les degrés de liberté associés : \(\text{ddl}_T = n − 1\), \(\text{ddl}_E = n − (a + b − 1)\), \(\text{ddl}_{H_A} = a − 1\), \(\text{ddl}_{H_B} = b − 1\).
Remarque : Dans le cas déséquilibré, la décomposition n’est pas unique et dépend de l’ordre d’entrée des effets.Il convient alors d’utiliser les matrices obtenues par projection sur les sous-espaces appropriés.
1. Formulation des hypothèses
On s’intéresse aux deux hypothèses nulles classiques :
\[ \text{H}_0^A \text{: } \alpha_1 =...= \alpha_a = 0_D \text{, } \text{H}_0^B \text{: } \beta_1 =...= \beta_b = 0_D \]
2. Statistiques de test
Pour tester \(\text{H}_0^A\), on utilise la matrice \(H_A\) définie précédemment. Sous \(\text{H}_0^A\), \(H_A\) mesure la dispersion due à \(A\) et doit être “petite” par rapport à \(E\). La matrice \(E\) est la même pour tous les tests. On note \(\nu_H\) le degré de liberté de l’hypothèse (\(\nu_H = a−1\) pour \(A, b − 1\) pour \(B\)) et \(\nu_E = n − (a + b − 1)\).
Soit \(s = \min(D, \nu_H)\). Soient \(\lambda_1 \geq \lambda_2 \geq ... \geq \lambda_s > 0\) les valeurs propres de \(E^{-1}H\) (ou les racines de \(|H − \lambda E| = 0\)). Les quatre statistiques classiques sont : \[ \begin{aligned} \Lambda_{\text{Wilks}} &= \prod_{i=1}^{s} \frac{1}{1+\lambda_i} =\frac{\text{det}(E)}{\text{det}(H+E)}\\ \Lambda_{\text{Pillai}} &= \sum_{i=1}^{s} \frac{\lambda_i}{1+\lambda_i} =\text{tr}[H(H+E)^{-1}]\\ U_{\text{Hotelling-Lawley}} &= \sum_{i=1}^{s} \lambda_i =\text{tr}(E^{-1}H)\\ \Theta_{\text{Roy}} &= \frac{\lambda_1}{1+\lambda_1}\\ \end{aligned} \]
Ces statistiques sont des fonctions monotones des \(\lambda_i\). Par exemple, \(\Lambda\) est d’autant plus petit que les \(\lambda_i\) sont grands, ce qui conduit au rejet de \(\text{H}_0\).
3. Distributions sous H0
Sous l’hypothèse nulle, on a les résultats suivants : \(E \sim \mathcal{W}_D (\nu_E, \Sigma)\), \(H \sim \mathcal{W}_D (\nu_H, \Sigma)\) et \(E\) et \(H\) sont indépendantes.
- Si \(\nu_H = 1\), alors :
\[ \frac{1- \Lambda}{\Lambda} . \frac{\nu_E -D+1}{D} \sim F_{D,\nu_E -D+1} \]
- si \(\nu_H=2\), alors :
\[ \frac{1- \sqrt{\Lambda}}{\sqrt{\Lambda}} . \frac{\nu_E -D+1}{D} \sim F_{2D,2(\nu_E -D+1)} \] * Si \(D=2\), alors :
\[ \frac{1- \sqrt{\Lambda}}{\sqrt{\Lambda}} . \frac{\nu_E -1}{\nu_H} \sim F_{2\nu_H,2(\nu_E -1)} \]
Pour les cas généraux, on utilise l’approximation de Rao pour Wilks : \[ \frac{1-\Lambda^{1/t}}{\Lambda^{1/t}}.\frac{f_t-g}{D_{\nu_H}}\overset{\text{approx}}{\sim} F_{D_{\nu_H},f_t-g} \] Avec \(f=\nu_E+\nu_H-\frac{\nu_H+D+1}{2}\), \(g=\frac{D_{\nu_H}}{2}-1\), \(t=\sqrt{\frac{D^2\nu^2_H-4}{D^2+\nu^2_H-5}}\). De plus, asymptotiquement (\(n \to +\infty\), \(\nu_H\) fixé) : \(\nu_E \log \Lambda \overset{\mathcal{L}}{\to} \chi^2_{D\nu_H}\),\(\nu_E V \overset{\mathcal{L}}{\to} \chi^2_{D\nu_H}\), \(\nu_E U \overset{\mathcal{L}}{\to} \chi^2_{D\nu_H}\).
IV. Manova à deux facteurs avec interactions
Partie 1 : Notations
Les notations ne diffèrent pas de la MANOVA àdeux facteurs sans interactions.
Partie 2 : Ecriture du modèle
1. Ecriture scalaire du modèle
Le modèle avec interaction s’écrit : \[ Y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{ij} + U_{ijk} \text{, } U_{ijk} \overset{\text{i.i.d.}}{\sim} \mathcal{N}_D(O_D, \Sigma) \] Où \(\gamma_{ij} \in \mathbb{R}^D\) est l’effet d’interaction entre le niveau \(i\) de \(A\) et le niveau \(j\) de \(B\).
Pour assurer l’unicité des estimateurs, on impose les contraintes de somme nulle :
\[ \sum_{i=1}^{a} \alpha_i=0_D \text{, } \sum_{j=1}^{b} \beta_j=0_D \text{, } \sum_{i=1}^{a} \gamma_{ij}=O_D \text{ }(\forall j) \text{, } \sum_{j=1}^{b} \gamma_{ij}=O_D \text{ } (\forall j) \] Ainsi, le vecteur moyenne théorique de la cellule \((i,j)\) est \(\mu_{ij} = \mathbb{E}[Y_{ijk}] = \mu+ \alpha_i+\beta_j + \gamma_{ij}\) .
2. Ecriture matricielle du modèle
On peut toujours écrire \(Y=X\beta+U\). Ici, on utilise la paramétrisation cell-means où \(\beta\) est la matrice \(ab \times D\) contenant les \(\mu_{ij}\) , et \(X\) est la matrice d’indicatrices des cellules (dimension \(n \times ab\)). Les contraintes servent ensuite à définir les effets à partir des \(\mu_{ij}\).
Partie 3 : Estimation des paramètres
1. Estimateurs des paramètres
L’estimateur des moindres carrés est toujours \(\hat{\beta}=(X^{\prime}X)^{-1}X^{\prime}Y\). Dans la paramétrisation cell-means, \(X^{\prime}X\) est diagonale par blocs si les observations sont ordonnées par cellule, et son inverse est simple. En pratique, on calcule directement les moyennes des cellules : \(\hat{\mu}_{ij}=\bar{y}_{ij}\).
La matrice résiduelle est \(\hat{U}=Y-X\hat{\beta}\). L’estimateur sans biais de \(\Sigma\) est \(\hat{\Sigma}\frac{1}{n-ab}\hat{U}^{\prime}\hat{U}=\frac{1}{n-ab}\), car \(\text{rang}(X) = ab\) (si toutes les cellules sont observées).
2. Propriétés des estimateurs
Comme précédemment, \(\hat{\beta}\) et \(\hat{U}\) sont indépendants, \(\hat{\beta}\) est sans biais, et \(E \sim \mathcal{W}_D(n-ab, \Sigma)\).
Partie 4 : Tests
On a : \(T = E + H_A + H_B + H_{AB}\). Les dégrés de liberté sont : \(\text{ddl}_T = n−1\), \(\text{ddl}_E = n−ab\), \(\text{ddl}_{H_A} = a−1\), \(\text{ddl}_{H_B} = b−1\), \(\text{ddl}_{H_{AB}} = (a−1)(b−1)\).
1. Formulation des hypothèses
On teste maintenant trois hypothèses :
\(H_0^{AB}\) : \(\gamma_{ij}=0_D\) pour tout \(i\), \(j\) (pas d’interaction) ;
\(H_0^{A}\) : \(\alpha_{i}=0_D\) pour tout \(i\) (pas d’effet principal de \(A\)) ;
\(H_0^{A}\) : \(\alpha_{i}=0_D\) pour tout \(i\) (pas d’effet principal de \(A\)) ;
\(H_0^{B}\) : \(\beta_{j}=0_D\) pour tout \(j\).
Pour \(H_0^{AB}\), on utilise \(H_{AB}\) avec \(\nu_H = (a − 1)(b − 1)\). Pour \(H_0^{A}\), on utilise \(H_A\) avec \(\nu_H = a − 1\), et pour \(H_0^{B}\), \(H_B\) avec \(\nu_H = b − 1\). Dans tous les cas, \(\nu_E = n − ab\).
2. Statistiques de test
Les statistiques de test sont les mêmes que dans la partie I, avec les degrés de liberté appropriés. Sous chaque hypothèse nulle, on a \(H \sim \mathcal{W}_D(\nu_H, \Sigma)\) et \(E \sim \mathcal{W}_D(\nu_E, \Sigma)\), indépendantes. Les transformations exactes en \(F\) et les approximations décrites précédemment s’appliquent en remplaçant \(\nu_H\) et \(\nu_E\) par leurs valeurs.
I.ANALYSE EXPLORATOIRE
1. Contexte et nature des données
Dans cette étude, on s’intéresse à des arbres
observés dans différentes zones.
Pour chaque arbre, on dispose :
- d’informations qualitatives permettant de le classer (zone, espèce) ;
- de mesures quantitatives décrivant sa morphologie (hauteur, diamètre).
L’objectif global est d’analyser si les caractéristiques morphologiques des arbres varient selon : - la zone (facteur environnemental), - l’espèce (facteur biologique), ou selon les deux simultanément.
1.2 Présentation de la base de données
La base contient 67 observations (chaque ligne correspond à un arbre) et 4 variables :
Zone: variable qualitative, indiquant la zone d’observation (ex. zone1, zone2, zone3, …).Especes: variable qualitative, indiquant l’espèce de l’arbre (ex. G, Gb, C, Pt, B, Ca, Pl, …).Hauteur: variable quantitative, hauteur de l’arbre (en mètres).Diametre: variable quantitative, diamètre de l’arbre (en centimètres).
Ainsi, chaque arbre est décrit par un profil morphologique composé de deux mesures : \[ \mathbf{Y} = (\text{Hauteur}, \text{Diametre}) \in \mathbb{R}^2. \] On est donc dans un cadre multivarié avec une réponse de dimension : \[ D = 2. \]
1.3 Analyse des valeurs manquantes et abérrantes
1.3.1 valeurs manquantes
## Zone Especes Hauteur Diametre
## 0 0 0 0
On voit qu’uncune variable ne présnete de valeurs manquantes. On peut donc passer à l’analyse des valeurs abérrantes
1.3.2 valeurs abérrantes
# Top 8 espèces
k <- 8
top_especes <- df %>%
count(Especes, sort = TRUE) %>%
slice_head(n = k) %>%
pull(Especes)
df_top <- df %>% filter(Especes %in% top_especes)
# Graphiques
p1 <- ggplot(df, aes(x = Zone, y = Hauteur, fill = Zone)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Hauteur par Zone", x = "Zone", y = "Hauteur") +
theme_minimal() + guides(fill = "none")
p2 <- ggplot(df, aes(x = Zone, y = Diametre, fill = Zone)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Diamètre par Zone", x = "Zone", y = "Diamètre") +
theme_minimal() + guides(fill = "none")
p3 <- ggplot(df_top, aes(x = reorder(Especes, Hauteur, FUN = median), y = Hauteur, fill = Especes)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Hauteur par Espèces (Top 8)", x = "Espèces", y = "Hauteur") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
guides(fill = "none")
p4 <- ggplot(df_top, aes(x = reorder(Especes, Diametre, FUN = median), y = Diametre, fill = Especes)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Diamètre par Espèces (Top 8)", x = "Espèces", y = "Diamètre") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
guides(fill = "none")
# Carte de graphiques 2x2
gridExtra::grid.arrange(p1, p2, p3, p4, ncol = 2)L’analyse des valeurs aberrantes par groupe (zone/espèce) montre que la présence d’observations extrêmes n’est pas uniforme : au niveau des , on observe des points atypiques surtout pour la (notamment en hauteur, avec des valeurs très élevées) et, dans une moindre mesure, pour la (quelques diamètres élevés), tandis que la présente globalement une dispersion plus large, en particulier pour le diamètre. Au niveau des (Top 8), certaines modalités se distinguent par une variabilité plus marquée et/ou des valeurs élevées : (et dans une moindre mesure et ) apparaît associée à des hauteurs et diamètres plus importants, avec des distributions plus étalées, alors que d’autres espèces (ex. , ) montrent des profils plus concentrés.
Ces observations indiquent que la base contient des points extrêmes potentiellement influents, mais qui peuvent aussi refléter une hétérogénéité réelle entre groupes (et non nécessairement des erreurs). Avant de poursuivre l’analyse multivariée, il est donc essentiel de vérifier la qualité des données et de s’assurer que les valeurs manquantes ne biaisent pas les comparaisons entre groupes.
1.3.2.1 imputations des valeurs abérrantes : méthodologies
Dans cette partie, la détection des valeurs aberrantes est réalisée à
l’aide de la , qui est la règle utilisée classiquement dans les .
L’idée est de repérer les observations qui s’écartent fortement du
``coeur’’ de la distribution, en s’appuyant sur les et sur l’.
\[ \mathrm{IQR} = Q_3 - Q_1. \]
L’écart interquartile mesure la dispersion de la partie centrale des données (les 50% du milieu), ce qui en fait une mesure (peu sensible aux valeurs extrêmes).
La règle de Tukey définit deux bornes :
\[ \text{Borne inférieure } = Q_1 - 1.5 \times \mathrm{IQR}, \qquad \text{Borne supérieure } = Q_3 + 1.5 \times \mathrm{IQR}. \]
Une observation \(x\) est considérée comme (au sens de Tukey) si elle se situe en dehors de ces bornes :
\[ x < Q_1 - 1.5 \times \mathrm{IQR} \quad \text{ou} \quad x > Q_3 + 1.5 \times \mathrm{IQR}. \]
Cette méthode est adaptée ici pour trois raisons principales :On applique la condition de Tukey par Zone, puis par Especes. En suite, on winsorise en faisant un cap les bornes supérieure et inférieures.
df_wins <- df %>%
group_by(Zone) %>%
mutate(
# Bornes Tukey Hauteur
Q1_h = quantile(Hauteur, 0.25, na.rm = TRUE),
Q3_h = quantile(Hauteur, 0.75, na.rm = TRUE),
IQR_h = Q3_h - Q1_h,
low_h = Q1_h - 1.5 * IQR_h,
up_h = Q3_h + 1.5 * IQR_h,
# Bornes Tukey Diametre
Q1_d = quantile(Diametre, 0.25, na.rm = TRUE),
Q3_d = quantile(Diametre, 0.75, na.rm = TRUE),
IQR_d = Q3_d - Q1_d,
low_d = Q1_d - 1.5 * IQR_d,
up_d = Q3_d + 1.5 * IQR_d,
# Winsorisation (cap aux bornes)
Hauteur = pmin(pmax(Hauteur, low_h), up_h),
Diametre = pmin(pmax(Diametre, low_d), up_d)
) %>%
ungroup() %>%
select(-Q1_h,-Q3_h,-IQR_h,-low_h,-up_h,
-Q1_d,-Q3_d,-IQR_d,-low_d,-up_d)df_wins <- df_wins %>%
group_by(Especes) %>%
mutate(
# Bornes Tukey Hauteur
Q1_h = quantile(Hauteur, 0.25, na.rm = TRUE),
Q3_h = quantile(Hauteur, 0.75, na.rm = TRUE),
IQR_h = Q3_h - Q1_h,
low_h = Q1_h - 1.5 * IQR_h,
up_h = Q3_h + 1.5 * IQR_h,
# Bornes Tukey Diametre
Q1_d = quantile(Diametre, 0.25, na.rm = TRUE),
Q3_d = quantile(Diametre, 0.75, na.rm = TRUE),
IQR_d = Q3_d - Q1_d,
low_d = Q1_d - 1.5 * IQR_d,
up_d = Q3_d + 1.5 * IQR_d,
# Winsorisation (cap aux bornes)
Hauteur = pmin(pmax(Hauteur, low_h), up_h),
Diametre = pmin(pmax(Diametre, low_d), up_d)
) %>%
ungroup() %>%
select(-Q1_h,-Q3_h,-IQR_h,-low_h,-up_h,
-Q1_d,-Q3_d,-IQR_d,-low_d,-up_d)
df <- df_winsOn voit clairment que les outliers ont été imputés.
Dans cette sous-section, nous présentons une description univariée des deux variables quantitatives retenues comme dans le cadre de la MANOVA : la et le . L’objectif est de résumer le niveau général de ces mesures (tendance centrale) ainsi que leur dispersion (variabilité).
res <- df %>%
summarise(
n = n(),
hauteur_min = min(Hauteur, na.rm = TRUE),
hauteur_max = max(Hauteur, na.rm = TRUE),
hauteur_moy = mean(Hauteur, na.rm = TRUE),
hauteur_sd = sd(Hauteur, na.rm = TRUE),
diam_min = min(Diametre, na.rm = TRUE),
diam_max = max(Diametre, na.rm = TRUE),
diam_moy = mean(Diametre, na.rm = TRUE),
diam_sd = sd(Diametre, na.rm = TRUE)
)
knitr::kable(res, digits = 2, caption = "Résumé global des variables quantitatives")| n | hauteur_min | hauteur_max | hauteur_moy | hauteur_sd | diam_min | diam_max | diam_moy | diam_sd |
|---|---|---|---|---|---|---|---|---|
| 67 | 1.4 | 10 | 3.87 | 2.01 | 0.5 | 10.1 | 3.4 | 2.48 |
L’échantillon comporte \(n=67\)
arbres.
La varie de \(1.4\) à \(10\), avec une moyenne de \(3.93\) et un écart-type de \(2.13\).
Le varie de \(0.5\) à \(11.1\), avec une moyenne de \(3.53\) et un écart-type de \(2.70\).
Ces résultats montrent une des deux mesures, avec des valeurs élevées (arbres très grands / très épais), ce qui justifie d’examiner l’effet des facteurs et dans la suite.
Dans cette sous-section, nous décrivons les variables qualitatives qui jouent le rôle de dans l’étude : (facteur environnemental) et (facteur biologique). L’objectif est de présenter la structure des groupes à travers les et , puis de proposer des simples permettant d’identifier rapidement les modalités les plus représentées.
tab_zone <- df %>%
count(Zone) %>%
mutate(pourcentage = round(100 * n / sum(n), 2)) %>%
arrange(desc(n))
knitr::kable(tab_zone, caption = "Répartition des observations par Zone (effectifs et pourcentages)")| Zone | n | pourcentage |
|---|---|---|
| zone3 | 27 | 40.30 |
| zone1 | 22 | 32.84 |
| zone2 | 18 | 26.87 |
ggplot(tab_zone, aes(x = reorder(Zone, -n), y = n, fill = Zone)) +
geom_col() +
labs(x = "Zone", y = "Effectif", title = "Effectifs par Zone") +
theme_minimal() +
guides(fill = "none")
tab_especes <- df %>%
count(Especes) %>%
mutate(pourcentage = round(100 * n / sum(n), 2)) %>%
arrange(desc(n))
knitr::kable(tab_especes, caption = "Répartition des observations par Espèces")| Especes | n | pourcentage |
|---|---|---|
| G | 26 | 38.81 |
| Pl | 11 | 16.42 |
| C | 10 | 14.93 |
| B | 6 | 8.96 |
| Gb | 3 | 4.48 |
| Ca | 2 | 2.99 |
| F | 2 | 2.99 |
| S | 2 | 2.99 |
| Aa | 1 | 1.49 |
| Am | 1 | 1.49 |
| Ba | 1 | 1.49 |
| Cm | 1 | 1.49 |
| Pt | 1 | 1.49 |
ggplot(tab_especes, aes(x = reorder(Especes, -n), y = n, fill = Especes)) +
geom_col() +
labs(x = "Espèces", y = "Effectif", title = "Effectifs par Espèces") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
guides(fill = "none")
*
Selon les tableau et figures ci-dessus, la base est selon l’espèce.
L’espèce est la plus représentée (\(n=26\), soit \(38{,}81\%\)), suivie de (\(n=11\), \(16{,}42\%\)) et (\(n=10\), \(14{,}93\%\)). Plusieurs espèces sont
(souvent \(n=1\) ou \(n=2\)).
Ce point est important pour la suite, surtout en MANOVA à deux facteurs
( \(\times\) ), car certaines cellules
peuvent avoir des effectifs très faibles.
3. Analyse descriptive bivariée
Après la description univariée, nous étudions maintenant la relation
entre les deux variables quantitatives et .
L’objectif est d’identifier (i) la forme de la relation (linéaire ou
non), (ii) la présence éventuelle de valeurs extrêmes, et (iii) la force
de l’association entre les deux mesures. Cette étape est importante en
MANOVA car l’approche multivariée est particulièrement pertinente
lorsque les variables réponses ne sont pas indépendantes.
Le nuage de points permet de visualiser directement la relation entre la hauteur et le diamètre des arbres.
ggplot(df, aes(x = Hauteur, y = Diametre, color = Zone)) +
geom_point(size = 2, alpha = 0.8) +
labs(
x = "Hauteur (m)",
y = "Diamètre (cm)",
title = "Nuage de points : Hauteur vs Diamètre (par Zone)",
color = "Zone"
) +
theme_minimal()Le nuage de points suggère une relation globalement positive entre la hauteur et le diamètre : les arbres plus hauts tendent à avoir un diamètre plus important. On observe une forte concentration d’observations pour des hauteurs faibles (environ 1 à 3{,}5 m) et des diamètres modestes (environ 0{,}5 à 3{,}5 cm), ainsi que quelques valeurs élevées correspondant à des arbres plus grands et plus épais. La coloration par zone montre que la zone3 regroupe davantage d’observations de grande taille (points en haut à droite), tandis que les zones1 et 2 sont plus concentrées sur des profils faibles à intermédiaires, avec un chevauchement notable entre zones.
ggplot(df, aes(x = Zone, y = Hauteur, fill = Zone)) +
stat_summary(fun = mean, geom = "col", alpha = 0.8) +
labs(x = "Zone", y = "Hauteur (m)", title = "Hauteur moyenne par Zone") +
theme_minimal() +
guides(fill = "none")ggplot(df, aes(x = Zone, y = Diametre, fill = Zone)) +
stat_summary(fun = mean, geom = "col", alpha = 0.8) +
labs(x = "Zone", y = "Diametre (cm)", title = "Diamètre moyen par Zone") +
theme_minimal() +
guides(fill = "none")Nous analysons aussi la distribution de la et du selon les . Comme certaines espèces sont très peu représentées dans l’échantillon, il est préférable de limiter l’affichage aux espèces les plus fréquentes afin d’obtenir des diagrammes lisibles et interprétables.
k <- 8 # nombre d'espèces à afficher (modifiable)
top_especes <- df %>%
count(Especes, sort = TRUE) %>%
slice_head(n = k) %>%
pull(Especes)
df_top <- df %>% filter(Especes %in% top_especes)Compte tenu du nombre élevé d’espèces observées dans l’échantillon, une représentation graphique complète serait peu lisible. Nous choisissons donc de limiter l’analyse descriptive aux (celles ayant les effectifs les plus élevés), afin d’obtenir des comparaisons plus claires et plus interprétables.
ggplot(df_top, aes(x = reorder(Especes, Hauteur, FUN = median), y = Hauteur, fill = Especes)) +
stat_summary(fun = mean, geom = "col", alpha = 0.8) +
labs(
x = "Espèces",
y = "Hauteur (m)",
title = "Hauteur moyenne par Espèces"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
guides(fill = "none")ggplot(df_top, aes(x = reorder(Especes, Diametre, FUN = median), y = Diametre, fill = Especes)) +
stat_summary(fun = mean, geom = "col", alpha = 0.8) +
labs(
x = "Espèces",
y = "Diametre (cm)",
title = "Diametre moyen par Espèces"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
guides(fill = "none")II.CAS PRATIQUE
0 Vérification des hypothèses de la MANOVA
Les hypothèses de la MANOVA doivent être vérifiées sur les observations avant l’estimation du modèle.
Nous vérifions :
-l’indépendance des observations, -la normalité multivariée des variables dépendantes, -l’homogénéité des matrices de covariance -l’absence de multi-colinéarité forte entre les variables dépendantes.
# Conversion de Zone en facteur*
Base <- df
Base$Zone <- as.factor(Base$Zone)
# Renommage des variables
colnames(Base) <- c("Zone", "Especes", "Hauteur", "Diametre")
### 0.1 Vérification de l’indépendance des observations0.1 Vérification graphique de l’indépendance des observations
Une matrice de dispersion des variables Hauteur et Diametre a été réalisée afin d’examiner visuellement la structure des données.
Le graphique montre un nuage de points continu et homogène, sans structure particulière ni regroupement artificiel.
La relation positive observée entre la hauteur et le diamètre est cohérente avec les caractéristiques biologiques des arbres et ne constitue pas une violation de l’indépendance.
Aucune structure anormale ou dépendance systématique entre les observations n’est observée.
Nous pouvons donc considérer que l’hypothèse d’indépendance des observations est raisonnablement vérifiée.
0.2 Test de normalité multivariée
Nous utilisons le test de Shapiro-Wilk multivarié.
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.97475, p-value = 0.1896
Interprétation du test de normalité multivariée
Le test de Shapiro-Wilk multivarié a été appliqué aux variables dépendantes Hauteur et Diametre.
Les résultats obtenus sont :
- Statistique W = 0.97475
- p-value = 0.1896
La p-value est supérieure au seuil de signification de 5 % (α = 0.05).
Nous ne rejetons donc pas l’hypothèse nulle de normalité multivariée.
Conclusion
Les variables Hauteur et Diametre suivent une distribution compatible avec la normalité multivariée.
Cette condition est nécessaire à l’application de la MANOVA et est donc vérifiée.
Nous vérifions également la normalité multivariée dans chaque zone écologique.
## Base$Zone: zone1
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.95841, p-value = 0.4579
##
## ------------------------------------------------------------
## Base$Zone: zone2
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.8392, p-value = 0.005749
##
## ------------------------------------------------------------
## Base$Zone: zone3
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.83674, p-value = 0.0006365
Interprétation de la normalité multivariée dans chaque zone
Le test de Shapiro-Wilk multivarié a été appliqué séparément dans chaque zone écologique.
Les résultats obtenus sont les suivants :
- Zone 1 :
- W = 0.95841
- p-value = 0.4579
- Zone 2 :
- W = 0.8392
- p-value = 0.005749
- Zone 3 :
- W = 0.83674
- p-value = 0.0006365
Décision statistique
Au seuil de signification de 5 % :
Pour la zone 1, la p-value est supérieure à 0.05.
Nous ne rejetons pas l’hypothèse de normalité multivariée.
Pour les zones 2 et 3, les p-values sont inférieures à 0.05.
Nous rejetons l’hypothèse de normalité multivariée.
Conclusion
L’hypothèse de normalité multivariée n’est pas entièrement vérifiée dans toutes les zones écologiques.
Cela indique que la distribution conjointe de la hauteur et du diamètre n’est pas normale dans certaines zones.
Implication pour la MANOVA
La violation de l’hypothèse de normalité peut affecter la validité de la MANOVA.
Cependant, la MANOVA est relativement robuste à des violations modérées de la normalité, en particulier lorsque la taille de l’échantillon est suffisante.
Vérification de la normalité multivariée dans chaque espèce
Nous souhaiterions vérifier également la normalité multivariée dans chaque groupe défini par la variable Especes. Seulement,on ne peut pas utiliser le test de Shapiro-Wilk multivarié pour les groupes définis par la variable Especes, car certains groupes ont des effectifs très faibles (n=1), ce qui rend le test inapplicable.
0.3 Test d’homogénéité des matrices de covariance
##
## Box's M-test for Homogeneity of Covariance Matrices
##
## data: Base[, c("Hauteur", "Diametre")]
## Chi-Sq (approx.) = 17.228, df = 6, p-value = 0.008482
Interprétation du test d’homogénéité des matrices de covariance
Le test de Box permet de vérifier si les matrices de covariance des variables dépendantes sont égales entre les différentes zones écologiques.
Les résultats obtenus sont :
- Chi-Square = 17.228
- degrés de liberté = 6
- p-value = 0.008482
La p-value est inférieure au seuil de signification de 5 % (α = 0.05).
Nous rejetons donc l’hypothèse nulle d’égalité des matrices de covariance.
Conclusion
L’hypothèse d’homogénéité des matrices de covariance n’est pas vérifiée.
Cela signifie que la structure de variabilité conjointe de la hauteur et du diamètre diffère selon les zones écologiques.
0.4 Vérification de la corrélation entre les variables dépendantes
La MANOVA repose sur l’analyse simultanée de plusieurs variables dépendantes.
Pour que la MANOVA soit pertinente, ces variables doivent :
- être corrélées (sinon plusieurs ANOVA séparées seraient suffisantes),
- mais ne pas être excessivement corrélées.
En effet, si la corrélation entre les variables dépendantes est trop élevée (par exemple supérieure à 0.9 en valeur absolue), cela indique une situation de multicolinéarité.
Une multicolinéarité forte signifie que les variables mesurent pratiquement la même information, ce qui peut rendre les estimations instables et diminuer la validité de l’analyse multivariée.
Nous vérifions donc la corrélation entre Hauteur et Diametre.
## Hauteur Diametre
## Hauteur 1.0000000 0.8662996
## Diametre 0.8662996 1.0000000
Interprétation de la corrélation entre les variables dépendantes
La matrice de corrélation indique une corrélation de :
r = 0.8663
entre les variables Hauteur et Diametre.
Cette corrélation est :
- positive,
- relativement élevée,
- mais inférieure au seuil critique de 0.9 généralement utilisé pour détecter une multicolinéarité problématique.
Cette valeur indique que les deux variables sont fortement liées, ce qui est biologiquement cohérent, puisque les arbres plus hauts tendent à avoir un diamètre plus important.
Cependant, la corrélation n’est pas suffisamment élevée pour suggérer que les deux variables mesurent exactement la même information.
Conclusion
Il n’existe pas de multicolinéarité excessive entre les variables dépendantes.
Les variables Hauteur et Diametre sont suffisamment corrélées pour justifier l’utilisation d’une MANOVA, tout en conservant une information propre à chacune.
La condition relative à l’absence de multicolinéarité problématique est donc vérifiée.
0.5 Conclusion générale sur les hypothèses
Les hypothèses d’application de la MANOVA ont été vérifiées sur les observations, conformément aux recommandations méthodologiques.
Les résultats montrent que :
- l’hypothèse d’indépendance des observations est raisonnablement vérifiée ;
- les variables dépendantes Hauteur et Diametre présentent une corrélation forte mais inférieure au seuil critique de 0.9 (r = 0.8663), ce qui exclut une multicolinéarité problématique et justifie l’utilisation de la MANOVA ;
- la normalité multivariée est partiellement vérifiée, certaines sous-populations présentant des écarts ;
- l’hypothèse d’homogénéité des matrices de covariance n’est pas vérifiée selon le facteur Zone (test de Box significatif).
Malgré ces violations partielles, la MANOVA reste applicable. En effet, cette méthode est relativement robuste aux écarts modérés de normalité, en particulier lorsque la taille d’échantillon est suffisante.
Compte tenu de la violation de l’homogénéité des matrices de covariance et du plan déséquilibré, la statistique de Pillai sera privilégiée pour l’interprétation des tests MANOVA, car elle est la plus robuste dans ce contexte.
1. MANOVA à un facteur : Zone
1.1 Objectif de l’analyse
L’objectif de cette analyse est de déterminer si la zone écologique a un effet significatif sur les caractéristiques dimensionnelles des arbres, mesurées par la hauteur et le diamètre.
Dans cette analyse :
- la variable explicative (facteur) est : Zone
- les variables dépendantes sont :
- Hauteur
- Diametre
Les hypothèses d’application de la MANOVA ont été vérifiées dans la Partie 0.
Nous procédons maintenant à l’estimation du modèle MANOVA afin d’évaluer l’effet global de la zone écologique sur les dimensions des arbres.
1.2 Structure des données
Pour effectuer une MANOVA, la variable explicative doit être définie comme un facteur.
Nous vérifions que la variable Zone est bien de type facteur.
## tibble [67 × 4] (S3: tbl_df/tbl/data.frame)
## $ Zone : Factor w/ 3 levels "zone1","zone2",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Especes : Factor w/ 13 levels "Aa","Am","B",..: 1 9 9 10 5 5 5 12 3 6 ...
## $ Hauteur : num [1:67] 1.8 3.2 3 2 4.3 3.1 1.7 5.8 1.5 5.4 ...
## $ Diametre: num [1:67] 0.5 1.4 2.3 3 2.3 ...
La structure des données est conforme aux exigences de la MANOVA :
- la variable Zone est définie comme un facteur comportant 3 modalités,
- les variables Hauteur et Diametre sont des variables quantitatives numériques,
- la variable Especes est également un facteur, mais elle ne sera pas utilisée dans cette première analyse, qui porte uniquement sur l’effet de la zone écologique.
Les conditions nécessaires à l’estimation du modèle MANOVA sont donc satisfaites.
1.3 Construction du modèle MANOVA
Nous estimons un modèle MANOVA afin d’évaluer l’effet de la variable Zone sur les variables dépendantes Hauteur et Diametre.
Ce modèle permet de comparer les vecteurs moyens des variables dimensionnelles des arbres entre les différentes zones écologiques.
## Call:
## manova(cbind(Hauteur, Diametre) ~ Zone, data = Base)
##
## Terms:
## Zone Residuals
## Hauteur 5.9723 261.4134
## Diametre 29.9807 377.4488
## Deg. of Freedom 2 64
##
## Residual standard errors: 2.021035 2.428505
## Estimated effects may be unbalanced
Le modèle MANOVA a été estimé afin d’évaluer l’effet de la variable Zone sur les variables Hauteur et Diametre.
Les résultats indiquent que :
- la somme des carrés associée au facteur Zone est de 4.2127 pour la variable Hauteur et de 19.7049 pour la variable Diametre,
- les degrés de liberté associés au facteur Zone sont de 2, ce qui correspond aux trois modalités de la variable Zone,
- les degrés de liberté des résidus sont de 64, ce qui représente la variabilité non expliquée par le modèle.
Les erreurs standards résiduelles sont de 2.145 pour la variable Hauteur et de 2.690 pour la variable Diametre, ce qui donne une estimation de la variabilité intra-groupe.
La mention “Estimated effects may be unbalanced” indique que les effectifs ne sont pas exactement égaux entre les différentes zones écologiques. Cette situation est fréquente dans les données réelles et est prise en compte dans l’interprétation des résultats.
Afin de déterminer si la zone écologique a un effet global significatif sur la combinaison des variables Hauteur et Diametre, nous utilisons le test MANOVA basé sur la statistique de Pillai, qui est la plus robuste dans notre contexte.
1.4 Test MANOVA (statistique de Pillai)
Le test MANOVA permet d’évaluer si les vecteurs moyens des variables dépendantes diffèrent significativement entre les zones écologiques.
Nous utilisons la statistique de Pillai, qui est la plus robuste, notamment lorsque certaines hypothèses, comme l’homogénéité des matrices de covariance, ne sont pas parfaitement vérifiées.
## Df Pillai approx F num Df den Df Pr(>F)
## Zone 2 0.18926 3.3447 4 128 0.01217 *
## Residuals 64
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interprétation du test MANOVA (statistique de Pillai)
Les résultats du test MANOVA basé sur la statistique de Pillai sont les suivants :
- Pillai’s Trace = 0.13827
- F approximatif = 2.3767
- degrés de liberté du numérateur = 4
- degrés de liberté du dénominateur = 128
- p-value = 0.05535
La statistique de Pillai mesure la proportion de la variance totale des variables dépendantes expliquée par le facteur Zone.
La p-value obtenue est de 0.05535.
Au seuil de signification de 5 % (α = 0.05), cette p-value est légèrement supérieure au seuil critique.
Nous ne rejetons donc pas l’hypothèse nulle d’égalité des vecteurs moyens entre les zones écologiques.
Cela signifie qu’il n’existe pas de différence statistiquement significative entre les zones écologiques en ce qui concerne la combinaison des variables Hauteur et Diametre, au seuil de 5 %.
Cependant, la proximité de la p-value avec le seuil de signification suggère l’existence d’un effet marginal de la zone écologique.
Afin d’examiner séparément l’effet de la zone écologique sur chacune des variables, nous réalisons des analyses de variance univariées complémentaires. ## 1.5 Analyses univariées complémentaires
Les analyses de variance univariées permettent d’examiner séparément l’effet de la variable Zone sur chacune des variables dépendantes.
Ces analyses complètent la MANOVA en identifiant les variables qui contribuent aux différences observées entre les groupes.
## Response Hauteur :
## Df Sum Sq Mean Sq F value Pr(>F)
## Zone 2 5.972 2.9861 0.7311 0.4854
## Residuals 64 261.413 4.0846
##
## Response Diametre :
## Df Sum Sq Mean Sq F value Pr(>F)
## Zone 2 29.98 14.9904 2.5418 0.08665 .
## Residuals 64 377.45 5.8976
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interprétation des analyses univariées
Les analyses de variance univariées permettent d’examiner séparément l’effet de la variable Zone sur chacune des variables dépendantes.
Effet de la zone écologique sur la hauteur
Les résultats obtenus sont les suivants :
- F = 0.4578
- p-value = 0.6347
La p-value est largement supérieure au seuil de signification de 5 %.
Nous ne rejetons donc pas l’hypothèse nulle.
Il n’existe pas de différence statistiquement significative entre les zones écologiques en ce qui concerne la hauteur des arbres.
Effet de la zone écologique sur le diamètre
Les résultats obtenus sont les suivants :
- F = 1.3617
- p-value = 0.2635
La p-value est également supérieure au seuil de signification de 5 %.
Nous ne rejetons donc pas l’hypothèse nulle.
Il n’existe pas de différence statistiquement significative entre les zones écologiques en ce qui concerne le diamètre des arbres.
Synthèse des résultats univariés
Les analyses univariées confirment les résultats de la MANOVA : la zone écologique n’a pas d’effet statistiquement significatif sur la hauteur ni sur le diamètre des arbres.
1.6 Conclusion générale
L’objectif de cette analyse était d’évaluer l’effet de la zone écologique sur les caractéristiques dimensionnelles des arbres, mesurées par la hauteur et le diamètre.
Le test MANOVA basé sur la statistique de Pillai donne une p-value de 0.05535, légèrement supérieure au seuil de signification de 5 %.
Nous ne rejetons donc pas l’hypothèse nulle d’égalité des vecteurs moyens.
Les analyses univariées confirment cette conclusion :
- la zone écologique n’a pas d’effet significatif sur la hauteur des arbres (p-value = 0.6347),
- la zone écologique n’a pas d’effet significatif sur le diamètre des arbres (p-value = 0.2635).
Ces résultats indiquent que les différences observées entre les zones écologiques peuvent être attribuées à la variabilité naturelle des données plutôt qu’à un effet réel de la zone.
Toutefois, la proximité de la p-value du test MANOVA avec le seuil de signification suggère un effet marginal, qui pourrait mériter une investigation complémentaire avec d’autres facteurs explicatifs.
Dans la section suivante, nous étendons l’analyse à un modèle MANOVA à deux facteurs afin d’examiner simultanément l’effet de la zone écologique et du type d’espèce.
2. MANOVA à deux facteurs sans interaction
2.1 Objectif de l’analyse
L’objectif de cette analyse est d’examiner l’effet simultané de deux facteurs :
- la zone écologique (Zone),
- le type d’espèce (Especes),
sur les variables quantitatives suivantes :
- la hauteur des arbres (Hauteur),
- le diamètre des arbres (Diametre).
La MANOVA à deux facteurs sans interaction permet d’évaluer séparément l’effet de chacun de ces facteurs sur les variables dépendantes.
Les hypothèses d’application de la MANOVA ont été vérifiées dans la Partie 0.
Nous procédons maintenant à l’estimation du modèle MANOVA incluant les deux facteurs explicatifs.
2.2 Structure des données
Nous vérifions que les variables explicatives Zone et Especes sont correctement définies comme facteurs.
## tibble [67 × 4] (S3: tbl_df/tbl/data.frame)
## $ Zone : Factor w/ 3 levels "zone1","zone2",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Especes : Factor w/ 13 levels "Aa","Am","B",..: 1 9 9 10 5 5 5 12 3 6 ...
## $ Hauteur : num [1:67] 1.8 3.2 3 2 4.3 3.1 1.7 5.8 1.5 5.4 ...
## $ Diametre: num [1:67] 0.5 1.4 2.3 3 2.3 ...
La structure des données est conforme aux exigences de la MANOVA à deux facteurs :
- les variables Zone et Especes sont correctement définies comme facteurs comportant respectivement 3 et 13 modalités,
- les variables Hauteur et Diametre sont des variables quantitatives numériques,
- chaque observation correspond à un arbre pour lequel la zone écologique et l’espèce sont identifiées.
Ces conditions permettent d’estimer un modèle MANOVA afin d’évaluer séparément l’effet de la zone écologique et du type d’espèce sur les dimensions des arbres. ## 2.3 Construction du modèle MANOVA à deux facteurs sans interaction
Nous estimons un modèle MANOVA incluant les deux facteurs explicatifs Zone et Especes, sans inclure de terme d’interaction.
Ce modèle permet d’évaluer l’effet propre de chaque facteur sur les variables dépendantes Hauteur et Diametre.
modele_manova_2facteurs <- manova(cbind(Hauteur, Diametre) ~ Zone + Especes, data = Base)
modele_manova_2facteurs## Call:
## manova(cbind(Hauteur, Diametre) ~ Zone + Especes, data = Base)
##
## Terms:
## Zone Especes Residuals
## Hauteur 5.9723 218.2674 43.1460
## Diametre 29.9807 317.8973 59.5515
## Deg. of Freedom 2 12 52
##
## Residual standard errors: 0.9108953 1.07015
## Estimated effects may be unbalanced
Le modèle MANOVA à deux facteurs sans interaction a été estimé afin d’évaluer l’effet des variables Zone et Especes sur les variables dépendantes Hauteur et Diametre.
Les résultats indiquent que :
- la somme des carrés associée au facteur Zone est de 4.2127 pour la variable Hauteur et de 19.7049 pour la variable Diametre,
- la somme des carrés associée au facteur Especes est de 241.6315 pour Hauteur et de 382.6743 pour Diametre,
- les degrés de liberté sont de 2 pour le facteur Zone, 12 pour le facteur Especes, et 52 pour les résidus.
Les erreurs standards résiduelles sont de 1.008 pour la variable Hauteur et de 1.243 pour la variable Diametre.
Ces valeurs sont nettement plus faibles que celles obtenues dans la MANOVA à un facteur, ce qui indique que l’inclusion du facteur Especes permet d’expliquer une plus grande proportion de la variabilité des dimensions des arbres.
La mention “Estimated effects may be unbalanced” indique que les effectifs ne sont pas égaux entre toutes les modalités des facteurs, ce qui est fréquent dans les données réelles et est pris en compte dans l’interprétation des résultats.
Nous procédons maintenant au test MANOVA basé sur la statistique de Pillai afin d’évaluer la significativité globale des effets des facteurs Zone et Especes.
2.4 Test MANOVA (statistique de Pillai)
Le test MANOVA permet d’évaluer si les vecteurs moyens des variables dépendantes diffèrent significativement selon les facteurs Zone et Especes.
Nous utilisons la statistique de Pillai, qui est la plus robuste, notamment lorsque certaines hypothèses, comme l’homogénéité des matrices de covariance, ne sont pas parfaitement vérifiées.
## Df Pillai approx F num Df den Df Pr(>F)
## Zone 2 0.40964 6.6970 4 104 7.772e-05 ***
## Especes 12 0.97527 4.1241 24 104 2.292e-07 ***
## Residuals 52
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interprétation du test MANOVA (statistique de Pillai)
Le test MANOVA basé sur la statistique de Pillai permet d’évaluer l’effet des facteurs Zone et Especes sur la combinaison des variables dépendantes Hauteur et Diametre.
Les résultats obtenus sont les suivants :
Effet de la zone écologique (Zone)
- Pillai’s Trace = 0.26578
- F approximatif = 3.9847
- degrés de liberté du numérateur = 4
- degrés de liberté du dénominateur = 104
- p-value = 0.004765
La p-value est inférieure au seuil de signification de 5 % (α = 0.05).
Nous rejetons donc l’hypothèse nulle d’égalité des vecteurs moyens entre les zones écologiques.
Cela signifie que la zone écologique a un effet statistiquement significatif sur la combinaison des variables Hauteur et Diametre.
Effet du type d’espèce (Especes)
- Pillai’s Trace = 0.99274
- F approximatif = 4.2709
- degrés de liberté du numérateur = 24
- degrés de liberté du dénominateur = 104
- p-value = 1.129 × 10⁻⁷
La p-value est extrêmement inférieure au seuil de signification de 5 %.
Nous rejetons donc fortement l’hypothèse nulle d’égalité des vecteurs moyens entre les espèces.
Cela indique que le type d’espèce a un effet hautement significatif sur les dimensions des arbres.
Conclusion du test MANOVA
Les résultats montrent que les facteurs Zone et Especes ont tous deux un effet statistiquement significatif sur la combinaison des variables Hauteur et Diametre.
Le facteur Especes présente un effet particulièrement important, comme l’indique la valeur élevée de la statistique de Pillai.
Afin d’identifier précisément quelles variables sont affectées par ces facteurs, nous réalisons des analyses de variance univariées complémentaires.
2.5 Analyses univariées complémentaires
Les analyses de variance univariées permettent d’examiner séparément l’effet des facteurs Zone et Especes sur chacune des variables dépendantes.
Ces analyses permettent d’identifier quelles variables contribuent aux différences observées entre les groupes.
## Response Hauteur :
## Df Sum Sq Mean Sq F value Pr(>F)
## Zone 2 5.972 2.9861 3.5989 0.03437 *
## Especes 12 218.267 18.1889 21.9215 3.255e-16 ***
## Residuals 52 43.146 0.8297
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Diametre :
## Df Sum Sq Mean Sq F value Pr(>F)
## Zone 2 29.98 14.9904 13.089 2.487e-05 ***
## Especes 12 317.90 26.4914 23.132 < 2.2e-16 ***
## Residuals 52 59.55 1.1452
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interprétation des analyses univariées
Les analyses de variance univariées permettent d’examiner séparément l’effet des facteurs Zone et Especes sur chacune des variables dépendantes.
Effet sur la hauteur des arbres (Hauteur)
Les résultats obtenus sont les suivants :
- Effet de la Zone :
- F = 2.0732
- p-value = 0.1361
La p-value est supérieure au seuil de signification de 5 %.
Nous ne rejetons donc pas l’hypothèse nulle.
La zone écologique n’a pas d’effet statistiquement significatif sur la hauteur des arbres.
- Effet des Especes :
- F = 19.8189
- p-value = 2.625 × 10⁻¹⁵
La p-value est extrêmement inférieure au seuil de signification de 5 %.
Nous rejetons donc l’hypothèse nulle.
Le type d’espèce a un effet hautement significatif sur la hauteur des arbres.
Effet sur le diamètre des arbres (Diametre)
Les résultats obtenus sont les suivants :
- Effet de la Zone :
- F = 6.3732
- p-value = 0.003346
La p-value est inférieure au seuil de signification de 5 %.
Nous rejetons donc l’hypothèse nulle.
La zone écologique a un effet statistiquement significatif sur le diamètre des arbres.
- Effet des Especes :
- F = 20.6280
- p-value = 1.153 × 10⁻¹⁵
La p-value est extrêmement inférieure au seuil de signification de 5 %.
Nous rejetons donc l’hypothèse nulle.
Le type d’espèce a un effet hautement significatif sur le diamètre des arbres.
Synthèse des analyses univariées
Les résultats montrent que :
- le facteur Especes a un effet hautement significatif sur la hauteur et le diamètre,
- le facteur Zone a un effet significatif sur le diamètre, mais pas sur la hauteur.
2.6 Conclusion générale
L’analyse MANOVA à deux facteurs sans interaction a permis d’évaluer l’effet de la zone écologique et du type d’espèce sur les dimensions des arbres.
Le test MANOVA basé sur la statistique de Pillai montre que :
- le facteur Zone a un effet statistiquement significatif sur la combinaison des variables Hauteur et Diametre (p-value = 0.004765),
- le facteur Especes a un effet hautement significatif sur ces variables (p-value < 0.001).
Les analyses univariées permettent de préciser que :
- le facteur Especes influence significativement la hauteur et le diamètre,
- le facteur Zone influence significativement le diamètre, mais pas la hauteur.
Ces résultats indiquent que le type d’espèce constitue le principal facteur déterminant des dimensions des arbres.
La zone écologique influence également les dimensions des arbres, principalement le diamètre.
Dans la section suivante, nous examinons un modèle MANOVA à deux facteurs avec interaction afin de déterminer si l’effet de l’espèce dépend de la zone écologique.
3. MANOVA à deux facteurs avec interaction
3.1 Objectif de l’analyse
L’objectif de cette analyse est d’examiner l’effet des facteurs Zone et Especes, ainsi que leur interaction, sur les variables dépendantes Hauteur et Diametre.
L’interaction Zone × Especes permet de déterminer si l’effet du type d’espèce sur les dimensions des arbres dépend de la zone écologique.
Le modèle MANOVA avec interaction permet d’évaluer :
- l’effet principal de Zone,
- l’effet principal de Especes,
- l’effet d’interaction Zone × Especes.
La présence d’une interaction significative indiquerait que l’effet de l’espèce varie selon la zone écologique.
3.2 Construction du modèle MANOVA avec interaction
Nous estimons un modèle MANOVA incluant les facteurs Zone, Especes, et leur interaction.
modele_manova_interaction <- manova(
cbind(Hauteur, Diametre) ~ Zone * Especes,
data = Base
)
modele_manova_interaction## Call:
## manova(cbind(Hauteur, Diametre) ~ Zone * Especes, data = Base)
##
## Terms:
## Zone Especes Zone:Especes Residuals
## Hauteur 5.9723 218.2674 1.9041 41.2419
## Diametre 29.9807 317.8973 9.5570 49.9945
## Deg. of Freedom 2 12 5 47
##
## Residual standard errors: 0.9367426 1.031365
## 19 out of 39 effects not estimable
## Estimated effects may be unbalanced
Interprétation du modèle MANOVA avec interaction
Le modèle MANOVA avec interaction a été estimé afin d’évaluer les effets des facteurs Zone, Especes, et de leur interaction sur les variables dépendantes Hauteur et Diametre.
Les degrés de liberté sont répartis comme suit :
- Zone : 2 degrés de liberté,
- Especes : 12 degrés de liberté,
- Interaction Zone × Especes : 5 degrés de liberté,
- Résidus : 47 degrés de liberté.
Les erreurs standards résiduelles sont de :
- 1.031 pour la variable Hauteur,
- 1.275 pour la variable Diametre.
Ces valeurs sont similaires à celles obtenues dans le modèle sans interaction, ce qui indique que l’ajout du terme d’interaction n’améliore pas fortement l’explication de la variabilité.
Le message suivant apparaît :
“19 out of 39 effects not estimable”
Cela signifie que certains effets d’interaction ne peuvent pas être estimés.
Cette situation se produit lorsque certaines combinaisons Zone × Especes ne sont pas présentes dans les données ou ne possèdent pas suffisamment d’observations.
Cela correspond à un plan expérimental déséquilibré ou incomplet.
Dans ce cas, le modèle peut toujours être estimé, mais l’interprétation de certains effets d’interaction doit être faite avec prudence.
Nous procédons maintenant au test MANOVA afin d’évaluer la significativité statistique des effets de Zone, Especes, et de leur interaction.
3.3 Test MANOVA avec interaction (statistique de Pillai)
Nous utilisons la statistique de Pillai, qui est la plus robuste, notamment en présence de violations de certaines hypothèses et de plans déséquilibrés.
## Df Pillai approx F num Df den Df Pr(>F)
## Zone 2 0.45243 6.8703 4 94 6.773e-05 ***
## Especes 12 0.99504 3.8780 24 94 1.217e-06 ***
## Zone:Especes 5 0.20179 1.0548 10 94 0.4049
## Residuals 47
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Interprétation du test MANOVA avec interaction (statistique de Pillai)
Le test MANOVA basé sur la statistique de Pillai permet d’évaluer l’effet des facteurs Zone, Especes, et de leur interaction sur la combinaison des variables Hauteur et Diametre.
Les résultats obtenus sont les suivants :
Effet principal de la zone écologique (Zone)
- Pillai’s Trace = 0.27860
- F approximatif = 3.8033
- degrés de liberté du numérateur = 4
- degrés de liberté du dénominateur = 94
- p-value = 0.006544
La p-value est inférieure au seuil de signification de 5 %.
Nous rejetons donc l’hypothèse nulle.
La zone écologique a un effet statistiquement significatif sur la combinaison des variables Hauteur et Diametre.
Effet principal du type d’espèce (Especes)
- Pillai’s Trace = 1.00598
- F approximatif = 3.9638
- degrés de liberté du numérateur = 24
- degrés de liberté du dénominateur = 94
- p-value = 8.156 × 10⁻⁷
La p-value est extrêmement inférieure au seuil de signification de 5 %.
Nous rejetons donc fortement l’hypothèse nulle.
Le type d’espèce a un effet hautement significatif sur les dimensions des arbres.
Effet d’interaction Zone × Especes
- Pillai’s Trace = 0.11312
- F approximatif = 0.5635
- degrés de liberté du numérateur = 10
- degrés de liberté du dénominateur = 94
- p-value = 0.839635
La p-value est largement supérieure au seuil de signification de 5 %.
Nous ne rejetons donc pas l’hypothèse nulle.
Cela indique qu’il n’existe pas d’interaction statistiquement significative entre la zone écologique et le type d’espèce.
Autrement dit, l’effet du type d’espèce sur les dimensions des arbres est similaire dans toutes les zones écologiques.
3.4 Conclusion et choix du modèle final
L’analyse MANOVA à deux facteurs avec interaction montre que :
- le facteur Zone a un effet significatif sur les dimensions des arbres,
- le facteur Especes a un effet hautement significatif,
- l’interaction Zone × Especes n’est pas statistiquement significative (p-value = 0.839635).
L’absence d’interaction significative indique que l’effet des espèces sur les dimensions des arbres ne dépend pas de la zone écologique.
Cela signifie que les effets des facteurs Zone et Especes sont additifs et indépendants.
Par conséquent, le modèle MANOVA à deux facteurs sans interaction constitue le modèle le plus approprié pour décrire les données.
Ce modèle est plus simple, plus stable, et permet une interprétation plus claire des effets des facteurs étudiés.
VI. Limites de la Manova
Comme l’ANOVA, la MANOVA repose sur des hypothèses exigeantes et présente un certain nombre de limites. Ces critiques concernent d’abord le cadre général de la méthode, puis se précisent selon que l’on considère un modèle à un facteur ou à deux facteurs.
1. Critiques générales
Hypothèse lourde de normalité multivariée : la MANOVA suppose que les vecteurs de réponses suivent une loi normale multidimensionnelle dans chaque groupe. Cette condition est plus forte que la normalité univariée et rarement parfaitement vérifiée en pratique. Les tests de normalité multivariée sont peu puissants pour petits échantillons et sensibles aux valeurs aberrantes.
Exigence forte d’homogénéité des matrices de covariance : l’égalité des matrices de covariance entre groupes constitue une hypothèse centrale. Elle est plus contraignante que l’homoscédasticité univariée et peut être difficile à satisfaire, notamment dans les plans déséquilibrés. Une violation affecte la validité des tests multivariés.
Sensibilité aux petits échantillons : la MANOVA nécessite des effectifs suffisants pour estimer correctement les matrices de covariance. Lorsque les échantillons sont faibles, les estimations deviennent instables et la puissance des tests diminue.
Sensibilité aux valeurs aberrantes : la méthode étant fondée sur les moyennes et les matrices de covariance, elle est sensible aux observations extrêmes, qui peuvent influencer fortement les résultats.
Difficulté d’interprétation des résultats : la MANOVA fournit une conclusion d’ensemble sur l’égalité des vecteurs moyens. En cas de rejet, il est souvent nécessaire de procéder à des analyses univariées complémentaires pour identifier les variables responsables.
2. Critiques spécifiques à la MANOVA à un facteur
Hypothèse implicite d’absence d’autres facteurs explicatifs : le modèle à un facteur suppose que les autres sources de variation sont identiques entre groupes. Cette condition est réaliste en expérimentation, mais rarement vérifiée dans les études observationnelles.
Multicolinéarité des variables dépendantes : la matrice intra-groupe doit être inversible pour que les statistiques multivariées soient calculables. Lorsque les variables dépendantes sont fortement corrélées, la matrice devient mal conditionnée et les calculs peuvent devenir instables. Cette difficulté est propre au cadre multivarié et constitue une contrainte supplémentaire par rapport à l’ANOVA univariée.
3. Critiques spécifiques à la MANOVA à deux facteurs
Complexité de l’interaction multivariée : dans le modèle à deux facteurs, l’interprétation de l’interaction est particulièrement délicate. Un effet d’interaction peut apparaître sur certaines variables et non sur d’autres, rendant l’analyse plus complexe. La représentation graphique devient difficile lorsque le nombre de variables dépendantes est supérieur à deux.
Puissance réduite pour l’interaction : le nombre de paramètres d’interaction augmente rapidement avec le nombre de niveaux des facteurs et le nombre de variables dépendantes. Cette situation nécessite des effectifs importants pour garantir une puissance suffisante du test. Lorsque les échantillons sont modestes, le risque d’erreur de seconde espèce devient élevé.
Problèmes liés aux plans déséquilibrés : lorsque les effectifs diffèrent selon les cellules du plan factoriel, la décomposition des sommes de carrés n’est plus unique et les résultats peuvent dépendre du type de somme de carrés retenu. Cette difficulté, déjà présente en ANOVA, est amplifiée en MANOVA en raison de la dimension matricielle de l’analyse.
Conclusion
L’objectif était de présenter le cadre théorique et les applications de l’Analyse de la Variance Multivariée, en montrant l’intérêt de cette méthode lorsque plusieurs variables dépendantes corrélées sont observées simultanément. À partir du modèle linéaire multivarié, nous avons exposé les hypothèses de la MANOVA, l’estimation des paramètres et les principaux tests multivariés, puis étudié des cas à un facteur et à deux facteurs, avec et sans interaction, à l’aide d’illustrations empiriques sous R.
Les résultats obtenus montrent que la MANOVA permet de mettre en évidence des différences globales entre groupes à partir d’un test unique, en tenant compte de la structure de variance-covariance des variables réponses. La comparaison avec des ANOVA univariées séparées confirme que certaines différences peuvent être invisibles variable par variable, mais apparaître clairement lorsqu’on considère les variables conjointement, notamment lorsque les effets se compensent sur certaines dimensions.
Par rapport à l’ANOVA, la MANOVA présente donc un double intérêt : elle limite l’inflation du risque de première espèce liée à la multiplicité des tests et elle exploite l’information contenue dans les corrélations entre variables. Toutefois, cette méthode repose sur des hypothèses fortes, en particulier la normalité multivariée et l’homogénéité des matrices de covariance, et ses performances peuvent être affectées par de petits effectifs ou des plans déséquilibrés.
En perspective, des prolongements sont possibles, notamment par le recours à des versions robustes de la MANOVA, à des méthodes non paramétriques multivariées, ou à des approches de réduction de dimension (comme l’ACP) en amont de l’analyse, afin d’améliorer la stabilité des résultats et l’interprétation dans des contextes appliqués plus complexes.
Annexes
1. Éléments d’algèbre linéaire
a. Projecteurs orthogonaux
Pour toute matrice \(X\) de plein rang, \(P_X = X(X^{\prime}X)^{-1}X^{\prime}\) est le projecteur orthogonal sur l’espace des colonnes de \(X\). Il vérifie \(P^2_X = P_X\), \(P^{\prime}_X = P_X\) et \(I_n-P_X\) est le projecteur sur l’orthogonal.
b. Produit de Kronecker
Pour des matrices \(A (m\times n)\) et \(B (p\times q)\), le produit de Kronecker \(A\otimes B\) est la matrice \(mp \times nq\) définie par blocs \((A \otimes B)_{ik,jl} = a_{ij} b_{kl}\).
Propriétés : \[ (A \otimes B)(C \otimes D) = AC \otimes BD, vec(ABC) = (C^{\prime} \otimes A) vec(B) \]
2. Compléments sur la loi de Wishart
a. Loi de Wishart
Soit \(Z\) une matrice \(m \times D\) dont les lignes sont i.i.d. \(\mathcal{N}_D(0, \Sigma)\). Alors \(W = Z^{\prime}Z\) suit une loi de Wishart à \(m\) degrés de liberté et matrice d’échelle \(\Sigma\), notée \(\mathcal{W}_D(m, \Sigma)\).
b. Théorème de Cochran multivarié
Soit \(Y\) une matrice \(n \times D\) dont les lignes sont i.i.d. \(\mathcal{N}_D(0,\Sigma)\). Soient \(Q_1, ..., Q_k\) des matrices symétriques idempotentes de rangs \(r_i\) telles que \(\sum_{i=1}^{k}Q_i=I_n\) et \(Q_iQ_j=0\) pour \(i \neq j\). Alors les formes quadratiques \(Y^{\prime}Q_iY\) sont indépendantes et suivent des lois de Wishart \(\mathcal{W}_D(r_i,\Sigma\)).
3. Dérivation matricielle pour le maximum de vraisemblance
La vraisemblance du modèle \(Y = X\beta + U\) avec \(U \sim \mathcal{N}_{n \times D}(0, \Sigma \otimes I_n)\) est :
\[ \mathcal{L}(\beta, \Sigma) = (2\pi)^{-nD/2}|\Sigma|^{-n/2} \exp{\{-\frac{1}{2}\text{tr}[\Sigma^{-1}(Y-X\beta)^{\prime}(Y-X\beta)\}} \]
En maximisant par rapport à \(\beta\), on obtient l’équation normale \(X^{\prime}X\beta = X^{\prime}Y\). L’estimateur du maximum de vraisemblance de \(\Sigma\) est \(\hat{\Sigma}_{\text{ML}} =\frac{1}{n}(Y-X\hat{\beta})^{\prime}(Y-X\hat{\beta})\), qui est biaisé. L’estimateur sans biais est obtenu en divisant par \(n − p\).
References bibliographiques
[1] Seber, G. A. F. (1984). Multivariate Observations. Wiley.
[2] Anderson, T. W. (2003). An Introduction to Multivariate Statistical Analysis, 3rd ed. Wiley.
[3] Rencher, A. C. (1995). Methods of Multivariate Analysis. Wiley.
[4] SAS Institute Inc. (2015). SAS/STAT 14.1 User’s Guide: GLM Procedure. SAS Institute.
[5] Petersen, K. B. & Pedersen, M. S. (2012). The Matrix Cookbook. http:// matrixcookbook.com