Selon le centre d’information sur l’eau, la consommation domestique d’eau potable en France est en baisse depuis une dizaine d’années. Sur un échantillon de 31 personnes interrogées en 2015, on observe les résultats suivants : \(\sum_{i=1}^{31}x_i = 4700\) et \(\sum_{i=1}^{31}x_i^2 = 713212\) où \(x_i\) représente la consommation moyenne, en litres, du \(i\)-ème individu de l’échantillon.
On note \(X\) la consommation moyenne d’eau par jour d’une personne résidant en France en 2015. On fait l’hypothèse que \(X\) suit une loi normale de moyenne \(\mu\) inconnue et de variance \(\sigma^2\)
On suppose d’abord que \(\sigma\) est connue et vaut 5. On utilise donc le modèle \(\{\mathcal{N}(\mu, 5): \mu \in \mathbb{R}\}\)
On propose \(M_n=\overline{X}_n = \frac{1}{n}\sum_{i=1}^nX_i\) comme estimateur pour \(\mu\).
\(E(\overline{X}_n) = E(X) = \mu\) et donc \(\overline{X}_n\) est bien sans biais. \(Var(\overline{X}_n) = \frac{Var(X)}{n} = \frac{25}{n}\)
L’estimation de \(\mu\) associée aux données est \(\hat{\mu}(x_1, \dots, x_{31}) = \overline{x}_n = \frac{1}{31}\sum_{i=1}^{31}x_i = \frac{4700}{31} =\) 151.61
Supposons que la vraie moyenne est \(\mu = 151\).
On va vérifier que \(\overline{X}_n\) est bien sans biais à l’aide de simulations
Les 50 premières simulations
La moyenne des \(10000\) moyennes empiriques est \(\frac{1}{10000}\sum_{k=1}^{10000}m_k =\) 151.01
Le biais est essentiellement nulle
On suppose maintenant que l’on ne connait pas \(\sigma\).
On se place donc dans le modèle \(\{\mathcal{N}(\mu, \sigma): (\mu, \sigma) \in \mathbb{R} \times ]0, +\infty[\}\)
D’après le cours :
\[E(S_n^{2}) = \frac{n-1}{n}\sigma^2 = \sigma^2 - \dfrac{\sigma^2}{n} \ne \sigma^2\]
\(S_n^{2}\) est donc biaisé. Son biais est :
\[ b(S_n^{2}) = E(S_n^{2}) - \sigma^2 = \sigma^2 - \frac{\sigma^2}{n} - \sigma^2 = -\frac{\sigma^2}{n}<0 \]
En moyenne \(S_n^{2}\) sous sous-estime la vraie variance \(\sigma^2\)
Ce qui donne \(s_n^2 \approx \frac{713212}{31} - 151.61^2 =\) 21.25
Supposons que la vraie variance est \(\sigma^2 = 25\).
On va vérifier que \(S_n^{2}\) est biaisée à l’aide de simulations.
La moyenne des \(50000\) variances empiriques est \(\frac{1}{50000}\sum_{k=1}^{50000}s^2_k =\) 24.18 \(\approx \frac{30}{31}\times25 =\) 24.19 (la théorie)
Le biais est égale à \(24.18 - 25 = -0.82 \approx -\frac{25}{31} \approx -0.81\) (la théorie)