Aproximación de Welch-Satterthwaite

Casella y Berger son dos reconocidos estadísticos que dejaron su huella con la escritura de un libro muy utilizado en las maestrías norteamericanas en estadística como libro de texto de primer año. Se distingue por la dificultad de sus ejercicios.

Exponen en el ejemplo 7.2.3 la aproximación de Satterthwaite a una combinación lineal de variables chi cuadrado. Me tomó cuatro o cinco tardes dilucidar cómo llegar de la formulación a la solución, ya que no son para nada explícitos y se saltan varios pasos. Es una buena ejemplificación de la dificultad del libro.

El ejemplo en sí es una exposición interesante para ilustrar la estimación de parámetros por el método de momentos, y que se realiza a partir de varios conceptos básicos previos a la inferencia estadística. Por supuesto, está lleno de trucos algebraicos.

Sean \(Y_1, Y_2, \dots, Y_n\) variables aleatorias con distribuciones independientes \(\chi_{\nu_i}^2\).

Recuérdese que

\[\begin{equation} \label{E_simple} E[Y_i] = \nu_i \end{equation}\]

y que

\[\begin{equation} \label{V_simple} Var[Y_i] = 2\nu_i \end{equation}\]

Sean \(a_1, a_2,\dots,a_k\) constantes conocidas.

¿Cómo es la distribución de una combinación lineal de las variables aleatorias independientes (\(W = \sum{a_iY_i}\))?

Satterthwaite supone que

\[\begin{equation} \label{supuesto} W \sim \frac{\chi_\nu^2}{\nu} \end{equation}\]

e intenta hallar \(\nu\). Dicha suposición proviene de que el problema a resolver era, realmente, hallar una aproximación a la distribución del denominador de una estadística t.

Como se mencionó, utilizó el método de los momentos.

El primer momento poblacional es

\[\begin{equation} \label{momento1} E\Big[\sum{a_iY_i}\Big] = \sum{\Big(a_iE[Y_i}]\Big) = \sum{a_i \nu_i} \end{equation}\]

Pero por las ecuaciones (\(\ref{E_simple}\)) y la definición de la v.a. W,

\[\begin{equation} \label{esperanza} E\big[\sum{a_iY_i}\big] = E\Big[W\Big] = \frac{1}{\nu}E[\chi_\nu^2] = 1 \end{equation}\]

Como no tiene la incógnita (\(\nu\)), no sirve para despejar lo buscado.

Los autores exponen que Satterthwaite toma el segundo momento poblacional \(E\Big[\Big(\sum{a_iY_i}\Big)^2\Big]\), pero a partir de la definición de \(Var[W] = E[W^2] - E[W]^2\):

\[\begin{equation} \label{formula} E\Big[\Big(\sum{a_iY_i}\Big)^2\Big] = Var\Big[\sum{a_iY_i}\Big] + E\Big[\sum{a_iY_i}\Big]^2 = Var\big[\sum{a_iY_i}\big] + 1 \end{equation}\]

Obsérvese que por la ecuación (\(\ref{esperanza}\)), \(E\Big[\sum{a_iY_i}\Big]^2 = 1\).

Ahora, por ser variables independientes,

\[\begin{equation} \label{varianza} Var\big[\sum{a_iY_i}\big] = \sum\big({a_i^2}Var[Y_i]\big) = 2\sum{a_i^2\nu_i} \end{equation}\]

No parece ser un camino que lleve al resultado buscado.

Satterthwaite intentó de otra manera. Por la ecuación (\(\ref{V_simple}\)) y la definición de W,

\[\begin{equation} \label{varianza2} Var\big[\sum{a_iY_i}\big] = Var\Big[W\Big] = \frac{1}{\nu^2}Var[\chi^2_{\nu}] = \frac{2\nu}{\nu^2} = \frac{2}{\nu} \end{equation}\]

Así que el segundo momento (ecuación (\(\ref{formula}\))) \(E\Big[\Big(\sum{a_iY_i}\Big)^2\Big] = \frac{2}{\nu} + 1\)

Despejando \(\hat{\nu} = \frac{2}{\Big(\sum_{i=1}^{n}{a_iY_i}\Big)^2 - 1}\)

Casella y Berger comentan que el resultado podría dar algo negativo, lo cual no es bueno, así que indican que Satterthwaite buscó una alternativa.

\[\begin{equation} \label{formula2} E\Big[\Big(\sum{a_iY_i}\Big)^2\Big] = Var\Big[\sum{a_iY_i}\Big] + E\Big[\sum{a_iY_i}\Big]^2 = E\Big[\sum{a_iY_i}\Big]^2\Bigg(\frac{Var\big[\sum{a_iY_i}\big]}{E\Big[\sum{a_iY_i}\Big]^2} + 1\Bigg) \end{equation}\]

Por la ecuación (\(\ref{esperanza}\)), \(E\Big[\sum{a_iY_i}\Big]^2 = 1\) que aplicó sólo al primer factor.

\[E\Big[\Big(\sum{a_iY_i}\Big)^2\Big] = \Bigg(\frac{Var\big[\sum{a_iY_i}\big]}{E\Big[\sum{a_iY_i}\Big]^2} + 1\Bigg)\]

entonces, igualando los segundos momentos

\[\frac{2}{\nu} + 1 = \Bigg(\frac{Var\big[\sum{a_iY_i}\big]}{E\Big[\sum{a_iY_i}\Big]^2} + 1\Bigg)\]

\[\hat{\nu} = \frac{2E\Big[\sum{a_iY_i}\Big]^2}{Var\big[\sum{a_iY_i}\big]}\]

Ya se mencionó que por ser variables independientes se llega a la ecuación (\(\ref{varianza}\)): \(Var\big[\sum{a_iY_i}\big] = 2\sum{a_i^2Var[Y_i]}\).

Satterthwaite utilizó un truco algebraico partiendo de las ecuaciones (\(\ref{E_simple}\)) y (\(\ref{V_simple}\)):

\[Var[Y_i] = 2\nu_i = \frac{2\nu_i^2}{\nu_i} = \frac{2E[Y_i]^2}{\nu_i}\]

Así que:

\[Var\big[\sum{a_iY_i}\big] = \sum{a_i^2Var[Y_i]} = \sum{a_i^2\frac{2E[Y_i]^2}{\nu_i}}\]

De nuevo, igualando los segundos momentos:

\[\hat{\nu} = \frac{2E\Big[\sum{a_iY_i}\Big]^2}{\sum{a_i^2\frac{2E[Y_i]^2}{\nu_i}}} = \frac{E\Big[\sum{a_iY_i}\Big]^2}{\sum{\frac{a_i^2}{\nu_i}E[Y_i]^2}}\]

Satterthwaite eliminó las esperanzas a manera de aproximación:

\[\hat{\nu} \approx \frac{\Big(\sum{a_iY_i}\Big)^2}{\sum{\frac{a_i^2}{\nu_i}Y_i^2}}\]

Es un estimador que siempre es positivo.

Hasta aquí Casella y Berger.

Hay que añadir que cada \(Y_i\) es realmente la varianza muestral \(S_i^2\), por tanto, la versión moderna de la ecuación Satterthwaite es:

\[\hat{\nu} \approx \frac{\Big(\sum{a_iS_i^2}\Big)^2}{\sum{\frac{(a_iS_i)^2}{\nu_i}}}\]

Como usualmente \(\nu_i = n_i -1\), queda:

\[\hat{\nu} \approx \frac{\Big(\sum{a_iS_i^2}\Big)^2}{\sum{\frac{(a_iS_i)^2}{n_i-1}}}\]

Es la fórmula que aproxima los grados de libertad efectivos en situaciones donde se combinan estimadores de varianzas ponderadas provenientes de distintas muestras. Es decir, útil cuando se restringen los \(a_i\) de tal modo que \(\sum{a_i} = 1\).

Si fueran sólo dos:

\[\hat{\nu} \approx \frac{\Big(a_1S_1^2+a_2S_2^2\Big)^2}{\frac{(a_1S_1)^2}{n_1 - 1}+\frac{(a_2S_2)^2}{n_2 - 1}}\]

Sea \(a_i = \frac{1}{n_i}\), entonces,

\[\hat{\nu} \approx \frac{\big(S_1^2/n_1+S_2^2/n_2\big)^2}{\frac{\big(S_1^2/n_1\big)^2}{n_1 - 1}+\frac{\big(S_2^2/n_2\big)^2}{n_2 - 1}}\]

que es la aproximación de Satterthwaite específicamente desarrollada para calcular los grados de libertad efectivos cuando se comparan dos poblaciones con varianzas desiguales.

Aproximación de Welch-Satterthwaite

Fernando López Torrijos

2021