Cálculo de las propiedades de los estimadores para el caso de variables aleatorias exponenciales

Me parece fascinante la coherencia del cuerpo de conocimiento que ha desarrollado la disciplina estadística durante el siglo XX. El siguiente ejemplo integra en la resolución de una pregunta aparentemente sencilla varios postulados previos de varios temas. Me tomó varias sentadas redactar un documento que me dejara satisfecho en su exposición.

Espero que al lector estadístico también le de satisfacción ver cómo se integran los varios temas para llegar a la respuesta.

Pregunta:

Sea \(x \sim Exp(\lambda) = \lambda e^{-\lambda x}, \quad x\ge 0\)

Sea una sucesión de variables aleatorias \(X_1, X_2, \dots, X_n\), iid tales que, \(X_i \sim Exp(\lambda)\) y \(\bar{X} = \frac{\sum_n{X_i}}{n}\).

Sea el estimador de \(\hat\lambda = \frac{1}{\bar{X}}\)

Determine si es sesgado, eficiente y consistente.

Para determinar esto, se requieren varios conocimientos previos:

A. Cálculo de \(E\big[\frac{1}{X}\big]\) cuando \(X\) es una variable aleatoria con función de densidad de probabilidad Gamma, con parámetro de forma n y parámetro de tasa \(\lambda\):

Su función de densidad es:

\[f_X(x; n, \lambda) = \frac{\lambda^n}{(n-1)!} x^{n-1} e^{-\lambda x}, \quad \text{para} \, x > 0\]

Para calcular \(E[X^{-1}]\), se aplica la ley del estadístico inconsciente (LOTUS - law of the unconscious statistician), la cual establece que, para una función \(g(X)\), el valor esperado es:

\[E\big[g(X)\big] = \int_0^\infty g(x) f_X(x)dx\]

Para el caso,

\[E[X^{-1}] = \int_0^\infty \frac{1}{x} f_X(x) dx = \int_0^\infty \frac{1}{x} \frac{\lambda^n}{(n-1)!} x^{n-1} e^{-\lambda x} dx\]

Simplificando:

\[E[X^{-1}] = \frac{\lambda^n}{(n-1)!} \int_0^\infty x^{n-2} e^{-\lambda x} dx\]

Dado que se desea resolver la integral \(\int_0^\infty x^{n-2} e^{-\lambda x}dx\) se puede reconocer que tiene la forma de la integral de la función gamma: \(\Gamma(\alpha) = \int_0^\infty x^{\alpha-1} e^{-u} du\).

Para utilizar dicha definición, se realiza el cambio de variable: \(u = \lambda x \; \Rightarrow \; du = \lambda dx\).

Reescrita en términos de \(u\):

\[\int_0^\infty \left( \frac{u}{\lambda} \right)^{n-2} e^{-u} \frac{du}{\lambda}\]

y distribuyendo los términos:

\[\frac{1}{\lambda^{n-1}} \int_0^\infty u^{n-2} e^{-u} du\]

La integral resultante es la definición de la función gamma: \(\Gamma(n-1) = \int_0^\infty u^{n-2} e^{-u} du\). Por lo tanto, el resultado de la integral es: \(\frac{\Gamma(n-1)}{\lambda^{n-1}}\). Si \(n-1\) es un número entero, se cumple que: \(\Gamma(n-1) = (n-2)!\), entonces, la integral queda expresada como: \(\frac{(n-2)!}{\lambda^{n-1}}\).

Sustituyendo este resultado en la expresión para \(E[X^{-1}]\):

\[E\big[X^{-1}\big] = \frac{\lambda^n}{(n-1)!} \cdot \frac{(n-2)!}{\lambda^{n-1}} = \frac{\lambda}{n-1}\]

En este procedimiento, no se ha transformando la variable aleatoria en sí, sino que se ha evaluado una función de ella y promediando su efecto según la densidad de X.

Otra manera de hacerlo es mediante la variable transformada \(Y = 1/X\), la cual sigue una distribución Gamma Inversa con parámetros \((n, \lambda)\):

\[Y \sim \text{Inv-Gamma}(n, \lambda)\]

Su función de densidad es (ver , numeral 6.2.1.1):

\[f_Y(y) = \frac{\lambda^n}{\Gamma(n)} y^{-n-1} e^{-\lambda/y}, \quad y > 0\]

Reordenando los términos:

\[E[Y] = \frac{\lambda^n}{\Gamma(n)} \int_0^\infty y^{-n} e^{-\lambda/y} dy\]

Usando el cambio de variable:

\[u = \frac{\lambda}{y} \quad \Rightarrow \quad y = \frac{\lambda}{u}, \quad dy = -\frac{\lambda}{u^2} du\]

\[E[Y] = \frac{\lambda^n}{\Gamma(n)} \int_\infty^0 \left( \frac{\lambda}{u} \right)^{-n} e^{-u} \left( -\frac{\lambda}{u^2} du \right)\]

Factorizando:

\[E[Y] = \frac{\lambda^n}{\Gamma(n)} \lambda^{-n} \lambda \int_0^\infty u^{n-2} e^{-u} du\]

Reconociendo la integral como la función gamma: \(\Gamma(n - 1) = \int_0^\infty u^{n-2} e^{-u} du\)

\[E[Y] = \frac{\lambda}{\Gamma(n)} \Gamma(n - 1)\]

Para valores enteros de n: \(\Gamma(n) = (n - 1) \Gamma(n - 1)\)

\[E[Y] = \frac{\lambda}{n-1}, \quad \text{para } n > 1\]

Resultado que coincide con el obtenido mediante la Ley del Estadístico Inconsciente (LOTUS) para \(E[X^{-1}]\)

B. En general, un estimador eficiente tiene la varianza mínima entre todos los estimadores insesgados, si su varianza alcanza el límite inferior dado por la desigualdad de Cramér-Rao.

El límite de Cramér-Rao (Cramer-Rao lower bound, CRLB) para un estimador insesgado de un parámetro de \(\theta\) se expresa como:

\[Var[\hat{\theta}] \ge \frac{1}{\mathcal{I}(\theta)}\] donde \(\mathcal{I}(\theta)\) es la información de Fisher para el parámetro \(\theta\).

C. Información de Fisher.

Definición de log-verosimilitud.

Sea una función de densidad de probabilidad \(f_X(x)\) para la cual se desea calcular el parámetro \(\mu\). Reescríbase \(f_{\mu}(x)\).

Se define la log-verosimilitud como \[\ell_x(\mu) = log(f_{\mu}(x))\]

Sea un vector de muestras \(\mathbf{x} = \{x_1, x_2,\dots, x_n\}\), con cada valor \(x_i \overset{iid}{\sim} f_{\mu}(x)\).

Debido a lo idénticas e igualmente distribuidas, \(f_{\mu}(x) = \prod_{i=1}^nf_{\mu}(x_i)\). Entonces, \(\ell_x(\mu) = log(\prod_{i=1}^nf_{\mu}(x_i)) = \sum_{i=1}^nlog(f_{\mu}(x_i))\)

Se define la función de puntaje como la primera derivada de la log-verosimilitud.

Denomínese \(\dot{\ell}_x(\mu)\) como la función de puntaje. Representa qué tan sensible es la función de log-verosimilitud a cambios en el parámetro \(\mu\).

\[\dot{\ell}_x(\mu) = \frac{\partial}{\partial \mu}\ell_x(\mu) = \frac{\partial}{\partial \mu}log(f_{\mu}(x)) = \frac{1}{f_{\mu(x)}}\frac{\partial}{\partial \mu}f_{\mu}(x)\]

ya que \(\frac{d}{dx}log(f(x)) = \frac{1}{f(x)}\dot{f}(x)\)

El valor esperado de la función de puntaje es cero¹, obsérvese:

Tómese la esperanza de \(\dot{\ell}_x(\mu)\) con respecto a la distribución de X:

\[E[\dot{\ell}_x(\mu)] = E \left[ \frac{\partial}{\partial \mu} \log f_{\mu}(X)) \right]\]

Por definición de esperanza:

\[E[\dot{\ell}_x(\mu)] = \int_{-\infty}^{\infty}\frac{\partial}{\partial \mu}\log\Big(f_{\mu}(x)\Big)f_{\mu}(x)dx\]

Vuélvase a utilizar la regla de la derivada del logaritmo:

\(\frac{\partial}{\partial \mu} \log f_{\mu}(x) = \frac{1}{f_{\mu}(x)} \frac{\partial}{\partial \mu} f_{\mu}(x)\). Sustituyendo en la integral:

\[E[\dot{\ell}_x(\mu)] = \int_{-\infty}^{\infty} \left( \frac{1}{f_{\mu}(x)} \frac{\partial}{\partial \mu} f_{\mu}(x)\right) f_{\mu}(x)dx\]

y simplificando:

\[E[\dot{\ell}_x(\mu)] = \int_{-\infty}^{\infty} \frac{\partial}{\partial \mu} f_{\mu}(x)dx\]

Si la derivada y la integral pueden intercambiarse (fórmula de Leibnitz²), se obtiene:

\[E[\dot{\ell}_x(\mu)] = \frac{\partial}{\partial \mu} \int_{-\infty}^{\infty} f_{\mu}(x) dx\]

pero, por la propiedad de las funciones de densidad de probabilidad, \(\int_{-\infty}^{\infty} f(x) dx = 1\), asi que derivando respecto a \(\mu\): \(\frac{\partial}{\partial \mu} 1 = 0\)

\[E[\dot{\ell_x}(\mu)] = \int_x{\dot{\ell_x}(\mu)f_{\mu}(x)dx} = \int_x{\frac{\partial}{\partial\mu}log(f_{\mu}(x))f_{\mu}(x)dx} = \frac{\partial}{\partial\mu}\int_x{log(f_{\mu}(x))f_{\mu}(x)dx}\]

Obsérvese que \(E[\ell_x(\mu)] = E[log(f_{\mu}(x))] = \int_xlog(f_{\mu}(x))f_{\mu}(x)dx\)

Entonces, el último término se convierte en³:

\[E[\dot{\ell_x}(\mu)] = \frac{\partial}{\partial\mu}E[\ell_x(\mu)]\]

y diferenciándolos respecto a \(\mu\):

\[\frac{\partial}{\partial\mu}E[\dot{\ell_x}(\mu)] = \frac{\partial^2}{\partial\mu^2}E[\ell_x(\mu)]\]

Se define el criterio de información de Fisher.

Sea definido \(\mathcal{I}_{\theta}\) como el criterio de información de Fisher: \[\mathcal{I}_{\theta} = \int_x{\dot{\ell}_x(\theta)^2}f_{\theta}(x)dx = E[\dot{\ell}_x^2(\theta)]\]

Se trata del segundo momento de la función de puntaje.

Recuérdese que \(Var[X] = E[X^2] - E[X]^2\). Pero si \(E[X] = 0\), entonces \(Var[X] = E[X^2] = \int_x{x^2f_X(x)dx}\).

Así que, bajo el supuesto, la información de Fisher es la varianza de la función de puntaje. Por ende \(\dot{\ell}_x(\theta) \sim (0, \mathcal{I}_{\theta})\).

D. La función de distribución del estimador de máxima verosimilitud, asintóticamente, tiene una distribución normal: \[EMV(\theta) = \hat{\theta} \sim N\Big(\theta, \frac{1}{\mathcal{I}_{\theta}}\Big)\]

La afirmación se deduce de que el estimador de máxima verosimilitud \(\hat{\theta}\) es el valor que maximiza la función de verosimilitud \(L(\theta)\), o equivalentemente, el logaritmo de la verosimilitud: \(\hat{\theta} = \arg\max_{\theta} \log L(\theta)\)

Si se expande \({\ell}_x(\theta)\) alrededor del valor verdadero \(\theta_0\) mediante una expansión de Taylor de primer orden:

\[{\ell}_x(\hat{\theta}) \approx {\ell}_x(\theta_o) + (\hat{\theta} - \theta_0) \dot{\ell}_x(\theta_0)\]

Dado que \(E[{\ell}_x(\theta)] = 0\), se puede despejar \(\hat{\theta}\):

\[\hat{\theta} - \theta_0 = - \frac{{\ell}_x(\theta_0)}{\dot{\ell}_x(\theta_0)}\]

La segunda derivada de la log-verosimilitud es conocida como la curvatura de la log-verosimilitud:

Sea la derivada de la esperanza de la función de puntaje:

\[\frac{\partial}{\partial\theta}\int \ell_x(\theta_0)f_\theta(x)dx = 0\]

Aplicando la regla de Leibnitz para la derivada de una integral:

\[\frac{\partial}{\partial\theta}\int \ell_x(\theta_0)f_\theta(x)dx = \int\Big( \dot\ell_x(\theta_0)f_\theta(x) + \ell_x(\theta_0)\frac{\partial}{\partial\theta}f_\theta(x)\Big)dx= 0\]

Como \(\frac{\partial}{\partial\theta}f_\theta(x) = \ell_x(\theta_0)f_\theta(x)\)

\[\int \dot\ell_x(\theta_0)f_\theta(x) + \int \ell_x(\theta_0)\ell_x(\theta_0)f_\theta(x)dx= 0\]

O lo que es lo mismo:

\[E[\dot\ell_x(\theta_0)] + E[\ell^2_x(\theta_0)] = E[\dot\ell_x(\theta_0)] + \mathcal{I}(\theta_0) = 0\]

por tanto,

\[\mathcal{I}(\theta_0) = -E\left[ \dot{\ell}_x(\theta_0) \right]\]

Regresando a \(\hat{\theta} - \theta_0\) y aproximando \(\dot{\ell}_x(\theta_0)\) por su valor esperado⁴, se tiene:

\[\hat{\theta} - \theta_0 \approx \frac{{\ell}_x(\theta_0)}{\mathcal{I}(\theta_0)}\]

La función de puntaje \({\ell}_x(\theta)\) es una suma de variables aleatorias derivadas de los datos, y bajo condiciones regulares, su distribución converge a una normal, debido al Teorema del Límite Central⁵:

\[{\ell}_x(\theta_0) \approx N(0, I_{\theta_0})\]

Se enfatiza de nuevo que esto es válido asintóticamente, es decir, cuando \(n \rightarrow \infty\).

Sustituyendo en la ecuación anterior:

\[\hat{\theta} - \theta_0 \approx \frac{N(0, I_{\theta_0})}{I_{\theta_0}} = N\left(0, \frac{1}{I_{\theta_0}}\right)\]

Es decir,

\[\hat{\theta} \approx N\left(\theta_0,\frac{1}{I_{\theta_0}}\right)\]

A mayor información de Fisher, menor varianza del estimador.

E. Cálculo del límite de Cramér-Rao para una distribución exponencial.

Supongamos que \(f(x; \lambda) = \lambda e^{-\lambda x}, \quad x \geq 0\) son una muestra de una distribución exponencial con parámetro \(\lambda\), es decir, \(X\sim Exp(\lambda)\).

Función de verosimilitud:

\[L(\lambda; x) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}\]

Logaritmo de la función de verosimilitud:

\[\log L(\lambda; x) = n \log \lambda - \lambda \sum_{i=1}^{n} x_i\]

Primera derivada:

\[\frac{\partial}{\partial \lambda} \log L(\lambda; x) = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i\]

Segunda derivada:

\[\frac{\partial^2}{\partial \lambda^2} \log L(\lambda; x) = -\frac{n}{\lambda^2}\]

Información de Fisher:

\[\mathcal{I}(\lambda) = -E\left[ \frac{\partial^2}{\partial \lambda^2} \log L(\lambda; x) \right] = \frac{n}{\lambda^2}\]

Ya se esta en disposición para contestar a la pregunta:

Sea una sucesión de variables aleatorias \(X_1, X_2, \dots, X_n\), iid tales que, \(X_i \sim Exp(\lambda)\) y \(\bar{X} = \frac{\sum_n{X_i}}{n}\).

Sea el estimador de \(\hat\lambda = \frac{1}{\bar{X}}\)

Determine si es sesgado, eficiente y consistente.

Respuesta:

La suma de exponenciales es una función Gamma: \(\sum_n{X_i} \sim Gamma(n, \lambda)\) y

\[\bar{X} \sim \frac{1}{n}Gamma(n, \lambda)\]

Implica que

\[E[\bar{X}] = \frac{1}{n}n\lambda = \lambda\]

Se desea:

\(E[\hat{\lambda}] = E\bigg[\frac{1}{\bar{X}}\bigg]\), por tanto, se trata de la Gamma inversa: \(f(X; \alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{-\alpha-1}exp\Big[-\frac{\beta}{x}\Big]\), pero con \(\alpha = n\) y \(\beta = \lambda\). Por tanto,

\[E[\hat{\lambda}] = E\bigg[\frac{1}{\bar{X}}\bigg] = E\Big[\frac{n}{\sum{X_i}}\Big] = nE\Big[\frac{1}{\sum{X_i}}\Big] = n\frac{\lambda}{n-1} = \frac{n\lambda}{n-1}\]

Como conclusión el estimador propuesto es sesgado pero consistente porque el sesgo disminuye conforme aumenta n, ya que \(\frac{n}{n-1} \rightarrow 1\) a medida \(n \rightarrow \infty\).

Utilizando propiedades de la distribución Gamma inversa, la varianza de \(\lambda\) es:

\[Var[\hat{\lambda}] = \frac{\lambda^2}{n}\]

Por otra parte, para una distribución exponencial con parámetro \(\lambda\) el límite de Cramér-Rao para un estimador insesgado de este parámetro es:

\[Var[\hat{\lambda}] \ge \frac{\lambda^2}{n}\]

Como son iguales, es eficiente.

Esto representa la varianza mínima que cualquier estimador insesgado de \(\lambda\) puede alcanzar.

Excepto si no se cumplen algunas condiciones de regularidad deseables para la teoría asintótica. Por ejemplo, la log-verosimilitud no es diferenciable en algún punto como los valores de frontera; o la inexistencia del primer o segundo momento de la función de densidad, o la inconsistencia del estimador, o que no sea cada miembro de la muestra iid.↩︎
La fórmula de Leibnitz (regla de derivación bajo el signo integral) es: \(\frac{d}{dx}\int_{a(x)}^{b(x)} f(x,\theta)\, d\theta = f(x,b(x))\,b'(x)-f(x,a(x))\,a'(x) + \int_{a(x)}^{b(x)} \frac{\partial}{\partial x} f(x,\theta)\, d\theta\). En el uso que se le da en este documento, la diferenciación se aplica a una integral donde los límites no dependen de \(\theta\), es decir, son constantes, por lo que las derivadas de los límites se anulan. Esto simplifica la fórmula a: \(\frac{d}{d\theta}\int_{a}^{b} f(x,\theta)\,dx = \int_{a}^{b} \frac{\partial}{\partial\theta} f(x,\theta)\,dx\)↩︎
La esperanza y la derivada pueden intercambiarse bajo condiciones regulares.↩︎
La aproximación de la segunda derivada por su valor esperado solo es precisa cuando \(n \rightarrow \infty\).↩︎
El TLC solo es preciso cuando \(n \rightarrow \infty\)↩︎

Cálculo de las propiedades de los estimadores para el caso de variables aleatorias exponenciales

Fernando López-Torrijos F.