CLASE 5 (Estimación. Parte I)

Autor/a

Gerson Rivera

Fecha de publicación

11 julio 2024

ESTIMACIONES CON GML

La función U se denomina estadística de puntuación y, como depende de Y, se puede considerar como una variable aleatoria, es decir:

U=a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)

Su valor esperado es

\begin{aligned} E(U)&=b^{\prime}(\theta) \mathrm{E}[a(Y)]+c^{\prime}(\theta) \\ E[a(Y)]&=-\dfrac{c^{\prime}(\theta)}{b^{\prime}(\theta)} \end{aligned}

De lo anterior se tiene:

\begin{aligned} \mathrm{E}(U) & =b^{\prime}(\theta)\left[-\frac{c^{\prime}(\theta)}{b^{\prime}(\theta)}\right]+c^{\prime}(\theta) \\ & =-c^{\prime}(\theta)+c^{\prime}(\theta) \\ & =0 \end{aligned}

La varianza de U se llama información y se indicará con \mathfrak{J}. Usando la fórmula para la varianza de una transformación lineal de variables aleatorias. Aplicando la definición se demuestra que:

\mathfrak{J}=\operatorname{var}(U)=\left[b^{\prime}(\theta)^{2}\right] \operatorname{var}[a(Y)]

Aplicando definición de varianza en términos de la Esperanza:

\begin{aligned} \operatorname{var}(U) & =\operatorname{var}\left[\underline{a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)}\right] \\ & =E\{U-E(U)\}^{2} \\ & =E[a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)-\underbrace{E\left(a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)\right)}]^{2} \\ & =E\left[a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)-0\right]^{2} \\ & =E\left[a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)\right]^{2} &&\rightarrow E[a(Y)]=-\dfrac{c^{\prime}(\theta)}{b^{\prime}(\theta)} \\ & =E\left[a(Y) b^{\prime}(\theta)-b^{\prime}(\theta) E[a(Y)]\right]^{2} &&\rightarrow-b^{\prime}(\theta) E[a(Y)]=c^{\prime}(\theta) \\ & =\left[b^{\prime}(\theta)\right]^{2} E[a(Y)-E(a(Y))]^{2} \\ \operatorname{var}(U)& =\left[b^{\prime}(\theta)\right]^{2} \operatorname{var}[a(Y)] \end{aligned}

Sustituyendo se obtiene:

\begin{aligned} \operatorname{var}(U) & =\left[b^{\prime}(\theta)\right]^{2}\left[\dfrac{\left.b^{\prime \prime}(\theta) c^{\prime}(\theta)-c^{\prime \prime}(\theta) b^{\prime}(\theta)\right]}{\left[b^{\prime}(\theta)\right]^{3}}\right] \\ \operatorname{var}(U) & =\dfrac{b^{\prime \prime}(\theta) c^{\prime}(\theta)-c^{\prime \prime}(\theta) b^{\prime}(\theta)}{b^{\prime}(\theta)} \\ \operatorname{var}(U) & =\dfrac{b^{\prime \prime}(\theta) c^{\prime}(\theta)}{b^{\prime}(\theta)}-c^{\prime \prime}(\theta) \end{aligned}

La estadística de puntuación (Score Statistic) U se utiliza para inferencias sobre los valores de los parámetros en modelos lineales generalizados. Otra propiedad de U que se utilizará más adelante es:

\operatorname{var}(U)=\mathrm{E}\left(U^{2}\right)=-\mathrm{E}\left(U^{\prime}\right)

La primer igualdad \operatorname{var}(U)=\mathrm{E}\left(U^{2}\right), se sigue del resultado general para cualquier variable aleatoria y el hecho de que \mathrm{E}(U)=0 :

\begin{aligned} \text{Se sabe que:} \qquad \operatorname{var}(X)&\underline{=E\left(X^{2}\right)-[E(X)]^{2}} \\ \text{Entonces:} \qquad \operatorname{var}(U)&=E\left(U^{2}\right)-[E(U)]^{2} \\ & =E\left(U^{2}\right)-[0]^{2} \\ & =E\left(U^{2}\right)\\ \\ \text{Por lo tanto, se cumple que:} \qquad var(U)&=E(U^2) \end{aligned}

Para obtener la segunda igualdad, var(U)=-\mathrm{E}\left(U^{\prime}\right) se diferencia con respecto a \theta :

\begin{aligned} U^{\prime}&=\dfrac{d}{d \theta}(U)\\ U^{\prime}&=\dfrac{d}{d \theta}\left(a(Y) b^{\prime}(\theta)+c^{\prime}(\theta)\right) \\ U^{\prime}&=a(Y) b^{\prime \prime}(\theta)+c^{\prime \prime}(\theta) \\ \\ E\left(U^{\prime}\right)&=E\left[a(Y) b^{\prime \prime}(\theta)+c^{\prime \prime}(\theta)\right] \\ E\left(U^{\prime}\right)& =b^{\prime \prime}(\theta) E[a(Y)]+c^{\prime \prime}(\theta) \\ E\left(U^{\prime}\right)& =b^{\prime \prime}(\theta)\left[-\dfrac{c^{\prime}(\theta)}{b^{\prime}(\theta)}\right]+c^{\prime \prime}(\theta) \\ E\left(U^{\prime}\right)& =\dfrac{-b^{\prime \prime}(\theta) c^{\prime}(\theta)+c^{\prime \prime}(\theta) b^{\prime}(\theta)}{b^\prime(\theta)} \\ E\left(U^{\prime}\right)& =-\dfrac{b^{\prime \prime}(\theta) c^{\prime}(\theta)-c^{\prime \prime}(\theta) b^{\prime}(\theta)}{b^\prime(\theta)} \\ E\left(U^{\prime}\right)&=-var(U) \\ \\ \text { Por lo tanto: } \qquad var(U)&=-E\left(U^{\prime}\right)\\ \end{aligned}

Por lo tanto, el valor esperado de U^{\prime} es:

\begin{aligned} \mathrm{E}\left(U^{\prime}\right) & =b^{\prime \prime}(\theta) \mathrm{E}[a(Y)]+c^{\prime \prime}(\theta) \\ & =b^{\prime \prime}(\theta)\left[-\dfrac{c^{\prime}(\theta)}{b^{\prime}(\theta)}\right]+c^{\prime \prime}(\theta) \\ & =-var(U) \\ & =-\mathfrak{J} \end{aligned}

MODELOS LINEALES GENERALIZADOS

Nelder y Wedderburn (1972) demostraron la unidad de muchos métodos estadísticos utilizando la idea de un modelo lineal generalizado. Este modelo se define en términos de un conjunto de variables aleatorias independientes Y_{1}, \ldots, Y_{N}, cada una con una distribución de la familia exponencial y las siguientes propiedades:

  1. La distribución de cada Y_{i} tiene la forma canónica y depende de un solo parámetro \theta_{i}( los \theta_{i} no tienen que ser todos iguales); por lo tanto:

f\left(y_{i} ; \theta_{i}\right)=e^{\displaystyle{\left[y_{i} b_{i}\left(\theta_{i}\right)+c_{i}\left(\theta_{i}\right)+d_{i}\left(y_{i}\right)\right]}}

  1. Las distribuciones de todos los Y_{i} son de la misma forma (por ejemplo, todos Normal o todos Binomiales) de modo que los subíndices en b, c y d no son necesarios.

Por lo tanto, la función de densidad de probabilidad conjunta de Y_{1}, \ldots, Y_{N} es:

\begin{aligned} f\left(y_{1}, \ldots, y_{N} ; \theta_{1}, \ldots, \theta_{N}\right) & =\prod_{i=1}^{N}\left[e^{\displaystyle{\left[y_{i} b\left(\theta_{i}\right)+c\left(\theta_{i}\right)+d\left(y_{i}\right)\right]}}\right] \\ & =\exp\left[\sum_{i=1}^{N} y_{i} b\left(\theta_{i}\right)+\sum_{i=1}^{N} c\left(\theta_{i}\right)+\sum_{i=1}^{N} d\left(y_{i}\right)\right] \end{aligned}

Los parámetros \theta_{i} generalmente no son de interés directo (ya que puede haber uno para cada observación). Para la especificación del modelo, generalmente estamos interesados en un conjunto más pequeño de parámetros \beta_{1}, \ldots, \beta_{p} donde p<N.

Suponga que \mathrm{E}\left(Y_{i}\right)=\mu_{i}, donde \mu_{i} es alguna función de \theta_{i}. Para un modelo lineal generalizado hay una transformación de \mu_{i} tal que:

g\left(\mu_{i}\right)=x_{i}^{T} \beta

Respecto a la ecuación…

Consideraciones:

  1. g es una función diferenciable monótona llamada función de enlace; es decir, es plano, aumenta o disminuye con \mu_{i}, pero no puede aumentar para algunos valores de \mu_{i} \mathrm{y} disminuir para otros valores.

  1. El vector x_{i} es un vector p \times 1 de variables explicativas (covariables y variables ficticias para niveles de factores).

  1. \beta es de p \times 1 vector de parámetros \beta=\left[\begin{array}{c}\beta_{1} \\ \vdots \\ \beta_{p}\end{array}\right]_{p \times 1}

x_{i}=\left[\begin{array}{c} x_{i 1} \\ \vdots \\ x_{i p} \end{array}\right] \text { Así, } x_{i}^{T}=\left[x_{i 1}, \ldots, x_{i p}\right]

El vector x_{i}^{T} es la i ésima fila de la matriz de diseño X. Por tanto, el modelo lineal generalizado tiene tres componentes:

  • Variables de respuesta Y_{1}, \ldots, Y_{N}, que se supone que comparten la misma distribución de la familia exponencial. \rightarrow Aleatoria.
  • Un conjunto de parámetros \beta y variables explicativas \rightarrow Sistemática.
  • Una función de enlace monótona g tal que:

g\left(\mu_{i}\right)=x_{i}^{T} \beta \qquad \text{donde:}\qquad \mu_{i}=\mathrm{E}\left(Y_{i}\right)

ESTIMACIÓN

En resumen se intenta obtener estimaciones puntuales e intervalos de parámetros para modelos lineales generalizados utilizando métodos basados en la máxima verosimilitud. Aunque se pueden encontrar expresiones matemáticas explícitas para estimadores en algunos casos especiales se necesitan métodos numéricos.

Normalmente, estos métodos son iterativos y se basan en el algoritmo de Newton-Raphson. Un modelo comúnmente utilizado para tiempos de falla (o tiempos de supervivencia) es la distribución de Weibull que tiene la función de densidad de probabilidad:

f(y ; \lambda, \theta)=\displaystyle{\dfrac{\lambda y^{\lambda-1}}{\theta^{\lambda}} \underbrace{\exp }_{e}\left[-\left(\frac{y}{\theta}\right)^{\lambda}\right]}

Donde:

  • y>0 es el tiempo de falla.
  • \lambda es un parámetro que determina la forma de la distribución.
  • \theta es un parámetro que determina la escala.