Inferencia a través del método bootsrap (Paramétrico)

Extremadamente útil en situaciones donde resulta complicado determinar errores estándar de estimaciones en forma analítica o a través de resultados asintomáticos. Aplica para estimadores generados por cualquier método (no solo máxima verosimilitud). La idea básica del método es imple y la presentaremos en la siguiente forma:

El procedimiento bootstrap paramétrico puede definirse en términos, de la siguientes etapas:

1.- Para un modelo paramétrico con fda \(F_{\hat{R}}(\underline{Y})\) y fdp o fmp \(f_{\hat{R}}(\underline{Y})\), genere conjuntos de datos \(Y_1^{*},Y_2^{*},...,Y_R^{*}\).

2.- Para cada conjunto de datos simulados compute la estadística de interés \(T\) como \[t_1^*,t_2^*,...,t_R^*\]

3.- Un estimador bootstrap del sesgo.

\[B(t,\theta)\equiv E(T|F_R)-\theta\]

es el siguiente

\[\hat{B}(t,\theta)\equiv E(T|F_\hat{R})-t \longrightarrow \text{ t valor de T en los datos originales}\] Lo cual es en turno estimado por

\[\hat{B}(t,\theta)=\dfrac{1}{R}\sum_{r=1}^R t_r^*-t=\bar{t_R^*}-t\] 4.- Similar mente, el estimador bootstrap de la varianza de T es,

\[\hat{Var}_R(T)=\dfrac{1}{R-1}\sum_{r=1}^R (t_r^*-\bar{t_R^*})^2\]

Comentarios

1.- Debido a que los datos están simulados con un modelo ajustado \(F_{\hat{R}}\) en lugar del moldeo verdadero \(F_{{R}}\), es importante señalar que el método no está directamente estimando el comportamiento de \(T\), si no que eta estimando el comportamiento de \(T-\theta\). Por supuesto \[Var(T-\theta)=Var(T)\] 2.- So se desean momentos de más alto orden, estos pueden calcularse en la misma manera tal como se mostró anteriormente pare el primer y el segundo momento (centrales). De hecho, se puede estimar la distribución entera de \(T-\theta\) en forma especifica. Si

\[P(\mu)\equiv Pr(T-\theta\leq \mu)\] denota una probabilidad acumulada para el quantil \(\mu\),

\[\hat{Pr}(\mu)=\dfrac{1}{R}\sum_{r=1}^R I(t_r^*-t\leq\mu)\] donde \(I(A)\) denota la función indicadora del evento \(A\).

Estimación de quantiles

Estimación de quantiles (percentiles) de la distribución de \(T-\theta\) se logra usando el hecho de que si \(X_1,X_2,...,X_N\) son observaciones independientes e idénticamente distribuidas con función de distribución acumulativa \(K\), entonces

\[E\{X_{[j]}\}\approx K^{-1}\left(\dfrac{j}{N+1} \right)\] donde \(X_{[1]},X_{[2]},...,X_{[N]}\) son los estadísticos de orden ascendente, de la muestra \(X_1,X_2,...,X_N\). Así para una probabilidad dada \(p\), el quantil correspondiente es

\[\mu_p=K^{-1}(p)\] y por tanto, si \(p(N+1)\) es un entero, el valor esperado de \(X_{[p(N+1)]}\) es \(\mu_p\).

Como resultado, un estimador razonable de un quantil es \(\hat{\mu}_p=X_{[p(N+1)]}\). Si se aplica este razonamiento a los \(R\) valores de \(\{t_i^*:i=1,2,...,R\}\) se tiene que una estimación del quantil \(\mu_p\) para la distribución de \(T-\theta\) es el \(p(R+1)-ésimo\) valor ordenado de t^*-t, o

\[\mu_p=t_{[p(R+1)]}-t\] Note que lo anterior asume que \(p(R+1)\) es un entero. Si no, es suficiente con aplicar interpretación directa.

Resultados asintóticos de Bootsrap Paramético

  • \(\hat{P}_R(\mu)\) converge a \(\hat{P}(\mu)\) conforme \(R \rightarrow \infty\)

  • \(\hat{P}(\mu)\) converge a \(R(\mu)\) conforme \(n \rightarrow \infty\)

  • \(\hat{P}_R(\mu)\) El estimador bootstrap basado en \(R\) conjuntos simulados

  • \(\hat{P}(\mu)\) es la función verdadera de \(T-t\) bajo el modelo ajustado \(F_\hat{R}\)

  • \(P(\mu)\) la función de distribución verdadera de \(T-\theta\) bajo el modelo original \(F_R\).

  • La densidad de \(T-\theta\) puede aproximarse analizando un histograma de los valores

\[\{(t^*_r-t:r=1,2,...,R)\}\] Un valor apropiado de DE \(R\) puede determinarse graficando la estimación bootstrap de interés (p.e. \(\hat{B}_R(T,\theta)\) o \(\hat{Var}_R(T,\theta)\)) versus \(R\) y buscar convergencia. Si lo que se desea es estimar la densidad o la función de distribución acumulativa, es generalmente aconsejable doblar de \(R\) que parece razonable. P.e. para momentos de bajo orden si \(R=500\) proporciona convergencia para \(\hat{B}_R(T,\theta)\), se podría tomar \(R=1000\) o aún \(R=5000\) para estimar quantiles o la densidad.

Intervalos de confianza bootstrap básicos

Primeramente, note que desea encontrar valores \((L,U)\) tales que

\[Pr(L\leq\theta\leq U)=1-2\alpha,\] donde la expresión asume implícitamente que se desea \(\alpha\) de probabilidad arriba y \(\alpha\) de probabilidad debajo del intervalo, aunque no asume que el intervalo será simétrico, respecto al estimador puntual \(T\).

Ahora puesto que con bootstrap paramétrico se simula la distribución estimada de \(T-\theta\) y tenemos que

\[Pr(T-L\leq T-\theta\leq T-U)=1-2\alpha\equiv Pr(-L\leq -\theta\leq -U)=1-2\alpha\] \[\equiv Pr(T-U\leq T-\theta\leq T-L)=1-2\alpha\]

Así, \[T-U=\mu_{\alpha}\longrightarrow U=T-\mu_{\alpha}\] \[T-L=\mu_{\alpha}\longrightarrow L=T-\mu_{\alpha}\] donde \(\mu_{\alpha}\) representa el \(\alpha-ésimo\) quantil de la distribución de \(T-\theta\). Así, un intervalo para \(\theta\) está dado por

\[\left( t-(t^*_{[(1-\alpha)(R+1)]}-t),t-(t^*_{[\alpha(R+1)]}-t)\right)\] donde \([X]\) es el entero mas grande menor o igual a \(X\).