markdown
El objetivo de este proyecto es analizar diferentes aspectos de la convergencia del Estimador de Máxima Verosimilitud (EMV) biparamétrico del parámetro \(\theta = (\alpha, \beta)\) en el modelo Gamma, así como calcular los porcentajes de pertenecia al conjunto de confianza elíptico que se obtiene a partir del Teorema del Límite Central (TLC) aplicado al EMV.
Para ello, vamos a implementar el método de Newton–Raphson para estimar los parámetros \((\alpha, \beta)\) a partir de datos simulados bajo la distribución Gamma. Los valores iniciales del proceso serán determinados mediante los estimadores de momentos, lo cual garantiza una buena proximidad al EMV y acelera la convergencia del algoritmo.
A partir de esto, vamos a calcular:
\[ n \cdot \mathrm{Cov}(\hat{\theta}) \approx I_F^{-1}(\theta_0). \]
Todo esto teniendo en cuenta los diferentes tamaños muestrales \(n\).
Nota: En el código de python los datos e información varian cada vez que se ejecuta el código. Los datos en este proyecto están determinandos por una ejecución especifica del código.
Calculemos \(l(\theta)\), con \(\theta = (\alpha, \beta)\), entonces
\[ L(\theta) = \prod_{i=1}^{n} \frac{1}{\Gamma(\alpha)\beta^{\alpha}} x_i^{\alpha - 1} e^{-x_i / \beta} = \left( \frac{1}{\Gamma(\alpha)\beta^{\alpha}} \right)^n \prod_{i=1}^{n} x_i^{\alpha - 1} e^{-x_i / \beta}. \]
De este modo,
\[ l(\theta) = \ln(L(\theta)) = n \ln \left( \frac{1}{\Gamma(\alpha)\beta^{\alpha}} \right) + (\alpha - 1) \sum_{i=1}^{n} \ln(x_i) - \frac{ln(e)}{\beta} \sum_{i=1}^{n} x_i, \] \[ = -n \left( \ln(\Gamma(\alpha)) + \alpha \ln(\beta) \right) + (\alpha - 1) \sum_{i=1}^{n} \ln(x_i) - \frac{1}{\beta} \sum_{i=1}^{n} x_i. \]
Calculando \(\dfrac{\partial l}{\partial \alpha}\) y \(\dfrac{\partial l}{\partial \beta}\), obtenemos
\[ \frac{\partial l}{\partial \alpha} = -n \left( \psi(\alpha) + \ln(\beta) \right) + \sum_{i=1}^{n} \ln(x_i), \]
\[ \frac{\partial l}{\partial \beta} = -\frac{n \alpha}{\beta} + \frac{1}{\beta^2} \sum_{i=1}^{n} x_i, \] donde \(\psi(\alpha) = \frac{\Gamma'(\alpha)}{\Gamma(\alpha)}.\)
Dado \(x_0 = (\alpha_0, \beta_0)^{T}\) vector inicial, entonces utilizando el método de Newton-Raphson obtenemos la sucesión
\[ x_k = x_{k-1} - [DF(x_{k-1})]^{-1} f(x_{k-1}), \] tal que \[ f(x_k) = f(\alpha_k, \beta_k) = \left( \frac{\partial l}{\partial \alpha}(\alpha_k, \beta_k), \, \frac{\partial l}{\partial \beta}(\alpha_k, \beta_k) \right). \]
Luego,
\[ DF = H = \begin{pmatrix} -n \psi'(\alpha) & -\dfrac{n}{\beta} \\ -\dfrac{n}{\beta} & \dfrac{n \alpha}{\beta^2} -\dfrac{2}{\beta^3} \sum_{i=1}^{n} x_i \end{pmatrix}. \]
Vamos a generar el código en python, por lo que para implementar el método de Newton-Raphson, no vamos a calcular la matriz inversa de \(H\); sino que vamos a utilizar la función “linalg.solve” de la libreria “Numpy” para calcular el \([DF(x_k)]^{-1}f(x_k)\).
Por otra parte, para estimar los valores iniciales \((\alpha_0, \beta_0)\) para el método de Newton-Raphson, tenemos que
\[ \mu = \alpha \beta \quad \text{y} \quad \sigma^2 = \alpha \beta^2. \]
Luego,
\[ \mu \beta = \alpha \beta^2 = \sigma^2, \quad \text{es decir,} \quad \beta = \frac{\sigma^2}{\mu}. \]
Además,
\[ \alpha = \frac{\mu}{\beta} = \frac{\mu^2}{\sigma^2}. \]
Como los estimadores de \(\mu\) y \(\sigma^2\) son \(\bar{X}\) y \(s^2\), respectivamente, entonces
\[ \tilde{\alpha} = \frac{\bar{X}^2}{s^2} \quad \text{y} \quad \tilde{\beta} = \frac{s^2}{\bar{X}}. \]
El link de Google Colab donde ejecutamos el código con las muestras, método de N-R y gráficas es el siguiente: https://colab.research.google.com/drive/1H25sHU00KPQZr5nEjkYDYnfK-kbo6KRA?usp=sharing
Las gráficas y boxplots obtenidos son los siguientes:
Además, como se puede visualizar en el código, la cantidad de iteraciones obtenidas son:
“el número aproximado de iteraciones que requiere N-R para converger con n=100 es 2.”
“el número aproximado de iteraciones que requiere N-R para converger con n=200 es 3.”
“el número aproximado de iteraciones que requiere N-R para converger con n=500 es 3.”
“el número aproximado de iteraciones que requiere N-R para converger con n=1000 es 2.”
“el número aproximado de iteraciones que requiere N-R para converger con n=2000 es 2.”
Esto nos dice que la cantidad de iteraciones que necesita el proceso de Newton-Raphson es bastante pequeña, en general menor a 4. Esto se debe a que los valores iniciales de este proceso están bastante cerca del EMV.
Por otra parte, de las gráficas podemos evidenciar que, para cada tamaño muestral, las estimaciones se concentran cerca del punto \((\alpha=2.5 ,\beta= 4.6)\) tanto en las graficas \(\alpha \times \beta\) como en los boxplots. Sin embargo, mientras el tamaño de la muestra es más grande, las estimaciones son menos dispersas; es decir, todas las estimaciones pertenecen a un rango más cercano del EMV.
Primero, encontremos la matriz \(I_F(\theta)\).
Sea \[ l_1 = \ln \left( \frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1} e^{-x/\beta} \right) = -\ln(\Gamma(\alpha)) - \alpha \ln(\beta) + (\alpha - 1)\ln(x) - \frac{x}{\beta}. \]
Entonces,
\[ I_F(\theta) = -\mathbb{E} \begin{pmatrix} \frac{\partial^2 l_1}{\partial \alpha^2} & \frac{\partial^2 l_1}{\partial \alpha \partial \beta} \\[6pt] \frac{\partial^2 l_1}{\partial \beta \partial \alpha} & \frac{\partial^2 l_1}{\partial \beta^2} \end{pmatrix}_{(\alpha,\beta)} \]
\[ = -\mathbb{E} \begin{pmatrix} \frac{\partial}{\partial \alpha} \left[-\psi(\alpha) - \ln(\beta) + \ln(x)\right] & \frac{\partial}{\partial \alpha} \left[-\frac{\alpha}{\beta} + \frac{x}{\beta^2}\right] \\[6pt] \frac{\partial}{\partial \beta} \left[-\psi(\alpha) - \ln(\beta) + \ln(x)\right] & \frac{\partial}{\partial \beta} \left[-\frac{\alpha}{\beta} + \frac{x}{\beta^2}\right] \end{pmatrix}_{(\alpha,\beta)}. \]
\[ = -\mathbb{E} \begin{pmatrix} -h(\alpha) & -\frac{1}{\beta} \\[6pt] -\frac{1}{\beta} & \frac{\alpha}{\beta^2} - \frac{2x}{\beta^3} \end{pmatrix}_{(\alpha,\beta)}. \]
Dado que \(\mathbb{E}(X) = \alpha \beta\), entonces
\[ I_F(\theta) = -\begin{pmatrix} -h(\alpha) & -\frac{1}{\beta} \\[6pt] -\frac{1}{\beta} & \frac{\alpha}{\beta^2}- \frac{2 \alpha \beta}{\beta^3} \end{pmatrix} = \begin{pmatrix} h(\alpha) & \frac{1}{\beta} \\[6pt] \frac{1}{\beta} & \frac{\alpha}{\beta^2} \end{pmatrix}. \]
Por el Teorema del Límite Central (TLC), para \(\hat{\theta}\) tenemos que
\[ \sqrt{n} \, I_F(\hat{\theta})^{1/2} (\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I), \]
donde \(I\) es la matriz identidad.
De esto, tenemos que
\[ n (\hat{\theta} - \theta_0)^T I_F(\hat{\theta}) (\hat{\theta} - \theta_0) \xrightarrow{d} \chi^2_2. \]
De este modo, sea \(\rho\) el cuantil del 95% de \(\chi^2_2\), entonces el conjunto
\[ C = \left\{ \theta : n(\hat{\theta} - \theta)^T I_F(\hat{\theta}) (\hat{\theta} - \theta) \leq \rho \right\} \]
tiene probabilidad del 95% de contener a \(\theta_0\).
De este modo, calculando el porcentaje de veces que \(\theta_0\) pertenece a \(C\) con los valores obtenidos en la primera parte, dados por el código en el link
https://colab.research.google.com/drive/1H25sHU00KPQZr5nEjkYDYnfK-kbo6KRA?usp=sharing
obtenemos,
n=100: porcentaje empírico = 91.20%
n=200: porcentaje empírico = 92.90%
n=500: porcentaje empírico = 94.70%
n=1000: porcentaje empírico = 94.10%
n=2000: porcentaje empírico = 95.30%
De los porcentajes obtenidos, podemos evidenciar que todos estan bastante cerca del 95%.Sin embargo, a medida que el tamaño muestral es más grande, podemos ver que el porcentaje se acerca aún más al 95%. De manera aproximada, a partir de n=500 se cumple de manera muy acertada la probabilidad de contención del valor \(\theta_0\)
Sea \(U\) una matriz \(2 \times 2\) ortogonal tal que \[ U^{\top} I_F(\hat{\theta}) U = D, \] donde \(D\) es la matriz diagonal con los valores propios de \(I_F(\hat{\theta})\).
Entonces, la condición de que \(\theta\) pertenezca a \(C\) es equivalente a \[ n (\hat{\theta} - \theta)^{\top} U D U^{\top} (\hat{\theta} - \theta) \leq \rho. \]
Esto nos dice que \(C\) es una elipse en la variable
\[ Y = U^{\top} (\hat{\theta} - \theta). \]
Calculando el área de esta elipse para cada muestra en el código que se encuentra en el link https://colab.research.google.com/drive/1H25sHU00KPQZr5nEjkYDYnfK-kbo6KRA?usp=sharing
tenemos que,
n=100: área promedio = 1.801
n=200: área promedio = 0.9096
n=500: área promedio = 0.3627
n=1000: área promedio = 0.182
n=2000: área promedio = 0.091
Tenemos que
\[ I_F^{-1}(\hat{\theta}) = \frac{1}{\det(I_F(\hat{\theta}))} \begin{pmatrix} \dfrac{\alpha}{\beta^2} & -\dfrac{1}{\beta} \\[6pt] -\dfrac{1}{\beta} & h(\alpha) \end{pmatrix} \]
\[ I_F^{-1}(\hat{\theta}) = \frac{1}{\dfrac{\alpha h(\alpha)}{\beta^2} - \dfrac{1}{\beta^2}} \begin{pmatrix} \dfrac{\alpha}{\beta^2} & -\dfrac{1}{\beta} \\[6pt] -\dfrac{1}{\beta} & h(\alpha) \end{pmatrix} \]
\[ I_F^{-1}(\hat{\theta}) = \frac{\beta^2}{\alpha h(\alpha) - 1} \begin{pmatrix} \dfrac{\alpha}{\beta^2} & -\dfrac{1}{\beta} \\[6pt] -\dfrac{1}{\beta} & h(\alpha) \end{pmatrix} \]
\[ I_F^{-1}(\hat{\theta}) = \begin{pmatrix} \dfrac{\alpha}{\alpha h(\alpha) - 1} & \dfrac{\beta}{1 - \alpha h(\alpha)} \\[8pt] \dfrac{\beta}{1 - \alpha h(\alpha)} & \dfrac{\beta^2 h(\alpha)}{\alpha h(\alpha) - 1} \end{pmatrix} \]
Por el Teorema del Límite Central (TLC) para \(\hat{\theta}\), la covarianza muestral debería aproximarse a la matriz
\[ {I_F^{-1}(\hat{\theta})}/{n} = \begin{pmatrix} \dfrac{\alpha}{n(\alpha h(\alpha) - 1)} & \dfrac{\beta}{n(1 - \alpha h(\alpha))} \\[8pt] \dfrac{\beta}{n(1 - \alpha h(\alpha))} & \dfrac{\beta^2 h(\alpha)}{n(\alpha h(\alpha) - 1)} \end{pmatrix} \]
Realicemos la comparación de la covarianza y \(I_F^{-1}(\hat{\theta})\) con los datos ya obtenidos en el código, calculando \(n \, \text{Cov}(\hat{\theta}_1, \ldots, \hat{\theta}_m)\) y la diferencia dada por la norma de Frobenius, \[ \| n \, \text{Cov}(\hat{\theta}_1, \ldots, \hat{\theta}_m) - I_F^{-1}(\hat{\theta}) \|. \]
A partir del código en el link
https://colab.research.google.com/drive/1H25sHU00KPQZr5nEjkYDYnfK-kbo6KRA?usp=sharing
obtenemos los resultados:
\(n = 100\): \[ n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) = \begin{pmatrix} 11.90589971 & -20.87728174 \\ -20.87728174 & 46.34487264 \end{pmatrix} \]
\[ I_F^{-1}({\theta}_0) = \begin{pmatrix} 11.06711856 & -20.36349816 \\ -20.36349816 & 45.93283661 \end{pmatrix} \]
\[ \text{Diferencia} = \begin{pmatrix} 0.83878115 & -0.51378358 \\ -0.51378358 & 0.41203603 \end{pmatrix} \]
\[ \| n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) - I_F^{-1}({\theta}_0) \| = 1.183754 \]
\(n = 200\): \[ n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) = \begin{pmatrix} 11.01183439 & -19.71050540 \\ -19.71050540 & 44.23073427 \end{pmatrix} \]
\[ I_F^{-1}({\theta}_0) = \begin{pmatrix} 11.06711856 & -20.36349816 \\ -20.36349816 & 45.93283661 \end{pmatrix} \]
\[ \text{Diferencia} = \begin{pmatrix} -0.05528417 & 0.65299276 \\ 0.65299276 & -1.70210235 \end{pmatrix} \]
\[ \| n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) - I_F^{-1}({\theta}_0) \| = 1.937268 \]
\(n = 500\): \[ n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) = \begin{pmatrix} 11.29648107 & -20.69621874 \\ -20.69621874 & 47.26213895 \end{pmatrix} \]
\[ I_F^{-1}({\theta}_0) = \begin{pmatrix} 11.06711856 & -20.36349816 \\ -20.36349816 & 45.93283661 \end{pmatrix} \]
\[ \text{Diferencia} = \begin{pmatrix} 0.22936251 & -0.33272058 \\ -0.33272058 & 1.32930233 \end{pmatrix} \]
\[ \| n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) - I_F^{-1}({\theta}_0) \| = 1.428656 \]
\(n = 1000\): \[ n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) = \begin{pmatrix} 10.24957025 & -18.63939273 \\ -18.63939273 & 42.15645978 \end{pmatrix} \]
\[ I_F^{-1}({\theta}_0) = \begin{pmatrix} 11.06711856 & -20.36349816 \\ -20.36349816 & 45.93283661 \end{pmatrix} \]
\[ \text{Diferencia} = \begin{pmatrix} -0.81754832 & 1.72410543 \\ 1.72410543 & -3.77637683 \end{pmatrix} \]
\[ \| n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) - I_F^{-1}({\theta}_0) \| = 4.568861 \]
\(n = 2000\): \[ n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) = \begin{pmatrix} 12.00646136 & -21.20800059 \\ -21.20800059 & 45.94323298 \end{pmatrix} \]
\[ I_F^{-1}({\theta}_0) = \begin{pmatrix} 11.06711856 & -20.36349816 \\ -20.36349816 & 45.93283661 \end{pmatrix} \]
\[ \text{Diferencia} = \begin{pmatrix} 0.93934280 & -0.84450243 \\ -0.84450243 & 0.01039637 \end{pmatrix} \]
\[ \| n \cdot \text{Cov}(\hat{\theta}_1, ... , \hat{\theta}_m) - I_F^{-1}(\theta_0) \| = 1.519487 \]
Dados estos datos, la convergencia entre las matrices parece cumplirse, ya que la diferencia dada por la norma entre las matrices es bastante baja, sin embargo no es tan cercana a cero. No obstante, comparando las matrices componente a componente, podemos evidenciar que los valores son muy cercanos teniendo en cuenta que la distancia es menor a 1 en la mayoría de los casos. Por otra parte, la aproximación es buena para valores de n=100, 200, 500, 200; pero no es tan buena para n=1000.
A partir de los resultados obtenidos podemos afirmar que el método de Newton–Raphson converge de manera rápida para la estimación de los parámetros \((\alpha, \beta)\). En todos los tamaños muestrales, el algoritmo converge en menos de cuatro iteraciones, esto se debe a que los valores iniciales calculados utilizando \(\mu\) y \(\sigma^2\) se encuentran bastante cerca del valor verdadero del parámetro.
En cada gráfica, las estimaciones se concentran cerca del punto \((\alpha = 2.5, \beta = 4.6)\), tanto en los diagramas de dispersión como en los boxplots. Mientras que el tamaño muestral \(n\) aumenta, las estimaciones se vuelven menos dispersas, por lo que el EMV funciona de manera correcta.
En los conjuntos de confianza elípticos, se observa que el porcentaje de pertenencia del valor \(\theta_0\) se aproxima al 95% a medida que crece \(n\), partiendo desde 91.2% para \(n=100\) hasta 95.3% para \(n=2000\). De este modo, las áreas promedio de las elipses disminuyen cuando \(n\) aumenta, lo que hace que la estimación sea más precisa.
Finalmente, al comparar \(n \cdot \mathrm{Cov}(\hat{\theta})\) con \(I_F^{-1}(\theta_0)\), observamos que las diferencias entre ambas matrices son relativamente pequeñas. Esto respalda de manera empírica la aproximación de estas dos matrices. Sin embargo, aunque casi todos los tamaños muestrales se evidencia una buena aproximación, para \(n = 1000\) la diferencia resulta ser algo mayor.