Lohã Barbosa
Texto sobre os principais assuntos e métodos de estimação discutidos ao longo do curso de Inferência Estatística 1.
Aplicações no R
Amostras e Distribuições Amostrais;
Estatísticas;
Estimadores e Propriedades dos Estimadores;
Métodos de Estimação e Propriedades dos Estimadores: Método dos Momentos, Máxima Verossimilhança e Mínimos Quadrados;
Consistência;
Estatísticas Suficientes;
Teorema de Cramer-Rao;
Teorema de Rao-Blackwell;
As atividades mais comuns realizadas no R são simulações de como as distribuições de probabilidade funciona e como uma amostra pode assemelhare-se a essas distribuições. O gráfico de curvas, como a Curva normal, calculo de probabilidades está entre as atividades desenvolvidas como por exemplo,
Distribuição binomial: problema da moeda viciada ao ser lançada \(4\) vezes e checar a função de distribuição de probabilidade, distribuição acumulada e o caso de ser honesta. Uma outra maneira de estudar uma amostra é em estudos sobre a incidência de certas doençasEssa atividade pode ser encontrada neste link: atividade 1: Revisão R.
A amostra pode ser entendida como um conjuto de valores de \(n\) variáveis aleatórias independentes e identicamente distribuídas com função de densidade de probabilidade \((f.d.p)\)(caso contínuo) ou função de probabilidade \((f.p.)f(x|\theta)\)(caso discreto) é chamado de amostra aleatória, com tamanho \(n\) de uma distribuição.
\[f(x_1,...,x_n | \theta) = \prod^{n}_{i=1}f(x_i | \theta) = f(x_1| \theta),...,f(x_n | \theta)\]
Tem-se a definição de estatística,Qualquer função da amostra que não depende de parâmetros desconhecidos é denominada uma estatística.
Um exemplo para isso é o calculo de valor mínimo \(X_{(1)} = min(X_1,...,X_n)\), máximo \(X_{(n)} = max(X_1,...,X_n)\), mediana \(\bar{X} = med(X_1,...,X_n)\), média \(\overline{X} = \frac{1}{n}\sum^{n}_{i=1}X_i\) e desvios, como a variancia amostral \(\hat{\sigma}^2 = \frac{1}{n-1}[\sum^{n}_{i=1}(X_i-\overline{X})^2]\).
Tem-se também que um conjunto \(\Theta\) em que \(\theta\) assumi valores é denominado de espaço paramétrico. Assim, uma \(X_1,...,X_n\sim N(\mu,\sigma^2)\). Se \(\sigma^2 =1\), então o \(\theta=\mu\) é o parâmetro desconhecido. Se \(\mu=0\) então \(\theta=\sigma^2\) é o parâmetro desconhecido. Se \(\mu\) e \(\sigma^2\) são desconhecidos, então \(\theta = (\mu,\sigma^2)\). Essa premícia é importante para o entendimento dos estimadores e suas propriedades, pois qualquer estatística que assume valores em um conjunto possível de \(g(\theta)\) é um estimador para \(g(\theta)\).
Para as propriedades, tem-se:
\(EQM(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var[\hat{\theta}]+B^2(\hat{\theta}), B^2(\hat{\theta}) = E[\hat{\theta} - \theta]\).
\(B\) é o vício do estimador de \(\theta\). Quando o estimador \(\hat{\theta}\) é não viciado para \(\theta\) tem-se que o valor esperado do estimador é o prórpio parâmetro. No caso em que \(\hat{\theta}\) é um estimador não viciado para \(\theta\), o \(EQM(\hat{\theta}) = Var(\hat{\theta}).\)
\(E(\bar{X}) = E(\frac{1}{n}\sum^n _{i=1}X_i)=\frac{1}{n}\sum^n _{i=1}E(X_i)=\mu.\)
\(Var(\bar{X}) = \frac{1}{n^2}\sum^{n} _{i=1}Var(X_i)=\frac{\sigma^2}{n}.\)
Assim, \(\bar{X}\) é um estimador não viciado para \(\mu\).
Há o caso da variância amostral
Ou seja, \(\hat{\sigma}^2\) é viciado para \(\sigma^2\), mas quando o tamanho da amostra é muito grande o vício diminui.
Para entender este método tem-se que o \(m_r = \frac{1}{n}\sum^{n} _{i=1} X^{r} _{i}, r \geq 1\) é o \(r-esimo\) momentoamostral de uma amostra aleatória \(X_1,...,X_n\). Este método consiste em obter estimadores para \(\theta = (\theta_1,...,\theta_k)\).
Para entender tem-se que \(X_1,...,X_n\) uma amostra aleatória da distribuição de uma v.a. \(X\), com densidade gamma\((\alpha,\beta)\) dados por \(f(x|\alpha,\beta) = \frac{\beta^{\alpha}x^{\alpha-1}e^{-\beta x}}{\Gamma(\alpha)}, x>0, \alpha>0,\beta>0\). Como já é sabido que \(E(X) = \frac{\alpha}{\beta}\) e \(Var(X)=\frac{\alpha}{\beta^2}\),
\(m_1 = \frac{\hat{\alpha}}{\hat{\beta}}=\frac{1}{n}\sum^{n}_{i=1}X_i\) \((1)\)
\(m_2 = E(X^2)=Var(X_1)+E^2(X_1) = \frac{\hat{\alpha}}{\hat{\beta}^2} + \frac{\hat{\alpha}^2}{\hat{\beta}^2} = \frac{\hat{\alpha}}{\hat{\beta}^2} (1-\hat{\alpha}) = \frac{1}{n}\sum^n _{i=1} X_i^2\) \((2)\)
De \((1)\) temos que \(\hat{\alpha} = (\frac{1}{n}\sum^{n} _{i=1}X_i)\hat{\beta}.\) Subistituindo em \((2)\) tem-se:
\(\frac{m_i}{\hat{\beta}}(1-m_1 \hat{\beta}) = m_2 \Leftrightarrow \frac{m_1}{\hat{\beta}} - m_1^2 = m_2 \Leftrightarrow \frac{m_1}{\hat{\beta}} = m_2 - \mu^2 \Rightarrow \hat{\beta} = \frac{m_2}{m_2 - (m_1)^2}\)
Assim, \(\hat{\alpha} = \frac{m_1 m_2}{m_2 - m_1^2} = \frac{m_1}{m_2 - m_1^2} = \frac{\overline{X}^2}{\frac{1}{n}\sum^{n} _{i=1}X_i^2 - \overline{X}^2}\)
Pela teoria, uma amostra aleatória \(X_1,...,X_n\) de tamanho \(n\) da varável aleatória \(X\) com função de densidade \(f(x|\theta)\) com \(\theta\) existente em \(\Theta\), onde o \(\Theta\) é o espaço paramétrico, essa função de máxima verossimilhança de \(\theta\) é dada por
\[L(\theta;x) = \prod^{n} _{i=i}f(x_i\theta)\]
Neste caso, o estimador de máxima verossimilhança de \(\theta\) é denotado por \(l(\theta;x) = logL(\theta;x)\). O mesmo valor que torna \(l(\theta;x)\) também torna \(l(\theta;x)\) máximo.Em suma, neste método busca-se uma forma de tornar a função máxima, ou seja, descobrindo-se o ponto em que a função assume maior volor na imagem. Algumas propriedades são:
Eficiência: o Teorema do Limite Inferior de Cramer-Rao diz que para um parâmetro, existe um limite inferior para a variância das estimativas não-viciadas. Para as amostras grandes, essas estimativas atingem esse limite e por isso, tem a menor variância entre as estimativas não-viciadas.
Consistência: essas estimativas convergem em probabilidade para o valor do parâmetro, assim são não-viciados para amostras de tamanho grande.
Quando \(n\) é grande, converge para a normalidade.
Este método é uma técnica que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados dos resíduos de um modelo de regressão ou série temporal, que procura maximizar o grau de ajuste desses modelos.
Os estimadores buscam o mesmo objetivo: consistência. U Portanto, um estimador consistente tem a propriedade de que ao passo em que a amsotra é muito grande, a sequência resultante de estimativas converge probabilisticamente para o parâmetro, ou seja, da do valor da característica que se quer saber. Um exemplo é que um estimador para a média seria \(\bar{X} = \frac{\sum x_i}{n} \times \frac{\sqrt{\pi}}{n}\), e que seria tendencioso, mas caso \(n\) fosse muito grande, se aproximaria do valor verdadeiro e seria consistente.
Há também a estatística suficiente uma amostra aleatória \(X_1,...,X_n\) de uma dada função de probabilidade ou densidade, uma estatística \(T\) é suficiente para o parâmetro se a distribuição associada a amostra aleatória não depender do parâmetro, para qualquer valor de \(t\) em \(T\). Exemplo disto é que \(T=\sum x_i\) é suficiente para estimar o parâmetro, pois não precisa dele.
Este teorema permite construir um limite inferior para a variância de que qualquer estimador não viesado, desde que conheçamos a função de distribuição da população a partir da qual os dados foram gerados. Esse limite inferior é chamado de Limite Inferior de Cramer-Rao, que nos garante que nenhum estimador não viesado terá variância menor que este limite, o máximo que pode ocorrer é da variância do estimador ser igual ao limite de Cramer-Rao, jamais será inferior. Se isso ocorre, sabemos que nenhum outro estimador não viesado terá variância menor que a deste estimador e assim, eficiente.
Outro teorema muito utilizado é p teorema de Rao-Blackwell, que é um resultado que faz uma transformação de um estimador em um estimador que é ótimo pelo critério de erro médio quadratico.