Introdução
Neste trabalho, temos como objetivo central a demonstração empírica, através de simulações computacionais, do Teorema Central do Limite. Especificamente, utilizaremos a Distribuição Uniforme como caso particular e demonstraremos computacionalmente que esta converge para a Distribuição Normal, em conformidade com o Teorema Central do Limite.
Distribuição Uniforme Contínua
A Distribuição Uniforme Contínua é caracterizada por manter, durante um intervalo definido com mínimo em a e máximo em b, a probabilidade constante. Em outras palavras, temos infinitos possíveis resultados dentro de um intervalo real, com chances iguais de ocorrer. Um simples exemplo de distribuição uniforme, porém discreta, é lançar um dado não viciado. Os possíveis valores são 1,2,3,4,5,6, e a cada turno que o dado é jogado a probabilidade de cada valor é 1/6. N caso contínuo, todos os valores no intervalo [a,b] recebem a mesma chance de ocorrer. Comparativamente, podemos observar as imagens abaixo.
Exemplo de Distribuição Uniforme Discreta - Lançamento de um dado
Exemplo de Distribuição Uniforme Contínua
Definição Matemática
Seja [a,b] o espaço amostral. Então temos que a função densidade de probabilidade é:
\[ \begin{equation} f(x)= \begin{cases} \frac{1}{b-a}, & a\leqslant x \leqslant b \\ 0, & \text{c.c} \end{cases} \end{equation} \] Esta distribuição tem valor médio ou esperança matemática de X, dada por \[{\displaystyle E(X)={\frac {a+b}{2}}\,}\] e variância \[{\displaystyle Var(X)={\frac {(b-a)^{2}}{12}}\,}\].
Teorema Central do Limite - TCL
Definição intuitiva: O teorema central do limite afirma que a média de uma amostra de \({\displaystyle n}\) elementos de uma população tende a uma distribuição normal.
Basicamente, esse teorema nos diz que conforme aumentamos o tamanho de uma amostra, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal, independentemente da distribuição da população.
Definição formal: Seja uma amostra aleatória simples \({\displaystyle \left(X_{1},X_{2},...,X_{n}\right)}\) de tamanho \({\displaystyle n}\) dada a partir de uma população com média \({\displaystyle \mu }\) e variância \({\displaystyle \sigma ^{2}}\) finita. À medida que \({\displaystyle n}\) cresce, a distribuição amostral da média \({\displaystyle {\frac {\sum _{i=1}^{n}X_{i}}{n}}={\bar {X}}}\) aproxima-se de uma distribuição normal com média \({\displaystyle \mu }\) e variância \({\displaystyle {\frac {\sigma ^{2}}{n}}}\).
Demonstraremos empiricamente a seguir, através de um caso particular de distribuição uniforme, que o TCL é valido.
Simulação de Convergência da Distribuição Uniforme para a Normal
Para esta demonstração, utilizaremos amostras que sabidamente seguem a distribuição uniforme e posteriormente faremos a simulação da convergência da média das amostras para uma distribuição normal.
A distribuião foi construída a partir de 100.000 valores aleatórios que seguem uma distribuição uniforme. Retiraremos desse montante sempre 1.000 amostras com tamanhos, a cada passo, fixos. Conforme a seguir:
Parâmetros:
valores = runif(100000, 0, 1)
numero_amostras = 1000
Análise gráfica da distribuição dos valores.
Como esperado, visualmente, os valores obedecem uma distribuição uniforme. A seguir iremos tomar 1000 amostras com tamanhos: 2, 5 e 10, respectivamente, e analisaremos as médias dessas amostras, com objetivo de verificarmos se seguem uma distribuição normal.
Análise da distribuição das médias das 1000 amostras com tamanho 2:
Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:
##
## Shapiro-Wilk normality test
##
## data: medias_amostras_2
## W = 0.99305, p-value = 0.0001255
##
## Shapiro-Francia normality test
##
## data: medias_amostras_2
## W = 0.99394, p-value = 0.0006602
Ambos os testes rejeitaram a hipótese nula de que a distribuição dos dados seja Normal (Valor-P < 0,05).
Análise da distribuição das médias das 1000 amostras com tamanho 5:
Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:
##
## Shapiro-Wilk normality test
##
## data: medias_amostras_5
## W = 0.99513, p-value = 0.002716
##
## Shapiro-Francia normality test
##
## data: medias_amostras_5
## W = 0.99578, p-value = 0.008675
Com este resultado, com Valor-p > 0,05, temos que a distribuição dos dados não é significativamente diferente de uma distribuição normal.
Já percebemos uma convergência para a normalidade com amostras de tamanho 5. Dependendo dos valores gerados originalmente, isto pode ocorrer inclusive antes, com tamanhos de amostras menores que 5.
Análise da distribuição das médias das 1000 amostras com tamanho 10:
Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:
##
## Shapiro-Wilk normality test
##
## data: medias_amostras_10
## W = 0.99775, p-value = 0.1928
##
## Shapiro-Francia normality test
##
## data: medias_amostras_10
## W = 0.99814, p-value = 0.3061
Com este resultado, com Valor-p > 0,05, temos que a distribuição dos dados não é signiticativamente diferente de uma distribuição normal.
Com relação aos valores da média das amostras, temos os seguintes resultados:
| Valores originais | Amostras Tam. 2 | Amostras Tam. 5 | Amostras Tam. 10 | |
|---|---|---|---|---|
| Média | 0,50 | 0,50 | 0,51 | 0,51 |
| Variância | 0,08 | 0,04 | 0,02 | 0,01 |
Percebemos portanto que, conforme o anunciado do TCL estabelece, os valores da média e variância das amostras anteriormente detalhadas se aproximam da média da população e variância da população dividido pelo tamanho da amostra. Ou seja, a partir de uma população com média \({\displaystyle \mu }\) e variância \({\displaystyle \sigma ^{2}}\) finita. À medida que \({\displaystyle n}\) cresce, a distribuição amostral da média \({\displaystyle {\frac {\sum _{i=1}^{n}X_{i}}{n}}={\bar {X}}}\) aproxima-se de uma distribuição normal com média \({\displaystyle \mu }\) e variância \({\displaystyle {\frac {\sigma ^{2}}{n}}}\)**
Neste ponto, já podemos realizar a generalização do TCL e confirmar sua validade através das simulações computacionais realizadas.
Conclusão
Nesta abordagem empírica do Teorema Central do Limite, podemos observar a convergência para uma distribuição normal das médias de amostras que obedecem uma distribuição uniforme. Trata-se de uma caso particular, uma vez que o teorema é válido independente da distribuição dos dados. Observamos o poder do teorema citado. Este resultado é fundamental na teoria da inferência estatística.