Demonstração empírica do Teorema Central do Limite

Eliezer Tomé de Paula Neto

02/10/2021

Introdução

Neste trabalho, temos como objetivo central a demonstração empírica, através de simulações computacionais, do Teorema Central do Limite. Especificamente, utilizaremos a Distribuição Uniforme como caso particular e demonstraremos computacionalmente que esta converge para a Distribuição Normal, em conformidade com o Teorema Central do Limite.

Distribuição Uniforme Contínua

A Distribuição Uniforme Contínua é caracterizada por manter, durante um intervalo definido com mínimo em a e máximo em b, a probabilidade constante. Em outras palavras, temos infinitos possíveis resultados dentro de um intervalo real, com chances iguais de ocorrer. Um simples exemplo de distribuição uniforme, porém discreta, é lançar um dado não viciado. Os possíveis valores são 1,2,3,4,5,6, e a cada turno que o dado é jogado a probabilidade de cada valor é 1/6. N caso contínuo, todos os valores no intervalo [a,b] recebem a mesma chance de ocorrer. Comparativamente, podemos observar as imagens abaixo.

Exemplo de Distribuição Uniforme Discreta - Lançamento de um dado

Exemplo de Distribuição Uniforme Contínua

Definição Matemática

Seja [a,b] o espaço amostral. Então temos que a função densidade de probabilidade é:

\[ \begin{equation} f(x)= \begin{cases} \frac{1}{b-a}, & a\leqslant x \leqslant b \\ 0, & \text{c.c} \end{cases} \end{equation} \] Esta distribuição tem valor médio ou esperança matemática de X, dada por \[{\displaystyle E(X)={\frac {a+b}{2}}\,}\] e variância \[{\displaystyle Var(X)={\frac {(b-a)^{2}}{12}}\,}\].

Teorema Central do Limite - TCL

Definição intuitiva: O teorema central do limite afirma que a média de uma amostra de \({\displaystyle n}\) elementos de uma população tende a uma distribuição normal.

Basicamente, esse teorema nos diz que conforme aumentamos o tamanho de uma amostra, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal, independentemente da distribuição da população.

Definição formal: Seja uma amostra aleatória simples \({\displaystyle \left(X_{1},X_{2},...,X_{n}\right)}\) de tamanho \({\displaystyle n}\) dada a partir de uma população com média \({\displaystyle \mu }\) e variância \({\displaystyle \sigma ^{2}}\) finita. À medida que \({\displaystyle n}\) cresce, a distribuição amostral da média \({\displaystyle {\frac {\sum _{i=1}^{n}X_{i}}{n}}={\bar {X}}}\) aproxima-se de uma distribuição normal com média \({\displaystyle \mu }\) e variância \({\displaystyle {\frac {\sigma ^{2}}{n}}}\).

Demonstraremos empiricamente a seguir, através de um caso particular de distribuição uniforme, que o TCL é valido.

Simulação de Convergência da Distribuição Uniforme para a Normal

Para esta demonstração, utilizaremos amostras que sabidamente seguem a distribuição uniforme e posteriormente faremos a simulação da convergência da média das amostras para uma distribuição normal.

A distribuião foi construída a partir de 100.000 valores aleatórios que seguem uma distribuição uniforme. Retiraremos desse montante sempre 1.000 amostras com tamanhos, a cada passo, fixos. Conforme a seguir:

Parâmetros:

valores = runif(100000, 0, 1)
numero_amostras = 1000

Análise gráfica da distribuição dos valores.

Como esperado, visualmente, os valores obedecem uma distribuição uniforme. A seguir iremos tomar 1000 amostras com tamanhos: 2, 5 e 10, respectivamente, e analisaremos as médias dessas amostras, com objetivo de verificarmos se seguem uma distribuição normal.

Análise da distribuição das médias das 1000 amostras com tamanho 2:

Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_amostras_2
## W = 0.99305, p-value = 0.0001255

## 
##  Shapiro-Francia normality test
## 
## data:  medias_amostras_2
## W = 0.99394, p-value = 0.0006602

Ambos os testes rejeitaram a hipótese nula de que a distribuição dos dados seja Normal (Valor-P < 0,05).

Análise da distribuição das médias das 1000 amostras com tamanho 5:

Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_amostras_5
## W = 0.99513, p-value = 0.002716

## 
##  Shapiro-Francia normality test
## 
## data:  medias_amostras_5
## W = 0.99578, p-value = 0.008675

Com este resultado, com Valor-p > 0,05, temos que a distribuição dos dados não é significativamente diferente de uma distribuição normal.

Já percebemos uma convergência para a normalidade com amostras de tamanho 5. Dependendo dos valores gerados originalmente, isto pode ocorrer inclusive antes, com tamanhos de amostras menores que 5.

Análise da distribuição das médias das 1000 amostras com tamanho 10:

Analisaremos se a distribuição das médias é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_amostras_10
## W = 0.99775, p-value = 0.1928

## 
##  Shapiro-Francia normality test
## 
## data:  medias_amostras_10
## W = 0.99814, p-value = 0.3061

Com este resultado, com Valor-p > 0,05, temos que a distribuição dos dados não é signiticativamente diferente de uma distribuição normal.

Com relação aos valores da média das amostras, temos os seguintes resultados:

	Valores originais	Amostras Tam. 2	Amostras Tam. 5	Amostras Tam. 10
Média	0,50	0,50	0,51	0,51
Variância	0,08	0,04	0,02	0,01

Percebemos portanto que, conforme o anunciado do TCL estabelece, os valores da média e variância das amostras anteriormente detalhadas se aproximam da média da população e variância da população dividido pelo tamanho da amostra. Ou seja, a partir de uma população com média \({\displaystyle \mu }\) e variância \({\displaystyle \sigma ^{2}}\) finita. À medida que \({\displaystyle n}\) cresce, a distribuição amostral da média \({\displaystyle {\frac {\sum _{i=1}^{n}X_{i}}{n}}={\bar {X}}}\) aproxima-se de uma distribuição normal com média \({\displaystyle \mu }\) e variância \({\displaystyle {\frac {\sigma ^{2}}{n}}}\)**

Neste ponto, já podemos realizar a generalização do TCL e confirmar sua validade através das simulações computacionais realizadas.

Conclusão

Nesta abordagem empírica do Teorema Central do Limite, podemos observar a convergência para uma distribuição normal das médias de amostras que obedecem uma distribuição uniforme. Trata-se de uma caso particular, uma vez que o teorema é válido independente da distribuição dos dados. Observamos o poder do teorema citado. Este resultado é fundamental na teoria da inferência estatística.