Função de Distribuição Gamma

Projeto Final

1 Introdução

A Distribuição Gama é uma família de distribuições contínuas de probabilidade de dois parâmetros. É comumente utilizada para cálculos em estudos de sobrevivência.

Definição: Uma váriavel aleatória $X$ tem distribuição Gama se sua densidade for dada por:

\[ \begin{cases} \ f(x) = \frac{ \beta }{ \Gamma( \alpha )} x^{ \alpha - 1} \mathrm{e}^{- \beta x} \ , \ x \geq 0 \\ \ f(x) = 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ , \ x < 0 \end{cases} \ , \]

sendo $\alpha$ e $\beta$ dois parâmetros positivos e $( ) $ sendo a função matemática Gama, definida por:

\[ \Gamma(\alpha ) = \int_0^\infty x^{ \alpha-1 } \mathrm{e}^{-x} \mathrm{d}x \ , \ \alpha > 0. \ \] Notação: $X \sim \Gamma(\alpha , \beta)$

1.1 Casos Particulares

Para $\alpha = 1$ tem-se a distribuição exponencial

\[ X \sim \Gamma(1,\beta) \implies X \sim Exp(\beta) \] * Para $\alpha = \frac{n}{2}$ , $n$ inteiro e $\beta = \frac{1}{2}$ , tem-se a distribuição qui=quadrado com $n$ graus de liberdade.

\[ X \sim \Gamma\bigg(\frac{n}{2},\frac{1}{2}\bigg) \implies X \sim \chi^2_n \]

1.2 Parametrizações mais usadas

Com um parâmetro de forma $\kappa$ e um parametro de escala $\theta$.
Com um parametro de forma $\alpha = \kappa$ e um parametro de escala inversa $\beta=\frac{1}{\theta}$, chamado parâmetro de taxa.
Com um parâmetro de forma $\kappa$ e um parâmetro média $\mu=\frac{\kappa}{\beta}$.

Para fins dessa demostração usaremos $\alpha \geq 2$ e $\beta \geq 1$ onde $\alpha \ , \ \beta \in \mathbb{Z}$ ,

2 Gráficos da Função Densidade de Probabilidade

Nesta seção é possível ver o comportamento da função de densidade da função Gama para differentes valores de $\alpha$ e $\beta$.

# amostra aleatória
x <- seq(0,20, length.out = 5000)

2.1 Caso 1: Exponencial

$f(x)$ para $\alpha = 1$ e $1 \leq \beta \leq 4$

fx_1.1 <- dgamma(x, shape=1, scale=1 )
fx_1.2 <- dgamma(x, shape=1, scale=2 )
fx_1.3 <- dgamma(x, shape=1, scale=3 )
fx_1.4 <- dgamma(x, shape=1, scale=4 )

2.2 Caso 2: Qui-Quadrado

$f(x)$ para $\alpha = \frac{n}{2}$ e $\beta = \frac{1}{2}$, com $3 \leq n \leq 6$

fx_n.1 <- dgamma(x, shape=3/2, scale=1/2 )
fx_n.2 <- dgamma(x, shape=4/2, scale=1/2 )
fx_n.3 <- dgamma(x, shape=5/2, scale=1/2 )
fx_n.4 <- dgamma(x, shape=6/2, scale=1/2 )

2.3 Caso 3

$f(x)$ para $\alpha = 2$ e $1 \leq \beta \leq 4$

fx_2.1 <- dgamma(x, shape=2, scale=1 )
fx_2.2 <- dgamma(x, shape=2, scale=2 )
fx_2.3 <- dgamma(x, shape=2, scale=3 )
fx_2.4 <- dgamma(x, shape=2, scale=4 )

2.4 Caso 4

$f(x)$ para $\alpha = 3$ e $1 \leq \beta \leq 4$

fx_3.1 <- dgamma(x, shape=3, scale=1 )
fx_3.2 <- dgamma(x, shape=3, scale=2 )
fx_3.3 <- dgamma(x, shape=3, scale=3 )
fx_3.4 <- dgamma(x, shape=3, scale=4 )

3 Gráficos da Função de Distribuição Acumulada

3.1 Caso 1: Exponencial

$F(x)$ para $\alpha = 1$ e $1 \leq \beta \leq 4$

Fx_1.1 <- pgamma(x, shape=1, scale=1 )
Fx_1.2 <- pgamma(x, shape=1, scale=2 )
Fx_1.3 <- pgamma(x, shape=1, scale=3 )
Fx_1.4 <- pgamma(x, shape=1, scale=4 )

3.2 Caso 2: Qui-Quadrado

$F(x)$ para $\alpha = \frac{n}{2}$ e $\beta = \frac{1}{2}$, com $3 \leq n \leq 6$

Fx_n.1 <- pgamma(x, shape=3/2, scale=1/2 )
Fx_n.2 <- pgamma(x, shape=4/2, scale=1/2 )
Fx_n.3 <- pgamma(x, shape=5/2, scale=1/2 )
Fx_n.4 <- pgamma(x, shape=6/2, scale=1/2 )

3.3 Caso 3

$F(x)$ para $\alpha = 2$ e $1 \leq \beta \leq 4$

Fx_2.1 <- pgamma(x, shape=2, scale=1 )
Fx_2.2 <- pgamma(x, shape=2, scale=2 )
Fx_2.3 <- pgamma(x, shape=2, scale=3 )
Fx_2.4 <- pgamma(x, shape=2, scale=4 )

3.4 Caso 4

$F(x)$ para $\alpha = 3$ e $1 \leq \beta \leq 4$

Fx_3.1 <- pgamma(x, shape=3, scale=1 )
Fx_3.2 <- pgamma(x, shape=3, scale=2 )
Fx_3.3 <- pgamma(x, shape=3, scale=3 )
Fx_3.4 <- pgamma(x, shape=3, scale=4 )

4 Teorema Central do Limite (TCL)

O TCL é fundamental na estatítica pois afirma que confome o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais da distribuição Normal.

Resumidamente, se temos uma sequência de variáveis aleatórias independentes e identicamente distribuidas (iid) $(X_1,X_2,...,X_n)$ com $E[X_i] = \mu$ finito e $\text{Var}[X_i] = \sigma^2 > 0$ finita, podemos enunciar o TCL como: \[ \sqrt[]{n} \ \Bigg[ \Bigg( \frac{1}{n} \displaystyle\sum_{i=1}^{n} X_i \Bigg) - \mu \Bigg] \ \ \xrightarrow[\text{ }]{\text{ d }} \ \ \mathcal{N}(0,\sigma^2) \]

5 Teste Shapiro-Wilk para Normalidade

As hipóteses do teste são:

\[ \begin{cases} H_0: \text{ A amostra veio de uma população normalmente distribuída} \\ H_1: \text{ A amostra não veio de uma população normalmente distribuída} \end{cases} \] A estatística de teste é:

\[ W = \frac { \bigg( \displaystyle\sum_{i=1}^{n} a_i \ x_{(i)} \bigg) ^2} {\displaystyle\sum_{i=1}^{n} (x_i-\bar{x})^2} \] onde

$x_{(i)}$ é a $i$-ésima estatística de ordem, i.e., o $i$-ésimo menor número da amostra
$\bar{x}=\frac{(x_1+x_2+...+x_n)}{n}$ é a média da amostra

Os coeficientes $a_i$ são dados por:

\[ (a_1,a_2,...,a_n)=\frac{m^T \ V^{-1}}{C} \ , \] onde $C$ é uma norma de votor:

\[ C = ||V^{-1} \ m || = (m^T \ V^{-1} \ V^{-1} \ m)^{\frac{1}{2}} \] e o vetor $m$,

\[ m=(m_1,m_2,...,m_n)^T \] é composto pelos valores esperados das estatísticas de ordem de variáveis aleatórias independentes e distribuídas de forma idêntica, amostradas a partir da distribuição normal padrão.

Finalmente, $V$ a matriz de covariância dessas estatísticas de ordem normal.

6 Projeto Final

Vamos considerar a função Gama para valores diferentes dos casos particulares, por exemplo $\alpha=2$ e $\beta=3$.

Para o caso em que $\alpha=2$ e $\beta=3$.

6.1 Tentativas = 5

# Problema: Queremos testar que conforme o número de elementos de cada amostra cresce, maior é a probabilidade de convergência para uma distribuição normal.

# Vamos gerar um vetor de items aleatórios que seguem uma distribuição Gama com parâmetros 2 e 3:
alpha <- 2
beta <- 3
pop <- rgamma(50, alpha, beta)

# Definimos n como o tamanho da amostra aleatória que segue a função de distribuição Gama
n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 5

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 5 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.2 Tentativas = 10

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 10

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 10 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.3 Tentativas = 15

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 15

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 15 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.4 Tentativas = 20

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 20

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 20 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.5 Tentativas = 25

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 25

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 25 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.6 Tentativas = 30

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 30

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 30 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.7 Tentativas = 35

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 35

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 35 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.8 Tentativas = 40

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 40

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 40 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.9 Tentativas = 45

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 45

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 45 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.10 Tentativas = 50

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 50

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 50 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

6.11 Tentativas = 100

n <- 4

# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 100

# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)

Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 100 .

# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
  # Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
  mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
  
pv <- shapiro.test(mean_vector)$p.value

g_hist = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) )) +
  ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência")

g_hist_densidade = 
  ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
  geom_histogram(color = "black",
                  fill = "lightblue",
                  bins = 10,
                  aes(y = (..count..) / sum(..count..))) +
  geom_density(col = 2, size = 1, aes(y = 50 * (..count..) /  sum(..count..))) +
  ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
  labs(
    subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
  ) +
  xlab("Média") +
  ylab("Frequência relativa") 

#print(g_hist)
print(g_hist_densidade)

7 Conclusão

Geramos elementos aleatórios de uma função Gama $X \sim \Gamma(\alpha, \beta)$ com parâmetros $\alpha=$ 2 e $\beta=$ 3.
Utilizamos $(t)$ tentativas para cada tamanho amostral $n=$ 4, com $t$ variando entre 5 e 50 e depois 100.
O teste de Shapiro Wilk convergiu para a normal para algumas das amostras mesmo que o histograma e a função densidade visualmente não tivessem convergido.
Foi observado que para $t \geq 40$, o vetor de médias amostrais converge para a Normal com p-valores bem altos, e com $t = 100$ o p-valor do teste é 0. Demonstrando assim que o TCL ocorre.