Função de Distribuição Gamma
Projeto Final
1 Introdução
A Distribuição Gama é uma família de distribuições contínuas de probabilidade de dois parâmetros. É comumente utilizada para cálculos em estudos de sobrevivência.
Definição: Uma váriavel aleatória \(X\) tem distribuição Gama se sua densidade for dada por:
\[ \begin{cases} \ f(x) = \frac{ \beta }{ \Gamma( \alpha )} x^{ \alpha - 1} \mathrm{e}^{- \beta x} \ , \ x \geq 0 \\ \ f(x) = 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ , \ x < 0 \end{cases} \ , \]
sendo \(\alpha\) e \(\beta\) dois parâmetros positivos e $( ) $ sendo a função matemática Gama, definida por:
\[ \Gamma(\alpha ) = \int_0^\infty x^{ \alpha-1 } \mathrm{e}^{-x} \mathrm{d}x \ , \ \alpha > 0. \ \] Notação: \(X \sim \Gamma(\alpha , \beta)\)
1.1 Casos Particulares
- Para \(\alpha = 1\) tem-se a distribuição exponencial
\[ X \sim \Gamma(1,\beta) \implies X \sim Exp(\beta) \] * Para \(\alpha = \frac{n}{2}\) , \(n\) inteiro e \(\beta = \frac{1}{2}\) , tem-se a distribuição qui=quadrado com \(n\) graus de liberdade.
\[ X \sim \Gamma\bigg(\frac{n}{2},\frac{1}{2}\bigg) \implies X \sim \chi^2_n \]
1.2 Parametrizações mais usadas
- Com um parâmetro de forma \(\kappa\) e um parametro de escala \(\theta\).
- Com um parametro de forma \(\alpha = \kappa\) e um parametro de escala inversa \(\beta=\frac{1}{\theta}\), chamado parâmetro de taxa.
- Com um parâmetro de forma \(\kappa\) e um parâmetro média \(\mu=\frac{\kappa}{\beta}\).
Para fins dessa demostração usaremos \(\alpha \geq 2\) e \(\beta \geq 1\) onde \(\alpha \ , \ \beta \in \mathbb{Z}\) ,
2 Gráficos da Função Densidade de Probabilidade
Nesta seção é possível ver o comportamento da função de densidade da função Gama para differentes valores de \(\alpha\) e \(\beta\).
# amostra aleatória
x <- seq(0,20, length.out = 5000)2.1 Caso 1: Exponencial
\(f(x)\) para \(\alpha = 1\) e \(1 \leq \beta \leq 4\)
fx_1.1 <- dgamma(x, shape=1, scale=1 )
fx_1.2 <- dgamma(x, shape=1, scale=2 )
fx_1.3 <- dgamma(x, shape=1, scale=3 )
fx_1.4 <- dgamma(x, shape=1, scale=4 )2.2 Caso 2: Qui-Quadrado
\(f(x)\) para \(\alpha = \frac{n}{2}\) e \(\beta = \frac{1}{2}\), com \(3 \leq n \leq 6\)
fx_n.1 <- dgamma(x, shape=3/2, scale=1/2 )
fx_n.2 <- dgamma(x, shape=4/2, scale=1/2 )
fx_n.3 <- dgamma(x, shape=5/2, scale=1/2 )
fx_n.4 <- dgamma(x, shape=6/2, scale=1/2 )2.3 Caso 3
\(f(x)\) para \(\alpha = 2\) e \(1 \leq \beta \leq 4\)
fx_2.1 <- dgamma(x, shape=2, scale=1 )
fx_2.2 <- dgamma(x, shape=2, scale=2 )
fx_2.3 <- dgamma(x, shape=2, scale=3 )
fx_2.4 <- dgamma(x, shape=2, scale=4 )2.4 Caso 4
\(f(x)\) para \(\alpha = 3\) e \(1 \leq \beta \leq 4\)
fx_3.1 <- dgamma(x, shape=3, scale=1 )
fx_3.2 <- dgamma(x, shape=3, scale=2 )
fx_3.3 <- dgamma(x, shape=3, scale=3 )
fx_3.4 <- dgamma(x, shape=3, scale=4 )3 Gráficos da Função de Distribuição Acumulada
3.1 Caso 1: Exponencial
\(F(x)\) para \(\alpha = 1\) e \(1 \leq \beta \leq 4\)
Fx_1.1 <- pgamma(x, shape=1, scale=1 )
Fx_1.2 <- pgamma(x, shape=1, scale=2 )
Fx_1.3 <- pgamma(x, shape=1, scale=3 )
Fx_1.4 <- pgamma(x, shape=1, scale=4 )3.2 Caso 2: Qui-Quadrado
\(F(x)\) para \(\alpha = \frac{n}{2}\) e \(\beta = \frac{1}{2}\), com \(3 \leq n \leq 6\)
Fx_n.1 <- pgamma(x, shape=3/2, scale=1/2 )
Fx_n.2 <- pgamma(x, shape=4/2, scale=1/2 )
Fx_n.3 <- pgamma(x, shape=5/2, scale=1/2 )
Fx_n.4 <- pgamma(x, shape=6/2, scale=1/2 )3.3 Caso 3
\(F(x)\) para \(\alpha = 2\) e \(1 \leq \beta \leq 4\)
Fx_2.1 <- pgamma(x, shape=2, scale=1 )
Fx_2.2 <- pgamma(x, shape=2, scale=2 )
Fx_2.3 <- pgamma(x, shape=2, scale=3 )
Fx_2.4 <- pgamma(x, shape=2, scale=4 )3.4 Caso 4
\(F(x)\) para \(\alpha = 3\) e \(1 \leq \beta \leq 4\)
Fx_3.1 <- pgamma(x, shape=3, scale=1 )
Fx_3.2 <- pgamma(x, shape=3, scale=2 )
Fx_3.3 <- pgamma(x, shape=3, scale=3 )
Fx_3.4 <- pgamma(x, shape=3, scale=4 )4 Teorema Central do Limite (TCL)
O TCL é fundamental na estatítica pois afirma que confome o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais da distribuição Normal.
Resumidamente, se temos uma sequência de variáveis aleatórias independentes e identicamente distribuidas (iid) \((X_1,X_2,...,X_n)\) com \(E[X_i] = \mu\) finito e \(\text{Var}[X_i] = \sigma^2 > 0\) finita, podemos enunciar o TCL como: \[ \sqrt[]{n} \ \Bigg[ \Bigg( \frac{1}{n} \displaystyle\sum_{i=1}^{n} X_i \Bigg) - \mu \Bigg] \ \ \xrightarrow[\text{ }]{\text{ d }} \ \ \mathcal{N}(0,\sigma^2) \]
5 Teste Shapiro-Wilk para Normalidade
As hipóteses do teste são:
\[ \begin{cases} H_0: \text{ A amostra veio de uma população normalmente distribuída} \\ H_1: \text{ A amostra não veio de uma população normalmente distribuída} \end{cases} \] A estatística de teste é:
\[ W = \frac { \bigg( \displaystyle\sum_{i=1}^{n} a_i \ x_{(i)} \bigg) ^2} {\displaystyle\sum_{i=1}^{n} (x_i-\bar{x})^2} \] onde
- \(x_{(i)}\) é a \(i\)-ésima estatística de ordem, i.e., o \(i\)-ésimo menor número da amostra
- \(\bar{x}=\frac{(x_1+x_2+...+x_n)}{n}\) é a média da amostra
Os coeficientes \(a_i\) são dados por:
\[ (a_1,a_2,...,a_n)=\frac{m^T \ V^{-1}}{C} \ , \] onde \(C\) é uma norma de votor:
\[ C = ||V^{-1} \ m || = (m^T \ V^{-1} \ V^{-1} \ m)^{\frac{1}{2}} \] e o vetor \(m\),
\[ m=(m_1,m_2,...,m_n)^T \] é composto pelos valores esperados das estatísticas de ordem de variáveis aleatórias independentes e distribuídas de forma idêntica, amostradas a partir da distribuição normal padrão.
Finalmente, \(V\) a matriz de covariância dessas estatísticas de ordem normal.
6 Projeto Final
Vamos considerar a função Gama para valores diferentes dos casos particulares, por exemplo \(\alpha=2\) e \(\beta=3\).
Para o caso em que \(\alpha=2\) e \(\beta=3\).
6.1 Tentativas = 5
# Problema: Queremos testar que conforme o número de elementos de cada amostra cresce, maior é a probabilidade de convergência para uma distribuição normal.
# Vamos gerar um vetor de items aleatórios que seguem uma distribuição Gama com parâmetros 2 e 3:
alpha <- 2
beta <- 3
pop <- rgamma(50, alpha, beta)
# Definimos n como o tamanho da amostra aleatória que segue a função de distribuição Gama
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 5
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 5 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.2 Tentativas = 10
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 10
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 10 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.3 Tentativas = 15
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 15
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 15 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.4 Tentativas = 20
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 20
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 20 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.5 Tentativas = 25
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 25
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 25 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.6 Tentativas = 30
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 30
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 30 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.7 Tentativas = 35
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 35
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 35 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.8 Tentativas = 40
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 40
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 40 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.9 Tentativas = 45
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 45
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 45 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.10 Tentativas = 50
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 50
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 50 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)6.11 Tentativas = 100
n <- 4
# Definimos um número t de tentativas que será rodado com amostras que tem o mesmo número de elementos.
t <- 100
# Criamos vetores para salvar os items do loop (exceto a amostra utilizada).
mean_vector <- numeric(t)Abaixo temos o gráfico histograma e densidade para amostras aleatória da função gama de tamanho 4 e número de tentativas igual a 100 .
# Loop para escolher as amostras de modo aleatório
for (i in 1:t){
# Temos que fazer com reposição pois do contrário teria uma dependência, contradizendo o TCL.
mean_vector[i] <- mean(sample(pop , size=n, replace=TRUE))
}
pv <- shapiro.test(mean_vector)$p.value
g_hist =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) )) +
ggtitle(paste("Histograma ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência")
g_hist_densidade =
ggplot(data.frame(mean_vector), aes(x = mean_vector)) +
geom_histogram(color = "black",
fill = "lightblue",
bins = 10,
aes(y = (..count..) / sum(..count..))) +
geom_density(col = 2, size = 1, aes(y = 50 * (..count..) / sum(..count..))) +
ggtitle(paste("Histograma e Curva de Densidade ( Tamanho da Amostra =", n, ") ( Tentativas =", t, ")")) +
labs(
subtitle=paste("Shapiro-Wilk p-value =", round(pv,2))
) +
xlab("Média") +
ylab("Frequência relativa")
#print(g_hist)
print(g_hist_densidade)7 Conclusão
Geramos elementos aleatórios de uma função Gama \(X \sim \Gamma(\alpha, \beta)\) com parâmetros \(\alpha=\) 2 e \(\beta=\) 3.
Utilizamos \((t)\) tentativas para cada tamanho amostral \(n=\) 4, com \(t\) variando entre 5 e 50 e depois 100.
O teste de Shapiro Wilk convergiu para a normal para algumas das amostras mesmo que o histograma e a função densidade visualmente não tivessem convergido.
Foi observado que para \(t \geq 40\), o vetor de médias amostrais converge para a Normal com p-valores bem altos, e com \(t = 100\) o p-valor do teste é 0.
Demonstrando assim que o TCL ocorre.