Vamos construir dois conjuntos de dados com tamanho \(n_1 = n_2 = 8\), de forma que seja um teste para diferença entre médias seja significativo caso seja feito de forma pareada. E o teste não seja significativo para amostras independentes.
x1 <- c(400, 300, 250, 100, 120, 170, 200, 100)
x2 <- c(440, 340, 289, 139, 160, 210, 239, 140)
# Teste t para amostras independentes
t.test(x1, x2)
##
## Welch Two Sample t-test
##
## data: x1 and x2
## t = -0.74287, df = 14, p-value = 0.4698
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -154.02906 74.77906
## sample estimates:
## mean of x mean of y
## 205.000 244.625
# Teste t pareado
t.test(x1, x2, paired = TRUE)
##
## Paired t-test
##
## data: x1 and x2
## t = -216.55, df = 7, p-value = 1.182e-14
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## -40.05768 -39.19232
## sample estimates:
## mean difference
## -39.625
O p-valor é maior que 0.05, indicando que a diferença entre as médias não é significativa. Teste t Pareado: O p-valor é extremamente pequeno (menor que 0.05), indicando que a diferença entre as médias é significativa.
Conclusão: Ao considerar os dados como pareados, o teste detecta uma diferença significativa entre as médias. No entanto, para amostras independentes, o teste não encontra significância.
Objetivo: Simular e calcular as probabilidades de ocorrência de erros tipo I e tipo II, repetindo 𝑘= 1000 k=1000 simulações.
Erro Tipo I
# Parâmetros
set.seed(123)
n <- 100
p0 <- 0.05
alpha <- 0.05
k <- 1000
# Simulação do Erro Tipo I
simulacoes_tipo_I <- replicate(k, {
x <- rbinom(1, size = n, prob = p0)
p_valor <- 1 - pbinom(x - 1, size = n, prob = p0)
p_valor < alpha
})
erro_tipo_I <- mean(simulacoes_tipo_I)
erro_tipo_I
## [1] 0.027
Erro Tipo II
# Parâmetros para o Erro Tipo II
p_alt <- 0.07
# Simulação do Erro Tipo II
simulacoes_tipo_II <- replicate(k, {
x <- rbinom(1, size = n, prob = p_alt)
p_valor <- 1 - pbinom(x - 1, size = n, prob = p0)
p_valor >= alpha
})
erro_tipo_II <- mean(simulacoes_tipo_II)
erro_tipo_II
## [1] 0.847
Erro Tipo I: A probabilidade de erro tipo I foi r round(erro_tipo_I * 100, 2)%. Erro Tipo II: A probabilidade de erro tipo II foi r round(erro_tipo_II * 100, 2)%.
Teorema do Limite Central (TLC) Objetivo: Demonstrar o Teorema do Limite Central (TLC) por meio de simulações, considerando populações com distribuições Normal, Uniforme e Assimétrica. Realizar análises com tamanhos de amostra 𝑛= 10, 100, 1000, n=10,100,1000.
Caso 1: População com Distribuição Normal (𝑁(10,5)N(10,5)) Simulação para𝑛= 10
library(ggplot2)
# Parâmetros
n <- 10
populacao <- rnorm(10000, mean = 10, sd = 5)
# Simulação de k amostras
k <- 1000
k_amostras <- c()
for (i in 1:k) {
x_barra <- mean(sample(populacao, n, replace = TRUE))
k_amostras <- append(k_amostras, x_barra)
}
# Visualização
qplot(k_amostras, geom = "histogram", bins = 30, xlab = "Médias Amostrais", ylab = "Frequência") +
ggtitle("Distribuição das Médias Amostrais (( n = 10 ))")
Teste de Normalidade
shapiro.test(k_amostras)
##
## Shapiro-Wilk normality test
##
## data: k_amostras
## W = 0.99796, p-value = 0.2677
O histograma mostra que as médias amostrais seguem aproximadamente uma distribuição normal. O teste de Shapiro-Wilk indica (dependendo do p-valor) se a normalidade foi rejeitada ou não. Em casos de cenários adicionais, vamos repetir as simulações e análises para: