INTRODUÇÃO SOBRE O TEST T
O teste t, também conhecido como teste t de Student, é uma técnica estatística usada para comparar as médias de duas amostras independentes ou determinar se a média de uma amostra difere significativamente de um valor teórico conhecido. Ele foi desenvolvido por William Sealy Gosset, que utilizou o pseudônimo “Student” para publicar seu trabalho em 1908.
O teste t é amplamente utilizado em diversas áreas, como ciências sociais, ciências naturais, economia e medicina, quando se deseja comparar as médias de dois grupos diferentes. Por exemplo, pode ser aplicado para comparar as médias de desempenho de estudantes que receberam diferentes tratamentos educacionais ou para verificar se existe diferença na média de salário entre dois grupos de trabalhadores.
Existem duas formas comuns de teste t: o teste t de amostras independentes e o teste t pareado.
O teste t de amostras independentes é usado quando as duas amostras sendo comparadas são independentes uma da outra. Por exemplo, pode ser usado para comparar as médias de altura entre homens e mulheres, considerando amostras diferentes para cada grupo.
O teste t leva em consideração não apenas as diferenças entre as médias das amostras, mas também a variabilidade dentro de cada grupo. Quanto maior a diferença entre as médias das amostras e menor a variabilidade dentro de cada grupo, maior será o valor do teste t e mais provável será que as médias sejam estatisticamente diferentes.
Os resultados do teste t são expressos como um valor de t e um valor p. O valor de t representa a diferença entre as médias das amostras em termos de desvios-padrão. O valor p indica a probabilidade de obter uma diferença tão grande ou maior entre as médias das amostras, assumindo que as médias populacionais são iguais. Se o valor p for menor que um limite de significância pré-determinado (geralmente 0,05), conclui-se que há evidências estatísticas para rejeitar a hipótese nula de que as médias são iguais.
É importante lembrar que o teste t possui algumas suposições, como a normalidade dos dados e a homogeneidade das variâncias. Caso essas suposições não sejam atendidas, existem alternativas como testes não paramétricos que podem ser utilizados.
Descrição do teste T: Hipóteses, fórmulas, região crítica, p-valor, regra de decisão.
O teste t é uma técnica estatística que compara as médias de duas amostras independentes ou verifica se a média de uma amostra difere significativamente de um valor teórico conhecido. Vou descrever o procedimento geral do teste t, incluindo as hipóteses, fórmulas, região crítica, p-valor, regra de decisão e conclusão.
H0: Não há diferença significativa entre as médias das amostras ou a média da amostra é igual ao valor teórico.
H1: Há uma diferença significativa entre as médias das amostras ou a média da amostra é diferente do valor teórico.
Região crítica: A região crítica é uma faixa de valores de t onde a hipótese nula é rejeitada. Ela é determinada pelo nível de significância escolhido, geralmente 0,05. A região crítica é definida a partir de tabelas de distribuição t de Student ou usando software estatístico.
Valor p: valor p é a probabilidade de obter uma diferença tão grande ou maior entre as médias das amostras, assumindo que a hipótese nula é verdadeira. É usado para avaliar a significância estatística do resultado do teste. Quanto menor o valor p, mais forte é a evidência contra a hipótese nula.
Regra de decisão: A regra de decisão é baseada na comparação do valor de t com a região crítica ou o valor p com o nível de significância. Se o valor de t estiver na região crítica ou o valor p for menor que o nível de significância, a hipótese nula é rejeitada. Caso contrário, a hipótese nula não é rejeitada.Com base na regra de decisão, você pode concluir se há evidências estatísticas para rejeitar a hipótese nula ou se não há evidências suficientes para rejeitá-la. Essa conclusão deve ser apresentada em termos do contexto específico do problema e dos resultados obtidos. É importante lembrar que o teste t possui algumas suposições, como a normalidade dos dados e a homogeneidade das variâncias. Se essas suposições não forem atendidas, é necessário considerar alternativas, como testes não paramétricos. Além disso, é recomendável utilizar software estatístico para realizar os cálculos do teste t e interpretar os resultados de forma adequada.
#APLICAÇÃO TEST T PARA DUAS AMOSTRAS INDEPENDENTES#
O BANCO DE DADOS CONTÉM INFORMAÇÕES DE ALUNOS DA REDE PÚBLICA E PRIVADA. VERIFIQUE SE HÁ EFEITO DA POSIÇÃO QUE O ALUNO OCUPA NA SALA (SE ‘frente’ ou ‘fundo’) sobre suas notas de bilogia, fisica e historia. descreva os resultados de forma apropriada.
# Passo 1: Carregar o banco de dados
dados <- read.csv('Banco de Dados 3.csv', sep = ';', dec = ',',
stringsAsFactors = T, fileEncoding = "latin1") # Carregamento do arquivo csv
View(dados) # Visualização dos dados em janela separada
glimpse(dados) # Visualização de um resumo dos dados
## Rows: 32
## Columns: 7
## $ Sujeito <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17…
## $ Genero <fct> M, F, M, M, F, F, M, M, M, M, F, F, F, F, F, M, M, M, F, …
## $ Escola <fct> Privada, Privada, Publica, Publica, Publica, Publica, Pri…
## $ Posicao_Sala <fct> Fundos, Fundos, Fundos, Fundos, Fundos, Fundos, Frente, F…
## $ Nota_Biol <dbl> 8.1, 5.3, 2.9, 3.7, 4.4, 4.7, 5.4, 5.8, 3.1, 6.0, 2.0, 3.…
## $ Nota_Fis <dbl> 4.6, 4.9, 3.7, 3.8, 4.2, 4.9, 6.4, 6.8, 4.1, 6.9, 3.4, 3.…
## $ Nota_Hist <dbl> 2.9, 6.4, 3.1, 4.9, 4.9, 5.5, 7.4, 8.1, 3.3, 8.3, 2.3, 3.…
Shapiro por grupo (pacote RVAideMemoire) A função shapiro.test() no R Studio é usada para realizar o teste de normalidade de Shapiro-Wilk. Esse teste é utilizado para verificar se uma amostra segue uma distribuição normal. O teste de Shapiro-Wilk é uma das abordagens mais comuns para verificar a normalidade de uma amostra, sendo amplamente utilizado em análises estatísticas.O resultado do teste de Shapiro-Wilk inclui o valor da estatística de teste W e o valor p associado ao teste. Um valor p maior que 0,05 indica que não há evidências suficientes para rejeitar a hipótese nula de que a amostra segue uma distribuição normal. Caso contrário, se o valor p for menor que 0,05, pode-se concluir que a amostra não segue uma distribuição normal.
# Passo 2: Verificação da normalidade dos dados
# Shapiro por grupo (pacote RVAideMemoire)
byf.shapiro(Nota_Biol ~ Posicao_Sala, dados)
##
## Shapiro-Wilk normality tests
##
## data: Nota_Biol by Posicao_Sala
##
## W p-value
## Frente 0.9852 0.99312
## Fundos 0.9003 0.06865 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
byf.shapiro(Nota_Fis ~ Posicao_Sala, dados)
##
## Shapiro-Wilk normality tests
##
## data: Nota_Fis by Posicao_Sala
##
## W p-value
## Frente 0.9327 0.2992
## Fundos 0.9301 0.2186
byf.shapiro(Nota_Hist ~ Posicao_Sala, dados)
##
## Shapiro-Wilk normality tests
##
## data: Nota_Hist by Posicao_Sala
##
## W p-value
## Frente 0.8936 0.07594 .
## Fundos 0.9168 0.13056
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Teste de Levene (pacote car),O resultado do teste de Levene inclui a estatística de teste W e o valor p associado ao teste. Um valor p maior que 0,05 indica que não há evidências suficientes para rejeitar a hipótese nula de que as variâncias dos grupos são iguais. Caso contrário, se o valor p for menor que 0,05, pode-se concluir que há diferenças estatisticamente significativas nas variâncias dos grupos.
# Passo 3: Verificação da homogeneidade de variancias
leveneTest(Nota_Biol ~ Posicao_Sala, dados, center=mean)
## Levene's Test for Homogeneity of Variance (center = mean)
## Df F value Pr(>F)
## group 1 1.0359 0.3169
## 30
leveneTest(Nota_Fis ~ Posicao_Sala, dados, center=mean)
## Levene's Test for Homogeneity of Variance (center = mean)
## Df F value Pr(>F)
## group 1 13.658 0.0008749 ***
## 30
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Nota_Hist ~ Posicao_Sala, dados, center=mean)
## Levene's Test for Homogeneity of Variance (center = mean)
## Df F value Pr(>F)
## group 1 14.292 0.0006954 ***
## 30
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Passo 4: Realização do teste t para amostras independentes
t.test(Nota_Biol ~ Posicao_Sala, dados, var.equal=TRUE)
##
## Two Sample t-test
##
## data: Nota_Biol by Posicao_Sala
## t = 4.6027, df = 30, p-value = 7.136e-05
## alternative hypothesis: true difference in means between group Frente and group Fundos is not equal to 0
## 95 percent confidence interval:
## 1.411664 3.663630
## sample estimates:
## mean in group Frente mean in group Fundos
## 6.520000 3.982353
t.test(Nota_Fis ~ Posicao_Sala, dados, var.equal=FALSE)
##
## Welch Two Sample t-test
##
## data: Nota_Fis by Posicao_Sala
## t = 4.4352, df = 17.683, p-value = 0.0003324
## alternative hypothesis: true difference in means between group Frente and group Fundos is not equal to 0
## 95 percent confidence interval:
## 1.342070 3.763812
## sample estimates:
## mean in group Frente mean in group Fundos
## 6.600000 4.047059
t.test(Nota_Hist ~ Posicao_Sala, dados, var.equal=FALSE)
##
## Welch Two Sample t-test
##
## data: Nota_Hist by Posicao_Sala
## t = 1.5737, df = 19.909, p-value = 0.1313
## alternative hypothesis: true difference in means between group Frente and group Fundos is not equal to 0
## 95 percent confidence interval:
## -0.3860238 2.7546513
## sample estimates:
## mean in group Frente mean in group Fundos
## 5.466667 4.282353
# Passo 5 (opcional): Visualização da distribuição dos dados
par(mfrow=c(1,3)) # Estabeleci que quero que os gr?ficos saiam na mesma linha
boxplot(Nota_Biol ~ Posicao_Sala, data = dados, ylab="Notas de Biologia", xlab="Posição na Sala")
boxplot(Nota_Fis ~ Posicao_Sala, data = dados, ylab="Notas de F?sica", xlab="Posição na Sala")
boxplot(Nota_Hist ~ Posicao_Sala, data = dados, ylab="Notas de Hist?ria", xlab="Posição na Sala")
##conclusão do problema##
O test-t para duas amostras independentes mostrou que há efeito da posição na sala sobre as notas.Podemos verificar isso na nota de fisica (t(17,68)=4,44:p<0,001).O grupo que senta na frente da sala apresentou, em média, notas de fisica superiores as do grupo que sentano fundo da sala.