Teste t de Student - Análise de Desempenho Escolar
Author
Cecília Maria Lima da Silva - 585967 Dayane Magalhães Ferreira - 587972 Suiany Pinto Gomes - 582147
1 Introdução
A comparação entre médias é uma das análises estatísticas mais utilizadas em pesquisas científicas, permitindo verificar se diferenças observadas entre grupos são estatisticamente significativas ou podem ser atribuídas ao acaso. Nesse contexto, o teste t de Student destaca-se como uma das principais ferramentas da Estatística Inferencial, sendo amplamente empregado em áreas como educação, saúde, psicologia, engenharia e ciências sociais.
Neste trabalho será apresentado o teste t de Student, abordando seus fundamentos teóricos, pressupostos, hipóteses e formas de aplicação. Para exemplificar sua utilização, será empregado o conjunto de dados Students Performance in Exams, disponível na plataforma Kaggle, contendo informações sobre o desempenho de estudantes em provas de matemática, leitura e escrita, além de características como gênero, grupo étnico, escolaridade dos pais, tipo de alimentação e participação em curso preparatório.
A partir desse conjunto de dados serão realizados dois tipos de análise: o teste t para duas amostras independentes, comparando as notas de matemática entre estudantes do sexo feminino e masculino, e o teste t pareado, comparando as notas de matemática e leitura dos mesmos estudantes. As análises serão desenvolvidas utilizando a linguagem R e complementadas com implementações equivalentes em Python, permitindo comparar os resultados obtidos nas duas linguagens.
2 Apresentação do Dataset
O conjunto de dados utilizado neste trabalho é o Students Performance in Exams, disponibilizado na plataforma Kaggle. O dataset contém informações de 1000 estudantes e 8 variáveis, contemplando características demográficas e o desempenho dos alunos em avaliações escolares.
O objetivo da base é permitir análises relacionadas ao desempenho acadêmico dos estudantes e aos fatores que podem influenciar seus resultados.
Neste trabalho serão utilizadas principalmente as variáveis gender, math.score e reading.score, pois permitem a aplicação do teste t para duas amostras independentes e do teste t pareado.
gender race.ethnicity parental.level.of.education lunch
1 female group B bachelor's degree standard
2 female group C some college standard
3 female group B master's degree standard
4 male group A associate's degree free/reduced
5 male group C some college standard
6 female group B associate's degree standard
test.preparation.course math.score reading.score writing.score
1 none 72 72 74
2 completed 69 90 88
3 none 90 95 93
4 none 47 57 44
5 none 76 78 75
6 none 71 83 78
import pandas as pddf = pd.read_csv("StudentsPerformance.csv")df.head()
gender race/ethnicity ... reading score writing score
0 female group B ... 72 74
1 female group C ... 90 88
2 female group B ... 95 93
3 male group A ... 57 44
4 male group C ... 78 75
[5 rows x 8 columns]
O teste t de Student é um teste estatístico paramétrico desenvolvido por William Sealy Gosset em 1908, sob o pseudônimo “Student”. Seu principal objetivo é comparar médias e verificar se a diferença observada entre elas é estatisticamente significativa ou se pode ter ocorrido apenas devido à variabilidade natural dos dados.
Esse teste é amplamente utilizado quando a variável de interesse é quantitativa, a amostra é relativamente pequena ou quando a variância populacional é desconhecida, situação bastante comum em pesquisas científicas. O teste baseia-se na distribuição t de Student, que possui formato semelhante ao da distribuição normal, porém apresenta caudas mais espessas, tornando-se mais adequada para amostras menores.
Dependendo do problema de pesquisa, o teste t pode ser aplicado em diferentes situações:
Teste t para uma amostra: compara a média de uma amostra com um valor de referência conhecido.
Teste t para duas amostras independentes: compara as médias de dois grupos distintos e independentes entre si.
Teste t pareado: compara duas medições relacionadas, obtidas dos mesmos indivíduos ou de indivíduos emparelhados, como estudos de antes e depois de uma intervenção.
Neste trabalho serão abordados o teste t para duas amostras independentes e o teste t pareado, utilizando dados de desempenho escolar.
5 Motivação para utilização do teste
A escolha do teste t de Student para este trabalho deve-se ao seu objetivo principal: comparar médias entre dois grupos e verificar se as diferenças observadas são estatisticamente significativas. Em pesquisas científicas, muitas vezes é necessário determinar se diferenças entre grupos representam um efeito real ou se ocorreram apenas devido à variabilidade amostral.
O conjunto de dados Students Performance in Exams apresenta características adequadas para a aplicação desse teste, pois contém variáveis quantitativas (notas em matemática, leitura e escrita) e variáveis categóricas (gênero, curso preparatório, grupo étnico, entre outras), permitindo comparar médias entre diferentes grupos de estudantes.
Neste trabalho, o teste t será utilizado em duas situações distintas. Na primeira, será aplicado o teste t para duas amostras independentes, comparando as médias das notas de matemática entre estudantes do sexo feminino e masculino. Na segunda, será utilizado o teste t pareado para comparar as notas de matemática e leitura dos mesmos estudantes, verificando se existe diferença significativa entre essas duas disciplinas.
A utilização desse conjunto de dados possibilita demonstrar, de forma prática, os conceitos teóricos do teste t, bem como interpretar seus resultados utilizando as linguagens R e Python.
6 Situações práticas em que o teste t é utilizado
O teste t de Student é amplamente empregado em diferentes áreas do conhecimento sempre que o objetivo é comparar médias entre dois grupos ou entre duas condições relacionadas. Sua simplicidade de aplicação e interpretação faz com que seja um dos testes estatísticos mais utilizados em pesquisas científicas.
Na área da Educação, o teste t pode ser utilizado para comparar o desempenho de estudantes submetidos a diferentes métodos de ensino, verificar diferenças de rendimento entre grupos de alunos ou analisar o efeito de cursos preparatórios sobre as notas.
Na área da Saúde, é frequentemente empregado para comparar medidas clínicas antes e após um tratamento, avaliar a eficácia de medicamentos ou comparar indicadores de saúde entre grupos de pacientes.
Na Psicologia, o teste t é utilizado para comparar escores obtidos em testes psicológicos entre diferentes grupos ou para avaliar mudanças comportamentais antes e depois de intervenções.
Na Engenharia, pode ser aplicado para comparar o desempenho de processos produtivos, materiais ou equipamentos, verificando se modificações implementadas produzem diferenças significativas.
Na área de Marketing e Administração, o teste t auxilia na comparação dos resultados de campanhas publicitárias, desempenho de produtos, satisfação de clientes e comportamento de consumidores.
Neste trabalho, a aplicação será realizada na área da educação, comparando o desempenho de estudantes em diferentes disciplinas e entre grupos definidos pelo gênero, utilizando dados reais do conjunto Students Performance in Exams.
7 Análise Descritiva dos Dados
Antes da aplicação dos testes de hipóteses, realizou-se uma análise descritiva com o objetivo de compreender as principais características do conjunto de dados. Foram calculadas medidas de tendência central e de dispersão para as variáveis quantitativas, além da construção de gráficos que auxiliam na visualização da distribuição das notas dos estudantes.
As análises descritivas permitem identificar padrões, possíveis valores extremos e diferenças iniciais entre os grupos, servindo como etapa preparatória para a aplicação do teste t de Student.
vars n mean sd median trimmed mad min max range skew
math.score 1 1000 66.09 15.16 66 66.38 14.83 0 100 100 -0.28
reading.score 2 1000 69.17 14.60 70 69.50 14.83 17 100 83 -0.26
writing.score 3 1000 68.05 15.20 69 68.41 16.31 10 100 90 -0.29
kurtosis se
math.score 0.26 0.48
reading.score -0.08 0.46
writing.score -0.05 0.48
As notas de matemática, leitura e escrita apresentaram médias próximas, indicando desempenho semelhante entre as disciplinas. Observou-se também uma dispersão moderada, evidenciada pelos desvios-padrão, indicando variabilidade natural entre os estudantes.
library(dplyr)dados %>%group_by(gender) %>%summarise( Média =mean(math.score),Desvio =sd(math.score),n =n() )
# A tibble: 2 × 4
gender Média Desvio n
<chr> <dbl> <dbl> <int>
1 female 63.6 15.5 518
2 male 68.7 14.4 482
Observa-se inicialmente que estudantes do sexo masculino apresentam média superior nas notas de matemática quando comparados às estudantes do sexo feminino. Entretanto, essa diferença será confirmada estatisticamente por meio do teste t.
7.2 Boxplot por gênero
library(ggplot2)ggplot( dados,aes(x = gender,y = math.score,fill = gender )) +geom_boxplot() +labs(title ="Notas de Matemática por Gênero",x ="Gênero",y ="Nota" ) +theme_minimal()
O boxplot indica que os estudantes do sexo masculino apresentam mediana ligeiramente superior nas notas de matemática. Também é possível observar a dispersão das notas e a presença de alguns valores extremos, comuns em dados educacionais.
8 Formulação das hipóteses
Em testes de hipóteses, o primeiro passo consiste em definir duas afirmações opostas: a hipótese nula (H₀) e a hipótese alternativa (H₁). A hipótese nula representa a ausência de efeito ou diferença entre os grupos analisados, enquanto a hipótese alternativa representa a existência de uma diferença estatisticamente significativa.
A decisão entre aceitar ou rejeitar a hipótese nula é baseada na estatística de teste e no p-valor obtido durante a análise.
9 Pressupostos para aplicação do teste t
Antes de aplicar qualquer teste t, precisamos verificar se seus pressupostos são atendidos. Esses pressupostos garantem que os resultados obtidos sejam confiáveis e que as conclusões estatísticas sejam válidas.
Os principais pressupostos são:
Independência das observações;
Normalidade dos dados;
Homogeneidade das variâncias (para o teste t clássico).
Caso o pressuposto de igualdade das variâncias não seja atendido, utiliza-se o teste t de Welch, que é uma adaptação do teste t tradicional.
9.1 Independência das Observações
O primeiro pressuposto do teste t é que as observações sejam independentes entre si. Isso significa que o valor observado para um indivíduo não deve influenciar o valor observado para outro indivíduo.
No conjunto de dados utilizado neste trabalho, cada linha representa um estudante distinto, cujas notas foram obtidas individualmente. Dessa forma, considera-se que as observações são independentes, atendendo ao primeiro pressuposto para aplicação do teste t.
9.2 Normalidade
Outro pressuposto importante do teste t é que a variável de interesse apresente distribuição aproximadamente normal dentro dos grupos analisados.
Para verificar esse pressuposto foi utilizado o teste de Shapiro-Wilk, cuja hipótese nula afirma que os dados seguem distribuição normal.
Hipóteses do Shapiro
H₀
Os dados seguem distribuição normal.
H₁
Os dados não seguem distribuição normal.
shapiro.test(dados$math.score)
Shapiro-Wilk normality test
data: dados$math.score
W = 0.99315, p-value = 0.0001455
Como:
p<0,05
rejeitamos H₀.
Ou seja,
os dados não seguem perfeitamente uma distribuição normal.
Apesar da rejeição da hipótese de normalidade, o tamanho da amostra (n = 1000) permite utilizar o teste t com segurança devido ao Teorema do Limite Central, segundo o qual a distribuição das médias amostrais tende à normalidade conforme o tamanho da amostra aumenta.
Podemos confirmmar visualizando o histograma e gráfico Q-Q Plot:
Histograma — Distribuição das notas
library(ggplot2)ggplot(dados, aes(x = math.score)) +geom_histogram(bins =30, fill ="steelblue", color ="white") +labs(title ="Distribuição das notas de matemática",x ="Nota",y ="Frequência" ) +theme_minimal()
Para o teste t tradicional assume-se que os grupos possuam variâncias iguais.
Esse pressuposto foi avaliado utilizando o teste F para comparação de variâncias.
Hipóteses
H₀
As variâncias são iguais.
H₁
As variâncias são diferentes.
var.test(math.score ~ gender, data = dados)
F test to compare two variances
data: math.score by gender
F = 1.1644, num df = 517, denom df = 481, p-value = 0.09016
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.9764071 1.3877941
sample estimates:
ratio of variances
1.164396
Como:
p>0,05
não rejeitamos H₀.
Portanto,
não há evidências de diferenças entre as variâncias dos grupos.
9.4 Teste de Welch
O teste t de Welch é uma modificação do teste t clássico que não exige a igualdade das variâncias entre os grupos.
Por esse motivo, ele é considerado mais robusto quando esse pressuposto é violado.
Na linguagem R, a função t.test() utiliza o teste de Welch como padrão (var.equal = FALSE), tornando sua aplicação recomendada mesmo quando não há evidências de heterogeneidade das variâncias.
t.test(math.score~gender,data=dados)
Welch Two Sample t-test
data: math.score by gender
t = -5.398, df = 997.98, p-value = 8.421e-08
alternative hypothesis: true difference in means between group female and group male is not equal to 0
95 percent confidence interval:
-6.947209 -3.242813
sample estimates:
mean in group female mean in group male
63.63320 68.72822
10 Estatística de teste
A estatística de teste é um valor calculado a partir dos dados da amostra e utilizado para decidir se a hipótese nula deve ou não ser rejeitada. No teste t de Student, essa estatística mede a diferença entre as médias em relação à variabilidade dos dados.
Para o teste t de duas amostras independentes, a estatística é dada por:
\[t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\] Onde:
* \(\bar{x}_1\): média do primeiro grupo;
* \(\bar{x}_2\): média do segundo grupo;
* \(s_1^2\): variância do primeiro grupo;
* \(s_2^2\): variância do segundo grupo;
* \(n_1\): tamanho da primeira amostra;
* \(n_2\): tamanho da segunda amostra.
A estatística t indica quantos erros-padrão separam as médias observadas. Quanto maior o valor absoluto de t, maior é a evidência de que existe diferença entre as médias dos grupos.
Quando as variâncias populacionais são consideradas iguais, a estatística segue a distribuição t de Student com: \[gl = n_1 + n_2 - 2\] graus de liberdade.
Quando as variâncias não podem ser consideradas iguais, utiliza-se o teste de Welch, no qual os graus de liberdade são calculados por uma aproximação conhecida como equação de Welch-Satterthwaite. Essa abordagem torna o teste mais robusto diante de diferenças entre as variâncias dos grupos.
No caso do teste t pareado, a comparação não é realizada entre duas médias independentes, mas sim entre as diferenças observadas para cada indivíduo. A estatística é calculada por: \[t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}\] em que:
\(\bar{d}\): média das diferenças;
\(s_d\): desvio-padrão das diferenças;
\(n\): número de pares observados.
Assim, o teste verifica se a média das diferenças entre as duas medições é significativamente diferente de zero.
11 Regra de decisão
Após o cálculo da estatística de teste, é necessário definir um critério para decidir se a hipótese nula deve ser rejeitada ou não. Essa decisão pode ser realizada por dois métodos: o método do valor crítico e o método do p-valor.
11.1 Método do valor crítico
No método do valor crítico, inicialmente é definido um nível de significância (α), que representa a probabilidade máxima aceitável de cometer um erro do Tipo I (rejeitar a hipótese nula quando ela é verdadeira). Neste trabalho foi adotado: \[\alpha = 0,05\] Em seguida, consulta-se a tabela da distribuição t de Student para determinar o valor crítico correspondente ao nível de significância e aos graus de liberdade do teste.
A regra de decisão é:
Se \[|t_{\text{calculado}}| > t_{\text{crítico}}\]
rejeita-se a hipótese nula.
Caso contrário,
não se rejeita a hipótese nula.
Esse método é bastante utilizado para fins didáticos, pois permite visualizar a região crítica da distribuição t.
11.2 Método do p-valor
Na prática, os softwares estatísticos calculam automaticamente o p-valor, que representa a probabilidade de observar uma estatística de teste tão extrema quanto a obtida, assumindo que a hipótese nula seja verdadeira.
A regra de decisão é simples:
Se \[p > \alpha\] rejeita-se a hipótese nula.
Se \[p < \alpha\] não se rejeita a hipótese nula.
Neste trabalho foi adotado o nível de significância de 5% \((\alpha = 0,05)\), sendo este o critério utilizado para interpretar todos os resultados obtidos em R e Python.
12 Teste t para duas amostras independentes
Neste trabalho, o teste t para duas amostras independentes será utilizado para comparar as médias das notas de matemática entre estudantes do sexo feminino e masculino.
math score (Notas de matemática) × gender (gênero)
As hipóteses são definidas da seguinte forma:
Hipótese nula (H₀):
\[
\begin{aligned}
H_0: \mu_{\text{female}} = \mu_{\text{male}} \quad &\text{Não existe diferença significativa entre as médias das notas de matemática dos} \\
&\text{estudantes do sexo feminino e masculino.}
\end{aligned}
\]Hipótese alternativa (H₁):
\[
\begin{aligned}
H_1: \mu_{\text{female}} &\neq \mu_{\text{male}} \quad \text{Existe diferença significativa entre as médias das notas de matemática dos} \\
&\text{estudantes do sexo feminino e masculino.}
\end{aligned}
\] Neste estudo será utilizado um teste bilateral, pois o interesse é verificar apenas se existe diferença entre as médias, independentemente de qual grupo apresenta maior desempenho.
Welch Two Sample t-test
data: math.score by gender
t = -5.398, df = 997.98, p-value = 8.421e-08
alternative hypothesis: true difference in means between group female and group male is not equal to 0
95 percent confidence interval:
-6.947209 -3.242813
sample estimates:
mean in group female mean in group male
63.63320 68.72822
O teste t de Welch indicou diferença estatisticamente significativa entre as médias das notas de matemática de estudantes do sexo feminino e masculino (t=−5,398; gl=997,98; p<0,001). A média das estudantes do sexo feminino foi de 63,63 pontos, enquanto a média dos estudantes do sexo masculino foi de 68,73 pontos. Como o p-valor é inferior ao nível de significância de 5%, rejeita-se a hipótese nula e conclui-se que existe diferença significativa entre os grupos.
A implementação em Python produziu resultados equivalentes aos obtidos em R, confirmando a existência de diferença estatisticamente significativa entre as médias das notas de matemática dos estudantes dos dois grupos.
12.1 Teste t pareado
O teste t pareado será utilizado para comparar as notas de matemática e leitura obtidas pelos mesmos estudantes.
math score (Notas de matemática) × reading score (Leitura)
As hipóteses são:
Hipótese nula (H₀):
\[
\begin{aligned}
H_0: \mu_d &= 0 \quad \text{A média das diferenças entre as notas de matemática e leitura é igual a zero}
\end{aligned}
\]Hipótese alternativa (H₁):\[
\begin{aligned}
H_1: \mu_d &\neq 0 \quad \text{A média das diferenças entre as notas de matemática e leitura é diferente de zero.}
\end{aligned}
\] Assim como no teste anterior, será utilizado um teste bilateral, pois deseja-se verificar apenas a existência de diferença entre as duas disciplinas.
Aplicação em R
# Teste t pareadoteste_pareado <-t.test( dados$math.score, dados$reading.score,paired =TRUE)teste_pareado
Paired t-test
data: dados$math.score and dados$reading.score
t = -10.816, df = 999, p-value < 2.2e-16
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
-3.638791 -2.521209
sample estimates:
mean difference
-3.08
Como o p-valor foi inferior a 0,05, rejeita-se a hipótese nula.
Os resultados indicam que existe diferença estatisticamente significativa entre as médias das notas de Matemática e Leitura dos mesmos estudantes.
A diferença média encontrada foi de −3,08 pontos, indicando que, em média, as notas de Matemática são aproximadamente 3 pontos menores que as notas de Leitura.
O valor da estatística de teste (t=−10,816) reforça a evidência contra a hipótese nula, mostrando que a diferença observada dificilmente ocorreu por acaso.
A implementação em Python produziu resultados equivalentes aos obtidos em R, confirmando a existência de diferença estatisticamente significativa entre as notas de Matemática e Leitura.
Essa concordância demonstra que ambas as linguagens implementam corretamente o teste t pareado e conduzem às mesmas conclusões estatísticas
13 Diferença entre os dois testes
Característica
Teste t Independente
Teste t Pareado
Objetivo
Comparar médias de grupos diferentes
Comparar duas medidas dos mesmos indivíduos
Amostras
Independentes
Dependentes
Exemplo no trabalho
Matemática × Gênero
Matemática × Leitura
Estatística t
-5,398
-10,816
Graus de liberdade
997,98
999
p-valor
8,42 × 10⁻⁸
< 2,2 × 10⁻¹⁶
Decisão
Rejeitar H₀
Rejeitar H₀
Conclusão
Há diferença entre os gêneros
Há diferença entre as disciplinas
14 Exemplo resolvido manualmente
14.1 Exemplo simples: Teste t para duas amostras independentes
Passo 3 — Aplicar a fórmula\[
\begin{aligned}
t &= \frac{80 - 70}{\sqrt{\frac{62,5}{5} + \frac{14,5}{5}}} \\
t &= \frac{10}{\sqrt{12,5 + 2,9}} \\
t &= \frac{10}{\sqrt{15,4}} \\
t &= \frac{10}{3,924} \\
t &\approx 2,55
\end{aligned}
\]Passo 4 — Graus de liberdade\[
\begin{aligned}
gl &= n_1 + n_2 - 2 \\
gl &= 5 + 5 - 2 \\
gl &= 8
\end{aligned}
\]
Passo 5 — Valor crítico
Considerando \[\alpha = 0,05\] e teste bilateral,
consultando a tabela da distribuição t: \[ t_{\text{crítico}} = 2,306\]Passo 6 — Decisão
Como
\[ 2,55 > 2,306\] Rejeitamos H₀.
15 Conclusão
O presente trabalho apresentou os fundamentos teóricos e práticos do teste t de Student, um dos testes estatísticos mais utilizados para comparação de médias. Foram abordados os conceitos, hipóteses, pressupostos, estatística de teste, regra de decisão e as diferenças entre o teste t para duas amostras independentes e o teste t pareado.
Os testes aplicados indicaram diferenças estatisticamente significativas tanto entre os grupos de gênero quanto entre disciplinas. O desempenho em matemática mostrou-se superior para alunos do sexo masculino, enquanto a análise pareada indicou maior desempenho em leitura em relação à matemática.
Conclui-se que o teste t de Student é uma ferramenta estatística fundamental para a comparação de médias, desde que seus pressupostos sejam adequadamente avaliados. Sua simplicidade de aplicação, facilidade de interpretação e ampla disponibilidade em softwares estatísticos fazem dele um método indispensável em pesquisas nas áreas da Educação, Saúde, Engenharia, Ciências Sociais e diversas outras áreas do conhecimento.
16 Referências bibliográficas
FIELD, Andy; MILES, Jeremy; FIELD, Zoë. Discovering Statistics Using R. London: Sage Publications, 2012.
KAGGLE. Students Performance in Exams. Disponível em: https://www.kaggle.com/datasets/spscientist/students-performance-in-exams. Acesso em: 28 jun. 2026.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. 7. ed. Rio de Janeiro: LTC, 2021.
PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de Bioestatística. 2. ed. São Paulo: Cengage Learning, 2011.
R CORE TEAM. R: A Language and Environment for Statistical Computing. Vienna: R Foundation for Statistical Computing, 2025. Disponível em: https://www.R-project.org/. Acesso em: 28 jun. 2026.
TORGERSON, David J.; TORGERSON, Carole J. Designing Randomised Trials in Health, Education and the Social Sciences: An Introduction. New York: Palgrave Macmillan, 2008.
TRIOLA, Mario F. Introdução à Estatística. 12. ed. Rio de Janeiro: LTC, 2017.
WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. Sebastopol: O’Reilly Media, 2017. Disponível em: https://r4ds.hadley.nz/. Acesso em: 28 jun. 2026.