flowchart TD
A["Variável quantitativa"] --> B["Explorar distribuição"]
B --> C{"Distribuição aproximadamente normal?"}
C -->|Sim| D["Usar média, DP, IC da média, teste t quando adequado"]
C -->|Não| E["Usar mediana, quartis, percentis, testes não-paramétricos quando adequado"]
D --> F["Interpretar valor-p, IC e tamanho de efeito"]
E --> F
G["Variável qualitativa"] --> H["Frequências e percentuais"]
H --> I["Comparar proporções com qui-quadrado ou Fisher"]
I --> F
Aula – Distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses no JAMOVI
Objetivo da aula
Compreender e aplicar, no contexto da pós-graduação em Saúde e Nutrição, os conceitos de distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses, utilizando o JAMOVI como ferramenta prática de análise de dados.
Nesta aula, a teoria será apresentada como instrumento de decisão analítica. O objetivo não é transformar o aluno em alguém que apenas executa comandos no software, mas em alguém que entende quando, por que e como interpretar os resultados.
1. Por que estudar a distribuição normal?
Em pesquisas em Saúde e Nutrição, muitas variáveis quantitativas apresentam concentração de valores em torno de um ponto central. Exemplos:
- glicemia em jejum;
- colesterol total;
- pressão arterial;
- IMC;
- circunferência da cintura;
- concentração sérica de nutrientes;
- marcadores hematológicos.
A distribuição normal, também conhecida como curva de Gauss, é um modelo usado para representar esse tipo de comportamento.
A curva normal não deve ser entendida como uma exigência cega da Estatística. Ela é um modelo. Como todo modelo, serve para simplificar uma realidade variável e permitir decisões analíticas mais organizadas.
A distribuição normal, ou curva de Gauss, pode ser representada pela seguinte função de densidade de probabilidade:
em que:
- representa um valor qualquer da variável quantitativa;
- representa a média populacional;
- representa o desvio-padrão populacional;
- é a constante matemática pi;
- representa a função exponencial.
2. Propriedades da curva normal
3. O escore-z e curva normal padronizada
O escore-z é uma forma de transformar um valor observado em uma medida padronizada. Em vez de interpretarmos uma variável na sua unidade original, como mg/dL, cm, kg ou mmHg, passamos a interpretá-la em unidades de desvio-padrão.
A ideia central é simples: o escore-z informa quantos desvios-padrão um valor está acima ou abaixo da média.
Esse procedimento é importante porque as variáveis observadas na prática, representadas por , podem estar em escalas muito diferentes. Por exemplo, glicemia é medida em mg/dL, estatura em cm, IMC em kg/m² e pressão arterial em mmHg. Ao transformar esses valores em , todas essas variáveis passam a ser analisadas em uma mesma escala: a escala da curva normal padronizada.
A curva normal padronizada, também chamada de curva normal reduzida, tem média igual a 0 e desvio-padrão igual a 1. Por isso, quando transformamos uma variável em , estamos deslocando a média para 0 e expressando a distância de cada valor em número de desvios-padrão.
3.1 Curva normal padronizada
A curva normal padronizada é uma curva normal especial, com:
e
Assim, a variável padronizada passa a indicar a posição relativa de um valor em relação à média.
- : o valor está exatamente na média;
- : o valor está acima da média;
- : o valor está abaixo da média;
- : o valor está 1 desvio-padrão acima da média;
- : o valor está 1 desvio-padrão abaixo da média;
- : o valor está 2 desvios-padrão acima da média;
- : o valor está 2 desvios-padrão abaixo da média.
3.2 Fórmula do escore-z
A transformação de uma variável em uma variável padronizada é feita por:
em que:
- representa o valor observado;
- representa a média populacional;
- representa o desvio-padrão populacional;
- representa o valor padronizado.
Quando utilizamos dados amostrais e não conhecemos os parâmetros populacionais, podemos usar, de forma aproximada:
em que é a média amostral e é o desvio-padrão amostral.
Quando o objetivo é comparar um indivíduo com uma população de referência, o ideal é usar a média e o desvio-padrão dessa população de referência. Quando usamos e da própria amostra, o escore-z descreve apenas a posição relativa do indivíduo dentro daquela amostra.
3.3 Como interpretar o escore-z
O sinal e o tamanho do escore-z têm interpretações diferentes.
| Valor de | Interpretação |
|---|---|
| valor igual à média | |
| valor acima da média | |
| valor abaixo da média | |
| valor próximo da média | |
| valor moderadamente afastado da média | |
| valor bastante afastado da média | |
| valor extremo ou raro, sob normalidade |
O escore-z não transforma automaticamente uma variável assimétrica em normal. Ele apenas coloca os valores em uma escala padronizada. Para interpretar probabilidades usando a curva normal, é necessário que a variável tenha distribuição normal ou aproximadamente normal.
3.4 Exemplo aplicado à glicemia
Suponha que a glicemia em jejum de uma população saudável tenha média igual a 90 mg/dL e desvio-padrão igual a 5 mg/dL.
Para uma pessoa com glicemia de 95 mg/dL:
Interpretação:
Essa pessoa apresenta glicemia 1 desvio-padrão acima da média da população de referência.
Para uma pessoa com glicemia de 80 mg/dL:
Interpretação:
Essa pessoa apresenta glicemia 2 desvios-padrão abaixo da média da população de referência.
Considerando uma distribuição aproximadamente normal, valores entre e abrangem cerca de 68% dos indivíduos; valores entre e abrangem cerca de 95%; e valores entre e abrangem cerca de 99,7%.
3.5 Exemplo aplicado à estatura
Suponha que a estatura de um grupo de jovens tenha distribuição aproximadamente normal, com média de 175 cm e desvio-padrão de 6 cm.
Para um jovem com estatura de 180 cm:
Interpretação:
Uma estatura de 180 cm está aproximadamente 0,83 desvio-padrão acima da média desse grupo.
Esse valor de permite localizar a posição de 180 cm na curva normal padronizada e, com auxílio de uma tabela da curva normal ou de um software estatístico, calcular a proporção esperada de indivíduos acima ou abaixo desse valor.
3.6 Para que serve o escore-z na prática?
Na Bioestatística aplicada à Saúde e Nutrição, o escore-z pode ser usado para:
- comparar valores medidos em escalas diferentes;
- identificar indivíduos com valores muito afastados da média;
- interpretar a posição relativa de uma pessoa em relação a uma população de referência;
- auxiliar na leitura de áreas e probabilidades na curva normal;
- construir raciocínios sobre faixas esperadas de valores;
- facilitar a comparação entre variáveis como glicemia, IMC, pressão arterial, estatura e marcadores bioquímicos.
3.7 Como calcular o escore-z no JAMOVI
No JAMOVI, existem duas situações práticas.
Situação 1: usando média e desvio-padrão de referência
Quando a média e o desvio-padrão são conhecidos, por exemplo, e , é possível criar uma variável calculada:
Data → Compute
Criar, por exemplo, a variável z_glicemia usando:
(glicemia - 90) / 5
Situação 2: usando média e desvio-padrão da própria amostra
Quando a média e o desvio-padrão são obtidos na própria amostra, primeiro execute:
Analyses → Exploration → Descriptives
Depois, anote a média e o desvio-padrão da variável. Em seguida, em:
Data → Compute
crie uma nova variável usando a fórmula:
(variavel - media_amostral) / desvio_padrao_amostral
Por exemplo, se a média amostral da glicemia for 92 e o desvio-padrão for 8:
(glicemia - 92) / 8
3.8 Modelo de interpretação para relatório
A variável foi padronizada por meio do escore-z, que expressa a distância de cada observação em relação à média, em unidades de desvio-padrão. Valores positivos indicam observações acima da média, enquanto valores negativos indicam observações abaixo da média. Valores próximos de zero indicam observações próximas ao comportamento médio. Sob distribuição aproximadamente normal, valores com podem indicar observações relativamente afastadas da média, merecendo atenção na interpretação estatística e no contexto clínico ou nutricional.
O escore-z responde à pergunta: este valor está quantos desvios-padrão distante da média? Essa resposta ajuda a transformar um valor bruto em uma informação comparável, interpretável e útil para análise bioestatística.
4. Avaliação da normalidade no JAMOVI
4.1 Caminho no JAMOVI
Abra a base dados_nutricao_jamovi.csv.
Depois siga:
Analyses → Exploration → Descriptives
Insira em Variables:
imc;glicemia;colesterol_total;triglicerideos;pressao_sistolica;circunferencia_cintura.
Marque:
- média;
- mediana;
- desvio-padrão;
- mínimo;
- máximo;
- assimetria;
- curtose;
- histograma;
- boxplot;
- Q-Q plot;
- teste de Shapiro-Wilk, quando disponível.
4.2 Como interpretar
A avaliação da normalidade não deve depender de um único critério. Observe conjuntamente:
| Elemento | O que observar |
|---|---|
| Média e mediana | Valores próximos sugerem simetria |
| Histograma | Formato aproximado de sino sugere normalidade |
| Boxplot | Assimetria e valores extremos |
| Q-Q plot | Pontos próximos da linha sugerem normalidade |
| Shapiro-Wilk | p < 0,05 sugere afastamento da normalidade |
Em amostras pequenas, o teste de normalidade pode não detectar desvios relevantes. Em amostras grandes, pequenas diferenças podem gerar valor-p significativo. Por isso, histogramas, boxplots e Q-Q plots são essenciais.
5. Faixas de referência
Faixas de referência são intervalos utilizados para indicar a região em que se espera encontrar a maior parte dos valores de uma população de referência.
Na Saúde e Nutrição, elas aparecem em exames laboratoriais, parâmetros antropométricos e indicadores clínicos.
Faixa de referência não é sinônimo absoluto de saúde ou doença. Ela indica uma região esperada em determinada população de referência. A interpretação clínica exige contexto.
6. Método da curva de Gauss
Quando a variável apresenta distribuição aproximadamente normal, podemos construir uma faixa de referência aproximada por:
em que representa a média amostral e representa o desvio-padrão amostral.
Ou seja:
em que é o limite inferior e é o limite superior da faixa de referência.
Esse intervalo contém, aproximadamente, 95% dos valores esperados sob normalidade.
Exemplo
Se a glicemia tem média de 92 mg/dL e desvio-padrão de 9 mg/dL:
Interpretação:
Considerando distribuição aproximadamente normal, espera-se que cerca de 95% dos indivíduos da população de referência apresentem glicemia entre 74 e 110 mg/dL.
7. Método dos percentis
Quando a variável é assimétrica, contém valores extremos ou não se ajusta bem ao modelo normal, usa-se o método dos percentis.
Para uma faixa central de 95%, utilizam-se:
em que representa o percentil 2,5 e representa o percentil 97,5.
O método dos percentis é muito útil para variáveis assimétricas, como triglicerídeos, tempo de internação, consumo alimentar e alguns marcadores inflamatórios.
8. Como obter percentis no JAMOVI
No JAMOVI:
Analyses → Exploration → Descriptives
Selecione a variável triglicerideos.
Marque a opção de percentis. Se o JAMOVI permitir percentis customizados, solicite:
- 2,5;
- 25;
- 50;
- 75;
- 97,5.
Interpretação sugerida:
A variável triglicerídeos apresentou assimetria à direita. Nesse caso, a faixa de referência pelo método dos percentis é mais adequada que o método da curva de Gauss, pois sofre menor influência de valores extremos.
9. Da descrição à inferência
Até aqui descrevemos os dados. Agora passamos à inferência.
Na estatística inferencial, usamos uma amostra para fazer afirmações sobre uma população.
| Conceito | Definição | Exemplo |
|---|---|---|
| População | Conjunto total de interesse | Adultos atendidos em uma unidade de saúde |
| Amostra | Parte observada da população | 120 adultos avaliados |
| Parâmetro | Valor verdadeiro da população | Média populacional de glicemia |
| Estimativa | Valor calculado na amostra | Média amostral de glicemia |
A inferência estatística nasce da impossibilidade prática de observar toda a população. Como avaliamos amostras, precisamos lidar com incerteza.
10. Distribuição amostral da média
Se retirássemos várias amostras da mesma população e calculássemos a média em cada uma delas, essas médias não seriam idênticas.
A distribuição dessas médias é chamada de distribuição amostral da média.
Essa ideia sustenta:
- erro-padrão;
- intervalo de confiança;
- teste de hipóteses;
- cálculo do tamanho da amostra.
11. Erro-padrão
O erro-padrão mede a variabilidade esperada da média amostral.
em que é o erro-padrão da média, é o desvio-padrão amostral e é o tamanho da amostra.
Quanto maior o tamanho da amostra, menor tende a ser o erro-padrão.
O desvio-padrão descreve a variabilidade dos indivíduos. O erro-padrão descreve a precisão da estimativa da média.
12. Intervalo de confiança
O intervalo de confiança apresenta uma faixa plausível para o parâmetro populacional.
Exemplo:
A média de IMC foi 27,1 kg/m², com IC95% de 26,2 a 28,0 kg/m².
Interpretação:
Com base nos dados amostrais, estima-se que a média populacional de IMC esteja entre 26,2 e 28,0 kg/m², considerando nível de confiança de 95%.
12.1 Fórmula geral do intervalo de confiança
Para uma média, a estrutura geral do intervalo de confiança pode ser escrita como:
Para amostras grandes ou quando a distribuição normal padronizada é utilizada como aproximação:
Interpretação:
O intervalo de confiança combina a estimativa pontual , a variabilidade dos dados , o tamanho da amostra e o nível de confiança desejado.
13. Intervalo de confiança no JAMOVI
Para obter o IC da média:
Analyses → Exploration → Descriptives
Selecionar uma variável quantitativa, como imc.
Marcar:
- média;
- erro-padrão;
- intervalo de confiança da média;
- histograma;
- boxplot.
Para comparar dois grupos:
Analyses → T-Tests → Independent Samples T-Test
Configuração:
- Dependent Variables:
imc,glicemiaoupressao_sistolica; - Grouping Variable:
grupoousexo.
Marcar:
- descriptives;
- mean difference;
- confidence interval;
- effect size;
- assumption checks;
- normality test;
- homogeneity test.
14. Testes de hipóteses
Um teste de hipóteses avalia se os dados amostrais fornecem evidência suficiente contra uma hipótese inicial.
| Elemento | Significado |
|---|---|
| H0 | Hipótese nula |
| H1 ou HA | Hipótese alternativa |
| α | Nível de significância |
| Valor-p | Evidência contra H0 |
| IC | Faixa plausível para o efeito |
| Tamanho de efeito | Magnitude da diferença |
Exemplo
Pergunta:
O IMC médio difere entre o grupo controle e o grupo intervenção?
Hipóteses:
em que e representam as médias populacionais dos dois grupos.
Interpretação:
- se p < 0,05: há evidência estatística de diferença entre as médias;
- se p ≥ 0,05: não há evidência suficiente para afirmar diferença entre as médias.
Não rejeitar H0 não significa provar que os grupos são iguais. Significa apenas que os dados não forneceram evidência estatística suficiente de diferença.
14.1 Estatística do teste t
Para duas amostras independentes, quando os pressupostos são atendidos, a estatística do teste t pode ser expressa de forma geral por:
Quando se assume variâncias iguais, o erro-padrão da diferença entre médias pode ser escrito como:
com
em que é a variância combinada dos dois grupos.
No JAMOVI, o aluno não precisa calcular manualmente essa estatística. Porém, entender a fórmula ajuda a perceber que o teste compara a diferença entre médias em relação à variabilidade esperada dessa diferença.
15. Comparação entre duas médias independentes no JAMOVI
Caminho:
Analyses → T-Tests → Independent Samples T-Test
Use:
- variável dependente:
glicemia; - variável agrupadora:
grupo.
Marque:
- Student’s t;
- Welch’s t;
- Mann-Whitney, se necessário;
- descriptives;
- plots;
- effect size;
- confidence interval;
- normality;
- homogeneity of variances.
Modelo de interpretação
A média de glicemia foi comparada entre os grupos controle e intervenção. O teste t para amostras independentes avaliou a hipótese nula de igualdade entre as médias. Quando o valor-p é inferior a 0,05, rejeita-se H0 e conclui-se que há evidência estatística de diferença entre os grupos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente para rejeitar H0. A interpretação deve considerar também o intervalo de confiança e o tamanho de efeito.
16. Comparação entre duas proporções no JAMOVI
Exemplo:
A proporção de excesso de peso difere entre homens e mulheres?
Caminho:
Analyses → Frequencies → Contingency Tables → Independent Samples
Use:
- Rows:
sexo; - Columns:
excesso_peso.
Marque:
- contagens observadas;
- percentuais por linha;
- qui-quadrado;
- teste exato de Fisher, se necessário;
- resíduos padronizados, se disponível.
Modelo de interpretação
O teste qui-quadrado avaliou se existe associação entre sexo e excesso de peso. Quando o valor-p é inferior a 0,05, conclui-se que a distribuição do excesso de peso difere estatisticamente entre os sexos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente de associação.
16.1 Estatística do qui-quadrado
Para comparar proporções ou avaliar associação entre variáveis categóricas, a estatística qui-quadrado pode ser escrita como:
em que representa a frequência observada e representa a frequência esperada sob a hipótese de independência.
17. Cálculo do tamanho da amostra
O tamanho da amostra depende de:
- nível de confiança;
- margem de erro;
- variabilidade esperada;
- tamanho de efeito;
- poder estatístico;
- proporção esperada;
- número de grupos;
- perdas previstas.
Para estimar uma média
em que é o valor crítico da distribuição normal padronizada, é o desvio-padrão esperado e é o erro máximo tolerado.
Onde:
z: valor crítico da normal;s: desvio-padrão esperado;E: erro máximo tolerado.
Para estimar uma proporção
em que é a proporção esperada, é a proporção complementar e é o erro máximo tolerado.
Quando não se conhece p, utiliza-se p = 0,5, pois esse valor gera o maior tamanho amostral.
O cálculo do tamanho amostral deve ser feito antes da coleta de dados. Aumentar a amostra depois de observar um resultado não significativo pode comprometer a validade do estudo.
18. Síntese da decisão analítica
19. Conclusão da aula
A análise estatística em Saúde e Nutrição exige integração entre teoria, software e interpretação. O JAMOVI executa os cálculos, mas a decisão analítica depende do pesquisador.
Antes de aplicar testes, observe os dados. Antes de interpretar o valor-p, observe a magnitude do efeito. Antes de concluir, avalie se o resultado faz sentido no contexto biológico, clínico e nutricional.