Aula – Distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses no JAMOVI

Autor

Prof. Marcelo Ribeiro

Objetivo da aula

Compreender e aplicar, no contexto da pós-graduação em Saúde e Nutrição, os conceitos de distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses, utilizando o JAMOVI como ferramenta prática de análise de dados.

Comentário do professor

Nesta aula, a teoria será apresentada como instrumento de decisão analítica. O objetivo não é transformar o aluno em alguém que apenas executa comandos no software, mas em alguém que entende quando, por que e como interpretar os resultados.

1. Por que estudar a distribuição normal?

Em pesquisas em Saúde e Nutrição, muitas variáveis quantitativas apresentam concentração de valores em torno de um ponto central. Exemplos:

  • glicemia em jejum;
  • colesterol total;
  • pressão arterial;
  • IMC;
  • circunferência da cintura;
  • concentração sérica de nutrientes;
  • marcadores hematológicos.

A distribuição normal, também conhecida como curva de Gauss, é um modelo usado para representar esse tipo de comportamento.

Comentário do professor

A curva normal não deve ser entendida como uma exigência cega da Estatística. Ela é um modelo. Como todo modelo, serve para simplificar uma realidade variável e permitir decisões analíticas mais organizadas.

A distribuição normal, ou curva de Gauss, pode ser representada pela seguinte função de densidade de probabilidade:

f(x)=1σ2πexp[12(xμσ)2],<x< f(x)=\frac{1}{\sigma\sqrt{2\pi}} \exp\left[ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right], \quad -\infty < x < \infty

em que:

  • xx representa um valor qualquer da variável quantitativa;
  • μ\mu representa a média populacional;
  • σ\sigma representa o desvio-padrão populacional;
  • π\pi é a constante matemática pi;
  • exp\exp representa a função exponencial.

2. Propriedades da curva normal

3. O escore-z e curva normal padronizada

O escore-z é uma forma de transformar um valor observado em uma medida padronizada. Em vez de interpretarmos uma variável na sua unidade original, como mg/dL, cm, kg ou mmHg, passamos a interpretá-la em unidades de desvio-padrão.

A ideia central é simples: o escore-z informa quantos desvios-padrão um valor está acima ou abaixo da média.

Esse procedimento é importante porque as variáveis observadas na prática, representadas por xx, podem estar em escalas muito diferentes. Por exemplo, glicemia é medida em mg/dL, estatura em cm, IMC em kg/m² e pressão arterial em mmHg. Ao transformar esses valores em zz, todas essas variáveis passam a ser analisadas em uma mesma escala: a escala da curva normal padronizada.

Comentário do professor

A curva normal padronizada, também chamada de curva normal reduzida, tem média igual a 0 e desvio-padrão igual a 1. Por isso, quando transformamos uma variável xx em zz, estamos deslocando a média para 0 e expressando a distância de cada valor em número de desvios-padrão.

3.1 Curva normal padronizada

A curva normal padronizada é uma curva normal especial, com:

μ=0 \mu = 0

e

σ=1 \sigma = 1

Assim, a variável padronizada zz passa a indicar a posição relativa de um valor em relação à média.

  • z=0z = 0: o valor está exatamente na média;
  • z>0z > 0: o valor está acima da média;
  • z<0z < 0: o valor está abaixo da média;
  • z=1z = 1: o valor está 1 desvio-padrão acima da média;
  • z=1z = -1: o valor está 1 desvio-padrão abaixo da média;
  • z=2z = 2: o valor está 2 desvios-padrão acima da média;
  • z=2z = -2: o valor está 2 desvios-padrão abaixo da média.

3.2 Fórmula do escore-z

A transformação de uma variável xx em uma variável padronizada zz é feita por:

z=xμσ \boxed{ z = \frac{x - \mu}{\sigma} }

em que:

  • xx representa o valor observado;
  • μ\mu representa a média populacional;
  • σ\sigma representa o desvio-padrão populacional;
  • zz representa o valor padronizado.

Quando utilizamos dados amostrais e não conhecemos os parâmetros populacionais, podemos usar, de forma aproximada:

z=xxs \boxed{ z = \frac{x - \bar{x}}{s} }

em que x\bar{x} é a média amostral e ss é o desvio-padrão amostral.

Atenção

Quando o objetivo é comparar um indivíduo com uma população de referência, o ideal é usar a média e o desvio-padrão dessa população de referência. Quando usamos x\bar{x} e ss da própria amostra, o escore-z descreve apenas a posição relativa do indivíduo dentro daquela amostra.

3.3 Como interpretar o escore-z

O sinal e o tamanho do escore-z têm interpretações diferentes.

Valor de zz Interpretação
z=0z = 0 valor igual à média
z>0z > 0 valor acima da média
z<0z < 0 valor abaixo da média
|z|<1|z| < 1 valor próximo da média
1|z|<21 \leq |z| < 2 valor moderadamente afastado da média
|z|2|z| \geq 2 valor bastante afastado da média
|z|3|z| \geq 3 valor extremo ou raro, sob normalidade
Comentário do professor

O escore-z não transforma automaticamente uma variável assimétrica em normal. Ele apenas coloca os valores em uma escala padronizada. Para interpretar probabilidades usando a curva normal, é necessário que a variável tenha distribuição normal ou aproximadamente normal.

3.4 Exemplo aplicado à glicemia

Suponha que a glicemia em jejum de uma população saudável tenha média igual a 90 mg/dL e desvio-padrão igual a 5 mg/dL.

Para uma pessoa com glicemia de 95 mg/dL:

z=95905=1 z = \frac{95 - 90}{5} = 1

Interpretação:

Essa pessoa apresenta glicemia 1 desvio-padrão acima da média da população de referência.

Para uma pessoa com glicemia de 80 mg/dL:

z=80905=2 z = \frac{80 - 90}{5} = -2

Interpretação:

Essa pessoa apresenta glicemia 2 desvios-padrão abaixo da média da população de referência.

Considerando uma distribuição aproximadamente normal, valores entre z=1z=-1 e z=+1z=+1 abrangem cerca de 68% dos indivíduos; valores entre z=2z=-2 e z=+2z=+2 abrangem cerca de 95%; e valores entre z=3z=-3 e z=+3z=+3 abrangem cerca de 99,7%.

3.5 Exemplo aplicado à estatura

Suponha que a estatura de um grupo de jovens tenha distribuição aproximadamente normal, com média de 175 cm e desvio-padrão de 6 cm.

Para um jovem com estatura de 180 cm:

z=1801756=0,83 z = \frac{180 - 175}{6} = 0{,}83

Interpretação:

Uma estatura de 180 cm está aproximadamente 0,83 desvio-padrão acima da média desse grupo.

Esse valor de zz permite localizar a posição de 180 cm na curva normal padronizada e, com auxílio de uma tabela da curva normal ou de um software estatístico, calcular a proporção esperada de indivíduos acima ou abaixo desse valor.

3.6 Para que serve o escore-z na prática?

Na Bioestatística aplicada à Saúde e Nutrição, o escore-z pode ser usado para:

  1. comparar valores medidos em escalas diferentes;
  2. identificar indivíduos com valores muito afastados da média;
  3. interpretar a posição relativa de uma pessoa em relação a uma população de referência;
  4. auxiliar na leitura de áreas e probabilidades na curva normal;
  5. construir raciocínios sobre faixas esperadas de valores;
  6. facilitar a comparação entre variáveis como glicemia, IMC, pressão arterial, estatura e marcadores bioquímicos.

3.7 Como calcular o escore-z no JAMOVI

No JAMOVI, existem duas situações práticas.

Situação 1: usando média e desvio-padrão de referência

Quando a média e o desvio-padrão são conhecidos, por exemplo, μ=90\mu = 90 e σ=5\sigma = 5, é possível criar uma variável calculada:

Data → Compute

Criar, por exemplo, a variável z_glicemia usando:

(glicemia - 90) / 5

Situação 2: usando média e desvio-padrão da própria amostra

Quando a média e o desvio-padrão são obtidos na própria amostra, primeiro execute:

Analyses → Exploration → Descriptives

Depois, anote a média e o desvio-padrão da variável. Em seguida, em:

Data → Compute

crie uma nova variável usando a fórmula:

(variavel - media_amostral) / desvio_padrao_amostral

Por exemplo, se a média amostral da glicemia for 92 e o desvio-padrão for 8:

(glicemia - 92) / 8

3.8 Modelo de interpretação para relatório

A variável foi padronizada por meio do escore-z, que expressa a distância de cada observação em relação à média, em unidades de desvio-padrão. Valores positivos indicam observações acima da média, enquanto valores negativos indicam observações abaixo da média. Valores próximos de zero indicam observações próximas ao comportamento médio. Sob distribuição aproximadamente normal, valores com |z|2|z| \geq 2 podem indicar observações relativamente afastadas da média, merecendo atenção na interpretação estatística e no contexto clínico ou nutricional.

Síntese

O escore-z responde à pergunta: este valor está quantos desvios-padrão distante da média? Essa resposta ajuda a transformar um valor bruto em uma informação comparável, interpretável e útil para análise bioestatística.

4. Avaliação da normalidade no JAMOVI

4.1 Caminho no JAMOVI

Abra a base dados_nutricao_jamovi.csv.

Depois siga:

Analyses → Exploration → Descriptives

Insira em Variables:

  • imc;
  • glicemia;
  • colesterol_total;
  • triglicerideos;
  • pressao_sistolica;
  • circunferencia_cintura.

Marque:

  • média;
  • mediana;
  • desvio-padrão;
  • mínimo;
  • máximo;
  • assimetria;
  • curtose;
  • histograma;
  • boxplot;
  • Q-Q plot;
  • teste de Shapiro-Wilk, quando disponível.

4.2 Como interpretar

A avaliação da normalidade não deve depender de um único critério. Observe conjuntamente:

Elemento O que observar
Média e mediana Valores próximos sugerem simetria
Histograma Formato aproximado de sino sugere normalidade
Boxplot Assimetria e valores extremos
Q-Q plot Pontos próximos da linha sugerem normalidade
Shapiro-Wilk p < 0,05 sugere afastamento da normalidade
Comentário do professor

Em amostras pequenas, o teste de normalidade pode não detectar desvios relevantes. Em amostras grandes, pequenas diferenças podem gerar valor-p significativo. Por isso, histogramas, boxplots e Q-Q plots são essenciais.

5. Faixas de referência

Faixas de referência são intervalos utilizados para indicar a região em que se espera encontrar a maior parte dos valores de uma população de referência.

Na Saúde e Nutrição, elas aparecem em exames laboratoriais, parâmetros antropométricos e indicadores clínicos.

Atenção

Faixa de referência não é sinônimo absoluto de saúde ou doença. Ela indica uma região esperada em determinada população de referência. A interpretação clínica exige contexto.

6. Método da curva de Gauss

Quando a variável apresenta distribuição aproximadamente normal, podemos construir uma faixa de referência aproximada por:

x±2s \bar{x} \pm 2s

em que x\bar{x} representa a média amostral e ss representa o desvio-padrão amostral.

Ou seja:

LI=x2sLS=x+2s \begin{aligned} LI &= \bar{x} - 2s \\ LS &= \bar{x} + 2s \end{aligned}

em que LILI é o limite inferior e LSLS é o limite superior da faixa de referência.

Esse intervalo contém, aproximadamente, 95% dos valores esperados sob normalidade.

Exemplo

Se a glicemia tem média de 92 mg/dL e desvio-padrão de 9 mg/dL:

LI=922(9)=74mg/dLLS=92+2(9)=110mg/dL \begin{aligned} LI &= 92 - 2(9) = 74 \ \text{mg/dL} \\ LS &= 92 + 2(9) = 110 \ \text{mg/dL} \end{aligned}

Interpretação:

Considerando distribuição aproximadamente normal, espera-se que cerca de 95% dos indivíduos da população de referência apresentem glicemia entre 74 e 110 mg/dL.

7. Método dos percentis

Quando a variável é assimétrica, contém valores extremos ou não se ajusta bem ao modelo normal, usa-se o método dos percentis.

Para uma faixa central de 95%, utilizam-se:

P2,5XP97,5 P_{2,5} \leq X \leq P_{97,5}

em que P2,5P_{2,5} representa o percentil 2,5 e P97,5P_{97,5} representa o percentil 97,5.

Comentário do professor

O método dos percentis é muito útil para variáveis assimétricas, como triglicerídeos, tempo de internação, consumo alimentar e alguns marcadores inflamatórios.

8. Como obter percentis no JAMOVI

No JAMOVI:

Analyses → Exploration → Descriptives

Selecione a variável triglicerideos.

Marque a opção de percentis. Se o JAMOVI permitir percentis customizados, solicite:

  • 2,5;
  • 25;
  • 50;
  • 75;
  • 97,5.

Interpretação sugerida:

A variável triglicerídeos apresentou assimetria à direita. Nesse caso, a faixa de referência pelo método dos percentis é mais adequada que o método da curva de Gauss, pois sofre menor influência de valores extremos.

9. Da descrição à inferência

Até aqui descrevemos os dados. Agora passamos à inferência.

Na estatística inferencial, usamos uma amostra para fazer afirmações sobre uma população.

Conceito Definição Exemplo
População Conjunto total de interesse Adultos atendidos em uma unidade de saúde
Amostra Parte observada da população 120 adultos avaliados
Parâmetro Valor verdadeiro da população Média populacional de glicemia
Estimativa Valor calculado na amostra Média amostral de glicemia
Comentário do professor

A inferência estatística nasce da impossibilidade prática de observar toda a população. Como avaliamos amostras, precisamos lidar com incerteza.

10. Distribuição amostral da média

Se retirássemos várias amostras da mesma população e calculássemos a média em cada uma delas, essas médias não seriam idênticas.

A distribuição dessas médias é chamada de distribuição amostral da média.

Essa ideia sustenta:

  • erro-padrão;
  • intervalo de confiança;
  • teste de hipóteses;
  • cálculo do tamanho da amostra.

11. Erro-padrão

O erro-padrão mede a variabilidade esperada da média amostral.

EPx=sn EP_{\bar{x}} = \frac{s}{\sqrt{n}}

em que EPxEP_{\bar{x}} é o erro-padrão da média, ss é o desvio-padrão amostral e nn é o tamanho da amostra.

Quanto maior o tamanho da amostra, menor tende a ser o erro-padrão.

Comentário do professor

O desvio-padrão descreve a variabilidade dos indivíduos. O erro-padrão descreve a precisão da estimativa da média.

12. Intervalo de confiança

O intervalo de confiança apresenta uma faixa plausível para o parâmetro populacional.

Exemplo:

A média de IMC foi 27,1 kg/m², com IC95% de 26,2 a 28,0 kg/m².

Interpretação:

Com base nos dados amostrais, estima-se que a média populacional de IMC esteja entre 26,2 e 28,0 kg/m², considerando nível de confiança de 95%.

12.1 Fórmula geral do intervalo de confiança

Para uma média, a estrutura geral do intervalo de confiança pode ser escrita como:

IC95%(μ)=x±tα/2;n1(sn) IC_{95\%}(\mu) = \bar{x} \pm t_{\alpha/2;\,n-1} \left(\frac{s}{\sqrt{n}}\right)

Para amostras grandes ou quando a distribuição normal padronizada é utilizada como aproximação:

IC95%(μ)=x±zα/2(sn) IC_{95\%}(\mu) = \bar{x} \pm z_{\alpha/2} \left(\frac{s}{\sqrt{n}}\right)

Interpretação:

O intervalo de confiança combina a estimativa pontual x\bar{x}, a variabilidade dos dados ss, o tamanho da amostra nn e o nível de confiança desejado.

13. Intervalo de confiança no JAMOVI

Para obter o IC da média:

Analyses → Exploration → Descriptives

Selecionar uma variável quantitativa, como imc.

Marcar:

  • média;
  • erro-padrão;
  • intervalo de confiança da média;
  • histograma;
  • boxplot.

Para comparar dois grupos:

Analyses → T-Tests → Independent Samples T-Test

Configuração:

  • Dependent Variables: imc, glicemia ou pressao_sistolica;
  • Grouping Variable: grupo ou sexo.

Marcar:

  • descriptives;
  • mean difference;
  • confidence interval;
  • effect size;
  • assumption checks;
  • normality test;
  • homogeneity test.

14. Testes de hipóteses

Um teste de hipóteses avalia se os dados amostrais fornecem evidência suficiente contra uma hipótese inicial.

Elemento Significado
H0 Hipótese nula
H1 ou HA Hipótese alternativa
α Nível de significância
Valor-p Evidência contra H0
IC Faixa plausível para o efeito
Tamanho de efeito Magnitude da diferença

Exemplo

Pergunta:

O IMC médio difere entre o grupo controle e o grupo intervenção?

Hipóteses:

H0:μ1=μ2HA:μ1μ2 \begin{aligned} H_0 &: \mu_1 = \mu_2 \\ H_A &: \mu_1 \neq \mu_2 \end{aligned}

em que μ1\mu_1 e μ2\mu_2 representam as médias populacionais dos dois grupos.

Interpretação:

  • se p < 0,05: há evidência estatística de diferença entre as médias;
  • se p ≥ 0,05: não há evidência suficiente para afirmar diferença entre as médias.
Atenção

Não rejeitar H0 não significa provar que os grupos são iguais. Significa apenas que os dados não forneceram evidência estatística suficiente de diferença.

14.1 Estatística do teste t

Para duas amostras independentes, quando os pressupostos são atendidos, a estatística do teste t pode ser expressa de forma geral por:

t=x1x2EP(x1x2) t = \frac{\bar{x}_1 - \bar{x}_2}{EP(\bar{x}_1 - \bar{x}_2)}

Quando se assume variâncias iguais, o erro-padrão da diferença entre médias pode ser escrito como:

EP(x1x2)=sp1n1+1n2 EP(\bar{x}_1 - \bar{x}_2) = s_p \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} }

com

sp2=(n11)s12+(n21)s22n1+n22 s_p^2 = \frac{ (n_1-1)s_1^2 + (n_2-1)s_2^2 }{ n_1+n_2-2 }

em que sp2s_p^2 é a variância combinada dos dois grupos.

Comentário do professor

No JAMOVI, o aluno não precisa calcular manualmente essa estatística. Porém, entender a fórmula ajuda a perceber que o teste compara a diferença entre médias em relação à variabilidade esperada dessa diferença.

15. Comparação entre duas médias independentes no JAMOVI

Caminho:

Analyses → T-Tests → Independent Samples T-Test

Use:

  • variável dependente: glicemia;
  • variável agrupadora: grupo.

Marque:

  • Student’s t;
  • Welch’s t;
  • Mann-Whitney, se necessário;
  • descriptives;
  • plots;
  • effect size;
  • confidence interval;
  • normality;
  • homogeneity of variances.

Modelo de interpretação

A média de glicemia foi comparada entre os grupos controle e intervenção. O teste t para amostras independentes avaliou a hipótese nula de igualdade entre as médias. Quando o valor-p é inferior a 0,05, rejeita-se H0 e conclui-se que há evidência estatística de diferença entre os grupos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente para rejeitar H0. A interpretação deve considerar também o intervalo de confiança e o tamanho de efeito.

16. Comparação entre duas proporções no JAMOVI

Exemplo:

A proporção de excesso de peso difere entre homens e mulheres?

Caminho:

Analyses → Frequencies → Contingency Tables → Independent Samples

Use:

  • Rows: sexo;
  • Columns: excesso_peso.

Marque:

  • contagens observadas;
  • percentuais por linha;
  • qui-quadrado;
  • teste exato de Fisher, se necessário;
  • resíduos padronizados, se disponível.

Modelo de interpretação

O teste qui-quadrado avaliou se existe associação entre sexo e excesso de peso. Quando o valor-p é inferior a 0,05, conclui-se que a distribuição do excesso de peso difere estatisticamente entre os sexos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente de associação.

16.1 Estatística do qui-quadrado

Para comparar proporções ou avaliar associação entre variáveis categóricas, a estatística qui-quadrado pode ser escrita como:

χ2=(OE)2E \chi^2 = \sum \frac{(O - E)^2}{E}

em que OO representa a frequência observada e EE representa a frequência esperada sob a hipótese de independência.

17. Cálculo do tamanho da amostra

O tamanho da amostra depende de:

  • nível de confiança;
  • margem de erro;
  • variabilidade esperada;
  • tamanho de efeito;
  • poder estatístico;
  • proporção esperada;
  • número de grupos;
  • perdas previstas.

Para estimar uma média

n=(zα/2sE)2 n = \left(\frac{z_{\alpha/2} \cdot s}{E}\right)^2

em que zα/2z_{\alpha/2} é o valor crítico da distribuição normal padronizada, ss é o desvio-padrão esperado e EE é o erro máximo tolerado.

Onde:

  • z: valor crítico da normal;
  • s: desvio-padrão esperado;
  • E: erro máximo tolerado.

Para estimar uma proporção

n=zα/22p(1p)E2 n = \frac{z_{\alpha/2}^{\,2} \, p(1-p)}{E^2}

em que pp é a proporção esperada, 1p1-p é a proporção complementar e EE é o erro máximo tolerado.

Quando não se conhece p, utiliza-se p = 0,5, pois esse valor gera o maior tamanho amostral.

Comentário do professor

O cálculo do tamanho amostral deve ser feito antes da coleta de dados. Aumentar a amostra depois de observar um resultado não significativo pode comprometer a validade do estudo.

18. Síntese da decisão analítica

flowchart TD
A["Variável quantitativa"] --> B["Explorar distribuição"]
B --> C{"Distribuição aproximadamente normal?"}
C -->|Sim| D["Usar média, DP, IC da média, teste t quando adequado"]
C -->|Não| E["Usar mediana, quartis, percentis, testes não-paramétricos quando adequado"]
D --> F["Interpretar valor-p, IC e tamanho de efeito"]
E --> F
G["Variável qualitativa"] --> H["Frequências e percentuais"]
H --> I["Comparar proporções com qui-quadrado ou Fisher"]
I --> F

19. Conclusão da aula

A análise estatística em Saúde e Nutrição exige integração entre teoria, software e interpretação. O JAMOVI executa os cálculos, mas a decisão analítica depende do pesquisador.

Antes de aplicar testes, observe os dados. Antes de interpretar o valor-p, observe a magnitude do efeito. Antes de concluir, avalie se o resultado faz sentido no contexto biológico, clínico e nutricional.