Aula – Distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses no JAMOVI

Autor

Prof. Marcelo Ribeiro

Objetivo da aula

Compreender e aplicar, no contexto da pós-graduação em Saúde e Nutrição, os conceitos de distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses, utilizando o JAMOVI como ferramenta prática de análise de dados.

Comentário do professor

Nesta aula, a teoria será apresentada como instrumento de decisão analítica. O objetivo não é transformar o aluno em alguém que apenas executa comandos no software, mas em alguém que entende quando, por que e como interpretar os resultados.

1. Por que estudar a distribuição normal?

Em pesquisas em Saúde e Nutrição, muitas variáveis quantitativas apresentam concentração de valores em torno de um ponto central. Exemplos:

glicemia em jejum;
colesterol total;
pressão arterial;
IMC;
circunferência da cintura;
concentração sérica de nutrientes;
marcadores hematológicos.

A distribuição normal, também conhecida como curva de Gauss, é um modelo usado para representar esse tipo de comportamento.

Comentário do professor

A curva normal não deve ser entendida como uma exigência cega da Estatística. Ela é um modelo. Como todo modelo, serve para simplificar uma realidade variável e permitir decisões analíticas mais organizadas.

A distribuição normal, ou curva de Gauss, pode ser representada pela seguinte função de densidade de probabilidade:

f(x)=\frac{1}{\sigma\sqrt{2\pi}} \exp\left[ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right], \quad -\infty < x < \infty

em que:

$x$ representa um valor qualquer da variável quantitativa;
$\mu$ representa a média populacional;
$\sigma$ representa o desvio-padrão populacional;
$\pi$ é a constante matemática pi;
$\exp$ representa a função exponencial.

2. Propriedades da curva normal

3. O escore-z e curva normal padronizada

O escore-z é uma forma de transformar um valor observado em uma medida padronizada. Em vez de interpretarmos uma variável na sua unidade original, como mg/dL, cm, kg ou mmHg, passamos a interpretá-la em unidades de desvio-padrão.

A ideia central é simples: o escore-z informa quantos desvios-padrão um valor está acima ou abaixo da média.

Esse procedimento é importante porque as variáveis observadas na prática, representadas por $x$ , podem estar em escalas muito diferentes. Por exemplo, glicemia é medida em mg/dL, estatura em cm, IMC em kg/m² e pressão arterial em mmHg. Ao transformar esses valores em $z$ , todas essas variáveis passam a ser analisadas em uma mesma escala: a escala da curva normal padronizada.

Comentário do professor

A curva normal padronizada, também chamada de curva normal reduzida, tem média igual a 0 e desvio-padrão igual a 1. Por isso, quando transformamos uma variável $x$ em $z$ , estamos deslocando a média para 0 e expressando a distância de cada valor em número de desvios-padrão.

3.1 Curva normal padronizada

A curva normal padronizada é uma curva normal especial, com:

$\mu = 0$

$\sigma = 1$

Assim, a variável padronizada $z$ passa a indicar a posição relativa de um valor em relação à média.

$z = 0$ : o valor está exatamente na média;
$z > 0$ : o valor está acima da média;
$z < 0$ : o valor está abaixo da média;
$z = 1$ : o valor está 1 desvio-padrão acima da média;
$z = -1$ : o valor está 1 desvio-padrão abaixo da média;
$z = 2$ : o valor está 2 desvios-padrão acima da média;
$z = -2$ : o valor está 2 desvios-padrão abaixo da média.

3.2 Fórmula do escore-z

A transformação de uma variável $x$ em uma variável padronizada $z$ é feita por:

$\boxed{ z = \frac{x - \mu}{\sigma} }$

em que:

$x$ representa o valor observado;
$\mu$ representa a média populacional;
$\sigma$ representa o desvio-padrão populacional;
$z$ representa o valor padronizado.

Quando utilizamos dados amostrais e não conhecemos os parâmetros populacionais, podemos usar, de forma aproximada:

$\boxed{ z = \frac{x - \bar{x}}{s} }$

em que $\bar{x}$ é a média amostral e $s$ é o desvio-padrão amostral.

Atenção

Quando o objetivo é comparar um indivíduo com uma população de referência, o ideal é usar a média e o desvio-padrão dessa população de referência. Quando usamos $\bar{x}$ e $s$ da própria amostra, o escore-z descreve apenas a posição relativa do indivíduo dentro daquela amostra.

3.3 Como interpretar o escore-z

O sinal e o tamanho do escore-z têm interpretações diferentes.

Valor de $z$	Interpretação
$z = 0$	valor igual à média
$z > 0$	valor acima da média
$z < 0$	valor abaixo da média
$\|z\| < 1$	valor próximo da média
$1 \leq \|z\| < 2$	valor moderadamente afastado da média
$\|z\| \geq 2$	valor bastante afastado da média
$\|z\| \geq 3$	valor extremo ou raro, sob normalidade

Comentário do professor

O escore-z não transforma automaticamente uma variável assimétrica em normal. Ele apenas coloca os valores em uma escala padronizada. Para interpretar probabilidades usando a curva normal, é necessário que a variável tenha distribuição normal ou aproximadamente normal.

3.4 Exemplo aplicado à glicemia

Suponha que a glicemia em jejum de uma população saudável tenha média igual a 90 mg/dL e desvio-padrão igual a 5 mg/dL.

Para uma pessoa com glicemia de 95 mg/dL:

$z = \frac{95 - 90}{5} = 1$

Interpretação:

Essa pessoa apresenta glicemia 1 desvio-padrão acima da média da população de referência.

Para uma pessoa com glicemia de 80 mg/dL:

$z = \frac{80 - 90}{5} = -2$

Interpretação:

Essa pessoa apresenta glicemia 2 desvios-padrão abaixo da média da população de referência.

Considerando uma distribuição aproximadamente normal, valores entre $z=-1$ e $z=+1$ abrangem cerca de 68% dos indivíduos; valores entre $z=-2$ e $z=+2$ abrangem cerca de 95%; e valores entre $z=-3$ e $z=+3$ abrangem cerca de 99,7%.

3.5 Exemplo aplicado à estatura

Suponha que a estatura de um grupo de jovens tenha distribuição aproximadamente normal, com média de 175 cm e desvio-padrão de 6 cm.

Para um jovem com estatura de 180 cm:

$z = \frac{180 - 175}{6} = 0{,}83$

Interpretação:

Uma estatura de 180 cm está aproximadamente 0,83 desvio-padrão acima da média desse grupo.

Esse valor de $z$ permite localizar a posição de 180 cm na curva normal padronizada e, com auxílio de uma tabela da curva normal ou de um software estatístico, calcular a proporção esperada de indivíduos acima ou abaixo desse valor.

3.6 Para que serve o escore-z na prática?

Na Bioestatística aplicada à Saúde e Nutrição, o escore-z pode ser usado para:

comparar valores medidos em escalas diferentes;
identificar indivíduos com valores muito afastados da média;
interpretar a posição relativa de uma pessoa em relação a uma população de referência;
auxiliar na leitura de áreas e probabilidades na curva normal;
construir raciocínios sobre faixas esperadas de valores;
facilitar a comparação entre variáveis como glicemia, IMC, pressão arterial, estatura e marcadores bioquímicos.

3.7 Como calcular o escore-z no JAMOVI

No JAMOVI, existem duas situações práticas.

Situação 1: usando média e desvio-padrão de referência

Quando a média e o desvio-padrão são conhecidos, por exemplo, $\mu = 90$ e $\sigma = 5$ , é possível criar uma variável calculada:

Data → Compute

Criar, por exemplo, a variável z_glicemia usando:

(glicemia - 90) / 5

Situação 2: usando média e desvio-padrão da própria amostra

Quando a média e o desvio-padrão são obtidos na própria amostra, primeiro execute:

Analyses → Exploration → Descriptives

Depois, anote a média e o desvio-padrão da variável. Em seguida, em:

Data → Compute

crie uma nova variável usando a fórmula:

(variavel - media_amostral) / desvio_padrao_amostral

Por exemplo, se a média amostral da glicemia for 92 e o desvio-padrão for 8:

(glicemia - 92) / 8

3.8 Modelo de interpretação para relatório

A variável foi padronizada por meio do escore-z, que expressa a distância de cada observação em relação à média, em unidades de desvio-padrão. Valores positivos indicam observações acima da média, enquanto valores negativos indicam observações abaixo da média. Valores próximos de zero indicam observações próximas ao comportamento médio. Sob distribuição aproximadamente normal, valores com $|z| \geq 2$ podem indicar observações relativamente afastadas da média, merecendo atenção na interpretação estatística e no contexto clínico ou nutricional.

Síntese

O escore-z responde à pergunta: este valor está quantos desvios-padrão distante da média? Essa resposta ajuda a transformar um valor bruto em uma informação comparável, interpretável e útil para análise bioestatística.

4. Avaliação da normalidade no JAMOVI

4.1 Caminho no JAMOVI

Abra a base dados_nutricao_jamovi.csv.

Depois siga:

Analyses → Exploration → Descriptives

Insira em Variables:

imc;
glicemia;
colesterol_total;
triglicerideos;
pressao_sistolica;
circunferencia_cintura.

Marque:

média;
mediana;
desvio-padrão;
mínimo;
máximo;
assimetria;
curtose;
histograma;
boxplot;
Q-Q plot;
teste de Shapiro-Wilk, quando disponível.

4.2 Como interpretar

A avaliação da normalidade não deve depender de um único critério. Observe conjuntamente:

Elemento	O que observar
Média e mediana	Valores próximos sugerem simetria
Histograma	Formato aproximado de sino sugere normalidade
Boxplot	Assimetria e valores extremos
Q-Q plot	Pontos próximos da linha sugerem normalidade
Shapiro-Wilk	p < 0,05 sugere afastamento da normalidade

Comentário do professor

Em amostras pequenas, o teste de normalidade pode não detectar desvios relevantes. Em amostras grandes, pequenas diferenças podem gerar valor-p significativo. Por isso, histogramas, boxplots e Q-Q plots são essenciais.

5. Faixas de referência

Faixas de referência são intervalos utilizados para indicar a região em que se espera encontrar a maior parte dos valores de uma população de referência.

Na Saúde e Nutrição, elas aparecem em exames laboratoriais, parâmetros antropométricos e indicadores clínicos.

Atenção

Faixa de referência não é sinônimo absoluto de saúde ou doença. Ela indica uma região esperada em determinada população de referência. A interpretação clínica exige contexto.

6. Método da curva de Gauss

Quando a variável apresenta distribuição aproximadamente normal, podemos construir uma faixa de referência aproximada por:

$\bar{x} \pm 2s$

em que $\bar{x}$ representa a média amostral e $s$ representa o desvio-padrão amostral.

Ou seja:

$\begin{aligned} LI &= \bar{x} - 2s \\ LS &= \bar{x} + 2s \end{aligned}$

em que $LI$ é o limite inferior e $LS$ é o limite superior da faixa de referência.

Esse intervalo contém, aproximadamente, 95% dos valores esperados sob normalidade.

Exemplo

Se a glicemia tem média de 92 mg/dL e desvio-padrão de 9 mg/dL:

$\begin{aligned} LI &= 92 - 2(9) = 74 \ \text{mg/dL} \\ LS &= 92 + 2(9) = 110 \ \text{mg/dL} \end{aligned}$

Interpretação:

Considerando distribuição aproximadamente normal, espera-se que cerca de 95% dos indivíduos da população de referência apresentem glicemia entre 74 e 110 mg/dL.

7. Método dos percentis

Quando a variável é assimétrica, contém valores extremos ou não se ajusta bem ao modelo normal, usa-se o método dos percentis.

Para uma faixa central de 95%, utilizam-se:

$P_{2,5} \leq X \leq P_{97,5}$

em que $P_{2,5}$ representa o percentil 2,5 e $P_{97,5}$ representa o percentil 97,5.

Comentário do professor

O método dos percentis é muito útil para variáveis assimétricas, como triglicerídeos, tempo de internação, consumo alimentar e alguns marcadores inflamatórios.

8. Como obter percentis no JAMOVI

No JAMOVI:

Analyses → Exploration → Descriptives

Selecione a variável triglicerideos.

Marque a opção de percentis. Se o JAMOVI permitir percentis customizados, solicite:

2,5;
25;
50;
75;
97,5.

Interpretação sugerida:

A variável triglicerídeos apresentou assimetria à direita. Nesse caso, a faixa de referência pelo método dos percentis é mais adequada que o método da curva de Gauss, pois sofre menor influência de valores extremos.

9. Da descrição à inferência

Até aqui descrevemos os dados. Agora passamos à inferência.

Na estatística inferencial, usamos uma amostra para fazer afirmações sobre uma população.

Conceito	Definição	Exemplo
População	Conjunto total de interesse	Adultos atendidos em uma unidade de saúde
Amostra	Parte observada da população	120 adultos avaliados
Parâmetro	Valor verdadeiro da população	Média populacional de glicemia
Estimativa	Valor calculado na amostra	Média amostral de glicemia

Comentário do professor

A inferência estatística nasce da impossibilidade prática de observar toda a população. Como avaliamos amostras, precisamos lidar com incerteza.

10. Distribuição amostral da média

Se retirássemos várias amostras da mesma população e calculássemos a média em cada uma delas, essas médias não seriam idênticas.

A distribuição dessas médias é chamada de distribuição amostral da média.

Essa ideia sustenta:

erro-padrão;
intervalo de confiança;
teste de hipóteses;
cálculo do tamanho da amostra.

11. Erro-padrão

O erro-padrão mede a variabilidade esperada da média amostral.

$EP_{\bar{x}} = \frac{s}{\sqrt{n}}$

em que $EP_{\bar{x}}$ é o erro-padrão da média, $s$ é o desvio-padrão amostral e $n$ é o tamanho da amostra.

Quanto maior o tamanho da amostra, menor tende a ser o erro-padrão.

Comentário do professor

O desvio-padrão descreve a variabilidade dos indivíduos. O erro-padrão descreve a precisão da estimativa da média.

12. Intervalo de confiança

O intervalo de confiança apresenta uma faixa plausível para o parâmetro populacional.

Exemplo:

A média de IMC foi 27,1 kg/m², com IC95% de 26,2 a 28,0 kg/m².

Interpretação:

Com base nos dados amostrais, estima-se que a média populacional de IMC esteja entre 26,2 e 28,0 kg/m², considerando nível de confiança de 95%.

12.1 Fórmula geral do intervalo de confiança

Para uma média, a estrutura geral do intervalo de confiança pode ser escrita como:

$IC_{95\%}(\mu) = \bar{x} \pm t_{\alpha/2;\,n-1} \left(\frac{s}{\sqrt{n}}\right)$

Para amostras grandes ou quando a distribuição normal padronizada é utilizada como aproximação:

$IC_{95\%}(\mu) = \bar{x} \pm z_{\alpha/2} \left(\frac{s}{\sqrt{n}}\right)$

Interpretação:

O intervalo de confiança combina a estimativa pontual $\bar{x}$ , a variabilidade dos dados $s$ , o tamanho da amostra $n$ e o nível de confiança desejado.

13. Intervalo de confiança no JAMOVI

Para obter o IC da média:

Analyses → Exploration → Descriptives

Selecionar uma variável quantitativa, como imc.

Marcar:

média;
erro-padrão;
intervalo de confiança da média;
histograma;
boxplot.

Para comparar dois grupos:

Analyses → T-Tests → Independent Samples T-Test

Configuração:

Dependent Variables: imc, glicemia ou pressao_sistolica;
Grouping Variable: grupo ou sexo.

Marcar:

descriptives;
mean difference;
confidence interval;
effect size;
assumption checks;
normality test;
homogeneity test.

14. Testes de hipóteses

Um teste de hipóteses avalia se os dados amostrais fornecem evidência suficiente contra uma hipótese inicial.

Elemento	Significado
H0	Hipótese nula
H1 ou HA	Hipótese alternativa
α	Nível de significância
Valor-p	Evidência contra H0
IC	Faixa plausível para o efeito
Tamanho de efeito	Magnitude da diferença

Exemplo

Pergunta:

O IMC médio difere entre o grupo controle e o grupo intervenção?

Hipóteses:

$\begin{aligned} H_0 &: \mu_1 = \mu_2 \\ H_A &: \mu_1 \neq \mu_2 \end{aligned}$

em que $\mu_1$ e $\mu_2$ representam as médias populacionais dos dois grupos.

Interpretação:

se p < 0,05: há evidência estatística de diferença entre as médias;
se p ≥ 0,05: não há evidência suficiente para afirmar diferença entre as médias.

Atenção

Não rejeitar H0 não significa provar que os grupos são iguais. Significa apenas que os dados não forneceram evidência estatística suficiente de diferença.

14.1 Estatística do teste t

Para duas amostras independentes, quando os pressupostos são atendidos, a estatística do teste t pode ser expressa de forma geral por:

$t = \frac{\bar{x}_1 - \bar{x}_2}{EP(\bar{x}_1 - \bar{x}_2)}$

Quando se assume variâncias iguais, o erro-padrão da diferença entre médias pode ser escrito como:

$EP(\bar{x}_1 - \bar{x}_2) = s_p \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} }$

com

$s_p^2 = \frac{ (n_1-1)s_1^2 + (n_2-1)s_2^2 }{ n_1+n_2-2 }$

em que $s_p^2$ é a variância combinada dos dois grupos.

Comentário do professor

No JAMOVI, o aluno não precisa calcular manualmente essa estatística. Porém, entender a fórmula ajuda a perceber que o teste compara a diferença entre médias em relação à variabilidade esperada dessa diferença.

15. Comparação entre duas médias independentes no JAMOVI

Caminho:

Analyses → T-Tests → Independent Samples T-Test

Use:

variável dependente: glicemia;
variável agrupadora: grupo.

Marque:

Student’s t;
Welch’s t;
Mann-Whitney, se necessário;
descriptives;
plots;
effect size;
confidence interval;
normality;
homogeneity of variances.

Modelo de interpretação

A média de glicemia foi comparada entre os grupos controle e intervenção. O teste t para amostras independentes avaliou a hipótese nula de igualdade entre as médias. Quando o valor-p é inferior a 0,05, rejeita-se H0 e conclui-se que há evidência estatística de diferença entre os grupos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente para rejeitar H0. A interpretação deve considerar também o intervalo de confiança e o tamanho de efeito.

16. Comparação entre duas proporções no JAMOVI

Exemplo:

A proporção de excesso de peso difere entre homens e mulheres?

Caminho:

Analyses → Frequencies → Contingency Tables → Independent Samples

Use:

Rows: sexo;
Columns: excesso_peso.

Marque:

contagens observadas;
percentuais por linha;
qui-quadrado;
teste exato de Fisher, se necessário;
resíduos padronizados, se disponível.

Modelo de interpretação

O teste qui-quadrado avaliou se existe associação entre sexo e excesso de peso. Quando o valor-p é inferior a 0,05, conclui-se que a distribuição do excesso de peso difere estatisticamente entre os sexos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente de associação.

16.1 Estatística do qui-quadrado

Para comparar proporções ou avaliar associação entre variáveis categóricas, a estatística qui-quadrado pode ser escrita como:

$\chi^2 = \sum \frac{(O - E)^2}{E}$

em que $O$ representa a frequência observada e $E$ representa a frequência esperada sob a hipótese de independência.

17. Cálculo do tamanho da amostra

O tamanho da amostra depende de:

nível de confiança;
margem de erro;
variabilidade esperada;
tamanho de efeito;
poder estatístico;
proporção esperada;
número de grupos;
perdas previstas.

Para estimar uma média

$n = \left(\frac{z_{\alpha/2} \cdot s}{E}\right)^2$

em que $z_{\alpha/2}$ é o valor crítico da distribuição normal padronizada, $s$ é o desvio-padrão esperado e $E$ é o erro máximo tolerado.

Onde:

z: valor crítico da normal;
s: desvio-padrão esperado;
E: erro máximo tolerado.

Para estimar uma proporção

$n = \frac{z_{\alpha/2}^{\,2} \, p(1-p)}{E^2}$

em que $p$ é a proporção esperada, $1-p$ é a proporção complementar e $E$ é o erro máximo tolerado.

Quando não se conhece p, utiliza-se p = 0,5, pois esse valor gera o maior tamanho amostral.

Comentário do professor

O cálculo do tamanho amostral deve ser feito antes da coleta de dados. Aumentar a amostra depois de observar um resultado não significativo pode comprometer a validade do estudo.

18. Síntese da decisão analítica

flowchart TD
A["Variável quantitativa"] --> B["Explorar distribuição"]
B --> C{"Distribuição aproximadamente normal?"}
C -->|Sim| D["Usar média, DP, IC da média, teste t quando adequado"]
C -->|Não| E["Usar mediana, quartis, percentis, testes não-paramétricos quando adequado"]
D --> F["Interpretar valor-p, IC e tamanho de efeito"]
E --> F
G["Variável qualitativa"] --> H["Frequências e percentuais"]
H --> I["Comparar proporções com qui-quadrado ou Fisher"]
I --> F

19. Conclusão da aula

A análise estatística em Saúde e Nutrição exige integração entre teoria, software e interpretação. O JAMOVI executa os cálculos, mas a decisão analítica depende do pesquisador.

Antes de aplicar testes, observe os dados. Antes de interpretar o valor-p, observe a magnitude do efeito. Antes de concluir, avalie se o resultado faz sentido no contexto biológico, clínico e nutricional.

--- title: "Aula – Distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses no JAMOVI" author: "Prof. Marcelo Ribeiro" format: html: toc: true toc-location: left number-sections: false theme: cosmo css: estilo_assincrono_jamovi_mathml.css html-math-method: mathml page-layout: full code-fold: false code-tools: true df-print: paged embed-resources: true mermaid: theme: neutral lang: pt-BR editor: visual --- ## Objetivo da aula Compreender e aplicar, no contexto da pós-graduação em Saúde e Nutrição, os conceitos de distribuição normal, faixas de referência, intervalos de confiança e testes de hipóteses, utilizando o **JAMOVI** como ferramenta prática de análise de dados. ::: {.callout-note title="Comentário do professor"} Nesta aula, a teoria será apresentada como instrumento de decisão analítica. O objetivo não é transformar o aluno em alguém que apenas executa comandos no software, mas em alguém que entende quando, por que e como interpretar os resultados. ::: ## 1. Por que estudar a distribuição normal? ![](fig_1.png){fig-align="center" width="80%"} Em pesquisas em Saúde e Nutrição, muitas variáveis quantitativas apresentam concentração de valores em torno de um ponto central. Exemplos: - glicemia em jejum; - colesterol total; - pressão arterial; - IMC; - circunferência da cintura; - concentração sérica de nutrientes; - marcadores hematológicos. A distribuição normal, também conhecida como **curva de Gauss**, é um modelo usado para representar esse tipo de comportamento. ::: {.callout-note title="Comentário do professor"} A curva normal não deve ser entendida como uma exigência cega da Estatística. Ela é um modelo. Como todo modelo, serve para simplificar uma realidade variável e permitir decisões analíticas mais organizadas. ::: ![](curva_normal_glicemia.png){fig-align="center" width="80%"} A distribuição normal, ou curva de Gauss, pode ser representada pela seguinte função de densidade de probabilidade: $$ f(x)=\frac{1}{\sigma\sqrt{2\pi}} \exp\left[ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right], \quad -\infty < x < \infty $$ em que: - $x$ representa um valor qualquer da variável quantitativa; - $\mu$ representa a média populacional; - $\sigma$ representa o desvio-padrão populacional; - $\pi$ é a constante matemática pi; - $\exp$ representa a função exponencial. ## 2. Propriedades da curva normal ![](fig_2.png){fig-align="center" width="80%"} ## 3. O escore-z e curva normal padronizada O **escore-z** é uma forma de transformar um valor observado em uma medida padronizada. Em vez de interpretarmos uma variável na sua unidade original, como mg/dL, cm, kg ou mmHg, passamos a interpretá-la em **unidades de desvio-padrão**. A ideia central é simples: o escore-z informa **quantos desvios-padrão um valor está acima ou abaixo da média**. Esse procedimento é importante porque as variáveis observadas na prática, representadas por $x$, podem estar em escalas muito diferentes. Por exemplo, glicemia é medida em mg/dL, estatura em cm, IMC em kg/m² e pressão arterial em mmHg. Ao transformar esses valores em $z$, todas essas variáveis passam a ser analisadas em uma mesma escala: a escala da **curva normal padronizada**. ::: {.callout-note title="Comentário do professor"} A curva normal padronizada, também chamada de curva normal reduzida, tem média igual a 0 e desvio-padrão igual a 1. Por isso, quando transformamos uma variável $x$ em $z$, estamos deslocando a média para 0 e expressando a distância de cada valor em número de desvios-padrão. ::: ### 3.1 Curva normal padronizada A curva normal padronizada é uma curva normal especial, com: ![](fig_3.png){fig-align="center" width="80%"} $$ \mu = 0 $$ e $$ \sigma = 1 $$ Assim, a variável padronizada $z$ passa a indicar a posição relativa de um valor em relação à média. - $z = 0$: o valor está exatamente na média; - $z > 0$: o valor está acima da média; - $z < 0$: o valor está abaixo da média; - $z = 1$: o valor está 1 desvio-padrão acima da média; - $z = -1$: o valor está 1 desvio-padrão abaixo da média; - $z = 2$: o valor está 2 desvios-padrão acima da média; - $z = -2$: o valor está 2 desvios-padrão abaixo da média. ### 3.2 Fórmula do escore-z A transformação de uma variável $x$ em uma variável padronizada $z$ é feita por: $$ \boxed{ z = \frac{x - \mu}{\sigma} } $$ em que: - $x$ representa o valor observado; - $\mu$ representa a média populacional; - $\sigma$ representa o desvio-padrão populacional; - $z$ representa o valor padronizado. Quando utilizamos dados amostrais e não conhecemos os parâmetros populacionais, podemos usar, de forma aproximada: $$ \boxed{ z = \frac{x - \bar{x}}{s} } $$ em que $\bar{x}$ é a média amostral e $s$ é o desvio-padrão amostral. ::: {.callout-warning title="Atenção"} Quando o objetivo é comparar um indivíduo com uma população de referência, o ideal é usar a média e o desvio-padrão dessa população de referência. Quando usamos $\bar{x}$ e $s$ da própria amostra, o escore-z descreve apenas a posição relativa do indivíduo dentro daquela amostra. ::: ### 3.3 Como interpretar o escore-z O sinal e o tamanho do escore-z têm interpretações diferentes. | Valor de $z$ | Interpretação | |------------------|----------------------------------------| | $z = 0$ | valor igual à média | | $z > 0$ | valor acima da média | | $z < 0$ | valor abaixo da média | | $|z| < 1$ | valor próximo da média | | $1 \leq |z| < 2$ | valor moderadamente afastado da média | | $|z| \geq 2$ | valor bastante afastado da média | | $|z| \geq 3$ | valor extremo ou raro, sob normalidade | ::: {.callout-note title="Comentário do professor"} O escore-z não transforma automaticamente uma variável assimétrica em normal. Ele apenas coloca os valores em uma escala padronizada. Para interpretar probabilidades usando a curva normal, é necessário que a variável tenha distribuição normal ou aproximadamente normal. ::: ### 3.4 Exemplo aplicado à glicemia Suponha que a glicemia em jejum de uma população saudável tenha média igual a 90 mg/dL e desvio-padrão igual a 5 mg/dL. Para uma pessoa com glicemia de 95 mg/dL: $$ z = \frac{95 - 90}{5} = 1 $$ ![](fig_4.png){fig-align="center" width="80%"} Interpretação: > Essa pessoa apresenta glicemia 1 desvio-padrão acima da média da população de referência. Para uma pessoa com glicemia de 80 mg/dL: $$ z = \frac{80 - 90}{5} = -2 $$ ![](fig_5.png){fig-align="center" width="80%"} Interpretação: > Essa pessoa apresenta glicemia 2 desvios-padrão abaixo da média da população de referência. Considerando uma distribuição aproximadamente normal, valores entre $z=-1$ e $z=+1$ abrangem cerca de 68% dos indivíduos; valores entre $z=-2$ e $z=+2$ abrangem cerca de 95%; e valores entre $z=-3$ e $z=+3$ abrangem cerca de 99,7%. ### 3.5 Exemplo aplicado à estatura Suponha que a estatura de um grupo de jovens tenha distribuição aproximadamente normal, com média de 175 cm e desvio-padrão de 6 cm. Para um jovem com estatura de 180 cm: $$ z = \frac{180 - 175}{6} = 0{,}83 $$ ![](fig_6.png){fig-align="center" width="80%"} Interpretação: > Uma estatura de 180 cm está aproximadamente 0,83 desvio-padrão acima da média desse grupo. Esse valor de $z$ permite localizar a posição de 180 cm na curva normal padronizada e, com auxílio de uma tabela da curva normal ou de um software estatístico, calcular a proporção esperada de indivíduos acima ou abaixo desse valor. ### 3.6 Para que serve o escore-z na prática? Na Bioestatística aplicada à Saúde e Nutrição, o escore-z pode ser usado para: 1. comparar valores medidos em escalas diferentes; 2. identificar indivíduos com valores muito afastados da média; 3. interpretar a posição relativa de uma pessoa em relação a uma população de referência; 4. auxiliar na leitura de áreas e probabilidades na curva normal; 5. construir raciocínios sobre faixas esperadas de valores; 6. facilitar a comparação entre variáveis como glicemia, IMC, pressão arterial, estatura e marcadores bioquímicos. ### 3.7 Como calcular o escore-z no JAMOVI No JAMOVI, existem duas situações práticas. #### Situação 1: usando média e desvio-padrão de referência Quando a média e o desvio-padrão são conhecidos, por exemplo, $\mu = 90$ e $\sigma = 5$, é possível criar uma variável calculada: **Data → Compute** Criar, por exemplo, a variável `z_glicemia` usando: ```{text} (glicemia - 90) / 5 ``` #### Situação 2: usando média e desvio-padrão da própria amostra Quando a média e o desvio-padrão são obtidos na própria amostra, primeiro execute: **Analyses → Exploration → Descriptives** Depois, anote a média e o desvio-padrão da variável. Em seguida, em: **Data → Compute** crie uma nova variável usando a fórmula: ```{text} (variavel - media_amostral) / desvio_padrao_amostral ``` Por exemplo, se a média amostral da glicemia for 92 e o desvio-padrão for 8: ```{text} (glicemia - 92) / 8 ``` ### 3.8 Modelo de interpretação para relatório > A variável foi padronizada por meio do escore-z, que expressa a distância de cada observação em relação à média, em unidades de desvio-padrão. Valores positivos indicam observações acima da média, enquanto valores negativos indicam observações abaixo da média. Valores próximos de zero indicam observações próximas ao comportamento médio. Sob distribuição aproximadamente normal, valores com $|z| \geq 2$ podem indicar observações relativamente afastadas da média, merecendo atenção na interpretação estatística e no contexto clínico ou nutricional. ::: {.callout-note title="Síntese"} O escore-z responde à pergunta: **este valor está quantos desvios-padrão distante da média?** Essa resposta ajuda a transformar um valor bruto em uma informação comparável, interpretável e útil para análise bioestatística. ::: ## 4. Avaliação da normalidade no JAMOVI ### 4.1 Caminho no JAMOVI Abra a base `dados_nutricao_jamovi.csv`. Depois siga: **Analyses → Exploration → Descriptives** Insira em **Variables**: - `imc`; - `glicemia`; - `colesterol_total`; - `triglicerideos`; - `pressao_sistolica`; - `circunferencia_cintura`. Marque: - média; - mediana; - desvio-padrão; - mínimo; - máximo; - assimetria; - curtose; - histograma; - boxplot; - Q-Q plot; - teste de Shapiro-Wilk, quando disponível. ### 4.2 Como interpretar A avaliação da normalidade não deve depender de um único critério. Observe conjuntamente: | Elemento | O que observar | |-----------------|-----------------------------------------------| | Média e mediana | Valores próximos sugerem simetria | | Histograma | Formato aproximado de sino sugere normalidade | | Boxplot | Assimetria e valores extremos | | Q-Q plot | Pontos próximos da linha sugerem normalidade | | Shapiro-Wilk | p \< 0,05 sugere afastamento da normalidade | ::: {.callout-note title="Comentário do professor"} Em amostras pequenas, o teste de normalidade pode não detectar desvios relevantes. Em amostras grandes, pequenas diferenças podem gerar valor-p significativo. Por isso, histogramas, boxplots e Q-Q plots são essenciais. ::: ![](histograma_glicemia.png){fig-align="center" width="75%"} ## 5. Faixas de referência Faixas de referência são intervalos utilizados para indicar a região em que se espera encontrar a maior parte dos valores de uma população de referência. Na Saúde e Nutrição, elas aparecem em exames laboratoriais, parâmetros antropométricos e indicadores clínicos. ::: {.callout-warning title="Atenção"} Faixa de referência não é sinônimo absoluto de saúde ou doença. Ela indica uma região esperada em determinada população de referência. A interpretação clínica exige contexto. ::: ## 6. Método da curva de Gauss Quando a variável apresenta distribuição aproximadamente normal, podemos construir uma faixa de referência aproximada por: $$ \bar{x} \pm 2s $$ em que $\bar{x}$ representa a média amostral e $s$ representa o desvio-padrão amostral. Ou seja: $$ \begin{aligned} LI &= \bar{x} - 2s \\ LS &= \bar{x} + 2s \end{aligned} $$ em que $LI$ é o limite inferior e $LS$ é o limite superior da faixa de referência. Esse intervalo contém, aproximadamente, 95% dos valores esperados sob normalidade. ### Exemplo Se a glicemia tem média de 92 mg/dL e desvio-padrão de 9 mg/dL: $$ \begin{aligned} LI &= 92 - 2(9) = 74 \ \text{mg/dL} \\ LS &= 92 + 2(9) = 110 \ \text{mg/dL} \end{aligned} $$ Interpretação: > Considerando distribuição aproximadamente normal, espera-se que cerca de 95% dos indivíduos da população de referência apresentem glicemia entre 74 e 110 mg/dL. ## 7. Método dos percentis Quando a variável é assimétrica, contém valores extremos ou não se ajusta bem ao modelo normal, usa-se o método dos percentis. Para uma faixa central de 95%, utilizam-se: $$ P_{2,5} \leq X \leq P_{97,5} $$ em que $P_{2,5}$ representa o percentil 2,5 e $P_{97,5}$ representa o percentil 97,5. ::: {.callout-note title="Comentário do professor"} O método dos percentis é muito útil para variáveis assimétricas, como triglicerídeos, tempo de internação, consumo alimentar e alguns marcadores inflamatórios. ::: ![](histograma_triglicerideos.png){fig-align="center" width="75%"} ## 8. Como obter percentis no JAMOVI No JAMOVI: **Analyses → Exploration → Descriptives** Selecione a variável `triglicerideos`. Marque a opção de **percentis**. Se o JAMOVI permitir percentis customizados, solicite: - 2,5; - 25; - 50; - 75; - 97,5. Interpretação sugerida: > A variável triglicerídeos apresentou assimetria à direita. Nesse caso, a faixa de referência pelo método dos percentis é mais adequada que o método da curva de Gauss, pois sofre menor influência de valores extremos. ## 9. Da descrição à inferência Até aqui descrevemos os dados. Agora passamos à inferência. Na estatística inferencial, usamos uma amostra para fazer afirmações sobre uma população. | Conceito | Definição | Exemplo | |------------------------|------------------------|------------------------| | População | Conjunto total de interesse | Adultos atendidos em uma unidade de saúde | | Amostra | Parte observada da população | 120 adultos avaliados | | Parâmetro | Valor verdadeiro da população | Média populacional de glicemia | | Estimativa | Valor calculado na amostra | Média amostral de glicemia | ::: {.callout-note title="Comentário do professor"} A inferência estatística nasce da impossibilidade prática de observar toda a população. Como avaliamos amostras, precisamos lidar com incerteza. ::: ## 10. Distribuição amostral da média Se retirássemos várias amostras da mesma população e calculássemos a média em cada uma delas, essas médias não seriam idênticas. A distribuição dessas médias é chamada de **distribuição amostral da média**. Essa ideia sustenta: - erro-padrão; - intervalo de confiança; - teste de hipóteses; - cálculo do tamanho da amostra. ## 11. Erro-padrão O erro-padrão mede a variabilidade esperada da média amostral. $$ EP_{\bar{x}} = \frac{s}{\sqrt{n}} $$ em que $EP_{\bar{x}}$ é o erro-padrão da média, $s$ é o desvio-padrão amostral e $n$ é o tamanho da amostra. Quanto maior o tamanho da amostra, menor tende a ser o erro-padrão. ::: {.callout-note title="Comentário do professor"} O desvio-padrão descreve a variabilidade dos indivíduos. O erro-padrão descreve a precisão da estimativa da média. ::: ## 12. Intervalo de confiança O intervalo de confiança apresenta uma faixa plausível para o parâmetro populacional. Exemplo: > A média de IMC foi 27,1 kg/m², com IC95% de 26,2 a 28,0 kg/m². Interpretação: > Com base nos dados amostrais, estima-se que a média populacional de IMC esteja entre 26,2 e 28,0 kg/m², considerando nível de confiança de 95%. ## 12.1 Fórmula geral do intervalo de confiança Para uma média, a estrutura geral do intervalo de confiança pode ser escrita como: $$ IC_{95\%}(\mu) = \bar{x} \pm t_{\alpha/2;\,n-1} \left(\frac{s}{\sqrt{n}}\right) $$ Para amostras grandes ou quando a distribuição normal padronizada é utilizada como aproximação: $$ IC_{95\%}(\mu) = \bar{x} \pm z_{\alpha/2} \left(\frac{s}{\sqrt{n}}\right) $$ Interpretação: > O intervalo de confiança combina a estimativa pontual $\bar{x}$, a variabilidade dos dados $s$, o tamanho da amostra $n$ e o nível de confiança desejado. ## 13. Intervalo de confiança no JAMOVI Para obter o IC da média: **Analyses → Exploration → Descriptives** Selecionar uma variável quantitativa, como `imc`. Marcar: - média; - erro-padrão; - intervalo de confiança da média; - histograma; - boxplot. Para comparar dois grupos: **Analyses → T-Tests → Independent Samples T-Test** Configuração: - **Dependent Variables**: `imc`, `glicemia` ou `pressao_sistolica`; - **Grouping Variable**: `grupo` ou `sexo`. Marcar: - descriptives; - mean difference; - confidence interval; - effect size; - assumption checks; - normality test; - homogeneity test. ## 14. Testes de hipóteses Um teste de hipóteses avalia se os dados amostrais fornecem evidência suficiente contra uma hipótese inicial. | Elemento | Significado | |-------------------|-------------------------------| | H0 | Hipótese nula | | H1 ou HA | Hipótese alternativa | | α | Nível de significância | | Valor-p | Evidência contra H0 | | IC | Faixa plausível para o efeito | | Tamanho de efeito | Magnitude da diferença | ### Exemplo Pergunta: > O IMC médio difere entre o grupo controle e o grupo intervenção? Hipóteses: $$ \begin{aligned} H_0 &: \mu_1 = \mu_2 \\ H_A &: \mu_1 \neq \mu_2 \end{aligned} $$ em que $\mu_1$ e $\mu_2$ representam as médias populacionais dos dois grupos. Interpretação: - se p \< 0,05: há evidência estatística de diferença entre as médias; - se p ≥ 0,05: não há evidência suficiente para afirmar diferença entre as médias. ::: {.callout-warning title="Atenção"} Não rejeitar H0 não significa provar que os grupos são iguais. Significa apenas que os dados não forneceram evidência estatística suficiente de diferença. ::: ## 14.1 Estatística do teste t Para duas amostras independentes, quando os pressupostos são atendidos, a estatística do teste t pode ser expressa de forma geral por: $$ t = \frac{\bar{x}_1 - \bar{x}_2}{EP(\bar{x}_1 - \bar{x}_2)} $$ Quando se assume variâncias iguais, o erro-padrão da diferença entre médias pode ser escrito como: $$ EP(\bar{x}_1 - \bar{x}_2) = s_p \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} } $$ com $$ s_p^2 = \frac{ (n_1-1)s_1^2 + (n_2-1)s_2^2 }{ n_1+n_2-2 } $$ em que $s_p^2$ é a variância combinada dos dois grupos. ::: {.callout-note title="Comentário do professor"} No JAMOVI, o aluno não precisa calcular manualmente essa estatística. Porém, entender a fórmula ajuda a perceber que o teste compara a diferença entre médias em relação à variabilidade esperada dessa diferença. ::: ## 15. Comparação entre duas médias independentes no JAMOVI Caminho: **Analyses → T-Tests → Independent Samples T-Test** Use: - variável dependente: `glicemia`; - variável agrupadora: `grupo`. Marque: - Student's t; - Welch's t; - Mann-Whitney, se necessário; - descriptives; - plots; - effect size; - confidence interval; - normality; - homogeneity of variances. ### Modelo de interpretação > A média de glicemia foi comparada entre os grupos controle e intervenção. O teste t para amostras independentes avaliou a hipótese nula de igualdade entre as médias. Quando o valor-p é inferior a 0,05, rejeita-se H0 e conclui-se que há evidência estatística de diferença entre os grupos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente para rejeitar H0. A interpretação deve considerar também o intervalo de confiança e o tamanho de efeito. ## 16. Comparação entre duas proporções no JAMOVI Exemplo: > A proporção de excesso de peso difere entre homens e mulheres? Caminho: **Analyses → Frequencies → Contingency Tables → Independent Samples** Use: - Rows: `sexo`; - Columns: `excesso_peso`. Marque: - contagens observadas; - percentuais por linha; - qui-quadrado; - teste exato de Fisher, se necessário; - resíduos padronizados, se disponível. ### Modelo de interpretação > O teste qui-quadrado avaliou se existe associação entre sexo e excesso de peso. Quando o valor-p é inferior a 0,05, conclui-se que a distribuição do excesso de peso difere estatisticamente entre os sexos. Quando o valor-p é maior ou igual a 0,05, não há evidência suficiente de associação. ## 16.1 Estatística do qui-quadrado Para comparar proporções ou avaliar associação entre variáveis categóricas, a estatística qui-quadrado pode ser escrita como: $$ \chi^2 = \sum \frac{(O - E)^2}{E} $$ em que $O$ representa a frequência observada e $E$ representa a frequência esperada sob a hipótese de independência. ## 17. Cálculo do tamanho da amostra O tamanho da amostra depende de: - nível de confiança; - margem de erro; - variabilidade esperada; - tamanho de efeito; - poder estatístico; - proporção esperada; - número de grupos; - perdas previstas. ### Para estimar uma média $$ n = \left(\frac{z_{\alpha/2} \cdot s}{E}\right)^2 $$ em que $z_{\alpha/2}$ é o valor crítico da distribuição normal padronizada, $s$ é o desvio-padrão esperado e $E$ é o erro máximo tolerado. Onde: - `z`: valor crítico da normal; - `s`: desvio-padrão esperado; - `E`: erro máximo tolerado. ### Para estimar uma proporção $$ n = \frac{z_{\alpha/2}^{\,2} \, p(1-p)}{E^2} $$ em que $p$ é a proporção esperada, $1-p$ é a proporção complementar e $E$ é o erro máximo tolerado. Quando não se conhece `p`, utiliza-se `p = 0,5`, pois esse valor gera o maior tamanho amostral. ::: {.callout-note title="Comentário do professor"} O cálculo do tamanho amostral deve ser feito antes da coleta de dados. Aumentar a amostra depois de observar um resultado não significativo pode comprometer a validade do estudo. ::: ## 18. Síntese da decisão analítica ```{mermaid} flowchart TD A["Variável quantitativa"] --> B["Explorar distribuição"] B --> C{"Distribuição aproximadamente normal?"} C -->|Sim| D["Usar média, DP, IC da média, teste t quando adequado"] C -->|Não| E["Usar mediana, quartis, percentis, testes não-paramétricos quando adequado"] D --> F["Interpretar valor-p, IC e tamanho de efeito"] E --> F G["Variável qualitativa"] --> H["Frequências e percentuais"] H --> I["Comparar proporções com qui-quadrado ou Fisher"] I --> F ``` ## 19. Conclusão da aula A análise estatística em Saúde e Nutrição exige integração entre teoria, software e interpretação. O JAMOVI executa os cálculos, mas a decisão analítica depende do pesquisador. Antes de aplicar testes, observe os dados. Antes de interpretar o valor-p, observe a magnitude do efeito. Antes de concluir, avalie se o resultado faz sentido no contexto biológico, clínico e nutricional.