Introdução à Bioestatística

Prof. Marcelo R.P. Ferreira

Departamento de Estatística – UFPB

maio, 2026

Quem é o professor?

  • Na maior parte do tempo eu sou pai de duas meninas, professor, cientista e cervejeiro caseiro.
  • Faço parte do Departamento de Estatística da UFPB desde dezembro de 2008 e do Programa de Pós-graduação em Modelos de Decisão e Saúde (PPGMDS/UFPB) desde novembro de 2022.
  • Formação acadêmica:
    • Graduação em Estatística pela UFPE;
    • Mestrado em Estatística pela UFPE;
    • Doutorado em Ciência da Computação pela UFPE;
    • Pós-doutorado em Aprendizagem de Máquina na RWTH Aachen University, Alemanha.

Sobre a disciplina

  • Estatística Vital (Bioestatística).
  • Carga-horária: 45 horas.
  • Horário: Segundas-feiras, das 13h às 16h.
  • Avaliação contínua através de atividades, listas de exercícios e quizes.
  • Duas avaliações de aprendizagem (Provas).

Introdução à Bioestatística


  • Capacita profissionais da área da saúde na avaliação quantitativa de dados clínicos
  • Desenvolve organização, resumo numérico e pensamento crítico
  • Foco em soluções de saúde baseadas em evidências, não em empirismo puro
🩺 📊 🔬

O Que é a Estatística?

📋 1. Coletar 🗂️ 2. Organizar 📐 3. Resumir 🔍 4. Analisar 💡 5. Interpretar Duas Grandes Vertentes da Estatística 📊 Estatística Descritiva Organiza e resume os dados já disponíveis na clínica Tabelas · Gráficos · Medidas → "O que os dados mostram?" 🌐 Estatística Inferencial Generaliza resultados de uma amostra para a população Testes · Intervalos · Modelos → "O que os dados sugerem?"

Bioestatística e a Motivação em Saúde

🧬 Bio estatística 💊 Eficácia de Tratamentos Novo protocolo vs. padrão 📈 Monitorar Sinais Vitais Tendência da pressão arterial 🦠 Prevalência de Doenças % hipertensos na ala clínica 📰 Leitura Crítica Interpretar ensaios clínicos

A Jornada e o Fluxo do Dado

📋 Dado Bruto Prontuários, fichas 📊 Tabela Frequências, classes 📈 Gráfico Histograma, boxplot 💡 Decisão Clínica Protocolos baseados em evidências O dado clínico bruto transforma-se em conhecimento acionável para a equipe de saúde


A pesquisa clínica requer este fluxo para testar hipóteses — como novos ensaios terapêuticos — com pacientes reais.

População (Universo)

POPULAÇÃO (Universo) 👤👤 👤👤 👤👤 👤👤 👤👤 👤👤 👤👤 👤👤 AMOSTRA 👤👤 👤👤 👤 Quase sempre grande demais para ser estudada na totalidade — usamos a amostra.

Amostra

Universo / População 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 👤👤 👤👤 👤👤 👤 🎯 Sorteio / Seleção Amostra Representativa 👤👤 👤👤 👤👤 👤👤 👤👤 👤👤 n = tamanho amostral Inferência → População

Censo × Amostragem

🗺️ Censo Varre TODA a população 🏛️ ✅ Dados exatos ❌ Alto custo e longa duração ❌ Inviável na rotina hospitalar Ex: IBGE a cada 10 anos VS 🔬 Amostragem Estuda apenas uma fração 🏥 ✅ Rápida e econômica ✅ Base dos protocolos clínicos ⚠️ Possui erro amostral Ex: ensaios clínicos randomizados

Parâmetro e Estatística (Estimador)

🌍 POPULAÇÃO μ Parâmetro Valor FIXO e verdadeiro da população inteira Geralmente DESCONHECIDO Símbolos: μ, σ, π 🔬 AMOSTRA Estatística / Estimador Valor CALCULADO nos dados da amostra CONHECIDO e mensurável Símbolos: x̄, s, p̂ Inferência Estimativa Erro de amostragem = Estatística (amostra) − Parâmetro (população)

Estimador × Estimativa


Estimador
O método matemático escolhido pelo pesquisador — uma fórmula aplicável a qualquer amostra


Estimativa
O número exato obtido ao aplicar o estimador nos dados da amostra sorteada


ESTIMADOR (fórmula) x̄ = Σxᵢ / n Método aplicável a qualquer amostra aplica ESTIMATIVA (resultado) "A média de peso foi 70,3 kg" Valor específico obtido nesta amostra

Conjunto de Dados Fictício

Dataset: dados_enf — 50 pacientes de uma clínica de enfermagem 🆔 ID Sexo (Nominal) 🚦 Gravidade (Ordinal) 🎂 Idade (Contínua) 📅 Faltas (Discreta) 💓 Pressão (Contínua)
Tabela completa: 50 pacientes — dados_enf
ID Sexo Gravidade Idade Faltas Pressao Tratamento
1 Masculino Leve 49 1 152 Novo
2 Masculino Moderada 39 2 114 Padrão
3 Feminino Moderada 48 1 128 Novo
4 Masculino Grave 54 0 148 Novo
5 Masculino Grave 66 1 123 Padrão
6 Feminino Leve 34 3 129 Novo
7 Masculino Leve 65 0 129 Novo
8 Feminino Moderada 50 2 117 Padrão
9 Masculino Moderada 61 0 123 Novo
10 Masculino Moderada 59 0 130 Padrão
11 Feminino Moderada 56 0 124 Novo
12 Masculino Moderada 29 0 147 Novo
13 Masculino Grave 44 0 123 Padrão
14 Feminino Moderada 54 0 124 Padrão
15 Feminino Leve 31 0 140 Padrão
16 Masculino Moderada 37 0 114 Novo
17 Masculino Grave 54 5 129 Novo
18 Feminino Moderada 57 2 107 Padrão
19 Feminino Moderada 52 0 148 Padrão
20 Feminino Moderada 32 2 126 Novo
21 Masculino Leve 29 1 123 Novo
22 Feminino Leve 68 1 111 Padrão
23 Masculino Leve 49 0 130 Novo
24 Masculino Grave 46 1 118 Novo
25 Feminino Leve 43 0 122 Novo
26 Feminino Moderada 27 0 149 Padrão
27 Feminino Leve 54 1 127 Novo
28 Masculino Leve 42 1 114 Padrão
29 Feminino Leve 42 0 132 Novo
30 Masculino Grave 59 0 125 Padrão
31 Masculino Grave 57 1 139 Novo
32 Masculino Leve 66 3 151 Novo
33 Feminino Leve 38 0 115 Padrão
34 Masculino Moderada 55 0 137 Padrão
35 Feminino Leve 66 0 131 Padrão
36 Masculino Moderada 28 1 143 Novo
37 Feminino Moderada 32 0 127 Padrão
38 Feminino Moderada 28 2 143 Padrão
39 Masculino Leve 23 0 104 Padrão
40 Masculino Moderada 46 1 155 Novo
41 Feminino Leve 55 1 143 Padrão
42 Feminino Moderada 63 1 128 Novo
43 Feminino Grave 61 1 108 Padrão
44 Masculino Leve 30 0 140 Novo
45 Feminino Leve 73 0 137 Novo
46 Masculino Grave 35 3 130 Padrão
47 Masculino Moderada 47 1 132 Padrão
48 Masculino Moderada 39 0 121 Novo
49 Masculino Grave 43 2 136 Novo
50 Masculino Leve 48 0 134 Padrão

Variável e Observação (Dado)

ID Sexo Gravidade Idade Pressão 1 Feminino Leve 38 118 2 Masculino Grave 61 152 OBSERVAÇÃO Dados de 1 paciente em 1 linha Ex: Pac.1, Fem., Leve, 38a, 118mmHg VARIÁVEL Característica que varia entre pacientes Ex: Idade — define qual matemática usar

Variáveis Qualitativas

Categorias mutuamente exclusivas — sem grandeza numérica direta 🏷️ Nominal Categorias SEM ordem lógica A tipo sang. O tipo sang. AB tipo sang. ✅ Trocar a ordem não muda nada Ex: Sexo, Tipo Sanguíneo, CID No dataset → coluna "Sexo" 📶 Ordinal Categorias COM hierarquia natural 😊 Leve 😐 Moderada 😰 Grave No dataset → coluna "Gravidade"

Exemplo de Variáveis Qualitativas


Variável Tipo Categorias Por quê?
Sexo Nominal Feminino / Masculino Sem hierarquia entre os sexos
Gravidade Ordinal Leve → Moderada → Grave Progressão fisiológica exige ordem


Critério-chave: quem pertence a uma categoria NÃO pode pertencer a outra simultaneamente → categorias mutuamente exclusivas e coletivamente exaustivas

Variáveis Quantitativas

🔢 Discreta Baseada em CONTAGEM — valores inteiros 0 1 2 3 ✗ 0,5 ✗ 1,7 ✗ 2,3 Não existe "meia falta" 📅 Faltas ao tratamento (0, 1, 2…) 👶 Número de filhos 🦷 Dentes cariados No dataset → coluna "Faltas" 📏 Contínua Baseada em MENSURAÇÃO — fracionária 118,4 122,7 130,0 137,2 145,8 Limitada pela precisão do instrumento 💓 Pressão arterial (mmHg) 🌡️ Temperatura corporal (°C) ⚖️ Peso do paciente (kg) No dataset → "Idade" e "Pressão"

Exemplo de Variáveis Quantitativas


Variável Tipo Justificativa
Faltas Discreta Contagem (0, 1, 2…). Não existe “meia falta”.
Idade Contínua Mensuração — pode ter casas decimais infinitas
Pressao Contínua mmHg medidos por esfigmomanômetro digital


🔢 Discreta — pontos isolados 0 1 2 3 4 📏 Contínua — fluxo ininterrupto 18 30 45 60 78

Tipos de Estudos: Observacionais vs. Intervenção

🔬 ESTUDOS 👁️ Observacional (não intervém) ⚗️ Ensaio Clínico (intervém) Prospectivo Coorte Segue grupos no tempo Ex: fumantes Retrospectivo Caso-Controle Investiga o passado Doenças raras 📸 Transversal "Fotografia" Simultâneo Ex: sexo vs. tabagismo 🎲 Randomizado (ECR) Padrão-ouro Tratamento vs. Placebo Ex: betametasona vs. placebo

Estudo Ecológico e Transversal


Ecológico / Demográfico
Analisa populações inteiras (cidades, países) — compara taxas macro sem investigar indivíduos
Ex: taxa de mortalidade por município, correlação poluição × asma


Transversal
Avalia exposição e doença simultaneamente — como uma “fotografia”
Ideal para estimar proporções locais


📸 Transversal — vantagem Rápido e barato para estimar prevalências e associações no momento atual ⚠️ Transversal — limitação NÃO determina relação de causa e efeito — impossível estabelecer cronologia

Estudo de Coorte (Prospectivo)

Passado Futuro ▶ Pop. inicial 👤👤 sem doença Exposto (fumantes) Não exposto (não fumantes) anos de seguimento Desfecho A desenvolve a doença? Desfecho B permanece saudável? Vantagem: avalia fluxo natural da patologia com menos vieses de memória

Estudo Caso-Controle (Retrospectivo)

◀ Passado Presente Desfecho já aconteceu 🏥 CASOS pacientes COM a doença CONTROLES pacientes SEM a doença Investigação do passado Havia fator de risco no histórico? Útil para surtos rápidos e doenças raras — limitação: viés de memória

Ensaio Clínico Randomizado

Pacientes Elegíveis 👤👤👤👤👤 🎲 Randomização (sorteio ao acaso) 💊 Grupo Tratado 👤👤👤 Recebe betametasona 🟢 n = 21 ⚪ Grupo Controle 👤👤👤 Recebe placebo 🔴 n = 17 ⇔ Comparação dos desfechos — atesta causalidade biológica

Estrutura da Tabela de Dados


  • Linhas → unidades observacionais (prontuários, pacientes)
  • Colunas → características clínicas mensuradas (variáveis)


ID Sexo Gravidade Idade Faltas Pressão
1 Feminino Leve 38 0 118
2 Masculino Grave 61 3 152
3 Feminino Moderada 45 1 131


Organizar planilhas transforma centenas de prontuários, por exemplo, em um banco de dados computável.

Normas Formais para Tabelas (IBGE)

Tabela 1 — Distribuição de pacientes por sexo. Clínica X, 2024. Sexo n (Freq. Absoluta) % (Freq. Relativa) Feminino 30 60,0 Masculino 20 40,0 Não informado Total 50 100,0 Fonte: dados fictícios para fins didáticos. Nota: célula sem dado → traço (–), nunca em branco. ① Título ② Cabeçalho ③ Linhas ④ Fonte

Tabelas de Frequência Absoluta


  • A tabela destila o dado bruto: agrupa categorias e conta ocorrências
  • Frequência Absoluta (f): número exato de repetições de uma categoria
  • A soma de todas as categorias = tamanho total n da amostra


Categoria Freq. Absoluta (f)
Leve 20
Moderada 20
Grave 10
Total 50

Frequência Relativa e Percentual


\[f_r = \frac{f_i}{n} \qquad \% = f_r \times 100\]


  • Frequência Relativa: peso daquela categoria frente à amostra inteira
  • Percentual: indispensável para comparar alas hospitalares de tamanhos diferentes


Exemplo: 10 casos graves em 50 pacientes f_r = 10 / 50 = 0,20 → % = 0,20 × 100 = 20% Permite comparar amostras de tamanhos diferentes entre alas hospitalares

Exemplo de Frequência no Dataset

Distribuição por Gravidade — dados_enf (n=50)
Freq. Absoluta Freq. Relativa Percentual (%)
Leve 19 0.38 38
Moderada 21 0.42 42
Grave 10 0.20 20
Total 50 1.00 100

Tabelas de Contingência


  • Dupla entrada: cruza simultaneamente duas variáveis qualitativas
  • Permite rastrear interações (ex: Sexo × Gravidade, Tratamento × Melhora)
  • Trazem os totais marginais — cruciais para os percentuais
Total por Linha Composição de cada grupo de sexo — denominador para % de linha Total por Coluna Distribuição clínica independente do sexo para % de coluna Total Geral (n) Canto inf. direito Ancora 100% da pesquisa

Totais Marginais e Células


  • Totais por Linha: resumo horizontal de cada grupo de base
  • Totais por Coluna: resumo vertical de cada nível clínico
  • Total Geral (n = 50): localizado no canto inferior direito


Percentual Denominador Pergunta respondida
Por Linha Total da linha Das mulheres, quantas % tiveram quadro Grave?
Por Coluna Total da coluna Dos quadros Graves, quantas % eram mulheres?
Por Total Geral n total Qual o % de mulheres graves na pesquisa?

Exemplo de Contingência no Dataset

Tabela de Contingência: Sexo × Gravidade (com totais marginais)
Leve Moderada Grave Sum
Feminino 10 11 1 22
Masculino 9 10 9 28
Sum 19 21 10 50

Percentual pelo Total Geral


\[\% = \frac{\text{Valor da Célula}}{\text{Total Geral (n)}} \times 100\]


Exemplo: 5 mulheres com quadro grave em 50 pacientes: \(\frac{5}{50} \times 100 = 10\%\ \text{do total da pesquisa}\)


Percentuais pelo Total Geral (%)
Leve Moderada Grave Sum
Feminino 20 22 2 44
Masculino 18 20 18 56
Sum 38 42 20 100

Percentual por Linha e Coluna

--- Percentuais por LINHA (%) ---
% por Linha: Dos [sexo], quantos % são [gravidade]?
Leve Moderada Grave
Feminino 45.5 50.0 4.5
Masculino 32.1 35.7 32.1
--- Percentuais por COLUNA (%) ---
% por Coluna: Dos [gravidade], quantos % são [sexo]?
Leve Moderada Grave
Feminino 52.6 52.4 10
Masculino 47.4 47.6 90

⚠️ O denominador muda completamente a interpretação clínica.

Tabela para Quantitativas Discretas


  • Variáveis de contagem estreita (ex: Faltas de 0 a 5) → cada valor é uma linha
  • Dispensa agrupamentos — basta ordenar crescentemente e contar


Faltas n %
0 20 40,0%
1 15 30,0%
2 10 20,0%
3 4 8,0%
4+ 1 2,0%
Total 50 100%

Exemplo: Discreta no Dataset

Distribuição de Faltas ao Tratamento (n=50)
Faltas Freq. Absoluta Percentual (%)
0 25 50
1 15 30
2 6 12
3 3 6
5 1 2

Tabelas de Frequência Contínua


  • Listar centenas de idades quebraria a leitura da tabela
  • Solução: condensar em Classes (intervalos agrupados)
  • Notação: [a – b) → inclui a, exclui b


Classe (anos) f %
[20 – 30) 5 10%
[30 – 40) 12 24%
[40 – 50) 18 36%
[50 – 60) 10 20%
[60 – 70] 5 10%
Total 50 100%

Passos para Criar Classes


1. Encontrar o Mínimo e o Máximo

2. Calcular a Amplitude:

\[\text{Amplitude} = \text{Máximo} - \text{Mínimo}\]

3. Número de classes pela Fórmula de Sturges:

\[k = 1 + 3{,}222 \times \log(n)\]

4. Tamanho do intervalo \(= \text{Amplitude} / k\)

Mínimo: 23 | Máximo: 73 | Amplitude: 50 | k (Sturges): 7 | Intervalo aprox.: 7.1

Visualização de Dados Gráficos

Tipo de Variável Qualitativa Quantitativa 📊 Barras / Colunas Nominal e Ordinal 🥧 Setores (Pizza) Poucas categorias 📉 Histograma Contínua (classes) 📈 Tempo Série 🔵 Dispersão Duas quantitativas

Gráficos de Barras (Colunas)


  • Uso correto: variáveis qualitativas (nominal e ordinal) ou quantitativas discretas curtas
  • Espaço vazio entre as barras evidencia a descontinuidade entre categorias
  • Se ordinal → respeitar rigorosamente a escala evolutiva no eixo


✅ Correto — barras com espaço ❌ Errado — barras coladas (histograma!)

Exemplo de Gráfico de Barras

Gráfico de Setores (Pizza/Rosca)


  • Uso correto: variáveis nominais com poucas categorias (ideal: até 5)
  • A circunferência de 360° representa 100% da amostra

\[\text{Ângulo} = \text{Proporção} \times 360°\]


✅ Até 5 categorias — legível Ex: Sexo (2), Tipo sanguíneo (4) ❌ Evitar 3D e muitas fatias Desfigura percepção das áreas

Exemplo de Gráfico de Setores

Diagrama de Linhas (Série Temporal)


  • Uso correto: variáveis quantitativas que transitam pelo tempo
  • Pontos conectados por retas contínuas
  • Revela: picos virais, decaimentos febris, estabilizações


Eixo Conteúdo
Eixo X (horizontal) Tempo (dias, semanas, anos, ID)
Eixo Y (vertical) Variável monitorada (pressão, temperatura, casos)


Ex: evolução da temperatura de um paciente ao longo da internação, incidência semanal de COVID.

Exemplo de Diagrama de Linhas

O Histograma


  • Exclusivo para variáveis quantitativas contínuas em alto volume (agrupadas em classes)
  • Barras justapostas — sem espaço entre elas (continuidade da variável)


✅ Histograma — barras COLADAS Continuidade da variável biológica ❌ Com espaço = gráfico de barras! Errado para variável contínua

Exemplo de Histograma

Diagrama de Dispersão (Scatterplot)


  • Testa a co-movimentação entre duas variáveis quantitativas simultaneamente
  • Cada prontuário = um ponto nos eixos X e Y


Padrão da nuvem Interpretação
↗ Diagonal ascendente Correlação positiva
↘ Diagonal descendente Correlação negativa
⊙ Dispersa (circular) Sem correlação


O diagrama de dispersão é o passo visual antes do cálculo formal da correlação de Pearson.

Exemplo de Diagrama de Dispersão

Medidas de Tendência Central (Resumo Numérico)

⚖️ Média (x̄) x̄ = Σxᵢ / n Centro de equilíbrio matemático da amostra ⚠️ Sensível a outliers Usar em distribuições simétricas Símbolos: x̄ / μ 📍 Mediana (Md) Valor central do ROL 50% abaixo | 50% acima Exige ordenação ✅ Resistente a outliers Usar em distribuições assimétricas ou com outliers Ex: renda, tempo internação 🔝 Moda (Mo) Valor mais frequente Não requer cálculo — apenas contagem ✅ Funciona em qualitativos Amodal · Unimodal Bimodal · Multimodal Ex: tipo sanguíneo + comum

Média Aritmética


\[\bar{x} = \frac{\sum x_i}{n}\]


O baricentro matemático da amostra — ponto de equilíbrio de todos os registros.

70 76 78 79 83 86 88 106 Outlier ⚠️ A média é o ponto de equilíbrio — mas o outlier 106 a puxa para direita

Exemplo de Cálculo Manual da Média


Idades dos 5 primeiros pacientes: 30, 45, 50, 42, 60


Somatório: \[30 + 45 + 50 + 42 + 60 = 227\]

Divisão: \[\bar{x} = \frac{227}{5} = 45{,}4 \text{ anos}\]

Soma: 227 | n: 5 | Média: 45.4

Sensibilidade aos Discrepantes (Outliers)

✅ Grupo A — Sem Outlier 5 6 8 9 7 x̄ = (5+6+7+8+9)/5 = 7,0 anos ✅ Média representa bem o grupo ❌ Grupo B — Com Outlier 5 6 7 8 90 ⚠️ Outlier! x̄ = (5+6+7+8+90)/5 = 23,2 anos ❌ (enganoso!) Nenhum paciente tem ~23 anos

A Mediana (Medida Resistente)


Representa o paciente no coração da amostra.


Regra inquebrável — ROL (ordenação crescente):

  1. Ordenar todos os dados do menor para o maior
  2. Localizar o valor central
  3. Se n ímpar → valor do meio; se n par → média dos dois centrais


\[\text{Mediana} = \text{divide em }50\%\text{ abaixo e }50\%\text{ acima}\]

Exemplo de Cálculo da Mediana

Faltas dos pacientes 1 a 6: {2, 0, 1, 5, 1, 0}

Dados brutos: 2 0 1 5 1 0 ROL ordenado: 0 0 1 1 2 5 ← dois centrais n = 6 (par) → Mediana = (1 + 1) / 2 = 1 falta ✅ (resistente ao outlier 5)

A Moda


  • Relata o valor ou categoria mais frequente — não calcula distâncias
  • Aplicável diretamente a variáveis qualitativas


Situação Nome
Nenhum valor se repete Amodal
Um único valor é mais frequente Unimodal
Dois valores empatam no topo Bimodal
Três ou mais Multimodal

Exemplo Prático da Moda

Distribuição de Gravidade — identificando a Moda
Gravidade n %
Leve 19 38
Moderada 21 42
Grave 10 20


Se “Leve” e “Moderada” obtiverem a mesma frequência → clínica apresenta padrão bimodal.

Medidas de Dispersão — Por que Variar?

Dois grupos com mesma Média = 50 — comportamentos opostos Grupo Homogêneo 48 49 50 51 52 x̄=50 s ≈ 1,5 — grupo controlado ✅ Grupo Heterogêneo 20 30 50 70 80 x̄=50 s ≈ 24 — grupo descontrolado ❌ 📏 Amplitude 📐 Variância (s²) σ Desvio-Padrão (s) % Coef. Variação (CV)

Amplitude Total


\[\text{Amplitude} = x_{\max} - x_{\min}\]


  • Conta geométrica que mede o intervalo total da distribuição
  • Simples, mas ignora toda a variação intermediária


Exemplo no dataset:

Idade Mínima: 23 anos
Idade Máxima: 73 anos
Amplitude:    50 anos

Exemplo de Amplitude Total


Com base nos dados calculados:

  • Amplitude = máximo − mínimo dos anos de vida dos pacientes
  • Reflete a diversidade etária da ala clínica


Mín 19 anos Máx 78 anos Amplitude = 59 anos O serviço abrange 59 anos de variação etária — alto risco clínico diferenciado

A Variância Amostral (s²)


\[s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1}\]


  • Calcula a distância de cada paciente em relação à média, elevando ao quadrado
  • Eleva ao quadrado para eliminar valores negativos (desvios abaixo da média)
  • Unidade: kg², mmHg² — inútil à interpretação clínica direta


Por isso, extraímos a raiz e usamos o Desvio-Padrão.

Exemplo Analítico de Variância

Faltas das 3 primeiras fichas: {2, 0, 1} → Média = 1


\(x_i\) \(x_i - \bar{x}\) \((x_i - \bar{x})^2\)
2 +1 1
0 −1 1
1 0 0
Soma 2

\[s^2 = \frac{2}{3-1} = \frac{2}{2} = 1 \text{ (falta}^2\text{)}\]

O Desvio-Padrão (s)


\[s = \sqrt{s^2}\]


  • Elimina a unidade quadrada — retorna à unidade original do dado
  • Indica quão heterogênea ou homogênea é a ala analisada


Variância s² kg² mmHg² anos² Unidade quadrada — impossível interpretar clinicamente Desvio-Padrão s kg mmHg anos Mesma unidade dos dados — interpretável ✅

Exemplo de Desvio-Padrão e Variância

=== Pressão Sistólica — dados_enf (n=50) ===
Média:          129.6 mmHg
Variância:      155.63 mmHg²
Desvio-Padrão:  12.48 mmHg
CV:             9.6 %

=== Idade — dados_enf (n=50) ===
Média:          47.26 anos
Desvio-Padrão:  12.91 anos
CV:             27.3 %

O Coeficiente de Variação (CV)


\[CV(\%) = \frac{s}{\bar{x}} \times 100\]


  • Permite comparar dispersão entre variáveis com unidades diferentes
  • Ex: comparar variabilidade da pressão (mmHg) com a da altura (cm)


CV Classificação
< 15% Baixa dispersão — grupo controlado
15 – 30% Dispersão moderada
> 30% Alta dispersão — grupo heterogêneo

Exemplo de Coeficiente de Variação

Peso de neonatos: \(\bar{x} = 3\) kg, \(s = 2\) kg

\[CV = \frac{2}{3} \times 100 = 66,7\%\]


0% 15% 30% 100% CV = 66,7% — Alta dispersão ❌

As Separatrizes (Medidas de Posição)


  • Além do centro, é possível fatiar a distribuição em recortes uniformes
  • Permitem focar nos extremos e no eixo mediano


Separatriz Divisão Uso típico
Quartis (Q) 4 partes (25% cada) Boxplot, AIQ
Decis (D) 10 partes (10% cada) Análises populacionais
Percentis (P) 100 partes (1% cada) Curvas crescimento pediátrico

Decis e Percentis

Quartis (Q) ÷ 4 4 partes de 25% Decis (D) ÷ 10 10 partes de 10% Percentis (P) ÷ 100 100 partes de 1% Aplicação: Curva de Crescimento Pediátrico Idade (meses) P3 P25 P50 P75 P97 👶 P90 Bebê no P90 supera 90% dos infantes

Os Quartis Clínicos (Q)

Dividindo os dados ordenados em 4 partes iguais de 25% 25% 25% 25% 25% Q1 = 25% Q2 = Mediana Q3 = 75% AIQ = Q3 − Q1 (50% centrais) Q1 — 1º Quartil 25% dos dados estão abaixo Base da caixa no boxplot Q2 — Mediana 50% abaixo | 50% acima Linha central no boxplot Q3 — 3º Quartil 75% dos dados estão abaixo Teto da caixa no boxplot

Exemplo de Quartis em Ação

Dias de cicatrização incisional: {5, 6, 8, 12, 14, 20}


Q2 (Mediana): média entre 8 e 12 = 10 dias

Q1 (mediana da metade inferior {5, 6, 8}) = 6 dias

Q3 (mediana da metade superior {12, 14, 20}) = 14 dias

\[AIQ = Q3 - Q1 = 14 - 6 = \mathbf{8 \text{ dias}}\]

Q1: 6.5 | Q2 (Mediana): 10 | Q3: 13.5 | AIQ: 7

A Amplitude Interquartílica (AIQ)


\[AIQ = Q3 - Q1\]


  • Blindada contra outliers: exclui os 25% inferiores e os 25% superiores
  • Avalia o distanciamento dos 50% centrais da amostra


Medida de centro Medida de dispersão pareada
Média Desvio-Padrão (s)
Mediana Amplitude Interquartílica (AIQ)


Quando há outliers → use Mediana \(\pm\) AIQ. Quando a distribuição é simétrica → use Média \(\pm\) DP.

O Gráfico Boxplot (Diagrama de Caixa)

180 165 Q3 (165) Q1 (118) 105 AIQ = Q3 − Q1 🔴 Outlier Limite Superior Q3 (75%) Mediana (Q2) Q1 (25%) Limite Inferior

Anatomia Funcional do Boxplot


O boxplot concentra 5 medidas resumo em um único gráfico:


Elemento visual O que representa
🔴 Ponto isolado Outlier — aberração extrema
─── (bigode superior) Máximo não-outlier
▌ Teto da caixa Q3 — 3º quartil (75%)
━ Linha interna Mediana — Q2 (50%)
▌ Base da caixa Q1 — 1º quartil (25%)
─── (bigode inferior) Mínimo não-outlier


📦 A caixa = amplitude interquartílica → onde vivem 50% dos dados centrais.

Exemplo: Boxplot por Tratamento

Interpretando a Variabilidade pelo Gráfico

Caixa Estreita = Alta Homogeneidade ← pequena AIQ Pacientes respondem de forma previsível ao tratamento ✅ Caixa Larga = Alta Heterogeneidade ← grande AIQ Alta variação nas respostas protocolo pouco padronizado ❌ Caixa Assimétrica = Distribuição Assimétrica mediana deslocada ↑

Outliers na Assistência em Saúde


Os pontos isolados fora dos bigodes do boxplot ajudam a identificar, por exemplo:


  • 🚨 Urgências de UTI não captadas pelas médias superficiais
  • ⚙️ Falhas técnicas crônicas severas no registro ou monitoramento
  • 💊 Pacientes com hiper-reação rara a medicação sob teste
  • 📋 Erros de entrada nos prontuários (outliers artificiais)


O boxplot torna visível o que a média esconde.

A Conexão Crítica e Final

🌉 Ponte Estatística 🩺 Observação Clínica Dados do paciente colhidos na beira do leito 📋 Decisão Baseada em Evidências Protocolos validados Centro (Médias/Medianas) + Dispersão (DP/AIQ) = Esqueleto das decisões clínicas Fundamenta políticas de saúde pública e valida protocolos terapêuticos

Referências e Discussão Clínica

📖 Referência Principal VIEIRA, Sonia. Introdução à Bioestatística. 6. ed. Rio de Janeiro: Guanabara Koogan, 2021. Base teórica exclusiva desta apresentação Tópicos Abertos para Discussão ⚖️ Média vs. Mediana Quando usar cada uma na triagem hospitalar? 🏥 💻 Software: R / Python / Jamovi Aplicações no cotidiano clínico e em pesquisa 📈