Introdução à Bioestatística
Prof. Marcelo R.P. Ferreira
Departamento de Estatística – UFPB
maio, 2026
Quem é o professor?
- Na maior parte do tempo eu sou pai de duas meninas, professor, cientista e cervejeiro caseiro.
- Faço parte do Departamento de Estatística da UFPB desde dezembro de 2008 e do Programa de Pós-graduação em Modelos de Decisão e Saúde (PPGMDS/UFPB) desde novembro de 2022.
- Formação acadêmica:
- Graduação em Estatística pela UFPE;
- Mestrado em Estatística pela UFPE;
- Doutorado em Ciência da Computação pela UFPE;
- Pós-doutorado em Aprendizagem de Máquina na RWTH Aachen University, Alemanha.
Sobre a disciplina
- Estatística Vital (Bioestatística).
- Carga-horária: 45 horas.
- Horário: Segundas-feiras, das 13h às 16h.
- Avaliação contínua através de atividades, listas de exercícios e quizes.
- Duas avaliações de aprendizagem (Provas).
Introdução à Bioestatística
- Capacita profissionais da área da saúde na avaliação quantitativa de dados clínicos
- Desenvolve organização, resumo numérico e pensamento crítico
- Foco em soluções de saúde baseadas em evidências, não em empirismo puro
O Que é a Estatística?
Bioestatística e a Motivação em Saúde
A Jornada e o Fluxo do Dado
A pesquisa clínica requer este fluxo para testar hipóteses — como novos ensaios terapêuticos — com pacientes reais.
População (Universo)
Amostra
Censo × Amostragem
Parâmetro e Estatística (Estimador)
Estimador × Estimativa
- Estimador
-
O método matemático escolhido pelo pesquisador — uma fórmula aplicável a qualquer amostra
- Estimativa
-
O número exato obtido ao aplicar o estimador nos dados da amostra sorteada
Conjunto de Dados Fictício
Tabela completa: 50 pacientes — dados_enf
| 1 |
Masculino |
Leve |
49 |
1 |
152 |
Novo |
| 2 |
Masculino |
Moderada |
39 |
2 |
114 |
Padrão |
| 3 |
Feminino |
Moderada |
48 |
1 |
128 |
Novo |
| 4 |
Masculino |
Grave |
54 |
0 |
148 |
Novo |
| 5 |
Masculino |
Grave |
66 |
1 |
123 |
Padrão |
| 6 |
Feminino |
Leve |
34 |
3 |
129 |
Novo |
| 7 |
Masculino |
Leve |
65 |
0 |
129 |
Novo |
| 8 |
Feminino |
Moderada |
50 |
2 |
117 |
Padrão |
| 9 |
Masculino |
Moderada |
61 |
0 |
123 |
Novo |
| 10 |
Masculino |
Moderada |
59 |
0 |
130 |
Padrão |
| 11 |
Feminino |
Moderada |
56 |
0 |
124 |
Novo |
| 12 |
Masculino |
Moderada |
29 |
0 |
147 |
Novo |
| 13 |
Masculino |
Grave |
44 |
0 |
123 |
Padrão |
| 14 |
Feminino |
Moderada |
54 |
0 |
124 |
Padrão |
| 15 |
Feminino |
Leve |
31 |
0 |
140 |
Padrão |
| 16 |
Masculino |
Moderada |
37 |
0 |
114 |
Novo |
| 17 |
Masculino |
Grave |
54 |
5 |
129 |
Novo |
| 18 |
Feminino |
Moderada |
57 |
2 |
107 |
Padrão |
| 19 |
Feminino |
Moderada |
52 |
0 |
148 |
Padrão |
| 20 |
Feminino |
Moderada |
32 |
2 |
126 |
Novo |
| 21 |
Masculino |
Leve |
29 |
1 |
123 |
Novo |
| 22 |
Feminino |
Leve |
68 |
1 |
111 |
Padrão |
| 23 |
Masculino |
Leve |
49 |
0 |
130 |
Novo |
| 24 |
Masculino |
Grave |
46 |
1 |
118 |
Novo |
| 25 |
Feminino |
Leve |
43 |
0 |
122 |
Novo |
| 26 |
Feminino |
Moderada |
27 |
0 |
149 |
Padrão |
| 27 |
Feminino |
Leve |
54 |
1 |
127 |
Novo |
| 28 |
Masculino |
Leve |
42 |
1 |
114 |
Padrão |
| 29 |
Feminino |
Leve |
42 |
0 |
132 |
Novo |
| 30 |
Masculino |
Grave |
59 |
0 |
125 |
Padrão |
| 31 |
Masculino |
Grave |
57 |
1 |
139 |
Novo |
| 32 |
Masculino |
Leve |
66 |
3 |
151 |
Novo |
| 33 |
Feminino |
Leve |
38 |
0 |
115 |
Padrão |
| 34 |
Masculino |
Moderada |
55 |
0 |
137 |
Padrão |
| 35 |
Feminino |
Leve |
66 |
0 |
131 |
Padrão |
| 36 |
Masculino |
Moderada |
28 |
1 |
143 |
Novo |
| 37 |
Feminino |
Moderada |
32 |
0 |
127 |
Padrão |
| 38 |
Feminino |
Moderada |
28 |
2 |
143 |
Padrão |
| 39 |
Masculino |
Leve |
23 |
0 |
104 |
Padrão |
| 40 |
Masculino |
Moderada |
46 |
1 |
155 |
Novo |
| 41 |
Feminino |
Leve |
55 |
1 |
143 |
Padrão |
| 42 |
Feminino |
Moderada |
63 |
1 |
128 |
Novo |
| 43 |
Feminino |
Grave |
61 |
1 |
108 |
Padrão |
| 44 |
Masculino |
Leve |
30 |
0 |
140 |
Novo |
| 45 |
Feminino |
Leve |
73 |
0 |
137 |
Novo |
| 46 |
Masculino |
Grave |
35 |
3 |
130 |
Padrão |
| 47 |
Masculino |
Moderada |
47 |
1 |
132 |
Padrão |
| 48 |
Masculino |
Moderada |
39 |
0 |
121 |
Novo |
| 49 |
Masculino |
Grave |
43 |
2 |
136 |
Novo |
| 50 |
Masculino |
Leve |
48 |
0 |
134 |
Padrão |
Variável e Observação (Dado)
Variáveis Qualitativas
Exemplo de Variáveis Qualitativas
Sexo |
Nominal |
Feminino / Masculino |
Sem hierarquia entre os sexos |
Gravidade |
Ordinal |
Leve → Moderada → Grave |
Progressão fisiológica exige ordem |
Variáveis Quantitativas
Exemplo de Variáveis Quantitativas
Faltas |
Discreta |
Contagem (0, 1, 2…). Não existe “meia falta”. |
Idade |
Contínua |
Mensuração — pode ter casas decimais infinitas |
Pressao |
Contínua |
mmHg medidos por esfigmomanômetro digital |
Tipos de Estudos: Observacionais vs. Intervenção
Estudo Ecológico e Transversal
- Ecológico / Demográfico
-
Analisa populações inteiras (cidades, países) — compara taxas macro sem investigar indivíduos
-
Ex: taxa de mortalidade por município, correlação poluição × asma
- Transversal
-
Avalia exposição e doença simultaneamente — como uma “fotografia”
-
Ideal para estimar proporções locais
Estudo de Coorte (Prospectivo)
Estudo Caso-Controle (Retrospectivo)
Ensaio Clínico Randomizado
Estrutura da Tabela de Dados
- Linhas → unidades observacionais (prontuários, pacientes)
- Colunas → características clínicas mensuradas (variáveis)
| 1 |
Feminino |
Leve |
38 |
0 |
118 |
| 2 |
Masculino |
Grave |
61 |
3 |
152 |
| 3 |
Feminino |
Moderada |
45 |
1 |
131 |
| … |
… |
… |
… |
… |
… |
Organizar planilhas transforma centenas de prontuários, por exemplo, em um banco de dados computável.
Tabelas de Frequência Absoluta
- A tabela destila o dado bruto: agrupa categorias e conta ocorrências
- Frequência Absoluta (f): número exato de repetições de uma categoria
- A soma de todas as categorias = tamanho total n da amostra
| Leve |
20 |
| Moderada |
20 |
| Grave |
10 |
| Total |
50 |
Frequência Relativa e Percentual
\[f_r = \frac{f_i}{n} \qquad \% = f_r \times 100\]
- Frequência Relativa: peso daquela categoria frente à amostra inteira
- Percentual: indispensável para comparar alas hospitalares de tamanhos diferentes
Exemplo de Frequência no Dataset
Distribuição por Gravidade — dados_enf (n=50)
| Leve |
19 |
0.38 |
38 |
| Moderada |
21 |
0.42 |
42 |
| Grave |
10 |
0.20 |
20 |
| Total |
50 |
1.00 |
100 |
Tabelas de Contingência
- Dupla entrada: cruza simultaneamente duas variáveis qualitativas
- Permite rastrear interações (ex: Sexo × Gravidade, Tratamento × Melhora)
- Trazem os totais marginais — cruciais para os percentuais
Totais Marginais e Células
- Totais por Linha: resumo horizontal de cada grupo de base
- Totais por Coluna: resumo vertical de cada nível clínico
- Total Geral (n = 50): localizado no canto inferior direito
| Por Linha |
Total da linha |
Das mulheres, quantas % tiveram quadro Grave? |
| Por Coluna |
Total da coluna |
Dos quadros Graves, quantas % eram mulheres? |
| Por Total Geral |
n total |
Qual o % de mulheres graves na pesquisa? |
Exemplo de Contingência no Dataset
Tabela de Contingência: Sexo × Gravidade (com totais marginais)
| Feminino |
10 |
11 |
1 |
22 |
| Masculino |
9 |
10 |
9 |
28 |
| Sum |
19 |
21 |
10 |
50 |
Percentual pelo Total Geral
\[\% = \frac{\text{Valor da Célula}}{\text{Total Geral (n)}} \times 100\]
Exemplo: 5 mulheres com quadro grave em 50 pacientes: \(\frac{5}{50} \times 100 = 10\%\ \text{do total da pesquisa}\)
Percentuais pelo Total Geral (%)
| Feminino |
20 |
22 |
2 |
44 |
| Masculino |
18 |
20 |
18 |
56 |
| Sum |
38 |
42 |
20 |
100 |
Percentual por Linha e Coluna
--- Percentuais por LINHA (%) ---
% por Linha: Dos [sexo], quantos % são [gravidade]?
| Feminino |
45.5 |
50.0 |
4.5 |
| Masculino |
32.1 |
35.7 |
32.1 |
--- Percentuais por COLUNA (%) ---
% por Coluna: Dos [gravidade], quantos % são [sexo]?
| Feminino |
52.6 |
52.4 |
10 |
| Masculino |
47.4 |
47.6 |
90 |
⚠️ O denominador muda completamente a interpretação clínica.
Tabela para Quantitativas Discretas
- Variáveis de contagem estreita (ex: Faltas de 0 a 5) → cada valor é uma linha
- Dispensa agrupamentos — basta ordenar crescentemente e contar
| 0 |
20 |
40,0% |
| 1 |
15 |
30,0% |
| 2 |
10 |
20,0% |
| 3 |
4 |
8,0% |
| 4+ |
1 |
2,0% |
| Total |
50 |
100% |
Exemplo: Discreta no Dataset
Distribuição de Faltas ao Tratamento (n=50)
| 0 |
25 |
50 |
| 1 |
15 |
30 |
| 2 |
6 |
12 |
| 3 |
3 |
6 |
| 5 |
1 |
2 |
Tabelas de Frequência Contínua
- Listar centenas de idades quebraria a leitura da tabela
- Solução: condensar em Classes (intervalos agrupados)
- Notação:
[a – b) → inclui a, exclui b
| [20 – 30) |
5 |
10% |
| [30 – 40) |
12 |
24% |
| [40 – 50) |
18 |
36% |
| [50 – 60) |
10 |
20% |
| [60 – 70] |
5 |
10% |
| Total |
50 |
100% |
Passos para Criar Classes
1. Encontrar o Mínimo e o Máximo
2. Calcular a Amplitude:
\[\text{Amplitude} = \text{Máximo} - \text{Mínimo}\]
3. Número de classes pela Fórmula de Sturges:
\[k = 1 + 3{,}222 \times \log(n)\]
4. Tamanho do intervalo \(= \text{Amplitude} / k\)
Mínimo: 23 | Máximo: 73 | Amplitude: 50 | k (Sturges): 7 | Intervalo aprox.: 7.1
Visualização de Dados Gráficos
Gráficos de Barras (Colunas)
- Uso correto: variáveis qualitativas (nominal e ordinal) ou quantitativas discretas curtas
- Espaço vazio entre as barras evidencia a descontinuidade entre categorias
- Se ordinal → respeitar rigorosamente a escala evolutiva no eixo
Exemplo de Gráfico de Barras
Gráfico de Setores (Pizza/Rosca)
- Uso correto: variáveis nominais com poucas categorias (ideal: até 5)
- A circunferência de 360° representa 100% da amostra
\[\text{Ângulo} = \text{Proporção} \times 360°\]
Exemplo de Gráfico de Setores
Diagrama de Linhas (Série Temporal)
- Uso correto: variáveis quantitativas que transitam pelo tempo
- Pontos conectados por retas contínuas
- Revela: picos virais, decaimentos febris, estabilizações
| Eixo X (horizontal) |
Tempo (dias, semanas, anos, ID) |
| Eixo Y (vertical) |
Variável monitorada (pressão, temperatura, casos) |
Ex: evolução da temperatura de um paciente ao longo da internação, incidência semanal de COVID.
Exemplo de Diagrama de Linhas
O Histograma
- Exclusivo para variáveis quantitativas contínuas em alto volume (agrupadas em classes)
- Barras justapostas — sem espaço entre elas (continuidade da variável)
Exemplo de Histograma
Diagrama de Dispersão (Scatterplot)
- Testa a co-movimentação entre duas variáveis quantitativas simultaneamente
- Cada prontuário = um ponto nos eixos X e Y
| ↗ Diagonal ascendente |
Correlação positiva |
| ↘ Diagonal descendente |
Correlação negativa |
| ⊙ Dispersa (circular) |
Sem correlação |
O diagrama de dispersão é o passo visual antes do cálculo formal da correlação de Pearson.
Exemplo de Diagrama de Dispersão
Medidas de Tendência Central (Resumo Numérico)
Média Aritmética
\[\bar{x} = \frac{\sum x_i}{n}\]
O baricentro matemático da amostra — ponto de equilíbrio de todos os registros.
Exemplo de Cálculo Manual da Média
Idades dos 5 primeiros pacientes: 30, 45, 50, 42, 60
Somatório: \[30 + 45 + 50 + 42 + 60 = 227\]
Divisão: \[\bar{x} = \frac{227}{5} = 45{,}4 \text{ anos}\]
Soma: 227 | n: 5 | Média: 45.4
Sensibilidade aos Discrepantes (Outliers)
A Moda
- Relata o valor ou categoria mais frequente — não calcula distâncias
- Aplicável diretamente a variáveis qualitativas
| Nenhum valor se repete |
Amodal |
| Um único valor é mais frequente |
Unimodal |
| Dois valores empatam no topo |
Bimodal |
| Três ou mais |
Multimodal |
Exemplo Prático da Moda
Distribuição de Gravidade — identificando a Moda
| Leve |
19 |
38 |
| Moderada |
21 |
42 |
| Grave |
10 |
20 |
Se “Leve” e “Moderada” obtiverem a mesma frequência → clínica apresenta padrão bimodal.
Medidas de Dispersão — Por que Variar?
Amplitude Total
\[\text{Amplitude} = x_{\max} - x_{\min}\]
- Conta geométrica que mede o intervalo total da distribuição
- Simples, mas ignora toda a variação intermediária
Exemplo no dataset:
Exemplo de Amplitude Total
Com base nos dados calculados:
- Amplitude = máximo − mínimo dos anos de vida dos pacientes
- Reflete a diversidade etária da ala clínica
A Variância Amostral (s²)
\[s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1}\]
- Calcula a distância de cada paciente em relação à média, elevando ao quadrado
- Eleva ao quadrado para eliminar valores negativos (desvios abaixo da média)
- Unidade: kg², mmHg² — inútil à interpretação clínica direta
Por isso, extraímos a raiz e usamos o Desvio-Padrão.
Exemplo Analítico de Variância
Faltas das 3 primeiras fichas: {2, 0, 1} → Média = 1
| 2 |
+1 |
1 |
| 0 |
−1 |
1 |
| 1 |
0 |
0 |
| Soma |
|
2 |
\[s^2 = \frac{2}{3-1} = \frac{2}{2} = 1 \text{ (falta}^2\text{)}\]
O Desvio-Padrão (s)
\[s = \sqrt{s^2}\]
- Elimina a unidade quadrada — retorna à unidade original do dado
- Indica quão heterogênea ou homogênea é a ala analisada
Exemplo de Desvio-Padrão e Variância
=== Pressão Sistólica — dados_enf (n=50) ===
Desvio-Padrão: 12.48 mmHg
=== Idade — dados_enf (n=50) ===
Desvio-Padrão: 12.91 anos
O Coeficiente de Variação (CV)
\[CV(\%) = \frac{s}{\bar{x}} \times 100\]
- Permite comparar dispersão entre variáveis com unidades diferentes
- Ex: comparar variabilidade da pressão (mmHg) com a da altura (cm)
| < 15% |
Baixa dispersão — grupo controlado |
| 15 – 30% |
Dispersão moderada |
| > 30% |
Alta dispersão — grupo heterogêneo |
Exemplo de Coeficiente de Variação
Peso de neonatos: \(\bar{x} = 3\) kg, \(s = 2\) kg
\[CV = \frac{2}{3} \times 100 = 66,7\%\]
As Separatrizes (Medidas de Posição)
- Além do centro, é possível fatiar a distribuição em recortes uniformes
- Permitem focar nos extremos e no eixo mediano
| Quartis (Q) |
4 partes (25% cada) |
Boxplot, AIQ |
| Decis (D) |
10 partes (10% cada) |
Análises populacionais |
| Percentis (P) |
100 partes (1% cada) |
Curvas crescimento pediátrico |
Decis e Percentis
Os Quartis Clínicos (Q)
Exemplo de Quartis em Ação
Dias de cicatrização incisional: {5, 6, 8, 12, 14, 20}
Q2 (Mediana): média entre 8 e 12 = 10 dias
Q1 (mediana da metade inferior {5, 6, 8}) = 6 dias
Q3 (mediana da metade superior {12, 14, 20}) = 14 dias
\[AIQ = Q3 - Q1 = 14 - 6 = \mathbf{8 \text{ dias}}\]
Q1: 6.5 | Q2 (Mediana): 10 | Q3: 13.5 | AIQ: 7
A Amplitude Interquartílica (AIQ)
\[AIQ = Q3 - Q1\]
- Blindada contra outliers: exclui os 25% inferiores e os 25% superiores
- Avalia o distanciamento dos 50% centrais da amostra
| Média |
Desvio-Padrão (s) |
| Mediana |
Amplitude Interquartílica (AIQ) |
Quando há outliers → use Mediana \(\pm\) AIQ. Quando a distribuição é simétrica → use Média \(\pm\) DP.
O Gráfico Boxplot (Diagrama de Caixa)
Anatomia Funcional do Boxplot
O boxplot concentra 5 medidas resumo em um único gráfico:
| 🔴 Ponto isolado |
Outlier — aberração extrema |
| ─── (bigode superior) |
Máximo não-outlier |
| ▌ Teto da caixa |
Q3 — 3º quartil (75%) |
| ━ Linha interna |
Mediana — Q2 (50%) |
| ▌ Base da caixa |
Q1 — 1º quartil (25%) |
| ─── (bigode inferior) |
Mínimo não-outlier |
📦 A caixa = amplitude interquartílica → onde vivem 50% dos dados centrais.
Exemplo: Boxplot por Tratamento
Interpretando a Variabilidade pelo Gráfico
Outliers na Assistência em Saúde
Os pontos isolados fora dos bigodes do boxplot ajudam a identificar, por exemplo:
- 🚨 Urgências de UTI não captadas pelas médias superficiais
- ⚙️ Falhas técnicas crônicas severas no registro ou monitoramento
- 💊 Pacientes com hiper-reação rara a medicação sob teste
- 📋 Erros de entrada nos prontuários (outliers artificiais)
O boxplot torna visível o que a média esconde.
A Conexão Crítica e Final
Referências e Discussão Clínica