Introdução à Bioestatística

Quem é o professor?

Na maior parte do tempo eu sou pai de duas meninas, professor, cientista e cervejeiro caseiro.
Faço parte do Departamento de Estatística da UFPB desde dezembro de 2008 e do Programa de Pós-graduação em Modelos de Decisão e Saúde (PPGMDS/UFPB) desde novembro de 2022.
Formação acadêmica:
- Graduação em Estatística pela UFPE;
- Mestrado em Estatística pela UFPE;
- Doutorado em Ciência da Computação pela UFPE;
- Pós-doutorado em Aprendizagem de Máquina na RWTH Aachen University, Alemanha.

Sobre a disciplina

Estatística Vital (Bioestatística).
Carga-horária: 45 horas.
Horário: Segundas-feiras, das 13h às 16h.
Avaliação contínua através de atividades, listas de exercícios e quizes.
Duas avaliações de aprendizagem (Provas).

Introdução à Bioestatística

Capacita profissionais da área da saúde na avaliação quantitativa de dados clínicos
Desenvolve organização, resumo numérico e pensamento crítico
Foco em soluções de saúde baseadas em evidências, não em empirismo puro

O Que é a Estatística?

Bioestatística e a Motivação em Saúde

A Jornada e o Fluxo do Dado

A pesquisa clínica requer este fluxo para testar hipóteses — como novos ensaios terapêuticos — com pacientes reais.

População (Universo)

Amostra

Censo × Amostragem

Parâmetro e Estatística (Estimador)

Estimador × Estimativa

Estimador: O método matemático escolhido pelo pesquisador — uma fórmula aplicável a qualquer amostra

Estimativa: O número exato obtido ao aplicar o estimador nos dados da amostra sorteada

Conjunto de Dados Fictício

Tabela completa: 50 pacientes — dados_enf
ID	Sexo	Gravidade	Idade	Faltas	Pressao	Tratamento
1	Masculino	Leve	49	1	152	Novo
2	Masculino	Moderada	39	2	114	Padrão
3	Feminino	Moderada	48	1	128	Novo
4	Masculino	Grave	54	0	148	Novo
5	Masculino	Grave	66	1	123	Padrão
6	Feminino	Leve	34	3	129	Novo
7	Masculino	Leve	65	0	129	Novo
8	Feminino	Moderada	50	2	117	Padrão
9	Masculino	Moderada	61	0	123	Novo
10	Masculino	Moderada	59	0	130	Padrão
11	Feminino	Moderada	56	0	124	Novo
12	Masculino	Moderada	29	0	147	Novo
13	Masculino	Grave	44	0	123	Padrão
14	Feminino	Moderada	54	0	124	Padrão
15	Feminino	Leve	31	0	140	Padrão
16	Masculino	Moderada	37	0	114	Novo
17	Masculino	Grave	54	5	129	Novo
18	Feminino	Moderada	57	2	107	Padrão
19	Feminino	Moderada	52	0	148	Padrão
20	Feminino	Moderada	32	2	126	Novo
21	Masculino	Leve	29	1	123	Novo
22	Feminino	Leve	68	1	111	Padrão
23	Masculino	Leve	49	0	130	Novo
24	Masculino	Grave	46	1	118	Novo
25	Feminino	Leve	43	0	122	Novo
26	Feminino	Moderada	27	0	149	Padrão
27	Feminino	Leve	54	1	127	Novo
28	Masculino	Leve	42	1	114	Padrão
29	Feminino	Leve	42	0	132	Novo
30	Masculino	Grave	59	0	125	Padrão
31	Masculino	Grave	57	1	139	Novo
32	Masculino	Leve	66	3	151	Novo
33	Feminino	Leve	38	0	115	Padrão
34	Masculino	Moderada	55	0	137	Padrão
35	Feminino	Leve	66	0	131	Padrão
36	Masculino	Moderada	28	1	143	Novo
37	Feminino	Moderada	32	0	127	Padrão
38	Feminino	Moderada	28	2	143	Padrão
39	Masculino	Leve	23	0	104	Padrão
40	Masculino	Moderada	46	1	155	Novo
41	Feminino	Leve	55	1	143	Padrão
42	Feminino	Moderada	63	1	128	Novo
43	Feminino	Grave	61	1	108	Padrão
44	Masculino	Leve	30	0	140	Novo
45	Feminino	Leve	73	0	137	Novo
46	Masculino	Grave	35	3	130	Padrão
47	Masculino	Moderada	47	1	132	Padrão
48	Masculino	Moderada	39	0	121	Novo
49	Masculino	Grave	43	2	136	Novo
50	Masculino	Leve	48	0	134	Padrão

Variável e Observação (Dado)

Variáveis Qualitativas

Exemplo de Variáveis Qualitativas

Variável	Tipo	Categorias	Por quê?
`Sexo`	Nominal	Feminino / Masculino	Sem hierarquia entre os sexos
`Gravidade`	Ordinal	Leve → Moderada → Grave	Progressão fisiológica exige ordem

Variáveis Quantitativas

Exemplo de Variáveis Quantitativas

Variável	Tipo	Justificativa
`Faltas`	Discreta	Contagem (0, 1, 2…). Não existe “meia falta”.
`Idade`	Contínua	Mensuração — pode ter casas decimais infinitas
`Pressao`	Contínua	mmHg medidos por esfigmomanômetro digital

Tipos de Estudos: Observacionais vs. Intervenção

Estudo Ecológico e Transversal

Ecológico / Demográfico: Analisa populações inteiras (cidades, países) — compara taxas macro sem investigar indivíduos; Ex: taxa de mortalidade por município, correlação poluição × asma

Transversal: Avalia exposição e doença simultaneamente — como uma “fotografia”; Ideal para estimar proporções locais

Estudo de Coorte (Prospectivo)

Estudo Caso-Controle (Retrospectivo)

Ensaio Clínico Randomizado

Estrutura da Tabela de Dados

Linhas → unidades observacionais (prontuários, pacientes)
Colunas → características clínicas mensuradas (variáveis)

ID	Sexo	Gravidade	Idade	Faltas	Pressão
1	Feminino	Leve	38	0	118
2	Masculino	Grave	61	3	152
3	Feminino	Moderada	45	1	131
…	…	…	…	…	…

Organizar planilhas transforma centenas de prontuários, por exemplo, em um banco de dados computável.

Normas Formais para Tabelas (IBGE)

Tabelas de Frequência Absoluta

A tabela destila o dado bruto: agrupa categorias e conta ocorrências
Frequência Absoluta (f): número exato de repetições de uma categoria
A soma de todas as categorias = tamanho total n da amostra

Categoria	Freq. Absoluta (f)
Leve	20
Moderada	20
Grave	10
Total	50

Frequência Relativa e Percentual

\[f_r = \frac{f_i}{n} \qquad \% = f_r \times 100\]

Frequência Relativa: peso daquela categoria frente à amostra inteira
Percentual: indispensável para comparar alas hospitalares de tamanhos diferentes

Exemplo de Frequência no Dataset

Distribuição por Gravidade — dados_enf (n=50)
	Freq. Absoluta	Freq. Relativa	Percentual (%)
Leve	19	0.38	38
Moderada	21	0.42	42
Grave	10	0.20	20
Total	50	1.00	100

Tabelas de Contingência

Dupla entrada: cruza simultaneamente duas variáveis qualitativas
Permite rastrear interações (ex: Sexo × Gravidade, Tratamento × Melhora)
Trazem os totais marginais — cruciais para os percentuais

Totais Marginais e Células

Totais por Linha: resumo horizontal de cada grupo de base
Totais por Coluna: resumo vertical de cada nível clínico
Total Geral (n = 50): localizado no canto inferior direito

Percentual	Denominador	Pergunta respondida
Por Linha	Total da linha	Das mulheres, quantas % tiveram quadro Grave?
Por Coluna	Total da coluna	Dos quadros Graves, quantas % eram mulheres?
Por Total Geral	n total	Qual o % de mulheres graves na pesquisa?

Exemplo de Contingência no Dataset

Tabela de Contingência: Sexo × Gravidade (com totais marginais)
	Leve	Moderada	Grave	Sum
Feminino	10	11	1	22
Masculino	9	10	9	28
Sum	19	21	10	50

Percentual pelo Total Geral

\[\% = \frac{\text{Valor da Célula}}{\text{Total Geral (n)}} \times 100\]

Exemplo: 5 mulheres com quadro grave em 50 pacientes: \(\frac{5}{50} \times 100 = 10\%\ \text{do total da pesquisa}\)

Percentuais pelo Total Geral (%)
	Leve	Moderada	Grave	Sum
Feminino	20	22	2	44
Masculino	18	20	18	56
Sum	38	42	20	100

Percentual por Linha e Coluna

--- Percentuais por LINHA (%) ---

% por Linha: Dos [sexo], quantos % são [gravidade]?
	Leve	Moderada	Grave
Feminino	45.5	50.0	4.5
Masculino	32.1	35.7	32.1

--- Percentuais por COLUNA (%) ---

% por Coluna: Dos [gravidade], quantos % são [sexo]?
	Leve	Moderada	Grave
Feminino	52.6	52.4	10
Masculino	47.4	47.6	90

⚠️ O denominador muda completamente a interpretação clínica.

Tabela para Quantitativas Discretas

Variáveis de contagem estreita (ex: Faltas de 0 a 5) → cada valor é uma linha
Dispensa agrupamentos — basta ordenar crescentemente e contar

Faltas	n	%
0	20	40,0%
1	15	30,0%
2	10	20,0%
3	4	8,0%
4+	1	2,0%
Total	50	100%

Exemplo: Discreta no Dataset

Distribuição de Faltas ao Tratamento (n=50)
Faltas	Freq. Absoluta	Percentual (%)
0	25	50
1	15	30
2	6	12
3	3	6
5	1	2

Tabelas de Frequência Contínua

Listar centenas de idades quebraria a leitura da tabela
Solução: condensar em Classes (intervalos agrupados)
Notação: [a – b) → inclui a, exclui b

Classe (anos)	f	%
[20 – 30)	5	10%
[30 – 40)	12	24%
[40 – 50)	18	36%
[50 – 60)	10	20%
[60 – 70]	5	10%
Total	50	100%

Passos para Criar Classes

1. Encontrar o Mínimo e o Máximo

2. Calcular a Amplitude:

\[\text{Amplitude} = \text{Máximo} - \text{Mínimo}\]

3. Número de classes pela Fórmula de Sturges:

\[k = 1 + 3{,}222 \times \log(n)\]

4. Tamanho do intervalo \(= \text{Amplitude} / k\)

Mínimo: 23 | Máximo: 73 | Amplitude: 50 | k (Sturges): 7 | Intervalo aprox.: 7.1

Visualização de Dados Gráficos

Gráficos de Barras (Colunas)

Uso correto: variáveis qualitativas (nominal e ordinal) ou quantitativas discretas curtas
Espaço vazio entre as barras evidencia a descontinuidade entre categorias
Se ordinal → respeitar rigorosamente a escala evolutiva no eixo

Exemplo de Gráfico de Barras

Gráfico de Setores (Pizza/Rosca)

Uso correto: variáveis nominais com poucas categorias (ideal: até 5)
A circunferência de 360° representa 100% da amostra

\[\text{Ângulo} = \text{Proporção} \times 360°\]

Exemplo de Gráfico de Setores

Diagrama de Linhas (Série Temporal)

Uso correto: variáveis quantitativas que transitam pelo tempo
Pontos conectados por retas contínuas
Revela: picos virais, decaimentos febris, estabilizações

Eixo	Conteúdo
Eixo X (horizontal)	Tempo (dias, semanas, anos, ID)
Eixo Y (vertical)	Variável monitorada (pressão, temperatura, casos)

Ex: evolução da temperatura de um paciente ao longo da internação, incidência semanal de COVID.

Exemplo de Diagrama de Linhas

O Histograma

Exclusivo para variáveis quantitativas contínuas em alto volume (agrupadas em classes)
Barras justapostas — sem espaço entre elas (continuidade da variável)

Exemplo de Histograma

Diagrama de Dispersão (Scatterplot)

Testa a co-movimentação entre duas variáveis quantitativas simultaneamente
Cada prontuário = um ponto nos eixos X e Y

Padrão da nuvem	Interpretação
↗ Diagonal ascendente	Correlação positiva
↘ Diagonal descendente	Correlação negativa
⊙ Dispersa (circular)	Sem correlação

O diagrama de dispersão é o passo visual antes do cálculo formal da correlação de Pearson.

Exemplo de Diagrama de Dispersão

Medidas de Tendência Central (Resumo Numérico)

Média Aritmética

\[\bar{x} = \frac{\sum x_i}{n}\]

O baricentro matemático da amostra — ponto de equilíbrio de todos os registros.

Exemplo de Cálculo Manual da Média

Idades dos 5 primeiros pacientes: 30, 45, 50, 42, 60

Somatório: \[30 + 45 + 50 + 42 + 60 = 227\]

Divisão: \[\bar{x} = \frac{227}{5} = 45{,}4 \text{ anos}\]

Soma: 227 | n: 5 | Média: 45.4

Sensibilidade aos Discrepantes (Outliers)

A Mediana (Medida Resistente)

Representa o paciente no coração da amostra.

Regra inquebrável — ROL (ordenação crescente):

Ordenar todos os dados do menor para o maior
Localizar o valor central
Se n ímpar → valor do meio; se n par → média dos dois centrais

\[\text{Mediana} = \text{divide em }50\%\text{ abaixo e }50\%\text{ acima}\]

Exemplo de Cálculo da Mediana

Faltas dos pacientes 1 a 6: {2, 0, 1, 5, 1, 0}

A Moda

Relata o valor ou categoria mais frequente — não calcula distâncias
Aplicável diretamente a variáveis qualitativas

Situação	Nome
Nenhum valor se repete	Amodal
Um único valor é mais frequente	Unimodal
Dois valores empatam no topo	Bimodal
Três ou mais	Multimodal

Exemplo Prático da Moda

Distribuição de Gravidade — identificando a Moda
Gravidade	n	%
Leve	19	38
Moderada	21	42
Grave	10	20

Se “Leve” e “Moderada” obtiverem a mesma frequência → clínica apresenta padrão bimodal.

Medidas de Dispersão — Por que Variar?

Amplitude Total

\[\text{Amplitude} = x_{\max} - x_{\min}\]

Conta geométrica que mede o intervalo total da distribuição
Simples, mas ignora toda a variação intermediária

Exemplo no dataset:

Idade Mínima: 23 anos

Idade Máxima: 73 anos

Amplitude:    50 anos

Exemplo de Amplitude Total

Com base nos dados calculados:

Amplitude = máximo − mínimo dos anos de vida dos pacientes
Reflete a diversidade etária da ala clínica

A Variância Amostral (s²)

\[s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1}\]

Calcula a distância de cada paciente em relação à média, elevando ao quadrado
Eleva ao quadrado para eliminar valores negativos (desvios abaixo da média)
Unidade: kg², mmHg² — inútil à interpretação clínica direta

Por isso, extraímos a raiz e usamos o Desvio-Padrão.

Exemplo Analítico de Variância

Faltas das 3 primeiras fichas: {2, 0, 1} → Média = 1

\(x_i\)	\(x_i - \bar{x}\)	\((x_i - \bar{x})^2\)
2	+1	1
0	−1	1
1	0	0
Soma		2

\[s^2 = \frac{2}{3-1} = \frac{2}{2} = 1 \text{ (falta}^2\text{)}\]

O Desvio-Padrão (s)

\[s = \sqrt{s^2}\]

Elimina a unidade quadrada — retorna à unidade original do dado
Indica quão heterogênea ou homogênea é a ala analisada

Exemplo de Desvio-Padrão e Variância

=== Pressão Sistólica — dados_enf (n=50) ===

Média:          129.6 mmHg

Variância:      155.63 mmHg²

Desvio-Padrão:  12.48 mmHg

CV:             9.6 %


=== Idade — dados_enf (n=50) ===

Média:          47.26 anos

Desvio-Padrão:  12.91 anos

CV:             27.3 %

O Coeficiente de Variação (CV)

\[CV(\%) = \frac{s}{\bar{x}} \times 100\]

Permite comparar dispersão entre variáveis com unidades diferentes
Ex: comparar variabilidade da pressão (mmHg) com a da altura (cm)

CV	Classificação
< 15%	Baixa dispersão — grupo controlado
15 – 30%	Dispersão moderada
> 30%	Alta dispersão — grupo heterogêneo

Exemplo de Coeficiente de Variação

Peso de neonatos: \(\bar{x} = 3\) kg, \(s = 2\) kg

\[CV = \frac{2}{3} \times 100 = 66,7\%\]

As Separatrizes (Medidas de Posição)

Além do centro, é possível fatiar a distribuição em recortes uniformes
Permitem focar nos extremos e no eixo mediano

Separatriz	Divisão	Uso típico
Quartis (Q)	4 partes (25% cada)	Boxplot, AIQ
Decis (D)	10 partes (10% cada)	Análises populacionais
Percentis (P)	100 partes (1% cada)	Curvas crescimento pediátrico

Decis e Percentis

Os Quartis Clínicos (Q)

Exemplo de Quartis em Ação

Dias de cicatrização incisional: {5, 6, 8, 12, 14, 20}

Q2 (Mediana): média entre 8 e 12 = 10 dias

Q1 (mediana da metade inferior {5, 6, 8}) = 6 dias

Q3 (mediana da metade superior {12, 14, 20}) = 14 dias

\[AIQ = Q3 - Q1 = 14 - 6 = \mathbf{8 \text{ dias}}\]

Q1: 6.5 | Q2 (Mediana): 10 | Q3: 13.5 | AIQ: 7

A Amplitude Interquartílica (AIQ)

\[AIQ = Q3 - Q1\]

Blindada contra outliers: exclui os 25% inferiores e os 25% superiores
Avalia o distanciamento dos 50% centrais da amostra

Medida de centro	Medida de dispersão pareada
Média	Desvio-Padrão (s)
Mediana	Amplitude Interquartílica (AIQ)

Quando há outliers → use Mediana \(\pm\) AIQ. Quando a distribuição é simétrica → use Média \(\pm\) DP.

O Gráfico Boxplot (Diagrama de Caixa)

Anatomia Funcional do Boxplot

O boxplot concentra 5 medidas resumo em um único gráfico:

Elemento visual	O que representa
🔴 Ponto isolado	Outlier — aberração extrema
─── (bigode superior)	Máximo não-outlier
▌ Teto da caixa	Q3 — 3º quartil (75%)
━ Linha interna	Mediana — Q2 (50%)
▌ Base da caixa	Q1 — 1º quartil (25%)
─── (bigode inferior)	Mínimo não-outlier

📦 A caixa = amplitude interquartílica → onde vivem 50% dos dados centrais.

Exemplo: Boxplot por Tratamento

Interpretando a Variabilidade pelo Gráfico

Outliers na Assistência em Saúde

Os pontos isolados fora dos bigodes do boxplot ajudam a identificar, por exemplo:

🚨 Urgências de UTI não captadas pelas médias superficiais
⚙️ Falhas técnicas crônicas severas no registro ou monitoramento
💊 Pacientes com hiper-reação rara a medicação sob teste
📋 Erros de entrada nos prontuários (outliers artificiais)

O boxplot torna visível o que a média esconde.

Introdução à Bioestatística

Quem é o professor?

Sobre a disciplina

Introdução à Bioestatística

O Que é a Estatística?

Bioestatística e a Motivação em Saúde

A Jornada e o Fluxo do Dado

População (Universo)

Amostra

Censo × Amostragem

Parâmetro e Estatística (Estimador)

Estimador × Estimativa

Conjunto de Dados Fictício

Variável e Observação (Dado)

Variáveis Qualitativas

Exemplo de Variáveis Qualitativas

Variáveis Quantitativas

Exemplo de Variáveis Quantitativas

Tipos de Estudos: Observacionais vs. Intervenção

Estudo Ecológico e Transversal

Estudo de Coorte (Prospectivo)

Estudo Caso-Controle (Retrospectivo)

Ensaio Clínico Randomizado

Estrutura da Tabela de Dados

Normas Formais para Tabelas (IBGE)

Tabelas de Frequência Absoluta

Frequência Relativa e Percentual

Exemplo de Frequência no Dataset

Tabelas de Contingência

Totais Marginais e Células

Exemplo de Contingência no Dataset

Percentual pelo Total Geral

Percentual por Linha e Coluna

Tabela para Quantitativas Discretas

Exemplo: Discreta no Dataset

Tabelas de Frequência Contínua

Passos para Criar Classes

Visualização de Dados Gráficos

Gráficos de Barras (Colunas)

Exemplo de Gráfico de Barras

Gráfico de Setores (Pizza/Rosca)

Exemplo de Gráfico de Setores

Diagrama de Linhas (Série Temporal)

Exemplo de Diagrama de Linhas

O Histograma

Exemplo de Histograma

Diagrama de Dispersão (Scatterplot)

Exemplo de Diagrama de Dispersão

Medidas de Tendência Central (Resumo Numérico)

Média Aritmética

Exemplo de Cálculo Manual da Média

Sensibilidade aos Discrepantes (Outliers)

A Mediana (Medida Resistente)

Exemplo de Cálculo da Mediana

A Moda

Exemplo Prático da Moda

Medidas de Dispersão — Por que Variar?

Amplitude Total

Exemplo de Amplitude Total

A Variância Amostral (s²)

Exemplo Analítico de Variância

O Desvio-Padrão (s)

Exemplo de Desvio-Padrão e Variância

O Coeficiente de Variação (CV)

Exemplo de Coeficiente de Variação

As Separatrizes (Medidas de Posição)

Decis e Percentis

Os Quartis Clínicos (Q)

Exemplo de Quartis em Ação

A Amplitude Interquartílica (AIQ)

O Gráfico Boxplot (Diagrama de Caixa)

Anatomia Funcional do Boxplot

Exemplo: Boxplot por Tratamento

Interpretando a Variabilidade pelo Gráfico

Outliers na Assistência em Saúde

A Conexão Crítica e Final

Referências e Discussão Clínica