Qualitativa × Qualitativa: ambas as variáveis são categóricas. O objetivo é avaliar a associação ou distribuição conjunta entre categorias (ex.: verificar se há relação entre região e sexo).
Qualitativa × Quantitativa: uma variável é categórica e a outra numérica. O objetivo é comparar distribuições da variável numérica entre os grupos definidos pela categórica (ex.: comparar renda média entre regiões).
Quantitativa × Quantitativa: ambas são numéricas. O objetivo é investigar padrões de relação, como tendências, correlação e formação de agrupamentos (ex.: relação entre idade e renda).
*a) Curso de graduação × área de atuação do egresso
Diagrama de cordas ou heatmap, pois ambas são qualitativas e busca-se
visualizar a intensidade das associações entre pares de categorias. O
diagrama de cordas é especialmente útil para destacar conexões.
*b) Sexo × faixa etária
Gráfico de barras agrupadas ou heatmap, pois são duas qualitativas. O
heatmap é bom se houver muitas faixas etárias, pois evita poluição
visual.
*c) Região × média de renda
Gráfico de intervalo de confiança (média por grupo) ou boxplot por
grupos, pois temos uma qualitativa (região) e uma quantitativa (renda).
O boxplot mostra a distribuição completa, enquanto o gráfico de IC foca
na média e sua incerteza.
O gráfico de barras agrupadas é mais adequado quando o número de categorias é pequeno (ex.: até 3 ou 4) e o interesse está em comparar diretamente as frequências dentro de cada grupo, pois as barras lado a lado facilitam a comparação visual de magnitudes. Já o heatmap é preferível quando há muitas categorias, pois a cor ajuda a identificar padrões sem sobrecarga visual.
Deve-se observar:
Forma (assimetria, número de modas);
Dispersão (variabilidade dos dados);
Caudas (presença de valores extremos ou caudas longas);
Posição (centro da distribuição).
O intervalo de confiança (usualmente 95%) representa a faixa de valores na qual se espera que a verdadeira média populacional esteja, com determinado nível de confiança. Sobreposição parcial não significa necessariamente que não há diferença significativa; é necessário um teste formal. Porém, sobreposição grande sugere que as médias podem não ser estatisticamente diferentes.
O gráfico de dispersão plota cada observação como um ponto, sendo útil para amostras pequenas ou moderadas. O hexbin divide o plano em hexágonos e usa cor para indicar a contagem de pontos em cada região, sendo recomendado quando há muitos pontos (overplotting) e o interesse está na densidade e padrões globais.
Cor: representa uma variável qualitativa (ex.: grupos) ou quantitativa (gradiente).
Tamanho dos pontos: representa uma variável quantitativa adicional (ex.: população).
Também é possível usar forma dos pontos para categorias.
A cor representa o coeficiente de correlação entre pares de variáveis, variando de -1 a 1. A escala deve ser fixada nesse intervalo, com cores diferenciadas para correlações negativas, nulas e positivas (ex.: azul para negativo, branco para zero, vermelho para positivo).
O heatmap permite visualizar rapidamente blocos de variáveis com altas correlações (cores intensas), indicando possível redundância. Isso ajuda a selecionar variáveis para modelos, evitando multicolinearidade.
Usar escalas de cor perceptualmente uniformes e com legenda clara.
Evitar excesso de categorias ou elementos que poluam o gráfico.
Ordenar categorias de forma lógica (alfabética, ordinal ou por magnitude).
Incluir títulos, rótulos e fontes adequadas.
OLIVEIRA, Anderson Castro Soares de. Visualização de dados bivariados. Cuiabá: Departamento de Estatística, Instituto de Ciências Exatas e da Terra, Universidade Federal de Mato Grosso, [s.d.]. Material didático.