3.1. Explique a diferença entre os três tipos de combinações bivariadas:

Qualitativa × Qualitativa: ambas as variáveis são categóricas. O objetivo é avaliar a associação ou distribuição conjunta entre categorias (ex.: verificar se há relação entre região e sexo).

Qualitativa × Quantitativa: uma variável é categórica e a outra numérica. O objetivo é comparar distribuições da variável numérica entre os grupos definidos pela categórica (ex.: comparar renda média entre regiões).

Quantitativa × Quantitativa: ambas são numéricas. O objetivo é investigar padrões de relação, como tendências, correlação e formação de agrupamentos (ex.: relação entre idade e renda).

3.2. Associe cada situação ao gráfico bivariado mais adequado e justifique:

*a) Curso de graduação × área de atuação do egresso
Diagrama de cordas ou heatmap, pois ambas são qualitativas e busca-se visualizar a intensidade das associações entre pares de categorias. O diagrama de cordas é especialmente útil para destacar conexões.

*b) Sexo × faixa etária
Gráfico de barras agrupadas ou heatmap, pois são duas qualitativas. O heatmap é bom se houver muitas faixas etárias, pois evita poluição visual.

*c) Região × média de renda
Gráfico de intervalo de confiança (média por grupo) ou boxplot por grupos, pois temos uma qualitativa (região) e uma quantitativa (renda). O boxplot mostra a distribuição completa, enquanto o gráfico de IC foca na média e sua incerteza.

3.3. Explique em que situações um gráfico de barras agrupadas é mais adequado do que um heatmap na análise de duas variáveis qualitativas.

O gráfico de barras agrupadas é mais adequado quando o número de categorias é pequeno (ex.: até 3 ou 4) e o interesse está em comparar diretamente as frequências dentro de cada grupo, pois as barras lado a lado facilitam a comparação visual de magnitudes. Já o heatmap é preferível quando há muitas categorias, pois a cor ajuda a identificar padrões sem sobrecarga visual.

3.4. Descreva duas vantagens e duas limitações do uso de pictogramas agrupados em comparação com gráficos de barras agrupadas.

3.5. Considere uma tabela de contingência com muitas categorias nas duas variáveis. Explique por que o heatmap pode ser mais apropriado do que um gráfico de barras agrupadas nesse caso.

3.6. Explique o que representa a largura das cordas em um diagrama de cordas e qual tipo de padrão esse gráfico permite identificar.

3.7. Uma variável quantitativa foi observada para três regiões. Indique qual gráfico é mais adequado para comparar:

3.8. Explique a diferença entre boxplot por grupos e gráfico de violino por grupos. Em qual situação o gráfico de violino fornece mais informação?

3.9. Descreva o que deve ser observado ao comparar histogramas por grupos. Cite pelo menos três aspectos da distribuição.

Deve-se observar:

3.10. Explique o que representa um intervalo de confiança em um gráfico de médias por grupo. O que significa quando os intervalos de dois grupos se sobrepõem parcialmente?

O intervalo de confiança (usualmente 95%) representa a faixa de valores na qual se espera que a verdadeira média populacional esteja, com determinado nível de confiança. Sobreposição parcial não significa necessariamente que não há diferença significativa; é necessário um teste formal. Porém, sobreposição grande sugere que as médias podem não ser estatisticamente diferentes.

3.11. Associe cada objetivo ao gráfico mais adequado:

3.12. Explique a diferença entre gráfico de dispersão simples e gráfico hexbin. Quando o uso do hexbin é recomendado?

O gráfico de dispersão plota cada observação como um ponto, sendo útil para amostras pequenas ou moderadas. O hexbin divide o plano em hexágonos e usa cor para indicar a contagem de pontos em cada região, sendo recomendado quando há muitos pontos (overplotting) e o interesse está na densidade e padrões globais.

3.13. Descreva duas informações que podem ser incorporadas como terceira variável em um gráfico de dispersão e como elas podem ser representadas visualmente.

Cor: representa uma variável qualitativa (ex.: grupos) ou quantitativa (gradiente).

Tamanho dos pontos: representa uma variável quantitativa adicional (ex.: população).

Também é possível usar forma dos pontos para categorias.

3.14. Explique o que representa a cor em um heatmap de correlação e qual intervalo de valores deve ser utilizado na escala.

A cor representa o coeficiente de correlação entre pares de variáveis, variando de -1 a 1. A escala deve ser fixada nesse intervalo, com cores diferenciadas para correlações negativas, nulas e positivas (ex.: azul para negativo, branco para zero, vermelho para positivo).

3.15. Uma matriz de correlação apresenta valores elevados entre várias variáveis. Explique como o heatmap pode auxiliar na identificação de multicolinearidade.

O heatmap permite visualizar rapidamente blocos de variáveis com altas correlações (cores intensas), indicando possível redundância. Isso ajuda a selecionar variáveis para modelos, evitando multicolinearidade.

3.16. Cite três boas práticas para construção de gráficos bivariados que garantam clareza visual e correta interpretação.

Usar escalas de cor perceptualmente uniformes e com legenda clara.

Evitar excesso de categorias ou elementos que poluam o gráfico.

Ordenar categorias de forma lógica (alfabética, ordinal ou por magnitude).

Incluir títulos, rótulos e fontes adequadas.

3.17. Considere o conjunto de dados clientes (3.500 clientes, 15 variáveis). Proponha visualizações bivariadas para:

Referência

OLIVEIRA, Anderson Castro Soares de. Visualização de dados bivariados. Cuiabá: Departamento de Estatística, Instituto de Ciências Exatas e da Terra, Universidade Federal de Mato Grosso, [s.d.]. Material didático.