Material: Dia 01

Parte 0: Instalação das Ferramentas Essenciais (R e RStudio)

Antes de qualquer coisa, precisamos das nossas duas ferramentas principais. É fundamental entender a diferença entre elas:

R: É a linguagem de programação, o “motor” que executa todos os cálculos e gera os gráficos. Ele não tem uma interface gráfica amigável.
RStudio: É um “Ambiente de Desenvolvimento Integrado” (IDE). Pense nele como o “painel do carro”: uma interface completa e organizada com editor de código, console, visualizador de gráficos e muito mais, que nos permite interagir com o “motor” (R) de forma muito mais fácil e produtiva.

A regra de ouro: Instale o R PRIMEIRO, e depois o RStudio.

Passo 1: Instalar o R (O Motor)

Acesse o site oficial de download do R: https://cran.r-project.org/
Clique no link de download correspondente ao seu sistema operacional:
- Para Windows:
  - Clique em “Download R for Windows”.
  - Clique em “base”.
  - Clique no link grande no topo da página que diz “Download R-X.X.X for Windows” (ex: R-4.4.1 for Windows).
  - Execute o arquivo .exe baixado e aceite todas as configurações padrão clicando em “Avançar” (“Next”) até o final da instalação.
- Para macOS (Mac):
  - Clique em “Download R for macOS”.
  - Escolha o pacote .pkg mais recente que seja compatível com seu processador. Geralmente há uma versão para “Apple silicon” (chips M1/M2/M3) e outra para “Intel”. Se não tiver certeza, seu Mac lhe informará qual é a correta.
  - Execute o arquivo .pkg baixado e siga as instruções, aceitando as configurações padrão.
- Para Linux:
  - Clique em “Download R for Linux”.
  - Encontre sua distribuição (Debian, Ubuntu, Fedora, etc.) e siga as instruções específicas. Geralmente, a instalação é feita através do terminal (ex: sudo apt-get install r-base para sistemas baseados em Debian/Ubuntu).

Passo 2: Instalar o RStudio (O Painel do Carro)

Com o R já instalado, acesse o site oficial do RStudio (agora chamado Posit): https://posit.co/download/rstudio-desktop/
A página geralmente detecta seu sistema operacional automaticamente.
Clique no botão de download para baixar a versão gratuita “RStudio Desktop”.
Execute o instalador baixado e, novamente, aceite todas as configurações padrão.

Ao final, você não precisará abrir o R. Você sempre irá abrir o RStudio, que automaticamente encontrará e se conectará ao R que você instalou no Passo 1.

Parte 1: A Fundação - Entendendo Seus Dados

Antes de desenhar qualquer gráfico, precisamos entender a matéria-prima: nossos dados. Em estatística, as variáveis (as colunas da nossa tabela) são classificadas em diferentes tipos, e essa classificação define o que podemos ou não fazer com elas.

1.1. Tipos de Variáveis

Variáveis Qualitativas (ou Categóricas): Descrevem uma qualidade ou característica. Elas são divididas em:
- Nominais: Categorias sem uma ordem intrínseca.
  - Exemplos: species (Adelie, Chinstrap, Gentoo), island (Torgersen, Biscoe, Dream), sexo (macho, fêmea), cor do olho.
- Ordinais: Categorias que possuem uma ordem ou hierarquia clara.
  - Exemplos: Nível de escolaridade (Graduação, Mestrado, Doutorado), estágio de uma doença (Inicial, Intermediário, Avançado), classe social (Baixa, Média, Alta).
Variáveis Quantitativas (ou Numéricas): Descrevem uma quantidade ou medida. Elas são divididas em:
- Discretas: Valores que podem ser contados, geralmente números inteiros. Não existem valores “intermediários”.
  - Exemplos: Número de ovos em um ninho (pode ser 1 ou 2, mas não 1.5), número de publicações de um pesquisador.
- Contínuas: Valores que podem assumir qualquer número dentro de um intervalo.
  - Exemplos: bill_len (comprimento do bico), body_mass(massa corporal), altura, temperatura, pressão arterial.

Por que isso é crucial? O tipo de variável em cada eixo (X e Y) determinará qual tipo de gráfico (geom) é o mais apropriado. Tentar fazer um gráfico de dispersão com uma variável categórica no eixo Y não faz sentido, por exemplo.

Parte 2: A Gramática Visual - O Gráfico Certo para a Pergunta Certa

Um gráfico eficaz é a resposta visual a uma pergunta clara. A “pergunta” é definida pela combinação dos tipos de variáveis que você deseja analisar.

2.1. Visualizando UMA Variável

Pergunta: Como os valores de UMA variável NUMÉRICA se distribuem?
- Gráfico: Histograma (geom_histogram)
  - O que ele faz: Agrupa os dados em “caixas” (bins) de valores e conta quantos pontos de dados caem em cada caixa.
  - Quando usar: Para entender a forma da sua distribuição (é simétrica? tem mais de um pico? tem valores extremos?). Essencial para verificar pressupostos de testes estatísticos.
  - Exemplo: “Qual é a distribuição da massa corporal de todos os pinguins?”
Pergunta: Como os valores de UMA variável CATEGÓRICA se distribuem?
- Gráfico: Gráfico de Barras (geom_bar)
  - O que ele faz: Conta o número de ocorrências em cada categoria e exibe como uma barra. A altura da barra é proporcional à contagem.
  - Quando usar: Para ver qual categoria é a mais (ou menos) frequente.
  - Exemplo: “Quantos pinguins de cada espécie foram amostrados?”

2.2. Visualizando DUAS Variáveis

Pergunta: Como uma variável NUMÉRICA se relaciona com outra variável NUMÉRICA?
- Gráfico: Gráfico de Dispersão ou Scatter Plot (geom_point)
  - O que ele faz: Plota cada observação como um ponto em um plano Cartesiano (X, Y).
  - Quando usar: É a melhor ferramenta para investigar correlações. A relação é positiva (ambas sobem juntas), negativa (uma sobe, a outra desce) ou não há relação? É linear ou curva?
  - Exemplo: “Pinguins com bicos mais longos também têm nadadeiras mais longas?”
Pergunta: Como uma variável NUMÉRICA se compara entre diferentes grupos (variável CATEGÓRICA)?
- Gráfico: Boxplot (geom_boxplot)
  - O que ele faz: Resume a distribuição da variável numérica para cada categoria. Mostra a mediana (a linha no meio da caixa), os quartis (os limites da caixa), e os possíveis outliers (pontos individuais).
  - Quando usar: Excelente para comparar não apenas as médias, mas a dispersão e a simetria dos dados entre os grupos. É muito mais informativo que um gráfico de barras com média e erro padrão.
  - Exemplo: “A massa corporal difere entre as três espécies de pinguins?”
- Gráfico de Violino (geom_violin)
  - O que ele faz: Combina a ideia de um boxplot com um histograma espelhado (chamado de “estimativa de densidade”). A largura do violino mostra onde os dados são mais concentrados.
  - Quando usar: Quando você quer uma visão ainda mais detalhada da distribuição entre os grupos, especialmente se a distribuição for bimodal (tiver dois picos).
  - Exemplo: Mesma pergunta do boxplot, mas com mais detalhes sobre a forma da distribuição.
Pergunta: Como uma variável CATEGÓRICA se relaciona com outra variável CATEGÓRICA?
- Gráfico: Gráfico de Barras Agrupadas ou Empilhadas (geom_bar com position ou geom_col com facet)
  - O que ele faz: Conta as combinações entre as categorias.
  - Quando usar: Para entender proporções e relações entre grupos.
  - Exemplo: “A proporção de machos e fêmeas é a mesma em todas as ilhas?”

Parte 3: A Estética do Gráfico - Cores, Formas e Clareza

Uma boa estética não é sobre deixar o gráfico “bonito”, mas sim sobre torná-lo claro, honesto e fácil de interpretar.

3.1. O Uso Intencional da Cor: Paletas de Cores

A cor é uma das ferramentas mais poderosas, e também uma das mais mal utilizadas. A escolha da paleta de cores depende do tipo de dado que a cor está representando.

Paletas Qualitativas (ou Categóricas):
- Quando usar: Para variáveis nominais, onde cada categoria é distinta e não há ordem.
- Objetivo: Máxima diferenciação entre as cores.
- Boas práticas: Evite cores muito vibrantes ou “neon”. Use paletas testadas para acessibilidade (daltonismo). O ggplot2 tem uma boa paleta padrão, mas pacotes como RColorBrewer (paleta “Set2” ou “Paired”) e viridis (opção discrete = TRUE) são excelentes.
- Exemplo: Mapear a variável species para a cor.
Paletas Sequenciais:
- Quando usar: Para variáveis numéricas ou ordinais, onde os dados vão de “baixo” para “alto”.
- Objetivo: Mostrar uma progressão clara.
- Boas práticas: Use um gradiente de uma única cor (ex: de azul claro a azul escuro) ou de duas cores análogas. Isso cria uma ordem visual intuitiva.
- Exemplo: Em um mapa, colorir os municípios de acordo com a população (quanto mais escuro, mais populoso).
Paletas Divergentes:
- Quando usar: Para variáveis numéricas que têm um ponto central significativo (geralmente o zero) e valores que divergem para os dois lados (positivos e negativos).
- Objetivo: Enfatizar os extremos e o ponto central.
- Boas práticas: Use duas cores contrastantes que se encontram em uma cor neutra no centro (ex: azul-branco-vermelho).
- Exemplo: Mostrar o resultado de uma eleição (percentual de votos para o candidato A vs. B), o lucro/prejuízo de uma empresa, ou a expressão gênica (up-regulated vs. down-regulated).

Ferramenta Chave: O pacote viridis é o seu melhor amigo. Suas paletas (viridis, magma, plasma, cividis) são bonitas, perceptualmente uniformes (uma mudança no valor do dado corresponde a uma mudança igual na percepção da cor) e amigáveis para daltônicos.

3.2. Princípios de Design para Gráficos Científicos

Maximize a Razão “Dados-Tinta” (Data-Ink Ratio): Conceito de Edward Tufte. A maior parte da “tinta” do seu gráfico deve ser usada para mostrar os dados.
- O que remover: Fundos cinzas, bordas desnecessárias, grades muito pesadas, efeitos 3D.
- Use os temas do ggplot2: theme_classic() e theme_minimal() são ótimos pontos de partida.
Evite “Chartjunk”: Qualquer elemento visual que não adiciona informação e apenas distrai o leitor.
Hierarquia e Legibilidade:
- O título deve ser o maior e mais proeminente.
- Os rótulos dos eixos devem ser claros e incluir as unidades (ex: “Massa Corporal (g)”).
- As fontes devem ser legíveis (tamanho mínimo 10-12pt para publicação).
Anotações Diretas: Sempre que possível, coloque os rótulos diretamente nos dados em vez de depender de uma legenda separada. Isso reduz a carga cognitiva do leitor. (Veremos como fazer isso no Dia 2 com o Inkscape).

Parte 4: Mão na Massa

Prática

Parte 5: Exportação

Prática