Relatório de Dados: Exercícios Práticos

Sexagésimo Terceiro Batalhão PM
Sexagésimo Terceiro Batalhão PM

Introdução

Este relatório apresenta as atividades práticas desenvolvidas na disciplina de Visualização de Dados.

Exercício 1.1 - Introdução ao ggplot2

library(ggplot2)
library(dplyr)

data(mtcars)
mtcars$cyl <- as.factor(mtcars$cyl)

ggplot(mtcars, aes(wt, mpg, color = cyl)) +
  geom_point(size = 3) +
  labs(
    title = "Exercício 1.1 - Relação entre Peso e Consumo",
    x = "Peso (1000 lbs)",
    y = "Milhas por Galão"
  ) +
  theme_minimal()

Exercício 1.2 - Gráfico de Barra

df_diamonds <- diamonds %>% count(cut)

ggplot(df_diamonds, aes(reorder(cut, -n), n, fill = cut)) +
  geom_col() +
  labs(
    title = "Exercício 1.2 - Contagem de Diamantes por Corte",
    x = "Tipo de Corte",
    y = "Quantidade"
  ) +
  theme_minimal()

Exercício 1.3 - Customização Avançada

ggplot(diamonds, aes(cut, price, fill = cut)) +
  geom_boxplot() +
  labs(
    title = "Exercício 1.3 - Distribuição do Preço por Corte",
    x = "Tipo de Corte",
    y = "Preço (USD)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Exercício 1.4 - Conceitos Fundamentais

Questão : Explique a diferença entre os geoms geom_point() e geom_jitter(). Em que situação cada um é mais apropriado? geom_point(): Plota os pontos exatamente em suas coordenadas (x, y). É ideal para visualizar relações precisas em dados contínuos. O problema ocorre quando há muitos dados sobrepostos (overplotting), fazendo com que vários pontos pareçam um só.

geom_jitter(): Adiciona uma pequena quantidade de ruído aleatório à posição dos pontos. É apropriado quando você tem variáveis discretas ou muitos dados repetidos, pois “espalha” os pontos sobrepostos, permitindo visualizar a real densidade e volume da amostra.

Questão : Descreva o conceito de ”Gramática dos Gráficos”e como ele é implementado no ggplot2.

A “Gramática dos Gráficos” é a ideia de que um gráfico pode ser decomposto em camadas independentes. No ggplot2, isso é implementado através da soma de componentes, onde cada camada adiciona uma informação específica:

Data/dados: O conjunto de dados bruto.

Aesthetics/Estética: O mapeamento das variáveis para propriedades visuais (eixos x e y, cor, tamanho).

Geometries/geometrias: A forma geométrica que representará os dados (pontos, barras, linhas).

Facets/Facetas: Divisões em subgráficos ou ajustes estéticos globais.

Statistics/estatísticas: Transforma os dados brutos em novos valores (ex: stat_count para barras ou stat_smooth para tendências).

Coordinates/coordenadas: Define o sistema de projeção (ex: coord_cartesian para o plano padrão ou coord_polar para gráficos circulares).

Themes/tema: Gerencia a estética global não relacionada aos dados (ex: fontes, cores de fundo e posição da legenda com theme_minimal).