Introdução

Aplicações de análise de dados para as questões da prova de CPAD 2025.2

VADeaths

Mortalidade por Faixa Etária

O gráfico abaixo tem como objetivo apresentar as taxas de mortalidade por 1.000 habitantes para diferentes grupos populacionais no estado da Virgínia, nos Estados Unidos, a partir do dataset VADeaths.

df <- melt(VADeaths)
colnames(df) <- c("grupo", "faixaEtaria", "mortes")

ggplot(df, aes(x = faixaEtaria, y = mortes, fill = grupo)) +
  geom_bar(stat = "identity", position = "stack") +
  facet_wrap(~ grupo, nrow = 1, scales = "free_y") +
  labs(
    title = "Taxa de Mortalidade",
    x = "Faixa Etária",
    y = "Mortes por Habitantes (em milhares)",
    fill = "Grupos"
  ) +
  scale_fill_brewer(palette = "Set3") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
    )

ClassificaçãoDoença

Distribuição dos Estágios da Doença

Os 20 pacientes foram classificados em três estágios: leve, moderado e severo. O objetivo do gráfico a seguir é mostrar a proporção de cada categoria.

disease <- c(
  "moderado", "leve", "leve", "severo", "leve",
  "moderado", "moderado", "moderado", "leve", "leve",
  "severo", "leve", "moderado", "moderado", "leve",
  "severo", "moderado", "moderado", "moderado", "leve"
)

tab <- table(disease)
percent <- round(tab / sum(tab) * 100, 1)
labels <- paste(names(tab), "<-", percent, "%")
colors <- c("lightblue", "lightgreen", "pink")
pie(tab,
    labels = labels,
    col = colors,
    main = "Classificação dos Pacientes por Estágio"
)

legend("topright", legend = names(tab), fill = colors)

Teorema

Teorema do Limite Central

O gráfico abaixo é um Histograma com a curva de densidade da população amostral.

flu <- read.csv("flu.csv")

x <- flu$age

hist(x, probability = TRUE, main = "Amostragem: Idade das Mortes",
     xlab = "Idade", ylab = "Densidade", col = "lightgray", border = "white")
lines(density(x), col = "red", lwd = 2)

Gráfico com a curva de densidade, mas agora para a média das amostras.

set.seed(323)
means <- replicate(200, mean(sample(x, size = 35, replace = TRUE)))

hist(means, probability = TRUE, main = "Distribuição das Médias(n=35)",
     xlab = "Média das Amostras", ylab = "Densidade", col = "lightgray", border = "white")
lines(density(means), col = "purple", lwd = 2)