Questões

VADeaths

Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos.

library(ggplot2)

df <- as.data.frame(VADeaths)

df$AgeGroup <- rownames(VADeaths)

df_long <- tidyr::pivot_longer(df, cols = -AgeGroup, names_to = "Categoria", values_to = "Mortalidade")


ggplot(df_long, aes(x = AgeGroup, y = Mortalidade, fill = Categoria)) +
  geom_bar(stat = "identity", position = "dodge") + 
  labs(title = "Mortalidade na Virgínia por Idade e Grupo",
       x = "Grupo Etário",
       y = "Taxa de Mortalidade",
       fill = "Categoria") +
  scale_fill_brewer(palette = "Set1")

ClassificaçãoDoença

Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico.

dados <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", 
           "leve", "leve", "severo", "leve", "moderado", "moderado", "leve", "severo", 
           "moderado", "moderado", "moderado", "leve")

tabela_frequencias <- table(dados)

porcentagens <- round(100 * tabela_frequencias / sum(tabela_frequencias), 1)

cores <- c("lightblue", "lightgreen", "lightcoral")

pie(tabela_frequencias, 
    labels = paste0(names(tabela_frequencias), " - ", porcentagens, "%"), 
    col = cores, 
    main = "Distribuição dos Estágios da Doença")

legend("topright", 
       legend = names(tabela_frequencias), 
       fill = cores, 
       title = "Estágios")

Teorema

Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras.

flu <- read.csv("flu.csv")

ggplot(flu, aes(x = age)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 5, fill = "lightblue", color = "black") +
  geom_density(color = "red", linewidth = 1.2) +
  labs(title = "Histograma e Curva de Densidade das Idades das Mortes",
       x = "Idade",
       y = "Densidade")

n_amostras <- 200
n_tamanho_amostra <- 35

medias_amostras <- replicate(n_amostras, mean(sample(flu$age, n_tamanho_amostra, replace = TRUE)))

medias_amostras_df <- data.frame(medias_amostras)

ggplot(medias_amostras_df, aes(x = medias_amostras)) +
  geom_histogram(aes(y = after_stat(density)), binwidth = 1, fill = "lightgreen", color = "black") +
  geom_density(color = "blue", linewidth = 1.2) +
  labs(title = "Histograma e Curva de Densidade das Médias das Amostras",
       x = "Médias das Amostras",
       y = "Densidade")