Prova 2VA - Análise de Dados

VADeaths

Questão 1: Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.

VADeaths
##       Rural Male Rural Female Urban Male Urban Female
## 50-54       11.7          8.7       15.4          8.4
## 55-59       18.1         11.7       24.3         13.6
## 60-64       26.9         20.3       37.0         19.3
## 65-69       41.0         30.9       54.6         35.1
## 70-74       66.0         54.3       71.1         50.0

Criando o gráfico de barras agrupadas (lado a lado):

dados_long <- VADeaths %>%
  as.data.frame() %>%
  mutate(Idade = rownames(VADeaths)) %>%
  pivot_longer(cols = -Idade, names_to = "Local", values_to = "Taxa_Mortalidade")

ggplot(dados_long, aes(x = Idade, y = Taxa_Mortalidade, fill = Local)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Taxa de Mortalidade por Idade e Localização",
    x = "Faixa Etária",
    y = "Taxa de Mortalidade (por 1000)",
    fill = "Localização"
  ) +
  scale_fill_brewer(palette = "Set2") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 0, hjust = 0.5)
  )

ClassificaçãoDoença

Questão 2: Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

pacientes <- c("moderado", "leve", "leve", "severo", "leve", "moderado", 
               "moderado", "moderado", "leve", "leve", "severo", "leve", 
               "moderado", "moderado", "leve", "severo", "moderado", 
               "moderado", "moderado", "leve")

frequencias <- table(pacientes)
frequencias
## pacientes
##     leve moderado   severo 
##        8        9        3
porcentagens <- round(prop.table(frequencias) * 100, 1)
porcentagens
## pacientes
##     leve moderado   severo 
##       40       45       15
labels_pizza <- paste(names(frequencias), "\n", porcentagens, "%", sep = "")

cores <- c("leve" = "#90EE90",
           "moderado" = "#FFD700",
           "severo" = "#FF6347")

pie(frequencias, 
    labels = labels_pizza,
    col = cores[names(frequencias)],
    main = "Classificação da Doença por Estágio",
    cex.main = 1.2)

legend("topright", 
       legend = paste(names(frequencias), " (", porcentagens, "%)", sep = ""),
       fill = cores[names(frequencias)],
       title = "Estágio da Doença",
       cex = 0.9)

Teorema

Questão 3: Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1) Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras.

url_flu <- "https://www.dropbox.com/scl/fi/bvf1mhw33x4h6lvtty3ks/flu.csv?authuser=0&rlkey=e9kreupfbwrfhc3425tm3dq32&e=1&dl=1"
flu <- read.csv(url_flu)

idade_mortes <- flu$age

hist(idade_mortes, 
     breaks = 30, 
     freq = FALSE,
     main = "Histograma e Curva de Densidade - Dataset Flu",
     xlab = "Idade das Mortes",
     ylab = "Densidade",
     col = "lightblue",
     border = "black")

lines(density(idade_mortes), 
      col = "red", 
      lwd = 2)

set.seed(123)
n_amostras <- 200
tamanho_amostra <- 35

medias_amostrais <- replicate(n_amostras, 
                               mean(sample(idade_mortes, 
                                          size = tamanho_amostra, 
                                          replace = TRUE)))

hist(medias_amostrais, 
     breaks = 30, 
     freq = FALSE,
     main = "Histograma e Curva de Densidade - Médias das Amostras (n=35)",
     xlab = "Média das Amostras",
     ylab = "Densidade",
     col = "lightgreen",
     border = "black")

lines(density(medias_amostrais), 
      col = "blue", 
      lwd = 2)

abline(v = mean(medias_amostrais), 
       col = "red", 
       lty = 2, 
       lwd = 2)

legend("topright", 
       legend = c("Densidade", "Média"),
       col = c("blue", "red"),
       lty = c(1, 2),
       lwd = 2)