Análise de Dados no R - Atividades

VADeaths

Questão: Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.

# Visualizar o dataset
print(VADeaths)
##       Rural Male Rural Female Urban Male Urban Female
## 50-54       11.7          8.7       15.4          8.4
## 55-59       18.1         11.7       24.3         13.6
## 60-64       26.9         20.3       37.0         19.3
## 65-69       41.0         30.9       54.6         35.1
## 70-74       66.0         54.3       71.1         50.0
# Criar o gráfico
barplot(
    t(VADeaths),
    beside = TRUE,
    col = c("skyblue", "orange", "lightgreen", "tomato"),
    legend.text = TRUE,
    args.legend = list(title = "Faixa Etária", x = "top"),
    main = "Taxa de Mortalidade na Virgínia",
    xlab = "Área e Gênero",
    ylab = "Taxa de Mortalidade (por 1000 habitantes)"
)

ClassificaçãoDoença

Questão: Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”.

# Criando o vetor com os estágios da doença
estagios <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado",
              "leve", "leve", "severo", "leve", "moderado", "moderado", "leve", "severo",
              "moderado", "moderado", "moderado", "leve")

# Contando a frequência de cada estágio
freq_estagios <- table(estagios)

# Convertendo para porcentagem
porcentagens <- round(100 * freq_estagios / sum(freq_estagios), 1)

# Criando rótulos com a porcentagem
rotulos <- paste(names(freq_estagios), "(", porcentagens, "%)", sep = "")

# Definir cores para cada estágio
cores <- c("yellow", "white", "tomato")

# Criando o gráfico de pizza
pie(freq_estagios, 
    labels = rotulos, 
    col = cores, 
    main = "Distribuição dos Estágios da Doença")


# Adicionando legenda
legend("topright", legend = names(freq_estagios), fill = cores, title = "Estágios")

Teorema

Questão: Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”.

Passo 01

# Carregar os dados
flu <- read.csv("C:/Users/Alexandre/Meu RCurso/Prova 2VA/flu.csv")

# Visualizar as primeiras linhas
head(flu)
##   age
## 1   0
## 2   0
## 3   0
## 4   0
## 5   0
## 6   0
# Histograma com curva de densidade
hist(flu$age, probability = TRUE, col = "lightblue",
     main = "Distribuição das idades - Epidemia de Gripe Espanhola (1918)",
     xlab = "Idade", ylab = "Densidade")

# Adiciona a curva de densidade
lines(density(flu$age), col = "darkblue", lwd = 2)

Passo 02

# Configurar tamanho da amostra e número de amostras
n <- 35
n_amostras <- 200

# Gerar as 200 amostras e calcular suas médias
medias_amostras <- numeric(n_amostras)
for (i in 1:n_amostras) {
  amostra <- sample(flu$age, size = n, replace = TRUE)
  medias_amostras[i] <- mean(amostra)
}

# Mostrar resumo básico das médias
summary(medias_amostras)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   30.14   39.91   43.03   42.80   45.66   56.34

Passo 03

# Histograma com curva de densidade das médias amostrais
hist(medias_amostras, probability = TRUE, col = "lightgreen",
     main = "Distribuição das médias amostrair (n = 35",
     xlab = "Médias das idades", ylab = "Densidade")

# Adiciona a curva de densidade
lines(density(medias_amostras), col = "darkgreen", lwd = 2)