Codigo da 2a Avaliação de Aprendizagem da disciplina Análise de Dados para computação.
data("VADeaths")
va_df <- as.data.frame(VADeaths)
va_df$AgeGroup <- rownames(va_df)
library(tidyr)
library(ggplot2)
va_long <- pivot_longer(va_df, cols = -AgeGroup, names_to = "Group", values_to = "DeathRate")
ggplot(va_long, aes(x = AgeGroup, y = DeathRate, fill = Group)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Taxas de Mortalidade na Virgínia por Idade e Grupo",
x = "Grupo Etário",
y = "Taxa de Mortalidade (por 1000 habitantes)",
fill = "Grupo"
) +
theme_minimal() +
scale_fill_brewer(palette = "Set2")
# Dados dos estágios da doença
estagios <- c(
"moderado", "leve", "leve", "severo", "leve",
"moderado", "moderado", "moderado", "leve", "leve",
"severo", "leve", "moderado", "moderado", "leve",
"severo", "moderado", "moderado", "moderado", "leve"
)
# Tabela de frequência
frequencias <- table(estagios)
# Calcular porcentagens
porcentagens <- round(frequencias / sum(frequencias) * 100)
# Rótulos com porcentagens
labels <- paste(names(frequencias), "-", porcentagens, "%")
# Definir cores
cores <- c("lightgreen", "skyblue", "tomato") # leve, moderado, severo
# Gráfico de pizza
pie(frequencias,
labels = labels,
col = cores,
main = "Distribuição dos Estágios da Doença"
)
# Adicionar legenda
legend("topright",
legend = names(frequencias),
fill = cores,
title = "Estágios"
)
flu <- read.csv("https://www.dropbox.com/scl/fi/bvf1mhw33x4h6lvtty3ks/flu.csv?rlkey=e9kreupfbwrfhc3425tm3dq32&e=1&dl=1", sep = ",")
hist(flu$age,
breaks = 20,
probability = TRUE,
col = "lightblue",
main = "Histograma com Curva de Densidade - Epidemia de Gripe (1918)",
xlab = "Idade",
ylab = "Densidade"
)
# curva de densidade
densityCurve <- density(flu$age)
lines(densityCurve, col = "darkred", lwd = 2)
Criando 200 medias de amostras + histograma
num_amostras <- 200
tamanho_amostra <- 35
set.seed(123)
medias_amostrais <- replicate(num_amostras, mean(sample(flu$age, tamanho_amostra, replace = TRUE)))
hist(medias_amostrais,
breaks = 20,
probability = TRUE,
col = "lightgreen",
main = "Distribuição das Médias Amostrais (n = 35)",
xlab = "Média das Amostras",
ylab = "Densidade"
)
lines(density(medias_amostrais), col = "blue", lwd = 2)
Suponha que a variável escolhida num estudo seja o peso dos gatos da Ruralinda e que a população é composta de 300 gatos. Pelo um estudo prévio dos pesos, o desvio-padrão é de 0.5 kg. Admitindo-se um nível de confiança de 99% e um erro amostral de 0.1 kg, calcule o tamanho da amostra para estimar o peso médio dos gatos da Ruralinda
sd <- 0.5
N <- 300 # tamanho populacao
erro <- 0.1
nc <- 0.99
n <- (qnorm(nc, lower.tail = F) ^ 2 * sd ^ 2 * N)/
((erro ^ 2 * (N - 1)) + (qnorm(nc, lower.tail = F) ^ 2 * sd ^ 2))
print(floor(n * 100) / 100)
## [1] 93.45
No RU da Ruralinda, os alunos comem, em média, 400 gramas, com desvio padrão de 45 gramas. Pressupondo distribuição normal, qual proporção de alunos comem acima de 500 gramas ? Submeta a resposta em porcentagem com duas casas decimais. Também coloquem o símbolo de porcentagem
comem_mais_que_500_g <- 1 - pnorm(500, mean = 400, sd = 45)
paste(floor(comem_mais_que_500_g * 100 * 100)/100, "%", sep = "")
## [1] "1.31%"