Nesta seção, analisaremos o dataset VADeaths, que contém
informações sobre taxas de mortalidade na Virgínia.
# Carregar bibliotecas necessárias
library(ggplot2)
# Converter o dataset VADeaths em um formato adequado para ggplot
VADeaths_df <- as.data.frame(as.table(VADeaths))
# Criar o gráfico de barras empilhadas agrupadas por categoria
ggplot(VADeaths_df, aes(x = Var1, y = Freq, fill = Var2)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Mortes na Virgínia por Grupo de Idade e Área",
x = "Grupo de Idade",
y = "Taxa de Mortes",
fill = "Área") +
theme_minimal()
Nesta seção, analisaremos a classificação de uma doença em três estágios (leve, moderado e severo) entre 20 pacientes. A seguir, apresentamos o gráfico de pizza com a distribuição.
# Dados dos estágios da doença
doencas <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado",
"moderado", "leve", "leve", "severo", "leve", "moderado", "moderado",
"leve", "severo", "moderado", "moderado", "moderado", "leve")
# Contagem de ocorrências
contagem <- table(doencas)
# Cores para as fatias
cores <- c("lightblue", "orange", "red")
# Gráfico de pizza
pie(contagem,
col = cores,
main = "Classificação dos Pacientes por Estágio da Doença",
labels = paste0(round(prop.table(contagem) * 100, 1), "%"))
# Adicionar legenda
legend("topright",
legend = names(contagem),
fill = cores,
title = "Estágios")
Nesta seção, utilizaremos o Teorema do Limite Central (TLC) para analisar o conjunto de dados “flu”, que contém as idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918.
# Carregar os dados
flu <- read.csv("C:/Users/niciu/downloads/flu.csv")
# Verificar a estrutura dos dados
str(flu)
## 'data.frame': 75034 obs. of 1 variable:
## $ age: int 0 0 0 0 0 0 0 0 0 0 ...
# Converter a coluna para numérica, se necessário
flu$age <- as.numeric(flu$age)
# Histograma e curva de densidade
hist(flu$age, breaks=20, probability=TRUE, main="Histograma das Idades das Mortes (Epidemia de Gripe)", xlab="Idade", col="lightblue")
lines(density(flu$age), col="red", lwd=2)
# Definir o tamanho da amostra e o número de amostras
n <- 35
num_amostras <- 200
# Criar as 200 amostras e calcular as médias
set.seed(123) # Para garantir reprodutibilidade
amostras <- replicate(num_amostras, mean(sample(flu$age, n, replace=TRUE)))
# Exibir as médias das amostras
head(amostras)
## [1] 38.88571 42.94286 48.51429 42.48571 40.34286 42.14286
# Histograma e curva de densidade das médias amostrais
hist(amostras, breaks=20, probability=TRUE, main="Histograma das Médias Amostrais (n=35)", xlab="Médias Amostrais", col="lightgreen")
lines(density(amostras), col="blue", lwd=2)
# Adicionar uma curva normal teórica para comparar
media_pop <- mean(flu$age)
desvio_pop <- sd(flu$age)/sqrt(n)
curve(dnorm(x, mean=media_pop, sd=desvio_pop), add=TRUE, col="darkorange", lwd=2)