2VA ANÁLISE DE DADOS - VINÍCIUS NÁRIO

Nesta seção, analisaremos o dataset VADeaths, que contém informações sobre taxas de mortalidade na Virgínia.

VADeaths

# Carregar bibliotecas necessárias
library(ggplot2)

# Converter o dataset VADeaths em um formato adequado para ggplot
VADeaths_df <- as.data.frame(as.table(VADeaths))

# Criar o gráfico de barras empilhadas agrupadas por categoria
ggplot(VADeaths_df, aes(x = Var1, y = Freq, fill = Var2)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Mortes na Virgínia por Grupo de Idade e Área",
       x = "Grupo de Idade",
       y = "Taxa de Mortes",
       fill = "Área") +
  theme_minimal()

ClassificaçãoDoença

Nesta seção, analisaremos a classificação de uma doença em três estágios (leve, moderado e severo) entre 20 pacientes. A seguir, apresentamos o gráfico de pizza com a distribuição.

# Dados dos estágios da doença
doencas <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", 
             "moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", 
             "leve", "severo", "moderado", "moderado", "moderado", "leve")

# Contagem de ocorrências
contagem <- table(doencas)

# Cores para as fatias
cores <- c("lightblue", "orange", "red")

# Gráfico de pizza
pie(contagem, 
    col = cores, 
    main = "Classificação dos Pacientes por Estágio da Doença",
    labels = paste0(round(prop.table(contagem) * 100, 1), "%"))

# Adicionar legenda
legend("topright", 
       legend = names(contagem), 
       fill = cores, 
       title = "Estágios")

Teorema do limite central

Nesta seção, utilizaremos o Teorema do Limite Central (TLC) para analisar o conjunto de dados “flu”, que contém as idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918.

1. Histograma e Curva de Densidade do Conjunto de Dados

# Carregar os dados
flu <- read.csv("C:/Users/niciu/downloads/flu.csv")

# Verificar a estrutura dos dados
str(flu)
## 'data.frame':    75034 obs. of  1 variable:
##  $ age: int  0 0 0 0 0 0 0 0 0 0 ...
# Converter a coluna para numérica, se necessário
flu$age <- as.numeric(flu$age)

# Histograma e curva de densidade
hist(flu$age, breaks=20, probability=TRUE, main="Histograma das Idades das Mortes (Epidemia de Gripe)", xlab="Idade", col="lightblue")
lines(density(flu$age), col="red", lwd=2)

2. 200 Médias de Amostras com Tamanho n = 35

# Definir o tamanho da amostra e o número de amostras
n <- 35
num_amostras <- 200

# Criar as 200 amostras e calcular as médias
set.seed(123) # Para garantir reprodutibilidade
amostras <- replicate(num_amostras, mean(sample(flu$age, n, replace=TRUE)))

# Exibir as médias das amostras
head(amostras)
## [1] 38.88571 42.94286 48.51429 42.48571 40.34286 42.14286

3. Histograma com Curva de Densidade para as Médias das Amostras

# Histograma e curva de densidade das médias amostrais
hist(amostras, breaks=20, probability=TRUE, main="Histograma das Médias Amostrais (n=35)", xlab="Médias Amostrais", col="lightgreen")
lines(density(amostras), col="blue", lwd=2)

# Adicionar uma curva normal teórica para comparar
media_pop <- mean(flu$age)
desvio_pop <- sd(flu$age)/sqrt(n)
curve(dnorm(x, mean=media_pop, sd=desvio_pop), add=TRUE, col="darkorange", lwd=2)