1ª questão

Representação gráfica

A partir do dataset VADeaths, observe a representação gráfica de cada categoria incluindo:

Barras agrupadas lado a lado;
Cores diferentes em cada barra;
Título, legenda e nomes nos eixos.

VADeaths <- as.data.frame(VADeaths)

cores <- c("lightblue", "orange", "yellow", "red")

genero <- c("Male", "Female")

local <- c("Rural Male", "Rural Female", "Urban Male", "Urban Female")



valores <- 
  matrix(c(11.7, 8.7, 15.4, 8.4, 18.1, 11.7,
         24.3, 13.6, 26.9, 20.3, 37.0, 19.3,
         41.0, 30.9, 54.6, 35.1, 66.0
, 54.3, 71.1, 50.0), nrow = 5, ncol = 4,
byrow = TRUE)

barplot(valores, 
        main = "VADeaths",
        names.arg = local, 
        xlab = "", 
        ylab = "Contagem", 
        col = cores, 
        beside = TRUE)
legend("topleft", pch = c(15,15,15), col = cores, legend = local, cex = 0.6)

2ª questão

ClassificaçãoDoença

Visualize por meio de um gráfico de piza a porcentagem de ocorrência de estágios de classificação de uma determinada doença. Aqui serão presentadas as porcentagens para cada categoria, incluindo:
* Cores distintas para cada categoria; * Título para o gráfico.

x <- c(40, 45, 15)

labels <- c("Leve", "Moderado", "Severo")

pie(x, 
    labels,
    main = "Estágios da doença (%)",
    col = rainbow(3))

3ª questão

Teorema

É possível observar graficamente o Teorema do limite central a partir do dataset flu. Nele, estão registradas a frequência das idades nos óbitos ocorridos durante a gripe espanhola na Suíça em 1918. Este gráfico demonstra além, os seguintes elementos:
* Histograma com a curva de densidades;
Adicionalmente, um conjunto contendo 200 médias amostrais para uma população n = 35 e seu histograma.

flu_dados <- read.csv("C:\\Users\\Whelley\\Downloads/flu.csv")

#Histograma e a curva de densidade
hist(flu_dados$age, breaks = 30, probability = TRUE, 
     main = "Histograma e Curva de Densidade das Idades das Mortes", 
     xlab = "Idade", col = "grey", border = "black")
lines(density(flu_dados$age), col = "red", lwd = 2)

Agora, com base em 200 médias retiradas de uma população n = 35:

# Definição dos parâmetros
n <- 35
num_amostras <- 200

# Função para calcular médias das amostras
calcular_medias_amostras <- function(data, n, num_amostras) {
  medias_amostras <- numeric(num_amostras)
  for (i in 1:num_amostras) {
    amostra <- sample(data, size = n, replace = TRUE)
    medias_amostras[i] <- mean(amostra)
  }
  return(medias_amostras)
}

# Calcular médias das amostras
medias_amostras <- calcular_medias_amostras(flu_dados$age, n, num_amostras)

Agora, a representação gráfica:

#Histograma e curva de densidade das médias das amostras
hist(medias_amostras, breaks = 30, probability = TRUE, 
     main = "Histograma e Curva de Densidade das Médias das Amostras", 
     xlab = "Médias das Amostras", col = "grey", border = "black")
lines(density(medias_amostras), col = "blue", lwd = 2)

4ª questão

Tamanho amostral

O tamanho ideal para uma amostra baseada no peso de uma população de 300 gatos existentes na Ruralinda será calculado seguindo os seguintes parâmetros:

Desvio padrão - 0.5 kg
Erro amostral - 0.1 kg

Sendo assim:

# Definição dos parâmetros para amostragem
N <- 300
Z <- 2.576  # Valor crítico para 99% de confiança
sigma <- 0.5  # Desvio padrão
E <- 0.1  # Erro amostral

# Calculando o tamanho da amostra
n <- (N * Z^2 * sigma^2) / ((N - 1) * E^2 + Z^2 * sigma^2)

# Exibindo o resultado com duas casas decimais
n_rounded <- floor(n * 100) / 100
n_rounded

## [1] 107.05

5ª questão

Proporção em uma amostra

A média de refeição registrada para o Restaurante Universitário da Ruralinda é de 400 gramas. Qual seria a proporção de alunos que comem acima de 500 gramas? Para essa estimativa seguiremos os parâmetros:
* Distrubuição normal; * Desvio padrão - 45 gramas
Utilizando a função pnorm chegaremos ao resultado investigado. Sendo assim:

# Definindo  os parâmetros
media <- 400
desvio_padrao <- 45
x <- 500

# Cálculo do valor z
z <- (x - media) / desvio_padrao

# Calculando a proporção acumulada até 500 gramas
proporcao_acumulada <- pnorm(z)

# Calculando a proporção de alunos que comem acima de 500 gramas
proporcao_acima <- 1 - proporcao_acumulada

# Convertendo a proporção em porcentagem com duas casas decimais
porcentagem <- round(proporcao_acima * 100, 2)

# Exibir a resposta com o símbolo de porcentagem
resultado <- paste0(porcentagem, "%")
resultado

## [1] "1.31%"

6ª questão

Intervalo de confiança em uma amostra

O dataset bdims descreve as médias de 247 homens e 260 mulheres, sendo em grande parte adultos saudáveis. Com base nos registros para o gênero feminino, é definido o intervalo de confiança para a altura a seguir:

setwd("C:/Users/Whelley/Downloads")

 load("bdims.RData")

# Filtragem do gênero feminino (sex == 0)
dados_mulheres <- bdims[bdims$sex == 0, ]

# Calculando o intervalo de confiança da média da altura (hgt) das mulheres
ci <- t.test(dados_mulheres$hgt, conf.level = 0.985)$conf.int

# Formatando o intervalo de confiança para o formato solicitado
formatado_ci <- format(ci, digits = 2)

# Mostrar o intervalo de confiança no formato solicitado
cat("[", formatado_ci[1], "-", formatado_ci[2], "]")

## [ 164 - 166 ]

2 VA - Computação para Análise de Dados

Whelley Pereira Izidro

05 / 07 / 2024