Resolução da Prova 2VA - Computação para Análise de Dados - UFRPE

VADeaths

Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.

colors = c("green","orange","gray", "red", "blue")
barplot(VADeaths, main = "  VADeaths    ",xlab = "Grupos",
        ylab = "Mortes", col = colors, beside = F, legend.text = T)

ClassificaçãoDoença

Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de pizza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

estagio = table(c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "leve", "severo", "moderado", "moderado", "moderado", "leve"))
estagio = (estagio/sum(estagio))*100

pie(estagio, paste(estagio, '%'), col=rainbow(length(estagio)), main="Estagio/Paciente")
legend("topright", pch=15, names(estagio), col=rainbow(length(estagio)))

Teorema

Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

  1. Histograma do flu com curva de Densidade
flu <- read.csv('https://www.dropbox.com/s/hmt4vt3xllfrcmd/flu.csv?dl=1')

flu<-flu$age
densityFlu <- density(flu)
hist(flu, probability = T, col = 'grey')
lines(densityFlu)

  1. Amostras e Curva de densidade da Amostra
n <- 200
tamanho <- 35
xbar <- rep(NA, n)
for(i in 1:n) {
  AmostraPopulacao <- sample(flu, size = tamanho)
  xbar[i] <- mean(AmostraPopulacao)
}
densityXbar <- density(AmostraPopulacao)
hist(AmostraPopulacao, probability = T, col  = "#88a0b0")
lines(densityXbar)

4ª Questão

Suponha que a variável escolhida num estudo seja o peso dos gatos da Ruralinda e que a população é composta de 300 gatos. Pelo um estudo prévio dos pesos, o desvio-padrão é de 0.5 kg. Admitindo-se um nível de confiança de 99% e um erro amostral de 0.1 kg, calcule o tamanho da amostra para estimar o peso médio dos gatos da Ruralinda. Use apenas duas casas decimais para submeter sua resposta (sem arredondamento). Ex.:123.239586 -> 123.23.

sd<- 0.5
N <-300
erro <- 0.1
nc<-(1-0.99)/2
n <-(qnorm(nc,lower.tail= F)^2*sd^2*N)/((erro^2*(N-1))+(qnorm(nc,lower.tail= F)^2*sd^2))

n
## [1] 107.0438

5ª Questão

No RU da Ruralinda, os alunos comem, em média, 400 gramas, com desvio padrão de 45 gramas. Pressupondo distribuição normal, qual proporção de alunos comem acima de 500 gramas ? Submeta a resposta em porcentagem com duas casas decimais. Também coloquem o símbolo de porcentagem. Por exemplo: 0.9452899 -> 94.52%.

sd <- 45
m <- 400
x <- 500


acima = 1-pnorm(x, mean = m, sd = sd)
acima
## [1] 0.01313415
##ou
pnorm(500, mean = 400, sd = 45, lower.tail = F)
## [1] 0.01313415
#em porcentagem
porcent<- pnorm(500, mean = 400, sd = 45, lower.tail = F)*100
porcent
## [1] 1.313415

6ª Questão

Para esta questão, usaremos o conjunto de dados “bdims”. Este conjunto de dados contém medidas de 247 homens e 260 mulheres, a maioria dos quais foram considerados adultos jovens saudáveis. Determine o intervalo de confiança de 98.5% da média de alturas (hgt) das mulheres (sex == 0). Para carregar o conjunto de dados primeiro baixe o arquivo “bdims.RData” e coloque-o no diretório apontado pelo RStudio. Após isso, use o comando load(“bdims.RData”). Submeta a resposta com duas casas decimais e sem espaço. Por exemplo: [ 23.4051 - 34.44589 ] -> [23.40-34.44].

load('C:/Users/cleus/Downloads/bdims.RData')
women = subset(bdims, sex == 0)

#Desviopadrão
sd1 = sd(women$hgt)
#Média da amostra
meanHgt = mean(women$hgt)
#Tamanhoda amostra
N1 = length(women$hgt)

#Nível de confiança
nc1<-(1-0.985)/2
#Erro
erro2 = sd1 / sqrt(N1)

left <-meanHgt-(qnorm(nc1,lower.tail= F)*erro2)
right <-meanHgt+(qnorm(nc1,lower.tail= F)*erro2)
cat("[",left, "-", right,"]")
## [ 163.8851 - 165.8596 ]