Questões

VADeaths

Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.

colors = c("green","orange","brown", "red", "blue")

#plota o gráfico de barras dos termos mais frequentes
barplot(VADeaths,main= "VA Deaths Plot", names.arg = colnames(VADeaths),xlab= "Tipo de Individuo",ylab="Idade",col=colors)

legend("topright",pch=c(15),col=colors, inset = c(0, -0.03),legend=rownames(VADeaths))

ClassificaçãoDoenca

Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

severidade <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", "leve", "leve", "severo","leve", "moderado", "moderado", "leve", "severo", "moderado", "moderado", "moderado","leve")


x <- c(sum(severidade == "moderado")/length(severidade) * 100, sum(severidade == "leve")/length(severidade) * 100, sum(severidade == "severo")/length(severidade) * 100)

labels <-c("moderado", "leve","severo")

lbls <- paste(x, "%", sep="")

arcoiris <- rainbow(3)

pie(x = x, labels = lbls, main = "Grafico de Nivel de Doenca", col = arcoiris)


legend("topright",pch=c(15),col=arcoiris, inset = c(0, 0),legend=labels)

Twitters

Crie uma nuvem de palavra a partir dos twitters sobre a hashtag “#Eleições2022”. Também faça uma análise de sentimentos com relação a esses twitters coletados. Abaixo submeta o link do R Markdown com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “Twitters”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

auth_setup_default()

tweets <- search_tweets("#Eleições2022", n=500, lang="pt")

#apenas os textos
tweets <- tweets$text

VS <- VectorSource(tweets)
corpus <- Corpus(VS)

#Limpeza

corpus <- tm_map(corpus, content_transformer(tolower))

#remove pontuacao
corpus <- tm_map(corpus, removePunctuation)

#remove espaços extras em branco
corpus <- tm_map(corpus, stripWhitespace)

#remove númeross
corpus <- tm_map(corpus, removeNumbers)

#remove palavras ruído
corpus <- tm_map(corpus, removeWords, stopwords('portuguese'))

#remove urls

removeURL <- function(x) gsub("http[^[:space:]]*", "", x)
corpus <- tm_map(corpus, removeURL)

#remove qualquer coisa que não seja letras em português e espaço
removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x)
corpus <- tm_map(corpus, content_transformer(removeNumPunct))

wordcloud(corpus, min.freq = 2, max.words=60, random.order = FALSE, rot.per=0.15,
          colors=brewer.pal(8, "Dark2"))

#pontuando os tweets
s <- get_nrc_sentiment(tweets)

#plot sentimentos

barplot(colSums(s), las=2, col = rainbow(10), ylab="Contagem", main=" Sentimentos em relação às Eleições")

Teorema

Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

  1. Mostre o histograma e a curva de densidade do conjunto de dados “flu”
flu <- read.csv(file = "C:\\Users\\chris\\Downloads\\flu.csv", header=TRUE)

hist(flu$age, probability=T,main="Histogram")

lines(density(flu$age),col=2)

(2) Crie 200 médias de amostras da população com tamanho n = 35.

n <- 200

TamMedia <- 35

xbar <- rep(NA, n)

for(i in 1:n){

amostra <- sample(flu$age, size = TamMedia) 
xbar[i] <- mean(amostra)
}

xbar
##   [1] 33.14286 44.65714 44.57143 38.11429 42.65714 34.88571 43.05714 40.08571
##   [9] 40.85714 39.54286 40.11429 44.82857 45.40000 41.37143 46.42857 44.51429
##  [17] 45.34286 31.14286 49.91429 46.97143 43.94286 39.45714 42.42857 41.20000
##  [25] 44.48571 47.28571 41.02857 42.85714 45.54286 48.08571 46.31429 42.17143
##  [33] 51.57143 38.42857 47.08571 51.34286 50.94286 42.57143 36.02857 41.71429
##  [41] 40.51429 35.08571 42.85714 45.54286 48.31429 48.28571 43.45714 43.17143
##  [49] 41.88571 42.48571 44.40000 47.31429 47.14286 38.60000 43.05714 46.00000
##  [57] 41.02857 44.40000 52.82857 39.91429 43.00000 44.00000 44.51429 46.05714
##  [65] 38.37143 46.05714 33.31429 44.65714 34.34286 45.57143 40.37143 45.11429
##  [73] 43.85714 49.88571 45.42857 34.37143 39.08571 42.20000 47.31429 45.65714
##  [81] 36.17143 42.20000 32.82857 35.45714 41.22857 38.51429 43.45714 45.94286
##  [89] 37.05714 38.80000 44.28571 46.48571 43.45714 39.25714 44.42857 49.34286
##  [97] 42.20000 43.80000 30.62857 48.34286 40.45714 51.14286 47.77143 42.62857
## [105] 42.65714 50.74286 46.11429 47.60000 35.31429 41.62857 45.77143 44.48571
## [113] 43.11429 33.45714 35.74286 43.45714 45.71429 46.48571 43.42857 48.77143
## [121] 46.62857 35.37143 35.57143 37.80000 46.34286 31.65714 36.05714 44.37143
## [129] 44.88571 46.40000 41.85714 44.54286 47.31429 39.17143 40.45714 40.97143
## [137] 43.28571 42.37143 43.34286 42.42857 43.77143 40.34286 45.08571 44.20000
## [145] 44.17143 41.20000 43.48571 41.05714 48.20000 49.31429 34.05714 38.42857
## [153] 46.25714 41.91429 42.60000 42.65714 41.51429 46.14286 42.45714 46.82857
## [161] 45.91429 46.51429 47.91429 40.74286 38.65714 43.42857 43.94286 45.11429
## [169] 42.94286 35.60000 46.42857 40.48571 48.48571 47.77143 44.65714 38.57143
## [177] 42.51429 45.85714 43.11429 40.71429 50.82857 40.74286 40.25714 45.60000
## [185] 44.65714 45.71429 53.02857 42.71429 42.31429 43.02857 49.77143 44.02857
## [193] 40.57143 43.28571 45.02857 45.34286 50.88571 43.97143 40.65714 39.28571
  1. Mostre o histograma com a curva de densidade para a médias das amostras.
hist(xbar, probability=T,main="Histogram")

lines(density(xbar),col=2)

Questao 5

Suponha que a variável escolhida num estudo seja o peso dos gatos da Ruralinda e que a população é composta de 300 gatos. Pelo um estudo prévio dos pesos, o desvio-padrão é de 0.5 kg. Admitindo-se um nível de confiança de 99% e um erro amostral de 0.1 kg, calcule o tamanho da amostra para estimar o peso médio dos gatos da Ruralinda. Use apenas duas casas decimais para submeter sua resposta (sem arredondamento). Ex.:123.239586 -> 123.23.

sd <- 0.5

N <- 300

erro <- 0.1

nc <- (1 - 0.99) / 2

n <- (qnorm(nc, lower.tail = F)^2*sd^2*N) / ((erro^2 * (N-1)) + (qnorm(nc, lower.tail = F)^2*sd^2))

n
## [1] 107.0438

Questao 6

No RU da Ruralinda, os alunos comem, em média, 400 grams, com desvio padrão de 45 gramas. Pressupondo distribuição normal, qual proporção de alunos comem acima de 500 gramas ? Submeta a resposta em porcentagem com duas casas decimais. Também coloquem o símbolo de porcentagem. Por exemplo: 0.9452899 -> 94.52%.

n <- 1 - pnorm(500, mean = 400,sd= 45)

n * 100
## [1] 1.313415

Questao 7

Para esta questão, usaremos o conjunto de dados “bdims”. Este conjunto de dados contém medidas de 247 homens e 260 mulheres, a maioria dos quais foram considerados adultos jovens saudáveis. Determine o intervalo de confiança de 98.5% da média de alturas (hgt) das mulheres (sex == 0). Para carregar o conjunto de dados primeiro baixe o arquivo “bdims.RData” e coloque-o no diretório apontado pelo RStudio. Após isso, use o comando load(“bdims.RData”). Submeta a resposta com duas casas decimais e sem espaço. Por exemplo: [ 23.4051 - 34.44589 ] -> [23.40-34.44].

load("C:\\Users\\chris\\Downloads\\bdims.rdata")
mulheresOnly <- subset(bdims, sex == 0)

hgtMulheres <- mulheresOnly$hgt

media <- mean(hgtMulheres)

sd <- sd(hgtMulheres)

N <- length(mulheresOnly)

error <- sd/sqrt(N)

nc <- (1 - 0.985) / 2

#limite inferior

left <- media - (qnorm(nc, lower.tail = F) * error)

#limite superior

right <- media + (qnorm(nc, lower.tail = F) * error)

cat("[",left,"-",right,"]")
## [ 161.6885 - 168.0561 ]