Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.
VADeaths
## Rural Male Rural Female Urban Male Urban Female
## 50-54 11.7 8.7 15.4 8.4
## 55-59 18.1 11.7 24.3 13.6
## 60-64 26.9 20.3 37.0 19.3
## 65-69 41.0 30.9 54.6 35.1
## 70-74 66.0 54.3 71.1 50.0
rows <- rownames(VADeaths)
rural_male <- VADeaths[,1]
rural_female <- VADeaths[,2]
urban_male <- VADeaths[,3]
urban_female <- VADeaths[,4]
urban <- plot_ly(
x = rows,
y = urban_male,
name = 'urbano homens',
type = "bar",
marker = list(color = 'rgba(68, 119, 206, 0.8)')
)
urban <- urban %>% add_trace(
y = urban_female,
type = 'bar',
name= 'urbano mulheres',
marker = list(color = 'rgba(53,21,93,0.8)')
)
urban <- urban %>% layout(
title = "Taxa de mortalidade a cada 1000 em Virginia em 1940.",
xaxis = list(title = "Urbano"),
yaxis = list(title = "Taxa de mortalidade / 1000"),
barmode= 'stack'
)
rural <- plot_ly(
x = rows,
y = urban_male,
name = 'rural homens',
type = "bar",
marker = list(color = 'rgba(140, 171, 255, 0.8)')
)
rural <- rural %>% add_trace(
y = rural_female,
type = 'bar',
name= 'rural mulheres',
marker = list(color = 'rgba(81,43,129,0.8)')
)
rural <- rural %>% layout(
title = "Taxa de mortalidade a cada 1000 em Virginia em 1940.",
xaxis = list(title = "Rural"),
yaxis = list(title = "Taxa de mortalidade / 1000"),
barmode= 'stack'
)
subplot(rural, urban, nrows = 1, titleX = TRUE) %>% layout(yaxis=list(title="Taxa de mortalidade / 1000"))
Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.
Crie um gráfico de barras das palavras mais frequentes a partir dos twitters sobre a hashtag “#ChatGPT”. Baixe os tweets do seguinte link: https://www.dropbox.com/s/ec23bspu73n6khd/ChatGPT.csv?dl=1.
Após isso, crie uma nuvem de palavras desses tweets. Porém, remova o termo mais frente para ter uma melhor visualização do gráfico.
Também faça uma análise de sentimentos com relação a esses twitters coletados. Para essa análise considere todos os tweets. Note que os nomes dos sentimentos no eixo x precisam estar em português.
Abaixo submeta o link do R Markdown com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “Twitter”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.
tweets <- read.csv("https://www.dropbox.com/s/ec23bspu73n6khd/ChatGPT.csv?dl=1")
tweets_gpt <- tweets %>% filter(grepl("#ChatGPT", text, ignore.case=TRUE))
palavras <- paste(tweets$text, collapse=" ")
corpus <- Corpus(VectorSource(palavras))
corpus <-tm_map(corpus,tolower)
corpus <-tm_map(corpus,removePunctuation)
corpus <- tm_map(corpus,removeNumbers)
corpus <- tm_map(corpus,stripWhitespace)
corpus <- tm_map(corpus,removeWords,stopwords('portuguese'))
corpus <- tm_map(corpus,removeWords,'chatgpt')
wordcloud(corpus,min.freq= 1,max.words=60,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8, "Dark2"))
sentimentos <- get_nrc_sentiment(tweets_gpt$text)
lista_sentimentos <- c("Raiva", "Ansiedade", "Nojo", "Medo", "Alegria", "Tristeza", "Surpresa", "Confianca", "Negativo", "Positivo")
plot_ly(y = colSums(sentimentos), x = lista_sentimentos, color = rainbow(10)) %>% layout(title="Analise de Sentimentos", yaxis=list(title="Pontuacao"), xaxis=list(title="Sentimentos"))
## No trace type specified:
## Based on info supplied, a 'bar' trace seems appropriate.
## Read more about this trace type -> https://plotly.com/r/reference/#bar
Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.
flu <- read.csv('https://www.dropbox.com/s/hmt4vt3xllfrcmd/flu.csv?dl=1')
hist(flu$age)
n <-200
TamMedia<-35
xbar<-rep(NA, n)
for(i in 1:n) {
MinhaAmostra<-sample(flu$age, size =TamMedia)
xbar[i]<-mean(MinhaAmostra)
}
hist(xbar)
shapiro.test(xbar)
##
## Shapiro-Wilk normality test
##
## data: xbar
## W = 0.98916, p-value = 0.1344
Suponha que a variável escolhida num estudo seja o peso dos gatos da Ruralinda e que a população é composta de 300 gatos. Pelo um estudo prévio dos pesos, o desvio-padrão é de 0.5 kg. Admitindo-se um nível de confiança de 99% e um erro amostral de 0.1 kg, calcule o tamanho da amostra para estimar o peso médio dos gatos da Ruralinda. Use apenas duas casas decimais para submeter sua resposta (sem arredondamento). Ex.:123.239586 -> 123.23.
sd<- 0.5
N <-300
erro <- 0.1
nc<-(1-0.99)/2
n <-(qnorm(nc,lower.tail= F)^2*sd^2*N)/((erro^2*(N-1))+(qnorm(nc,lower.tail= F)^2*sd^2))
n
## [1] 107.0438
No RU da Ruralinda, os alunos comem, em média, 400 gramas, com desvio padrão de 45 gramas. Pressupondo distribuição normal, qual proporção de alunos comem acima de 500 gramas ? Submeta a resposta em porcentagem com duas casas decimais. Também coloquem o símbolo de porcentagem. Por exemplo: 0.9452899 -> 94.52%.
sd <- 45
m <- 400
x <- 500
abaixo <- pnorm(x, mean = m, sd = sd)
acima = 1-abaixo
acima
## [1] 0.01313415
Para esta questão, usaremos o conjunto de dados “bdims”. Este conjunto de dados contém medidas de 247 homens e 260 mulheres, a maioria dos quais foram considerados adultos jovens saudáveis. Determine o intervalo de confiança de 98.5% da média de alturas (hgt) das mulheres (sex == 0). Para carregar o conjunto de dados primeiro baixe o arquivo “bdims.RData” e coloque-o no diretório apontado pelo RStudio. Após isso, use o comando load(“bdims.RData”). Submeta a resposta com duas casas decimais e sem espaço. Por exemplo: [ 23.4051 - 34.44589 ] -> [23.40-34.44].
load('./bdims.RData')
mulheres <- bdims %>% filter(sex == 0)
altura_mulheres <- mulheres$hgt
sd <- sd(altura_mulheres)
x <- mean(altura_mulheres)
n <- length(altura_mulheres)
nc<-(1-0.985)/2
error <-sd/sqrt(n)
left <-x-(qnorm(nc,lower.tail= F)*error)
right <-x+(qnorm(nc,lower.tail= F)*error)
cat("[",left, "-", right,"]")
## [ 163.8851 - 165.8596 ]