2VA- Prova

VADeaths

Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”.

VADeaths

##       Rural Male Rural Female Urban Male Urban Female
## 50-54       11.7          8.7       15.4          8.4
## 55-59       18.1         11.7       24.3         13.6
## 60-64       26.9         20.3       37.0         19.3
## 65-69       41.0         30.9       54.6         35.1
## 70-74       66.0         54.3       71.1         50.0

rows <- rownames(VADeaths)
rural_male <- VADeaths[,1]
rural_female <- VADeaths[,2]
urban_male <- VADeaths[,3]
urban_female <- VADeaths[,4]

urban <- plot_ly(
  x = rows,
  y = urban_male,
  name = 'urbano homens',
  type = "bar",
  marker = list(color = 'rgba(68, 119, 206, 0.8)')
)
urban <- urban %>% add_trace(
  y = urban_female,
  type = 'bar',
  name= 'urbano mulheres',
  marker = list(color = 'rgba(53,21,93,0.8)')
)
urban <- urban %>% layout(
  title = "Taxa de mortalidade a cada 1000 em Virginia em 1940.",
  xaxis = list(title = "Urbano"),
  yaxis = list(title = "Taxa de mortalidade / 1000"),
  barmode= 'stack'
)

rural <- plot_ly(
  x = rows,
  y = urban_male,
  name = 'rural homens',
  type = "bar",
  marker = list(color = 'rgba(140, 171, 255, 0.8)')
)
rural <- rural %>% add_trace(
  y = rural_female,
  type = 'bar',
  name= 'rural mulheres',
  marker = list(color = 'rgba(81,43,129,0.8)')
)
rural <- rural %>% layout(
  title = "Taxa de mortalidade a cada 1000 em Virginia em 1940.",
  xaxis = list(title = "Rural"),
  yaxis = list(title = "Taxa de mortalidade / 1000"),
  barmode= 'stack'
)

subplot(rural, urban, nrows = 1, titleX = TRUE) %>% layout(yaxis=list(title="Taxa de mortalidade / 1000"))

ClassificaçãoDoença

Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

Twitter

Crie um gráfico de barras das palavras mais frequentes a partir dos twitters sobre a hashtag “#ChatGPT”. Baixe os tweets do seguinte link: https://www.dropbox.com/s/ec23bspu73n6khd/ChatGPT.csv?dl=1.

Após isso, crie uma nuvem de palavras desses tweets. Porém, remova o termo mais frente para ter uma melhor visualização do gráfico.

Também faça uma análise de sentimentos com relação a esses twitters coletados. Para essa análise considere todos os tweets. Note que os nomes dos sentimentos no eixo x precisam estar em português.

Abaixo submeta o link do R Markdown com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “Twitter”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

tweets <- read.csv("https://www.dropbox.com/s/ec23bspu73n6khd/ChatGPT.csv?dl=1")

tweets_gpt <- tweets %>% filter(grepl("#ChatGPT", text, ignore.case=TRUE))
palavras <- paste(tweets$text, collapse=" ")
corpus <- Corpus(VectorSource(palavras))

corpus <-tm_map(corpus,tolower)
corpus <-tm_map(corpus,removePunctuation)
corpus <- tm_map(corpus,removeNumbers)
corpus <- tm_map(corpus,stripWhitespace)
corpus <- tm_map(corpus,removeWords,stopwords('portuguese'))

corpus <- tm_map(corpus,removeWords,'chatgpt')
wordcloud(corpus,min.freq= 1,max.words=60,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8, "Dark2"))

sentimentos <- get_nrc_sentiment(tweets_gpt$text)
lista_sentimentos <- c("Raiva", "Ansiedade", "Nojo", "Medo", "Alegria", "Tristeza", "Surpresa", "Confianca", "Negativo", "Positivo")

plot_ly(y = colSums(sentimentos), x = lista_sentimentos, color = rainbow(10)) %>% layout(title="Analise de Sentimentos", yaxis=list(title="Pontuacao"), xaxis=list(title="Sentimentos"))

## No trace type specified:
##   Based on info supplied, a 'bar' trace seems appropriate.
##   Read more about this trace type -> https://plotly.com/r/reference/#bar

Teorema

Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões.

flu <- read.csv('https://www.dropbox.com/s/hmt4vt3xllfrcmd/flu.csv?dl=1')

hist(flu$age)

n <-200
TamMedia<-35
xbar<-rep(NA, n)
for(i in 1:n) {
  MinhaAmostra<-sample(flu$age, size =TamMedia)
  xbar[i]<-mean(MinhaAmostra)
}

hist(xbar)

shapiro.test(xbar)

## 
##  Shapiro-Wilk normality test
## 
## data:  xbar
## W = 0.98916, p-value = 0.1344

Estatistica 1

Suponha que a variável escolhida num estudo seja o peso dos gatos da Ruralinda e que a população é composta de 300 gatos. Pelo um estudo prévio dos pesos, o desvio-padrão é de 0.5 kg. Admitindo-se um nível de confiança de 99% e um erro amostral de 0.1 kg, calcule o tamanho da amostra para estimar o peso médio dos gatos da Ruralinda. Use apenas duas casas decimais para submeter sua resposta (sem arredondamento). Ex.:123.239586 -> 123.23.

sd<- 0.5
N <-300
erro <- 0.1
nc<-(1-0.99)/2
n <-(qnorm(nc,lower.tail= F)^2*sd^2*N)/((erro^2*(N-1))+(qnorm(nc,lower.tail= F)^2*sd^2))
n

## [1] 107.0438

Estatistica 2

No RU da Ruralinda, os alunos comem, em média, 400 gramas, com desvio padrão de 45 gramas. Pressupondo distribuição normal, qual proporção de alunos comem acima de 500 gramas ? Submeta a resposta em porcentagem com duas casas decimais. Também coloquem o símbolo de porcentagem. Por exemplo: 0.9452899 -> 94.52%.

sd <- 45
m <- 400
x <- 500

abaixo <- pnorm(x, mean = m, sd = sd)

acima = 1-abaixo
acima

## [1] 0.01313415

Estatistica 3

Para esta questão, usaremos o conjunto de dados “bdims”. Este conjunto de dados contém medidas de 247 homens e 260 mulheres, a maioria dos quais foram considerados adultos jovens saudáveis. Determine o intervalo de confiança de 98.5% da média de alturas (hgt) das mulheres (sex == 0). Para carregar o conjunto de dados primeiro baixe o arquivo “bdims.RData” e coloque-o no diretório apontado pelo RStudio. Após isso, use o comando load(“bdims.RData”). Submeta a resposta com duas casas decimais e sem espaço. Por exemplo: [ 23.4051 - 34.44589 ] -> [23.40-34.44].

load('./bdims.RData')

mulheres <- bdims %>% filter(sex == 0)
altura_mulheres <- mulheres$hgt
sd <- sd(altura_mulheres)
x <- mean(altura_mulheres)
n <- length(altura_mulheres)
nc<-(1-0.985)/2
error <-sd/sqrt(n)
left <-x-(qnorm(nc,lower.tail= F)*error)
right <-x+(qnorm(nc,lower.tail= F)*error)
cat("[",left, "-", right,"]")

## [ 163.8851 - 165.8596 ]