Questões

VADeaths

Visualize o dataset VADeaths (já incluído no R) e crie um gráfico de barras empilhadas desses dados, de modo que as barras estejam agrupadas (lado a lado) para cada categoria. Também defina uma cor diferente para cada grupo das categorias. Por fim, adicione título, legenda e nomes nos eixos. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “VADeaths”. *

barplot(t(VADeaths), col=rainbow(4), legend.text = colnames(VADeaths),main= "Death Rates in Virginia (1940)")

ClassificaçãoDoença

Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram examinados 20 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado, moderado, moderado, leve, leve, severo,leve, moderado, moderado, leve, severo, moderado, moderado, moderado,leve. Com base nestes dados crie um gráfico de piza. Inclua a porcentagem de cada fatia, as cores das fatias e o nome do gráfico. Adicionalmente, use o comando legend() para incluir a legenda do gráfico. Abaixo submeta o link do RPubs com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “ClassificaçãoDoença”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões. *

library(ggplot2)
suppressMessages(library(dplyr))

dados <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", "leve", "leve", "severo","leve", "moderado", "moderado", "leve", "severo", "moderado", "moderado", "moderado","leve")

dados
##  [1] "moderado" "leve"     "leve"     "severo"   "leve"     "moderado"
##  [7] "moderado" "moderado" "leve"     "leve"     "severo"   "leve"    
## [13] "moderado" "moderado" "leve"     "severo"   "moderado" "moderado"
## [19] "moderado" "leve"
#gráfico de pizza

dados_table <- table(dados)

percent <- round(dados_table/sum(dados_table)*100)
lbls <- paste(percent,"%",sep="")

# Cria gráfico de pizza sobre os assassinatos
pie(x= dados_table, labels = lbls, col=rainbow(3))
legend("topright", legend = row.names(dados_table), cex=0.8, fill=rainbow(length(dados_table)))

Twitters

Crie uma nuvem de palavra a partir dos twitters sobre a hashtag “#racismo”. Também faça uma análise de sentimentos com relação a esses twitters coletados. Abaixo submeta o link do R Markdown com o resultado dessa questão. Ela deve ficar dentro de uma aba chamada de “Twitters”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões. *

setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret)
## [1] "Using direct authentication"

Buscando os 500 twitters com a hashtag “racismo”:

tweets <- searchTwitter("#racismo", lang = "pt")

tweets<- twListToDF(tweets)
tweets_t <- paste(tweets$text,collapse= " ")

Criando o curpus à partir dos tweets:

corpus <- VCorpus(VectorSource(tweets_t))

Limpeza dos dados

corpus <- tm_map(corpus, content_transformer(tolower))
#Remove pontuação
corpus <- tm_map(corpus, content_transformer(removePunctuation))
#Remove espaços extras em branco
corpus <- tm_map(corpus, content_transformer(stripWhitespace))
#Remove palavras ruído
corpus <- tm_map(corpus, content_transformer(removeWords), stopwords("en"))
# removeURLs
removeURL <- function(x)gsub("http[^[:space:]]*", "",x)> corpus <-tm_map(corpus,removeURL)
# remove qualquer coisa que não seja letras em português e espaço.
removeNumPunct <- function(x)gsub("[^[:alpha:][:space:]]*", "",x)
corpus <-tm_map(corpus,content_transformer(removeNumPunct))

matriz Termo

dtm<-TermDocumentMatrix(corpus)
dtm<- as.matrix(dtm)

Frequencia de cada palavra

frq <-sort(rowSums(dtm), decreasing = T) 

Nuvem de palavras

Análise de sentimentos

Usando a biblioteca: syuzhet para análise de sentimentos:

tweets <- searchTwitter("#racismo",lang = "pt")
tweets <- twListToDF(tweets)
tweets <- tweets$text
sent <-get_nrc_sentiment(tweets)
## Warning: `filter_()` is deprecated as of dplyr 0.7.0.
## Please use `filter()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
## Warning: `group_by_()` is deprecated as of dplyr 0.7.0.
## Please use `group_by()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
## Warning: `data_frame()` is deprecated as of tibble 1.1.0.
## Please use `tibble()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.

Plotando os dados em um gráfico

barplot(colSums(sent), las=2, col=rainbow(10), ylab ="Quantidade", main= "pontuação dos sentimentos para os twittes com a hashtag Racismo")

Teorema

Nesta questão, demonstre o uso do teorema do limite central, usando o conjunto de dados “flu” que é altamente não normal. Esse dataset contém as frequências das idades das mortes durante a epidemia de gripe espanhola na Suíça em 1918. Considere a idade das mortes como a população. Execute os passos a seguir. (1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”. (2) Crie 200 médias de amostras da população com tamanho n = 35. (3) Mostre o histograma com a curva de densidade para a médias das amostras. 4) Submeta o link do RPubs com o resultado das etapas anteriores . Essa questão deve ficar dentro de uma aba chamada de “Teorema”. Note que apenas um link do RPubs é necessário. Basta repetir o link abaixo se você já tiver submetido para outras questões. *

library(readr)


flu <- read_csv("https://ucb17ce3c590248383ff31159049.dl.dropboxusercontent.com/cd/0/get/A8Tx-a4yFpqSCJkTUoaXpSWOv51_viJ279C7GNVPjWw4KcVwJAhyvzIPzweZoQ_PCCt582BPu8Bph9hZU0FbpcF5DH8qinxW0KCndib1WPRj5w/file?_download_id=31698840276744415930312137633302328890391982954675319987888574258&_notify_domain=www.dropbox.com&dl=1", col_types = cols(age = col_double()))

(1)Mostre o histograma e a curva de densidade do conjunto de dados “flu”.

x_hist<-hist(flu$age,plot=F)

x_density<-density(flu$age)

hist(flu$age,probability = T,xlim=range(c(x_hist$breaks,x_density$x)),ylim = range(c(x_hist$density,x_density$y)))

lines(x_density,lwd=2)

  1. Crie 200 médias de amostras da população com tamanho n = 35

  2. Mostre o histograma com a curva de densidade para a médias das amostras.