# Carregue o dataset VADeaths
data("VADeaths")
# Crie uma matriz de cores para as categorias
cores <- c("lightblue", "lightgreen", "lightcoral", "lightpink", "lightyellow" )
barplot(as.matrix(VADeaths), beside = TRUE, col = cores,
main = "Taxa de Mortalidade por Categoria e Idade",
xlab = "Idade",
ylab = "Taxa de Mortalidade",
legend.text = rownames(VADeaths))
# Adicione uma legenda
legend("topright", legend = row.names(VADeaths), fill = cores)# Dados dos estágios da doença
dados_estagios <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "leve", "severo", "moderado", "moderado", "moderado", "leve")
# Contagem das frequências dos estágios
contagem_estagios <- table(dados_estagios)
# Cores para as fatias do gráfico
cores_fatias <- c("lightblue", "lightgreen", "lightcoral")
# Crie o gráfico de pizza
pie(contagem_estagios, labels = paste(names(contagem_estagios), "\n", round(prop.table(contagem_estagios) * 100), "%"), col = cores_fatias, main = "Estágios da Doença")
# Adicione uma legenda
legend("topright", legend = names(contagem_estagios), fill = cores_fatias)library("RColorBrewer")
library("tm")
library("wordcloud")
library("ggplot2")
# Carregue os dados do arquivo CSV
dados <- read.csv("ChatGPT.csv", stringsAsFactors = FALSE)
# Criando o corpus
tweeter_corpus <- Corpus(VectorSource(dados$text))
# Transformando para letras minúsculas
tweeter_corpus <- tm_map(tweeter_corpus, tolower)
# Removendo pontuações
tweeter_corpus <- tm_map(tweeter_corpus, removePunctuation)
# Removendo espaços em branco
tweeter_corpus <- tm_map(tweeter_corpus, stripWhitespace)
# Removendo stopwords e outras palavras indesejadas
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, stopwords('portuguese'))
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, c('http', 'https'))
# Removendo URLs
remover_url <- function(aux) gsub("http [^[:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, remover_url)
# Removendo elementos que não são palavras
apenas_palavras <- function(aux) gsub("[^[:alpha:][:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, content_transformer(apenas_palavras))
# Gerando matriz das palavras
matriz_twitter <- as.matrix(TermDocumentMatrix(tweeter_corpus))
# Gerando a frequência
frequencia_twitter <- sort(rowSums(matriz_twitter), decreasing = TRUE)
# Criando um dataframe com as palavras e suas frequências
df_frequencia <- data.frame(Palavra = names(frequencia_twitter), Frequencia = frequencia_twitter)
# Filtrando as palavras com frequência maior ou igual a 10 (ou outro valor desejado)
df_frequencia_filtrado <- df_frequencia[df_frequencia$Frequencia >= 10, ]
# Selecionando as 15 primeiras palavras mais frequentes
top_15_palavras <- head(df_frequencia_filtrado, 15)
# Criando um gráfico de barras das 15 palavras mais frequentes
ggplot(top_15_palavras, aes(x = reorder(Palavra, -Frequencia), y = Frequencia)) +
geom_bar(stat = "identity", fill = "blue") +
labs(title = "15 Palavras Mais Frequentes",
x = "Palavra",
y = "Frequência") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))library("RColorBrewer")
library("tm")
library("wordcloud")
# Carregue os dados do arquivo CSV
dados <- read.csv("ChatGPT.csv", stringsAsFactors = FALSE)
# Criando o corpus
tweeter_corpus <- Corpus(VectorSource(dados$text))
# Transformando para letras minúsculas
tweeter_corpus <- tm_map(tweeter_corpus, tolower)
# Removendo pontuações
tweeter_corpus <- tm_map(tweeter_corpus, removePunctuation)
# Removendo espaços em branco
tweeter_corpus <- tm_map(tweeter_corpus, stripWhitespace)
# Removendo stopwords e outras palavras indesejadas
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, stopwords('portuguese'))
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, c('http', 'https'))
# Removendo URLs
remover_url <- function(aux) gsub("http [^[:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, remover_url)
# Removendo elementos que não são palavras
apenas_palavras <- function(aux) gsub("[^[:alpha:][:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, content_transformer(apenas_palavras))
# Gerando matriz das palavras
matriz_twitter <- as.matrix(TermDocumentMatrix(tweeter_corpus))
# Gerando a frequência
frequencia_twitter <- sort(rowSums(matriz_twitter), decreasing = TRUE)
# Ignorando a palavra mais frequente
palavra_mais_frequente <- names(frequencia_twitter)[1]
palavras_sem_mais_frequente <- names(frequencia_twitter)[-1]
frequencia_sem_mais_frequente <- frequencia_twitter[-1]
# Gerando a nuvem de palavras
wordcloud(palavras_sem_mais_frequente, freq = frequencia_sem_mais_frequente, min.freq = 10, scale = c(3, 0.5), colors = c("red", "black"))library("syuzhet")
# Acessando o texto dos tweets
texto_tweets <- dados$text
# Atribuindo pontuações aos textos
sentimentos_analisados <- get_nrc_sentiment(texto_tweets)
# Renomear os nomes dos sentimentos em inglês para português
nomes_sentimentos <- c("raiva", "nojo", "medo", "surpresa", "tristeza", "alegria", "confiança", "anticipacao", "positivo", "negativo")
colnames(sentimentos_analisados) <- nomes_sentimentos
# Plotar o gráfico de sentimentos
barplot(colSums(sentimentos_analisados), las = 2, main = "Sentimentos expressos sobre #stf", xlab = 'Sentimento', ylab = 'Score', col = rainbow(10))Passo 1: Mostrar o Histograma e a Curva de Densidade do Conjunto de Dados “flu”
# Carregue a biblioteca ggplot2 (caso ainda não esteja carregada)
# install.packages("ggplot2")
library(ggplot2)
# Carregue os dados do arquivo CSV (certifique-se de que o arquivo esteja no diretório de trabalho ou forneça o caminho correto)
dados_flu <- read.csv("flu.csv") # Substitua "flu.csv" pelo nome do seu arquivo CSV
# Crie o gráfico de histograma e curva de densidade
ggplot(data = dados_flu, aes(x = age)) +
geom_histogram(binwidth = 5, fill = "lightblue", color = "black", alpha = 0.7) +
geom_density(aes(y = ..count..), color = "red") +
labs(title = "Histograma e Curva de Densidade da Idade das Pessoas que Morreram",
x = "Idade",
y = "Frequência") +
theme_minimal()Passo 2: Criar 200 Médias de Amostras da População com Tamanho n = 35
# Defina o tamanho da amostra e o número de amostras
tamanho_amostra <- 35
num_amostras <- 200
# Crie um vetor para armazenar as médias das amostras
medias_amostras <- numeric(num_amostras)
# Realize a amostragem e calcule as médias
set.seed(123) # Defina uma semente para reproduzibilidade
for (i in 1:num_amostras) {
amostra <- sample(dados_flu$age, tamanho_amostra, replace = TRUE)
medias_amostras[i] <- mean(amostra)
}Passo 3: Mostrar o Histograma com a Curva de Densidade para as Médias das Amostras
# Crie o gráfico de histograma e curva de densidade das médias das amostras
ggplot(data = data.frame(Médias = medias_amostras), aes(x = Médias)) +
geom_histogram(binwidth = 1, fill = "lightblue", color = "black", alpha = 0.7) +
geom_density(aes(y = ..count..), color = "red") +
labs(title = "Histograma e Curva de Densidade das Médias das Amostras",
x = "Média da Idade",
y = "Frequência") +
theme_minimal()