2VA: Computação para Análise de Dados

Respostas

VADeaths

# Carregue o dataset VADeaths
data("VADeaths")

# Crie uma matriz de cores para as categorias
cores <- c("lightblue", "lightgreen", "lightcoral", "lightpink", "lightyellow" )

barplot(as.matrix(VADeaths), beside = TRUE, col = cores, 
        main = "Taxa de Mortalidade por Categoria e Idade",
        xlab = "Idade",
        ylab = "Taxa de Mortalidade",
        legend.text = rownames(VADeaths))

# Adicione uma legenda
legend("topright", legend = row.names(VADeaths), fill = cores)

ClassificaçãoDoença

# Dados dos estágios da doença
dados_estagios <- c("moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "moderado", "leve", "leve", "severo", "leve", "moderado", "moderado", "leve", "severo", "moderado", "moderado", "moderado", "leve")

# Contagem das frequências dos estágios
contagem_estagios <- table(dados_estagios)

# Cores para as fatias do gráfico
cores_fatias <- c("lightblue", "lightgreen", "lightcoral")

# Crie o gráfico de pizza
pie(contagem_estagios, labels = paste(names(contagem_estagios), "\n", round(prop.table(contagem_estagios) * 100), "%"), col = cores_fatias, main = "Estágios da Doença")

# Adicione uma legenda
legend("topright", legend = names(contagem_estagios), fill = cores_fatias)

Twitter

library("RColorBrewer")
library("tm")
library("wordcloud")
library("ggplot2")

# Carregue os dados do arquivo CSV
dados <- read.csv("ChatGPT.csv", stringsAsFactors = FALSE)

# Criando o corpus
tweeter_corpus <- Corpus(VectorSource(dados$text))

# Transformando para letras minúsculas
tweeter_corpus <- tm_map(tweeter_corpus, tolower)

# Removendo pontuações
tweeter_corpus <- tm_map(tweeter_corpus, removePunctuation)

# Removendo espaços em branco
tweeter_corpus <- tm_map(tweeter_corpus, stripWhitespace)

# Removendo stopwords e outras palavras indesejadas
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, stopwords('portuguese'))
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, c('http', 'https'))

# Removendo URLs
remover_url <- function(aux) gsub("http [^[:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, remover_url)

# Removendo elementos que não são palavras
apenas_palavras <- function(aux) gsub("[^[:alpha:][:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, content_transformer(apenas_palavras))

# Gerando matriz das palavras
matriz_twitter <- as.matrix(TermDocumentMatrix(tweeter_corpus))

# Gerando a frequência
frequencia_twitter <- sort(rowSums(matriz_twitter), decreasing = TRUE)

# Criando um dataframe com as palavras e suas frequências
df_frequencia <- data.frame(Palavra = names(frequencia_twitter), Frequencia = frequencia_twitter)

# Filtrando as palavras com frequência maior ou igual a 10 (ou outro valor desejado)
df_frequencia_filtrado <- df_frequencia[df_frequencia$Frequencia >= 10, ]

# Selecionando as 15 primeiras palavras mais frequentes
top_15_palavras <- head(df_frequencia_filtrado, 15)

# Criando um gráfico de barras das 15 palavras mais frequentes
ggplot(top_15_palavras, aes(x = reorder(Palavra, -Frequencia), y = Frequencia)) +
  geom_bar(stat = "identity", fill = "blue") +
  labs(title = "15 Palavras Mais Frequentes",
       x = "Palavra",
       y = "Frequência") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

library("RColorBrewer")
library("tm")
library("wordcloud")

# Carregue os dados do arquivo CSV
dados <- read.csv("ChatGPT.csv", stringsAsFactors = FALSE)

# Criando o corpus
tweeter_corpus <- Corpus(VectorSource(dados$text))

# Transformando para letras minúsculas
tweeter_corpus <- tm_map(tweeter_corpus, tolower)

# Removendo pontuações
tweeter_corpus <- tm_map(tweeter_corpus, removePunctuation)

# Removendo espaços em branco
tweeter_corpus <- tm_map(tweeter_corpus, stripWhitespace)

# Removendo stopwords e outras palavras indesejadas
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, stopwords('portuguese'))
tweeter_corpus <- tm_map(tweeter_corpus, removeWords, c('http', 'https'))

# Removendo URLs
remover_url <- function(aux) gsub("http [^[:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, remover_url)

# Removendo elementos que não são palavras
apenas_palavras <- function(aux) gsub("[^[:alpha:][:space:]]*", "", aux)
tweeter_corpus <- tm_map(tweeter_corpus, content_transformer(apenas_palavras))

# Gerando matriz das palavras
matriz_twitter <- as.matrix(TermDocumentMatrix(tweeter_corpus))

# Gerando a frequência
frequencia_twitter <- sort(rowSums(matriz_twitter), decreasing = TRUE)

# Ignorando a palavra mais frequente
palavra_mais_frequente <- names(frequencia_twitter)[1]
palavras_sem_mais_frequente <- names(frequencia_twitter)[-1]
frequencia_sem_mais_frequente <- frequencia_twitter[-1]

# Gerando a nuvem de palavras
wordcloud(palavras_sem_mais_frequente, freq = frequencia_sem_mais_frequente, min.freq = 10, scale = c(3, 0.5), colors = c("red", "black"))

library("syuzhet")

# Acessando o texto dos tweets
texto_tweets <- dados$text

# Atribuindo pontuações aos textos
sentimentos_analisados <- get_nrc_sentiment(texto_tweets)

# Renomear os nomes dos sentimentos em inglês para português
nomes_sentimentos <- c("raiva", "nojo", "medo", "surpresa", "tristeza", "alegria", "confiança", "anticipacao", "positivo", "negativo")
colnames(sentimentos_analisados) <- nomes_sentimentos

# Plotar o gráfico de sentimentos
barplot(colSums(sentimentos_analisados), las = 2, main = "Sentimentos expressos sobre #stf", xlab = 'Sentimento', ylab = 'Score', col = rainbow(10))

Teorema

Passo 1: Mostrar o Histograma e a Curva de Densidade do Conjunto de Dados “flu”

# Carregue a biblioteca ggplot2 (caso ainda não esteja carregada)
# install.packages("ggplot2")
library(ggplot2)

# Carregue os dados do arquivo CSV (certifique-se de que o arquivo esteja no diretório de trabalho ou forneça o caminho correto)
dados_flu <- read.csv("flu.csv")  # Substitua "flu.csv" pelo nome do seu arquivo CSV

# Crie o gráfico de histograma e curva de densidade
ggplot(data = dados_flu, aes(x = age)) +
  geom_histogram(binwidth = 5, fill = "lightblue", color = "black", alpha = 0.7) +
  geom_density(aes(y = ..count..), color = "red") +
  labs(title = "Histograma e Curva de Densidade da Idade das Pessoas que Morreram",
       x = "Idade",
       y = "Frequência") +
  theme_minimal()

Passo 2: Criar 200 Médias de Amostras da População com Tamanho n = 35

# Defina o tamanho da amostra e o número de amostras
tamanho_amostra <- 35
num_amostras <- 200

# Crie um vetor para armazenar as médias das amostras
medias_amostras <- numeric(num_amostras)

# Realize a amostragem e calcule as médias
set.seed(123)  # Defina uma semente para reproduzibilidade

for (i in 1:num_amostras) {
  amostra <- sample(dados_flu$age, tamanho_amostra, replace = TRUE)
  medias_amostras[i] <- mean(amostra)
}

Passo 3: Mostrar o Histograma com a Curva de Densidade para as Médias das Amostras

# Crie o gráfico de histograma e curva de densidade das médias das amostras
ggplot(data = data.frame(Médias = medias_amostras), aes(x = Médias)) +
  geom_histogram(binwidth = 1, fill = "lightblue", color = "black", alpha = 0.7) +
  geom_density(aes(y = ..count..), color = "red") +
  labs(title = "Histograma e Curva de Densidade das Médias das Amostras",
       x = "Média da Idade",
       y = "Frequência") +
  theme_minimal()