Atividade de Acompanhamento da Aula 1
1. Escolha um conjunto de dados
O conjunto de dados escolhido foi o “Bug Prediction Dataset” disponibilizado no classroom da disciplina: change_metrics_process.csv
Carregando a Base de Dados
library(readr)
ds <- read_csv("change_metrics_process.csv")
Visualizando o dataset
Tamanho da base de dados
O tamanho do dataset é 997 linhas e 17 colunas.
Total de valores nulos nesta base de dados: 0
2. Escolha uma variável contínua do conjunto e faça o histograma da variável.
Variável contínua escolhida: “lines_added” (Linhas adicionadas)
Histogramas
3. Faça o boxplot da mesma variável.
Boxplot
4. Escolha duas variáveis contínua e faça o gráfico de dispersão.
Variáveis escolhidas: lines_added, lines_rem
Scaterplot
5. Aplique a técnica de PCA no conjunto de dados e faça a projeção em duas dimensões.
Verificando correlações
Aplicando a técnica PCA nas dimensões (lines_added, lines_rem)
6. Construa um gráfico de dispersão colorido por classe de interesse.
Classe de interesse: “class”
Scaterplot