options(repos = c(CRAN = "https://cloud.r-project.org"))
# Configurando o repositório do CRAN
options(repos = c(CRAN = "https://cloud.r-project.org"))
# Instalando os pacotes necessários
install.packages(c("tidyverse", "ggplot2", "dplyr", "caret"))
## pacote 'tidyverse' desempacotado com sucesso e somas MD5 verificadas
## pacote 'ggplot2' desempacotado com sucesso e somas MD5 verificadas
## pacote 'dplyr' desempacotado com sucesso e somas MD5 verificadas
## pacote 'caret' desempacotado com sucesso e somas MD5 verificadas
##
## Os pacotes binários baixados estão em
## C:\Users\Administrator\AppData\Local\Temp\RtmpIVCRFW\downloaded_packages
# Instalando pacotes necessários
install.packages(c("tidyverse", "ggplot2", "dplyr", "caret"))
## pacote 'tidyverse' desempacotado com sucesso e somas MD5 verificadas
## pacote 'ggplot2' desempacotado com sucesso e somas MD5 verificadas
## pacote 'dplyr' desempacotado com sucesso e somas MD5 verificadas
## pacote 'caret' desempacotado com sucesso e somas MD5 verificadas
##
## Os pacotes binários baixados estão em
## C:\Users\Administrator\AppData\Local\Temp\RtmpIVCRFW\downloaded_packages
# Carregando os pacotes
library(tidyverse)
## Warning: pacote 'tidyverse' foi compilado no R versão 4.4.2
## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.2
## Warning: pacote 'tibble' foi compilado no R versão 4.4.1
## Warning: pacote 'tidyr' foi compilado no R versão 4.4.2
## Warning: pacote 'readr' foi compilado no R versão 4.4.1
## Warning: pacote 'purrr' foi compilado no R versão 4.4.1
## Warning: pacote 'dplyr' foi compilado no R versão 4.4.2
## Warning: pacote 'forcats' foi compilado no R versão 4.4.1
## Warning: pacote 'lubridate' foi compilado no R versão 4.4.1
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(caret)
## Warning: pacote 'caret' foi compilado no R versão 4.4.2
## Carregando pacotes exigidos: lattice
##
## Anexando pacote: 'caret'
##
## O seguinte objeto é mascarado por 'package:purrr':
##
## lift
#Carregando e Explorando Dados
# Usando um dataset exemplo (mtcars)
data <- mtcars
# Resumo dos dados
summary(data)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
# Estrutura dos dados
str(data)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
#Distribuições de Frequência
# Frequência para variáveis categóricas (convertendo "cyl" para categórica)
data$cyl <- as.factor(data$cyl)
freq_cyl <- table(data$cyl)
print(freq_cyl)
##
## 4 6 8
## 11 7 14
# Gráfico de barras para variáveis categóricas
ggplot(data, aes(x = cyl)) +
geom_bar(fill = "blue", color = "black") +
labs(title = "Distribuição de Cilindros", x = "Cilindros", y = "Frequência")
#Analise grafica
# Histograma para variáveis numéricas
ggplot(data, aes(x = mpg)) +
geom_histogram(binwidth = 2, fill = "green", color = "black") +
labs(title = "Distribuição de Milhas por Galão (mpg)", x = "mpg", y = "Frequência")
# Boxplot para detecção de outliers
ggplot(data, aes(y = mpg)) +
geom_boxplot(fill = "orange") +
labs(title = "Boxplot de mpg", y = "mpg")
# Scatterplot para variáveis numéricas
ggplot(data, aes(x = hp, y = mpg)) +
geom_point(color = "red") +
labs(title = "Relação entre HP e MPG", x = "Horsepower (HP)", y = "Miles per Gallon (MPG)")
#limpeza de dados ##. Dados faltantes
# Adicionando valores faltantes como exemplo
set.seed(42)
data$mpg[sample(1:nrow(data), 5)] <- NA
# Verificando dados faltantes
sum(is.na(data$mpg))
## [1] 5
# Imputação com a média
data$mpg <- ifelse(is.na(data$mpg), mean(data$mpg, na.rm = TRUE), data$mpg)
sum(is.na(data$mpg))
## [1] 0
##5.2. Outliers
# Identificação de outliers usando IQR
Q1 <- quantile(data$mpg, 0.25)
Q3 <- quantile(data$mpg, 0.75)
IQR <- Q3 - Q1
lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR
# Filtrando dados fora do intervalo
outliers <- data %>% filter(mpg < lower_bound | mpg > upper_bound)
print(outliers)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.9 1 1 4 1
#6. Transformação de Dados
# Normalização (Min-Max Scaling) da variável "hp"
data$hp_scaled <- (data$hp - min(data$hp)) / (max(data$hp) - min(data$hp))
# Padronização (Z-Score) da variável "wt"
data$wt_scaled <- scale(data$wt)
#7. Seleção de Variáveis
# Analisando correlação entre variáveis numéricas
cor_matrix <- cor(data %>% select_if(is.numeric))
print(cor_matrix)
## mpg disp hp drat wt qsec
## mpg 1.0000000 -0.7922458 -0.7452155 0.65919345 -0.8048878 0.41523534
## disp -0.7922458 1.0000000 0.7909486 -0.71021393 0.8879799 -0.43369788
## hp -0.7452155 0.7909486 1.0000000 -0.44875912 0.6587479 -0.70822339
## drat 0.6591934 -0.7102139 -0.4487591 1.00000000 -0.7124406 0.09120476
## wt -0.8048878 0.8879799 0.6587479 -0.71244065 1.0000000 -0.17471588
## qsec 0.4152353 -0.4336979 -0.7082234 0.09120476 -0.1747159 1.00000000
## vs 0.6446310 -0.7104159 -0.7230967 0.44027846 -0.5549157 0.74453544
## am 0.5625518 -0.5912270 -0.2432043 0.71271113 -0.6924953 -0.22986086
## gear 0.4461277 -0.5555692 -0.1257043 0.69961013 -0.5832870 -0.21268223
## carb -0.5427512 0.3949769 0.7498125 -0.09078980 0.4276059 -0.65624923
## hp_scaled -0.7452155 0.7909486 1.0000000 -0.44875912 0.6587479 -0.70822339
## wt_scaled -0.8048878 0.8879799 0.6587479 -0.71244065 1.0000000 -0.17471588
## vs am gear carb hp_scaled wt_scaled
## mpg 0.6446310 0.56255176 0.4461277 -0.54275117 -0.7452155 -0.8048878
## disp -0.7104159 -0.59122704 -0.5555692 0.39497686 0.7909486 0.8879799
## hp -0.7230967 -0.24320426 -0.1257043 0.74981247 1.0000000 0.6587479
## drat 0.4402785 0.71271113 0.6996101 -0.09078980 -0.4487591 -0.7124406
## wt -0.5549157 -0.69249526 -0.5832870 0.42760594 0.6587479 1.0000000
## qsec 0.7445354 -0.22986086 -0.2126822 -0.65624923 -0.7082234 -0.1747159
## vs 1.0000000 0.16834512 0.2060233 -0.56960714 -0.7230967 -0.5549157
## am 0.1683451 1.00000000 0.7940588 0.05753435 -0.2432043 -0.6924953
## gear 0.2060233 0.79405876 1.0000000 0.27407284 -0.1257043 -0.5832870
## carb -0.5696071 0.05753435 0.2740728 1.00000000 0.7498125 0.4276059
## hp_scaled -0.7230967 -0.24320426 -0.1257043 0.74981247 1.0000000 0.6587479
## wt_scaled -0.5549157 -0.69249526 -0.5832870 0.42760594 0.6587479 1.0000000
# Gráfico de calor para correlações
library(reshape2)
## Warning: pacote 'reshape2' foi compilado no R versão 4.4.2
##
## Anexando pacote: 'reshape2'
## O seguinte objeto é mascarado por 'package:tidyr':
##
## smiths
cor_data <- melt(cor_matrix)
ggplot(data = cor_data, aes(Var1, Var2, fill = value)) +
geom_tile() +
scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
labs(title = "Mapa de Correlação", x = "", y = "")