options(repos = c(CRAN = "https://cloud.r-project.org"))
# Configurando o repositório do CRAN
options(repos = c(CRAN = "https://cloud.r-project.org"))

# Instalando os pacotes necessários
install.packages(c("tidyverse", "ggplot2", "dplyr", "caret"))
## pacote 'tidyverse' desempacotado com sucesso e somas MD5 verificadas
## pacote 'ggplot2' desempacotado com sucesso e somas MD5 verificadas
## pacote 'dplyr' desempacotado com sucesso e somas MD5 verificadas
## pacote 'caret' desempacotado com sucesso e somas MD5 verificadas
## 
## Os pacotes binários baixados estão em
##  C:\Users\Administrator\AppData\Local\Temp\RtmpIVCRFW\downloaded_packages

configuração do ambiente

# Instalando pacotes necessários
install.packages(c("tidyverse", "ggplot2", "dplyr", "caret"))
## pacote 'tidyverse' desempacotado com sucesso e somas MD5 verificadas
## pacote 'ggplot2' desempacotado com sucesso e somas MD5 verificadas
## pacote 'dplyr' desempacotado com sucesso e somas MD5 verificadas
## pacote 'caret' desempacotado com sucesso e somas MD5 verificadas
## 
## Os pacotes binários baixados estão em
##  C:\Users\Administrator\AppData\Local\Temp\RtmpIVCRFW\downloaded_packages
# Carregando os pacotes
library(tidyverse)
## Warning: pacote 'tidyverse' foi compilado no R versão 4.4.2
## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.2
## Warning: pacote 'tibble' foi compilado no R versão 4.4.1
## Warning: pacote 'tidyr' foi compilado no R versão 4.4.2
## Warning: pacote 'readr' foi compilado no R versão 4.4.1
## Warning: pacote 'purrr' foi compilado no R versão 4.4.1
## Warning: pacote 'dplyr' foi compilado no R versão 4.4.2
## Warning: pacote 'forcats' foi compilado no R versão 4.4.1
## Warning: pacote 'lubridate' foi compilado no R versão 4.4.1
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(caret)
## Warning: pacote 'caret' foi compilado no R versão 4.4.2
## Carregando pacotes exigidos: lattice
## 
## Anexando pacote: 'caret'
## 
## O seguinte objeto é mascarado por 'package:purrr':
## 
##     lift

#Carregando e Explorando Dados

# Usando um dataset exemplo (mtcars)
data <- mtcars

# Resumo dos dados
summary(data)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
# Estrutura dos dados
str(data)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

#Distribuições de Frequência

# Frequência para variáveis categóricas (convertendo "cyl" para categórica)
data$cyl <- as.factor(data$cyl)
freq_cyl <- table(data$cyl)
print(freq_cyl)
## 
##  4  6  8 
## 11  7 14
# Gráfico de barras para variáveis categóricas
ggplot(data, aes(x = cyl)) +
  geom_bar(fill = "blue", color = "black") +
  labs(title = "Distribuição de Cilindros", x = "Cilindros", y = "Frequência")

#Analise grafica

# Histograma para variáveis numéricas
ggplot(data, aes(x = mpg)) +
  geom_histogram(binwidth = 2, fill = "green", color = "black") +
  labs(title = "Distribuição de Milhas por Galão (mpg)", x = "mpg", y = "Frequência")

# Boxplot para detecção de outliers
ggplot(data, aes(y = mpg)) +
  geom_boxplot(fill = "orange") +
  labs(title = "Boxplot de mpg", y = "mpg")

# Scatterplot para variáveis numéricas
ggplot(data, aes(x = hp, y = mpg)) +
  geom_point(color = "red") +
  labs(title = "Relação entre HP e MPG", x = "Horsepower (HP)", y = "Miles per Gallon (MPG)")

#limpeza de dados ##. Dados faltantes

# Adicionando valores faltantes como exemplo
set.seed(42)
data$mpg[sample(1:nrow(data), 5)] <- NA

# Verificando dados faltantes
sum(is.na(data$mpg))
## [1] 5
# Imputação com a média
data$mpg <- ifelse(is.na(data$mpg), mean(data$mpg, na.rm = TRUE), data$mpg)
sum(is.na(data$mpg))
## [1] 0

##5.2. Outliers

# Identificação de outliers usando IQR
Q1 <- quantile(data$mpg, 0.25)
Q3 <- quantile(data$mpg, 0.75)
IQR <- Q3 - Q1
lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR

# Filtrando dados fora do intervalo
outliers <- data %>% filter(mpg < lower_bound | mpg > upper_bound)
print(outliers)
##                 mpg cyl disp hp drat    wt qsec vs am gear carb
## Toyota Corolla 33.9   4 71.1 65 4.22 1.835 19.9  1  1    4    1

#6. Transformação de Dados

# Normalização (Min-Max Scaling) da variável "hp"
data$hp_scaled <- (data$hp - min(data$hp)) / (max(data$hp) - min(data$hp))

# Padronização (Z-Score) da variável "wt"
data$wt_scaled <- scale(data$wt)

#7. Seleção de Variáveis

# Analisando correlação entre variáveis numéricas
cor_matrix <- cor(data %>% select_if(is.numeric))
print(cor_matrix)
##                  mpg       disp         hp        drat         wt        qsec
## mpg        1.0000000 -0.7922458 -0.7452155  0.65919345 -0.8048878  0.41523534
## disp      -0.7922458  1.0000000  0.7909486 -0.71021393  0.8879799 -0.43369788
## hp        -0.7452155  0.7909486  1.0000000 -0.44875912  0.6587479 -0.70822339
## drat       0.6591934 -0.7102139 -0.4487591  1.00000000 -0.7124406  0.09120476
## wt        -0.8048878  0.8879799  0.6587479 -0.71244065  1.0000000 -0.17471588
## qsec       0.4152353 -0.4336979 -0.7082234  0.09120476 -0.1747159  1.00000000
## vs         0.6446310 -0.7104159 -0.7230967  0.44027846 -0.5549157  0.74453544
## am         0.5625518 -0.5912270 -0.2432043  0.71271113 -0.6924953 -0.22986086
## gear       0.4461277 -0.5555692 -0.1257043  0.69961013 -0.5832870 -0.21268223
## carb      -0.5427512  0.3949769  0.7498125 -0.09078980  0.4276059 -0.65624923
## hp_scaled -0.7452155  0.7909486  1.0000000 -0.44875912  0.6587479 -0.70822339
## wt_scaled -0.8048878  0.8879799  0.6587479 -0.71244065  1.0000000 -0.17471588
##                   vs          am       gear        carb  hp_scaled  wt_scaled
## mpg        0.6446310  0.56255176  0.4461277 -0.54275117 -0.7452155 -0.8048878
## disp      -0.7104159 -0.59122704 -0.5555692  0.39497686  0.7909486  0.8879799
## hp        -0.7230967 -0.24320426 -0.1257043  0.74981247  1.0000000  0.6587479
## drat       0.4402785  0.71271113  0.6996101 -0.09078980 -0.4487591 -0.7124406
## wt        -0.5549157 -0.69249526 -0.5832870  0.42760594  0.6587479  1.0000000
## qsec       0.7445354 -0.22986086 -0.2126822 -0.65624923 -0.7082234 -0.1747159
## vs         1.0000000  0.16834512  0.2060233 -0.56960714 -0.7230967 -0.5549157
## am         0.1683451  1.00000000  0.7940588  0.05753435 -0.2432043 -0.6924953
## gear       0.2060233  0.79405876  1.0000000  0.27407284 -0.1257043 -0.5832870
## carb      -0.5696071  0.05753435  0.2740728  1.00000000  0.7498125  0.4276059
## hp_scaled -0.7230967 -0.24320426 -0.1257043  0.74981247  1.0000000  0.6587479
## wt_scaled -0.5549157 -0.69249526 -0.5832870  0.42760594  0.6587479  1.0000000
# Gráfico de calor para correlações
library(reshape2)
## Warning: pacote 'reshape2' foi compilado no R versão 4.4.2
## 
## Anexando pacote: 'reshape2'
## O seguinte objeto é mascarado por 'package:tidyr':
## 
##     smiths
cor_data <- melt(cor_matrix)
ggplot(data = cor_data, aes(Var1, Var2, fill = value)) +
  geom_tile() +
  scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
  labs(title = "Mapa de Correlação", x = "", y = "")