Random Forest – Cana-de-açúcar

## [1] "0. Pacotes e caminhos"

## [1] "1. Leitura dos dados"

## Prévia dos dados:

## # A tibble: 6 × 34
##   ano   ponto         x     y variedade solos    tch_real   atr ph_cacl2_1  mo_1
##   <chr> <chr>     <dbl> <dbl> <chr>     <chr>       <dbl> <dbl>      <dbl> <dbl>
## 1 2016  CF1658277 -49.2 -21.3 CV6654    LVal md      63.5  148.       5.19  16.2
## 2 2016  CF1658272 -49.2 -21.3 CV6654    LVPd md…     63.5  148.       5.18  17.0
## 3 2016  CF1658273 -49.2 -21.3 CV6654    LVPd md…     63.5  148.       4.88  15.7
## 4 2016  CF1658274 -49.2 -21.3 CV6654    LVPd md…     63.5  148.       4.96  13.7
## 5 2016  CF1658275 -49.2 -21.3 CV6654    LVal md      63.5  148.       5.05  15.7
## 6 2016  CF1658276 -49.2 -21.3 CV6654    LVal md      63.5  148.       5.15  14.0
## # ℹ 24 more variables: p_resina_1 <dbl>, s_1 <dbl>, ca_1 <dbl>, mg_1 <dbl>,
## #   k_1 <dbl>, al_1 <dbl>, h_al_1 <dbl>, sb_1 <dbl>, ctc_1 <dbl>, v_1 <dbl>,
## #   m_1 <dbl>, ph_cacl2_2 <dbl>, mo_2 <dbl>, p_resina_2 <dbl>, s_2 <dbl>,
## #   ca_2 <dbl>, mg_2 <dbl>, k_2 <dbl>, al_2 <dbl>, h_al_2 <dbl>, sb_2 <dbl>,
## #   ctc_2 <dbl>, v_2 <dbl>, m_2 <dbl>

## 
## Colunas disponíveis:

##  [1] "ano"        "ponto"      "x"          "y"          "variedade" 
##  [6] "solos"      "tch_real"   "atr"        "ph_cacl2_1" "mo_1"      
## [11] "p_resina_1" "s_1"        "ca_1"       "mg_1"       "k_1"       
## [16] "al_1"       "h_al_1"     "sb_1"       "ctc_1"      "v_1"       
## [21] "m_1"        "ph_cacl2_2" "mo_2"       "p_resina_2" "s_2"       
## [26] "ca_2"       "mg_2"       "k_2"        "al_2"       "h_al_2"    
## [31] "sb_2"       "ctc_2"      "v_2"        "m_2"

## [1] "2. Seleção de ano e variável alvo"

## 
## Linhas após filtro de ano: 3212

## Linhas após remover NAs em tch_real : 3212

## [1] "3. Construção de X (features) e y (alvo)"

## 
## Formato de X (features): 3204 linhas x 108 colunas

## Formato de y (alvo): 3212 valores

## [1] "4. Divisão em treino e teste (80/20)"

## 
## Tamanho treino: 2563 | Tamanho teste: 641

## [1] "5. Treinamento do modelo Random Forest"

## 
## Call:
##  randomForest(x = X_treino, y = y_treino, ntree = 400, importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 400
## No. of variables tried at each split: 36
## 
##           Mean of squared residuals: 736.1959
##                     % Var explained: 17.26

## [1] "6. Previsões e métricas"

## 
## =========== RESULTADOS (Regressão) ===========

## Ano   : 2018

## R²    : 0.208

## MAE   : 21.018

## RMSE  : 25.937

## ==============================================

## [1] "7. Matriz de correlação (subset para visual ficar legível)"

## png 
##   2

## [1] "8. Importância das variáveis"

## 
## Top 10 variáveis mais importantes:

##                    variavel importancia
## y                         y   46.291926
## atr                     atr   23.097356
## x                         x   22.508440
## mg_2                   mg_2   11.306747
## h_al_1               h_al_1   10.271405
## h_al_2               h_al_2   10.061882
## variedadeCTC4 variedadeCTC4    9.830389
## ca_1                   ca_1    9.523955
## v_1                     v_1    9.016296
## ca_2                   ca_2    8.909213

## [1] "9. Gráfico Real vs. Previsto"

## [1] "10. Histograma dos resíduos"

## [1] "11. Resíduos vs. previsto"

## [1] "12. Final"

## 
## Figuras salvas em:
##  C:/Trabalho_Gener/Figuras_RF

## Arquivos gerados:

##  [1] "01_correlacao_features.png"   "02_importancia_variaveis.png"
##  [3] "03_real_vs_previsto.png"      "04_hist_residuos.png"        
##  [5] "05_residuos_vs_previsto.png"  "correlacao.png"              
##  [7] "importancia_variaveis.png"    "real_vs_previsto.png"        
##  [9] "residuos_hist.png"            "residuos_vs_previsto.png"