Cada árvore tem uma amostra de dados OOB (Out of Bag) que não é usada durante sua construção. Essa amostra é usada para calcular a importância das variáveis uma a uma.
Primeiro é medido o erro de previsão dessa amostra OOB, então o valor de uma variável é embaralhado aleatoriamente enquanto as outras permanecem iguais. O erro de previsão é novamente medido, e o diferencial dos erros de previsão é medido.
Depois de sucessivos embaralhamentos aleatórios é então calculado o percentual médio de aumento do Erro Médio Quadrático (Percentage Increase of MSE).
Essa é uma medida que indica o impacto no erro do modelo quando a variável em questão é retirada.
Quando a árvore é construída, a decisão de usar qual variável para cada nó de decisão usa o cálculo de ‘Node Purity’. Para cada variável, a queda da Soma dos Quadrados dos Erros (SQE) é acumulada a cada nó de decisão. Essa soma então é dividida pelo número de árvores para obtermos uma média.
A escala dessa medida é irrelevante, apenas o valor relativo entre as variáveis é importante.
| Info | Valor |
|---|---|
| Modelo | Random Forest |
| Tipo de Modelo | Regression |
| Métrica de avaliação | RMSE, Rsquared, MAE |
| Número de árvores | 101 |
| Número total de variáveis | 119 |
| Número de variáveis utilizadas | 108 |
| Número de nós gerados | 11605 |
| Statistics | Values |
|---|---|
| Média | 3.99 |
| Mediana | 3.99 |
| Mínimo | 3.24 |
| Máximo | 4.86 |
| Desvio Padrão (Est.) | 0.10 |
| Assimetria (Est.) | -0.43 |
| Curtose (Est.) | 5.64 |
O gráfico de Cullen e Frey compara a Distribuição Empírica da variável de interesse com distribuições teóricas conhecidas (levando em conta assimetria e curtose).
No gráfico ao lado, quando o ponto azul se encontra muito próximo de uma distribuição conhecida podemos supor que nossos dados se distribuem aproximadamente da mesma forma.
| Statistics | Values |
|---|---|
| Média | 3.99 |
| Mediana | 3.99 |
| Mínimo | 3.24 |
| Máximo | 4.86 |
| Desvio Padrão (Est.) | 0.10 |
| Assimetria (Est.) | -0.43 |
| Curtose (Est.) | 5.64 |
A Função de Densidade Empírica descreve a distribuição amostral dos dados analisados. No problema em questão temos a densidade Empírica da Produtividade Esperada.
| Statistics | Values |
|---|---|
| Média | 3.99 |
| Mediana | 3.99 |
| Mínimo | 3.24 |
| Máximo | 4.86 |
| Desvio Padrão (Est.) | 0.10 |
| Assimetria (Est.) | -0.43 |
| Curtose (Est.) | 5.64 |
A distribuição Comulativa descreve a soma acumulada das suas densidades. é uma função entre [0,1] em que a velocidade de convergência para 1 define a distribuição dos dados estatísticos.
| Statistics | Values |
|---|---|
| Média | 3.99 |
| Mediana | 3.99 |
| Mínimo | 3.24 |
| Máximo | 4.86 |
| Desvio Padrão (Est.) | 0.10 |
| Assimetria (Est.) | -0.43 |
| Curtose (Est.) | 5.64 |
É o gráfico dos quantis dos dados empíricos contra os quantis dos dados teóricos. Quanto mais a os dados se mantém no eixo de 45 graus (y = x), melhor é o ajuste.
Nesse caso o Q-Q Plot mede o quanto os dados empíricos se aproximam das distribuições teóricas em questão (Normal, LogNormal, Gamma e Logística).
| Statistics | Values |
|---|---|
| Média | 3.99 |
| Mediana | 3.99 |
| Mínimo | 3.24 |
| Máximo | 4.86 |
| Desvio Padrão (Est.) | 0.10 |
| Assimetria (Est.) | -0.43 |
| Curtose (Est.) | 5.64 |
É um gráfico de probabilidades que avalia o quanto dos conjuntos de dados são parecidos, plotando as duas distribuições cumulativas uma contra a outra. O P-P Plot ajuda a avaliar a assimetria de uma distribuição.