Cenário Climático

Sumarização por Cenário Climático

Distribuição Empírica da Produtividade por Cenário Climático

Intervalos de Confiança Estimados, por Cenário Climático

Fazenda

Sumarização por Fazenda

Distribuição Empírica da Produtividade por Fazenda

Intervalos de Confiança Estimados, por Fazenda

Solo (Grupo)

Sumarização por Solo (Grupo)

Distribuição Empírica da Produtividade por Solo (Grupo)

Intervalos de Confiança Estimados, por Solo (Grupo)

Tipo de Ciclo

Sumarização por Tipo de Ciclo

Distribuição Empírica da Produtividade por Tipo de Ciclo

Intervalos de Confiança Estimados, por Tipo de Ciclo

Importância das Variáveis

Column

Importância das Variáveis

Column

Column

Percentage Increase of MSE

Cada árvore tem uma amostra de dados OOB (Out of Bag) que não é usada durante sua construção. Essa amostra é usada para calcular a importância das variáveis uma a uma.

Primeiro é medido o erro de previsão dessa amostra OOB, então o valor de uma variável é embaralhado aleatoriamente enquanto as outras permanecem iguais. O erro de previsão é novamente medido, e o diferencial dos erros de previsão é medido.

Depois de sucessivos embaralhamentos aleatórios é então calculado o percentual médio de aumento do Erro Médio Quadrático (Percentage Increase of MSE).

Essa é uma medida que indica o impacto no erro do modelo quando a variável em questão é retirada.

Increase in Node Purity

Quando a árvore é construída, a decisão de usar qual variável para cada nó de decisão usa o cálculo de ‘Node Purity’. Para cada variável, a queda da Soma dos Quadrados dos Erros (SQE) é acumulada a cada nó de decisão. Essa soma então é dividida pelo número de árvores para obtermos uma média.

A escala dessa medida é irrelevante, apenas o valor relativo entre as variáveis é importante.

Informações do Modelo

Info Valor
Modelo Random Forest
Tipo de Modelo Regression
Métrica de avaliação RMSE, Rsquared, MAE
Número de árvores 101
Número total de variáveis 119
Número de variáveis utilizadas 108
Número de nós gerados 11605

gráfico de Cullen & Frey

Estatísticas da Estimação da Produtividade

Statistics Values
Média 3.99
Mediana 3.99
Mínimo 3.24
Máximo 4.86
Desvio Padrão (Est.) 0.10
Assimetria (Est.) -0.43
Curtose (Est.) 5.64

gráfico de Cullen e Frey

O gráfico de Cullen e Frey compara a Distribuição Empírica da variável de interesse com distribuições teóricas conhecidas (levando em conta assimetria e curtose).

No gráfico ao lado, quando o ponto azul se encontra muito próximo de uma distribuição conhecida podemos supor que nossos dados se distribuem aproximadamente da mesma forma.

Densidade Empírica

Estatísticas da Estimação da Produtividade

Statistics Values
Média 3.99
Mediana 3.99
Mínimo 3.24
Máximo 4.86
Desvio Padrão (Est.) 0.10
Assimetria (Est.) -0.43
Curtose (Est.) 5.64

Densidade Empírica

A Função de Densidade Empírica descreve a distribuição amostral dos dados analisados. No problema em questão temos a densidade Empírica da Produtividade Esperada.

distribuição Cumulativa Empírica

Estatísticas da Estimação da Produtividade

Statistics Values
Média 3.99
Mediana 3.99
Mínimo 3.24
Máximo 4.86
Desvio Padrão (Est.) 0.10
Assimetria (Est.) -0.43
Curtose (Est.) 5.64

distribuição Cumulativa Empírica

A distribuição Comulativa descreve a soma acumulada das suas densidades. é uma função entre [0,1] em que a velocidade de convergência para 1 define a distribuição dos dados estatísticos.

Q-Q Plot

Estatísticas da Estimação da Produtividade

Statistics Values
Média 3.99
Mediana 3.99
Mínimo 3.24
Máximo 4.86
Desvio Padrão (Est.) 0.10
Assimetria (Est.) -0.43
Curtose (Est.) 5.64

Q-Q Plot

É o gráfico dos quantis dos dados empíricos contra os quantis dos dados teóricos. Quanto mais a os dados se mantém no eixo de 45 graus (y = x), melhor é o ajuste.

Nesse caso o Q-Q Plot mede o quanto os dados empíricos se aproximam das distribuições teóricas em questão (Normal, LogNormal, Gamma e Logística).

P-P Plot

Estatísticas da Estimação da Produtividade

Statistics Values
Média 3.99
Mediana 3.99
Mínimo 3.24
Máximo 4.86
Desvio Padrão (Est.) 0.10
Assimetria (Est.) -0.43
Curtose (Est.) 5.64

P-P Plot

É um gráfico de probabilidades que avalia o quanto dos conjuntos de dados são parecidos, plotando as duas distribuições cumulativas uma contra a outra. O P-P Plot ajuda a avaliar a assimetria de uma distribuição.