Árvores de decisão

Heitor Victor

01/11/2019

O que são árvores de decisão?

Antes de apresentar o modelo estatístico de árvore de decisão, vamos primeiro entender o que é uma árvore de decisão.

Imagine que em uma empresa queira-se gerar uma série de regras para cumprir determinada atividade. Suponha que tal atividade seja a de informar para o sistema de informação se um cliente poderá receber o privilégio de uma promoção.

A empresa com este problema gerou um conjunto de regras baseado nas seguinte informações:

  1. Tempo de cadastro do cliente na empresa;
  2. Tempo que o cliente passa usando os serviços da empresa;

O que são árvores de decisão?

Com essas informações, o ato de conceder a promoção para os clientes é dado da seguinte forma:

  1. Ver o tempo que o cliente gasta usufruindo os serviços ofertados pela empresa. Caso este tempo seja maior que \(x\), siga para o próximo passo, senão, não conceda a promoção;

  2. Caso o item 1 seja válido, observar a quanto tempo o cliente é cadastrado na empresa. Se este tempo for maior que \(t\), conceder a promoção, caso contrário, não conceder.

O que são árvores de decisão?

Árvore de decisão gerada pelas regras citadas

Árvore de decisão gerada pelas regras citadas

O que pode ser feito com modelos de árvore de decisão?

Tipos de estimativas possíveis para a variável resposta

  1. Estimativa de classe (problemas de classificação);

  2. Estimativa de variáveis contínuas (problemas de regressão);

  3. Estimativa para alguma medida de probabilidade;

  4. Estimativas para curvas não-paramétricas de tempos de sobrevivência;

Tipos de variáveis explicativas possíveis

  1. Variáveis númericas;

  2. Variáveis categoricas;

Conceitos e medidas úteis

Antes de iniciar o entendimento da técnica, vamos estudar alguns conceitos/medidas úteis no desenvolvimento dos modelos de árvore de decisão. Vamos considerar um problema de classificação primeiro para idéia fixar mais facilmente.

Impureza

Em problemas de classificação, temos o objetivo de encontrar variáveis explicativas que separem bem as classes de interesse. Para entender o conceito, vamos supor um problema de classificação com uma variável explicativa e uma variável resposta binária, em que 1 indica o alvo.

Imagine que temos uma variável \(X\) categorica com duas classes A e B. Para \(X = A\), a proporção de indivíduos categorizados como 1 na amostra é de 100% e consequentemente, quando \(X = B\), essa porcentagem é nula. Diremos então que a variável \(X\) gera uma separação pura para a variável Y.

Mas e como medir a impureza das variáveis? Existem várias formas de se medir impureza, sendo que algumas são melhores que outras. Uma boa medida de impureza deve apresentar:

  1. Dependente apenas da magnitude relativas das classes, isto é, o grau de impureza não muda caso transladarmos seus valores e também não deve ser afetada pela quantidade de observações na amostra;
  2. Não deve mudar caso o label da variável Y mude.
  3. Deve ser 0 se a proporção de exemplos em uma classe for 1.

Entropia

A entropia pode ser entendida como o grau de desordem encontrado em um sistema binário (ou multiclasses). Em teoria da informação, a entropia mede a incerteza de que um sinal seja enviado sem ruídos, já que se assume que de um local de saída A até um local de chegada B a informação original sofre interferência de ruído, tornando-se impuro.

Quão maior for a entropia, mais desordenado é um sistema, em nosso caso, a desordem de um sistema será o quão \(P(Y = 1|X = A)\) é próximo da \(P(Y = 1|X = B)\). Quão maior for o nível de desordem, mais difícil será determinar a classe de Y em função de X.

A entropia é dada por:

\[ H(p_i) = -\sum_{i = 1}^{C} p_i log_2(p_i)\]

em que

C = é o número de classes da variável X;

\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);

i = 1,…,C;

Note que para algum \(p_i = 0\) (ou 1) teremos problemas, pois o logaritmo para valores menores ou iguais a 0 não existe. Por conta disto, quando tal evento ocorrer, daremos o valor 0 para a entropia, ou seja, a classe será pura.

Índice de Gini

O índice de Gini é bastante conhecido entre os economistas por expressar bem o quão desbalanceada é a renda de uma população entre os mais ricos e pobres. Se supormos como variável Y o grau de riqueza da população e X faixas de renda, o conceito caí como uma luva para nossa aplicação.

O índice de Gini é dado por:

\[ G(p_i) = \sum_{i = 1}^{C}p_i(1 - p_i) \] em que

C = é o número de classes da variável X;

\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);

i = 1,…,C;

Erro de classificação

É a forma mais básica de indicar a impureza. Sua fórmula é:

\[ E(p_i) = 1 - max(p_i)\] em que

C = é o número de classes da variável X;

\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);

i = 1,…,C;

Comportamento das medidas de impureza para problemas de classificação binária