Árvores de decisão

Heitor Victor

01/11/2019

O que são árvores de decisão?

Antes de apresentar o modelo estatístico de árvore de decisão, vamos primeiro entender o que é uma árvore de decisão.

Imagine que em uma empresa queira-se gerar uma série de regras para cumprir determinada atividade. Suponha que tal atividade seja a de informar para o sistema de informação se um cliente poderá receber o privilégio de uma promoção.

A empresa com este problema gerou um conjunto de regras baseado nas seguinte informações:

  1. Tempo de cadastro do cliente na empresa;
  2. Tempo que o cliente passa usando os serviços da empresa;

O que são árvores de decisão?

Com essas informações, o ato de conceder a promoção para os clientes é dado da seguinte forma:

  1. Ver o tempo que o cliente gasta usufruindo os serviços ofertados pela empresa. Caso este tempo seja maior que \(x\), siga para o próximo passo, senão, não conceda a promoção;

  2. Caso o item 1 seja válido, observar a quanto tempo o cliente é cadastrado na empresa. Se este tempo for maior que \(t\), conceder a promoção, caso contrário, não conceder.

O que são árvores de decisão?

Árvore de decisão gerada pelas regras citadas

Árvore de decisão gerada pelas regras citadas

O que pode ser feito com modelos de árvore de decisão?

Tipos de estimativas possíveis para a variável resposta

  1. Estimativa de classe (problemas de classificação);

  2. Estimativa de variáveis contínuas (problemas de regressão);

  3. Estimativa para alguma medida de probabilidade;

  4. Estimativas para curvas não-paramétricas de tempos de sobrevivência;

Tipos de variáveis explicativas possíveis

  1. Variáveis númericas;

  2. Variáveis categoricas;

Conceitos e medidas úteis

Antes de iniciar o entendimento da técnica, vamos estudar alguns conceitos/medidas úteis no desenvolvimento dos modelos de árvore de decisão.

Impureza

Em problemas de classificação, temos o objetivo de encontrar variáveis explicativas que separem bem as classes de interesse. Para entender o conceito, vamos supor um problema de classificação com uma variável explicativa e uma variável resposta binária, em que 1 indica o alvo.

Imagine que temos uma variável \(X\) categorica com duas classes A e B. Para \(X = A\), a proporção de indivíduos categorizados como 1 na amostra é de 100%. Já quando \(X = B\), essa porcentagem é de 50%. Diremos então que a classe \(X = A\) é pura, enquanto a classe \(X = B\) é impura.

Mas e como medir a impureza das variáveis?