O que são árvores de decisão?

Antes de apresentar o modelo estatístico de árvore de decisão, vamos primeiro entender o que é uma árvore de decisão.

Imagine que em uma empresa queira-se gerar uma série de regras para cumprir determinada atividade. Suponha que tal atividade seja a de informar para o sistema de informação se um cliente poderá receber o privilégio de uma promoção.

A empresa com este problema gerou um conjunto de regras baseado nas seguinte informações:

Tempo de cadastro do cliente na empresa;
Tempo que o cliente passa usando os serviços da empresa;

O que são árvores de decisão?

Com essas informações, o ato de conceder a promoção para os clientes é dado da seguinte forma:

Ver o tempo que o cliente gasta usufruindo os serviços ofertados pela empresa. Caso este tempo seja maior que \(x\), siga para o próximo passo, senão, não conceda a promoção;
Caso o item 1 seja válido, observar a quanto tempo o cliente é cadastrado na empresa. Se este tempo for maior que \(t\), conceder a promoção, caso contrário, não conceder.

O que são árvores de decisão?

Árvore de decisão gerada pelas regras citadas

O que pode ser feito com modelos de árvore de decisão?

Tipos de estimativas possíveis para a variável resposta

Estimativa de classe (problemas de classificação);
Estimativa de variáveis contínuas (problemas de regressão);
Estimativa para alguma medida de probabilidade;
Estimativas para curvas não-paramétricas de tempos de sobrevivência;

Tipos de variáveis explicativas possíveis

Variáveis númericas;
Variáveis categoricas;

Conceitos e medidas úteis

Antes de iniciar o entendimento da técnica, vamos estudar alguns conceitos/medidas úteis no desenvolvimento dos modelos de árvore de decisão.

Impureza

Em problemas de classificação, temos o objetivo de encontrar variáveis explicativas que separem bem as classes de interesse. Para entender o conceito, vamos supor um problema de classificação com uma variável explicativa e uma variável resposta binária, em que 1 indica o alvo.

Imagine que temos uma variável \(X\) categorica com duas classes A e B. Para \(X = A\), a proporção de indivíduos categorizados como 1 na amostra é de 100%. Já quando \(X = B\), essa porcentagem é de 50%. Diremos então que a classe \(X = A\) é pura, enquanto a classe \(X = B\) é impura.

Mas e como medir a impureza das variáveis?

Árvores de decisão

O que são árvores de decisão?

O que são árvores de decisão?

O que são árvores de decisão?

O que pode ser feito com modelos de árvore de decisão?

Tipos de estimativas possíveis para a variável resposta

Tipos de variáveis explicativas possíveis

Conceitos e medidas úteis

Impureza