Heitor Victor
01/11/2019
Antes de apresentar o modelo estatístico de árvore de decisão, vamos primeiro entender o que é uma árvore de decisão.
Imagine que em uma empresa queira-se gerar uma série de regras para cumprir determinada atividade. Suponha que tal atividade seja a de informar para o sistema de informação se um cliente poderá receber o privilégio de uma promoção.
A empresa com este problema gerou um conjunto de regras baseado nas seguinte informações:
Com essas informações, o ato de conceder a promoção para os clientes é dado da seguinte forma:
Ver o tempo que o cliente gasta usufruindo os serviços ofertados pela empresa. Caso este tempo seja maior que \(x\), siga para o próximo passo, senão, não conceda a promoção;
Caso o item 1 seja válido, observar a quanto tempo o cliente é cadastrado na empresa. Se este tempo for maior que \(t\), conceder a promoção, caso contrário, não conceder.
Árvore de decisão gerada pelas regras citadas
Estimativa de classe (problemas de classificação);
Estimativa de variáveis contínuas (problemas de regressão);
Estimativa para alguma medida de probabilidade;
Estimativas para curvas não-paramétricas de tempos de sobrevivência;
Variáveis númericas;
Variáveis categoricas;
Antes de iniciar o entendimento da técnica, vamos estudar alguns conceitos/medidas úteis no desenvolvimento dos modelos de árvore de decisão.
Em problemas de classificação, temos o objetivo de encontrar variáveis explicativas que separem bem as classes de interesse. Para entender o conceito, vamos supor um problema de classificação com uma variável explicativa e uma variável resposta binária, em que 1 indica o alvo.
Imagine que temos uma variável \(X\) categorica com duas classes A e B. Para \(X = A\), a proporção de indivíduos categorizados como 1 na amostra é de 100%. Já quando \(X = B\), essa porcentagem é de 50%. Diremos então que a classe \(X = A\) é pura, enquanto a classe \(X = B\) é impura.
Mas e como medir a impureza das variáveis?