Heitor Victor
01/11/2019
Antes de apresentar o modelo estatístico de árvore de decisão, vamos primeiro entender o que é uma árvore de decisão.
Imagine que em uma empresa queira-se gerar uma série de regras para cumprir determinada atividade. Suponha que tal atividade seja a de informar para o sistema de informação se um cliente poderá receber o privilégio de uma promoção.
A empresa com este problema gerou um conjunto de regras baseado nas seguinte informações:
Com essas informações, o ato de conceder a promoção para os clientes é dado da seguinte forma:
Ver o tempo que o cliente gasta usufruindo os serviços ofertados pela empresa. Caso este tempo seja maior que \(x\), siga para o próximo passo, senão, não conceda a promoção;
Caso o item 1 seja válido, observar a quanto tempo o cliente é cadastrado na empresa. Se este tempo for maior que \(t\), conceder a promoção, caso contrário, não conceder.
Árvore de decisão gerada pelas regras citadas
Estimativa de classe (problemas de classificação);
Estimativa de variáveis contínuas (problemas de regressão);
Estimativa para alguma medida de probabilidade;
Estimativas para curvas não-paramétricas de tempos de sobrevivência;
Variáveis númericas;
Variáveis categoricas;
Antes de iniciar o entendimento da técnica, vamos estudar alguns conceitos/medidas úteis no desenvolvimento dos modelos de árvore de decisão. Vamos considerar um problema de classificação primeiro para idéia fixar mais facilmente.
Em problemas de classificação, temos o objetivo de encontrar variáveis explicativas que separem bem as classes de interesse. Para entender o conceito, vamos supor um problema de classificação com uma variável explicativa e uma variável resposta binária, em que 1 indica o alvo.
Imagine que temos uma variável \(X\) categorica com duas classes A e B. Para \(X = A\), a proporção de indivíduos categorizados como 1 na amostra é de 100% e consequentemente, quando \(X = B\), essa porcentagem é nula. Diremos então que a variável \(X\) gera uma separação pura para a variável Y.
Mas e como medir a impureza das variáveis? Existem várias formas de se medir impureza, sendo que algumas são melhores que outras. Uma boa medida de impureza deve apresentar:
A entropia pode ser entendida como o grau de desordem encontrado em um sistema binário (ou multiclasses). Em teoria da informação, a entropia mede a incerteza de que um sinal seja enviado sem ruídos, já que se assume que de um local de saída A até um local de chegada B a informação original sofre interferência de ruído, tornando-se impuro.
Quão maior for a entropia, mais desordenado é um sistema, em nosso caso, a desordem de um sistema será o quão \(P(Y = 1|X = A)\) é próximo da \(P(Y = 1|X = B)\). Quão maior for o nível de desordem, mais difícil será determinar a classe de Y em função de X.
A entropia é dada por:
\[ H(p_i) = -\sum_{i = 1}^{C} p_i log_2(p_i)\]
em que
C = é o número de classes da variável X;
\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);
i = 1,…,C;
Note que para algum \(p_i = 0\) (ou 1) teremos problemas, pois o logaritmo para valores menores ou iguais a 0 não existe. Por conta disto, quando tal evento ocorrer, daremos o valor 0 para a entropia, ou seja, a classe será pura.
O índice de Gini é bastante conhecido entre os economistas por expressar bem o quão desbalanceada é a renda de uma população entre os mais ricos e pobres. Se supormos como variável Y o grau de riqueza da população e X faixas de renda, o conceito caí como uma luva para nossa aplicação.
O índice de Gini é dado por:
\[ G(p_i) = \sum_{i = 1}^{C}p_i(1 - p_i) \] em que
C = é o número de classes da variável X;
\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);
i = 1,…,C;
É a forma mais básica de indicar a impureza. Sua fórmula é:
\[ E(p_i) = 1 - max(p_i)\] em que
C = é o número de classes da variável X;
\(p_i\) = é \(\hat{P(Y = 1|X = C_i)}\);
i = 1,…,C;