September 25, 2015

Árboles de decisión

  • Son herramientas que usan un grafo en forma de arbol para dar soporte a una decisión.
  • Cada nodo representa una "elección" en algún atributo (característica o feature).
  • En cada rama se asocia el porcentaje esperado de eventos que llegan a esa rama (\(E\)), y el valor esperado de la variable de interés en la submuestra uncluida en dicha rama \(P\), (por ejemplo: ganancia, fracción de buenos pagadores, etc).
  • Se necesita un critero para optimizar nuestra selección, por ejemplo el Gini index, que maximiza la suma \(\sum_{i=1}^{n} E_{i}*P_{i}(1-P_{i})\), donde \(n\) es el número de ramas que salen de un nodo.
  • Existen otros criterios, como
    Cross entropy: \(\sum_{i=1}^{n} -E_{i}*\left(P\ln{(P)}+(1-P)\ln{(1-P)}\right)\),
    Error de clasificación: \(\sum_{i=1}^{n} E_{i}*\left(1-\max{(P,1-P)}\right)\), Significacia estadística: \(\sum_{i=1}^{n} E_{i}*S/\sqrt{(S+B)}\), con \(S\): señal (buenos), \(B\) ruido (malos), entre otros.

Random Forest

  • Se selecciona un número \(N\) de eventos. Con los que se entrenarán \(n<N\) árboles.
  • Se selecciona un conjunto aleatorio de variables, \(\{f_i: 1<i<m\}\) con \(m<M\), que indicará las variables usadas para entrenar el \(k-\)ésimo árbol, \(1<k<n\).
  • Al final, se asigna la fracción de "votos" obtenida por la categoría \(Y\), como probabilidad de que el evento pertenezca a la categoría \(Y\) .
  • Este método tiene muchas bondades: es muy robusto, resiste muy bien el overtrainning, no se empeora por usar "demasiadas" variables.