Modelo BART

Árboles aditivos de regresión bayesianos

Mauricio Alejandro Prieto Palacios

Facultad de Ciencias, UNAM

Fumadores

  • Datos obtenidos de Kaggle
  • 55,692 observaciones
  • 24 variables

Variables

Pruebas de sangre

  • Hemoglobina
  • Colesterol
  • Triglicéridos
  • Glucemia

Enzimas

  • Aspartato
  • Alanina
  • Transpeptidasa

Adicionales

  • Presión sistólica
  • Caries y sarro
  • Edad
  • Estatura
  • Peso

Red

Datos atípicos

  • Bosques de aislamiento
  • Partición del espacio de predictores
  • Puntaje de 0 a 1
  • Entre más grande sea, más fácil fue separar la observación
  • Eliminación 4.9%

Imputación

  • Atípicos para:
    • Triglicéridos
    • Transpeptidasa
    • Aspartato
    • Colesterol
  • Casi la cuarta parte
  • Bosques aleatorios

Análisis explicativo 1

Análisis explicativo 2

Selección variables

  • Algoritmo MRMR: máxima relevancia, mínima redundancia
  • Relación alta con la variable objetivo
  • Poca correlación con otros predictores
  • 5 Predictores

Modelo BART

Formado por dos piezas:

  • Suma de árboles
  • Distribución previa de regularización

Suma de árboles

  • Árbol \(T\)
    • Reglas de decisión
    • Predicciones
    • \(M = \{ \mu_1, \dots, \mu_b \}\)
    • Un árbol: \(g(x, T, M)\)

\[Y = \sum_{j=1}^m g(x; T_j, M_j) + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)\]

Modelo probit

  • Ajuste retrospectivo bayesiano MCMC

\[p(x) = P[Y=1 \mid x] = \Phi\left[\sum_{j=1}^m g(x; T_j, M_j)\right]\]

Distribución previa de regularización

  • Sobre los parámetros \((T_1,M_1),\dots,(T_m,M_m)\)
  • Disminuye la influencia individual de cada árbol
  • Probabilidad de que un nodo de profunidad \(d\) sea un nodo terminal

\[\alpha(1+d)^{-\beta}, \qquad \alpha \in(0,1), \qquad \beta \in[0, \infty)\]

Distribución posterior

  • A través de los residuos
  • Muestreador de Gibbs

\[p^{*}(\cdot)=\Phi\left[\sum_{j=1}^{m} g\left(\cdot ; T_{j}^{*}, M_{j}^{*}\right)\right]\]

Cadenas

Distribución

Resultados BART

Métricas

Curva ROC

Conclusiones

  • Recomendado cuando:
    • Hay pocos datos
    • Mucha información previa
  • Consistente
  • ¿Otros enlaces a parte de probit?