O que é SVM?

Máquinas de vetores de suporte;
Algoritmo de aprendizado de máquina supervisionado;
Objetivo: classificação de dados;
Hiperplano ótimo de margem máxima;
O número de variáveis explicativas dos dados de entrada determina a dimensão do hiperplano.

SVM Linear: “Hard Margin”

\[\begin{aligned} & \min_{\mathbf{w}} \quad \frac{1}{2} \|\mathbf{w}\|^2 \\ & \text{sujeito a} \quad y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 \quad \forall i = 1, \dots, n \end{aligned}\]

Onde:

\(\mathbf{w} \cdot \mathbf{x} + b = 0\) define o hiperplano
\(\mathbf{w}\): Vetor normal ao hiperplano.
\(b\): Viés (deslocamento do hiperplano).
\(\mathbf{x}_i\): Vetores de covariáveis
\(y_i \in \{-1, +1\}\): Rótulos das classes.

Assim:

A margem é a distância entre as classes: \(\frac{2}{\|\mathbf{w}\|}\) e inimizar \(\|\mathbf{w}\|\) aumenta a margem;
As inequações garantem que pontos com \(y_i = +1\) satisfazem \(\mathbf{w} \cdot \mathbf{x}_i + b \geq 1\) e pontos com \(y_i = -1\) satisfazem \(\mathbf{w} \cdot \mathbf{x}_i + b \leq -1\).

SVM Linear: “Hard Margin”

SVM Linear: “Soft Margin”

Introduz variáveis de folga (\(\xi_i\)) para permitir erros: \[ \min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \] - \(C\): Hiperparâmetro, “custo”/penalização por violar a margem. Um valor C maior estreita a margem para a classificação incorreta mínima, enquanto um valor C menor a amplia, permitindo a classificação incorreta de mais dados.

\(\xi_i\): Mede a violação da margem pelo ponto \(i\).

“Truque do Kernel”

Dados não separáveis de forma linear;
Transformação dos dados para um espaço de maior dimensão, usando uma função kernel, onde a possível a separação com um hiperplano.
Linear: \(K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j\)
Polinomial: \(K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)^d\)
RBF (Gaussiano): \(K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2)\)

“Truque do Kernel”

Support Vector Machine para Regressão (SVR)

Adaptação de SVM para problemas de regressão;
Busca encontrar uma função que aproxime os dados com menor erro de previsão possível;
Objetivo: minimizar o erro se previsão;
Define-se uma margem de tolerância (ε) ao redor da função de regressão, onde os erros não penalizados;
Apenas erros fora do ε-tube são considerados no cálculo de perda.

Support Vector Machine para Regressão (SVR)

\[\begin{aligned} \min_{\mathbf{w}, b, \xi, \xi^*} & \quad \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*) \\ \text{sujeito a} & \quad y_i - (\mathbf{w}^T \mathbf{x}_i + b) \leq \epsilon + \xi_i \\ & \quad (\mathbf{w}^T \mathbf{x}_i + b) - y_i \leq \epsilon + \xi_i^* \\ & \quad \xi_i, \xi_i^* \geq 0 \quad \forall i = 1, \dots, n \end{aligned}\]

Onde:

\(\epsilon\) é a largura do tubo de tolerância.
\(\xi_i, \xi_i^*\) são variáveis de folga acima e abaixo do tubo;
\(C\) é o parâmetro de regularização.

Análise de Sobrevivência: Conceitos Básicos

Investigar o tempo até a ocorrência de um evento de interesse;
Tempo até o evento: A variável resposta é o tempo desde um ponto de origem até a ocorrência do evento;
Função de Sobrevivência \(S(t)\): Probabilidade de um indivíduo sobreviver além do tempo t;
Função de Risco \(\lambda(t)\): Risco instantâneo de ocorrência do evento no tempo t, dado que sobreviveu até t;
Censura: Muitas vezes, o evento de interesse não é observado para todos os indivíduos durante o período de estudo. Isso pode ocorrer porque o estudo termina antes que o evento aconteça ou porque o indivíduo é perdido durante o acompanhamento.

Análise de Sobrevivência: Conceitos Básicos

Função indicadora \(\delta_i\): \(\delta_i = 1\) quando ocorre falha, \(\delta_i = 0\) se ocorre censura;
Para o cenário de censura à direita, seja \(T\) uma variável aleatória que representa o tempo de falha e \(C\) outra variável aleatória independente de \(T\) que representa o tempo de censura de um indivíduo, denotamos \(t = min(T, C)\).

Survival Support Vector Regression (SSVR)

Objetivo de encontrar uma função que estime os tempos de sobrevivência observados como valores contínuos de Y a partir das covariáveis X;
Desafio: adaptar o SVR para lidar com dados censurados;
Adaptação da penalização: no caso de censura à direita, são penalizadas as previsões abaixo do valor de censura, mas não as previsões acima desse valor; para as observações não censuradas o tempo é conhecido, então previsões maiores ou menores que esse tempo são penalizadas.

Survival Support Vector Regression (SSVR)

\[\begin{aligned} &\min_{\mathbf{w}, b, \xi, \xi^*} \frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*) \\ \text{sujeito a} & \quad y_i - (\mathbf{w}^T \mathbf{x}_i + b) \leq \epsilon + \xi_i \\ & \delta_i\quad (\mathbf{w}^T \mathbf{x}_i + b) - y_i \leq \epsilon + \xi_i^* \\ & \quad \xi_i, \xi_i^* \geq 0 \quad \forall i = 1, \dots, n \end{aligned}\]

A segunda restrição

Só ativa quando \(\delta_i = 1\) (evento observado)
Penaliza superestimação do tempo de sobrevivência
Relaxada para dados censurados (\(\delta_i = 0\))

Random Machines

Método de ensemble: combina múltiplos modelos de Support Vector Machine para gerar um único modelo de predição mais preciso e robusto. A ideia é que a combinação de várias previsões pode reduzir os erros.
Ara et Al propõe uma forma de Random Machines que permite contornar a dificuldade de escolher o melhor kernel para cada caso, já que os métodos de escolha de trial evaluation e grid search demandam grande poder e tempo computacional.

Random Machines Conceitos Auxiliares: Bagging

Bootstrap Aggregation
Bootstrap é um método de reamostragem utilizado para estimar a distribuição amostral de uma estatística, reamostrando o conjunto de treino original com reposição. A estatística de interesse é calculada para cada amostra bootstrao e ao final obtém-se a sua distribuição empírica, que, assintoticamente, converge para a verdadeira distribuição da estatística.
Bagging cria múltiplas amostras bootstrap a partir do conjunto de traienamento dos dados, o modelo é aplicado a cada uma dessas amostras bootstrap, a fim de gerar predições. Ao final, essas predições são agregadas para gerar previsões com menor EQM, ao diminuir a variância principalmente de modelos instáveis.

Random Machines Conceitos Auxiliares: Bagging

Sejam:

Queremos comparar:

\[ \text{MSE}(\theta) = \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] \quad \text{e} \quad \text{MSE}(\theta_A) = \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] \]

Expansão do EQM do preditor individual

\[\begin{align*} \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] &= \mathbb{E}\left[ Y^2 - 2Y \theta(x, L) + \theta(x, L)^2 \right] \\ &= Y^2 - 2Y \mathbb{E}_L[\theta(x, L)] + \mathbb{E}_L[\theta(x, L)^2] \end{align*}\]

EQM do preditor agregado (bagged)

\[\begin{align*} \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] &= \mathbb{E}\left[ Y^2 - 2Y \theta_A(x) + \theta_A(x)^2 \right] \\ &= Y^2 - 2Y \theta_A(x) + \theta_A(x)^2 \end{align*}\]

Random Machines Conceitos Auxiliares: Bagging

Aplicando a desigualdade de Jensen

Como \(\theta_A(x) = \mathbb{E}_L[\theta(x, L)]\), pela desigualdade de Jensen:

\[ \mathbb{E}_L[\theta(x, L)^2] \geq \left( \mathbb{E}_L[\theta(x, L)] \right)^2 = \theta_A(x)^2 \]

Logo:

\[ \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] \geq \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] \]

Random Machines: Algoritmo

Divisão do conjunto de dados em treino e teste;
Sendo \(R\) o número total de kernels a serem usados, \(h_r(x)\), \(r=1,...,R\), é a função que denota o modelo SVM utilizando kernel \(r\). Cada \(h_r(x)\) é aplicao ao conjunto de treino;
Os modelos são testados utilizando o conjunto de teste e para cada kernel é atribuída uma probabilidade de ser escolhido baseada na sua acurácia (no contexto de sobrevivência, índice de concordância):

\[ \lambda_r = \frac{log(\frac{ACC_r}{1-ACC_r})}{\sum_1^rlog(\frac{ACC_r}{1-ACC_r})}, \]

Random Machines: Algoritmo

Em seguida é utilizado o bagging: são criadas \(B\) amostras bootstrap, sendo o modelo \(h_r(x)\) utilizado em cada amostra escolhido de maneira ponderada com base nas probabilidades previamente calculadas.
Para cada amostra bootstrap, observações do conjunto de treino não escolhidas para fazerem parte da amostra, essas observações formam então uma amostra de teste Out of Bag;
O modelo treinado na amostra bootstrap será testado na respectiva amostra Out of Bag, tendo sua acurácia calculada. Essa acurácia, da mesma forma que foi usada anteriormente, será usada para atribuir um “peso” àquele modelo;
Ao final, é retornado os modelos e os respectivos pesos atribuídos a eles. Para gerar previsões, é utilizada a predição de cada modelo e a predição final é uma média ponderada desses valores, com base no “peso” atribuído a cada modelo.

Random Machines: Algoritmo

Iniciação Científica: Aplicação em Dados Oncológicos

Dados de pacientes de câncer colorretal do estado de São Paulo, registrados pela Fundação Oncocentro de São Paulo (FOSP) de 2000 a 2021. O objetivo é um modelo de predição de tempo até o óbito por câncer colorretal, a partir das covariáveis abaixo.

No algoritmo apresentado, está sendo implementada uma etapa de seleção de um subconjunto de variáveis para cada amostra bootstrap, a fim de verificar se implicará melhora na performance do modelo.

Referências

Ara, Anderson (2021). Random machines: A bagged-weighted support vector model with free kernel choice. Journal of Data Science, 19(3), 409–428.
Vanbelle, Vanya (2011). Support vector methods for survival analysis: a comparison between ranking and regression approaches. Artificial Intelligence in Medicine, 53, 107–118.
Fouodo, Césaire J. K., König, Inke R., Weihs, Claus, Ziegler, Andreas, & Wright, Marvin N. (2018). **Support Vector Machines for Survival Analysis with R*. The R Journal, 10**(1), 412–423. Link
Breiman, Leo (1996). Bagging Predictors. Machine Learning, 24, 123–140.

Support Vector Machine e Random Machines em Análise de Sobrevivência

O que é SVM?

O que é SVM?

SVM Linear: “Hard Margin”

SVM Linear: “Hard Margin”

SVM Linear: “Soft Margin”

SVM Linear: “Soft Margin”

“Truque do Kernel”

“Truque do Kernel”

Support Vector Machine para Regressão (SVR)

Support Vector Machine para Regressão (SVR)

Support Vector Machine para Regressão (SVR)

Análise de Sobrevivência: Conceitos Básicos

Análise de Sobrevivência: Conceitos Básicos

Survival Support Vector Regression (SSVR)

Survival Support Vector Regression (SSVR)

Random Machines

Random Machines Conceitos Auxiliares: Bagging

Random Machines Conceitos Auxiliares: Bagging

Random Machines Conceitos Auxiliares: Bagging

Random Machines: Algoritmo

Random Machines: Algoritmo

Random Machines: Algoritmo

Iniciação Científica: Aplicação em Dados Oncológicos

Referências