Mariana Costa Freitas
Onde:
Assim:
A margem é a distância entre as classes: \(\frac{2}{\|\mathbf{w}\|}\) e inimizar \(\|\mathbf{w}\|\) aumenta a margem;
As inequações garantem que pontos com \(y_i = +1\) satisfazem \(\mathbf{w} \cdot \mathbf{x}_i + b \geq 1\) e pontos com \(y_i = -1\) satisfazem \(\mathbf{w} \cdot \mathbf{x}_i + b \leq -1\).
Introduz variáveis de folga (\(\xi_i\)) para permitir erros: \[ \min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i \] - \(C\): Hiperparâmetro, “custo”/penalização por violar a margem. Um valor C maior estreita a margem para a classificação incorreta mínima, enquanto um valor C menor a amplia, permitindo a classificação incorreta de mais dados.
Dados não separáveis de forma linear;
Transformação dos dados para um espaço de maior dimensão, usando uma função kernel, onde a possível a separação com um hiperplano.
Linear: \(K(\mathbf{x}_i, \mathbf{x}_j)
= \mathbf{x}_i \cdot \mathbf{x}_j\)
Polinomial: \(K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)^d\)
RBF (Gaussiano): \(K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2)\)
Onde:
\(\epsilon\) é a largura do tubo de tolerância.
\(\xi_i, \xi_i^*\) são variáveis de folga acima e abaixo do tubo;
\(C\) é o parâmetro de regularização.
Investigar o tempo até a ocorrência de um evento de interesse;
Tempo até o evento: A variável resposta é o tempo desde um ponto de origem até a ocorrência do evento;
Função de Sobrevivência \(S(t)\): Probabilidade de um indivíduo sobreviver além do tempo t;
Função de Risco \(\lambda(t)\): Risco instantâneo de ocorrência do evento no tempo t, dado que sobreviveu até t;
Censura: Muitas vezes, o evento de interesse não é observado para todos os indivíduos durante o período de estudo. Isso pode ocorrer porque o estudo termina antes que o evento aconteça ou porque o indivíduo é perdido durante o acompanhamento.
Função indicadora \(\delta_i\): \(\delta_i = 1\) quando ocorre falha, \(\delta_i = 0\) se ocorre censura;
Para o cenário de censura à direita, seja \(T\) uma variável aleatória que representa o tempo de falha e \(C\) outra variável aleatória independente de \(T\) que representa o tempo de censura de um indivíduo, denotamos \(t = min(T, C)\).
Objetivo de encontrar uma função que estime os tempos de sobrevivência observados como valores contínuos de Y a partir das covariáveis X;
Desafio: adaptar o SVR para lidar com dados censurados;
Adaptação da penalização: no caso de censura à direita, são penalizadas as previsões abaixo do valor de censura, mas não as previsões acima desse valor; para as observações não censuradas o tempo é conhecido, então previsões maiores ou menores que esse tempo são penalizadas.
A segunda restrição
Só ativa quando \(\delta_i = 1\) (evento observado)
Penaliza superestimação do tempo de sobrevivência
Relaxada para dados censurados (\(\delta_i = 0\))
Método de ensemble: combina múltiplos modelos de Support Vector Machine para gerar um único modelo de predição mais preciso e robusto. A ideia é que a combinação de várias previsões pode reduzir os erros.
Ara et Al propõe uma forma de Random Machines que permite contornar a dificuldade de escolher o melhor kernel para cada caso, já que os métodos de escolha de trial evaluation e grid search demandam grande poder e tempo computacional.
Bootstrap Aggregation
Bootstrap é um método de reamostragem utilizado para estimar a distribuição amostral de uma estatística, reamostrando o conjunto de treino original com reposição. A estatística de interesse é calculada para cada amostra bootstrao e ao final obtém-se a sua distribuição empírica, que, assintoticamente, converge para a verdadeira distribuição da estatística.
Bagging cria múltiplas amostras bootstrap a partir do conjunto de traienamento dos dados, o modelo é aplicado a cada uma dessas amostras bootstrap, a fim de gerar predições. Ao final, essas predições são agregadas para gerar previsões com menor EQM, ao diminuir a variância principalmente de modelos instáveis.
Sejam:
Queremos comparar:
\[ \text{MSE}(\theta) = \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] \quad \text{e} \quad \text{MSE}(\theta_A) = \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] \]
Expansão do EQM do preditor individual
\[\begin{align*} \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] &= \mathbb{E}\left[ Y^2 - 2Y \theta(x, L) + \theta(x, L)^2 \right] \\ &= Y^2 - 2Y \mathbb{E}_L[\theta(x, L)] + \mathbb{E}_L[\theta(x, L)^2] \end{align*}\]
EQM do preditor agregado (bagged)
\[\begin{align*} \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] &= \mathbb{E}\left[ Y^2 - 2Y \theta_A(x) + \theta_A(x)^2 \right] \\ &= Y^2 - 2Y \theta_A(x) + \theta_A(x)^2 \end{align*}\]
Aplicando a desigualdade de Jensen
Como \(\theta_A(x) = \mathbb{E}_L[\theta(x, L)]\), pela desigualdade de Jensen:
\[ \mathbb{E}_L[\theta(x, L)^2] \geq \left( \mathbb{E}_L[\theta(x, L)] \right)^2 = \theta_A(x)^2 \]
Logo:
\[ \mathbb{E}\left[ (Y - \theta(x, L))^2 \right] \geq \mathbb{E}\left[ (Y - \theta_A(x))^2 \right] \]
Divisão do conjunto de dados em treino e teste;
Sendo \(R\) o número total de kernels a serem usados, \(h_r(x)\), \(r=1,...,R\), é a função que denota o modelo SVM utilizando kernel \(r\). Cada \(h_r(x)\) é aplicao ao conjunto de treino;
Os modelos são testados utilizando o conjunto de teste e para cada kernel é atribuída uma probabilidade de ser escolhido baseada na sua acurácia (no contexto de sobrevivência, índice de concordância):
\[ \lambda_r = \frac{log(\frac{ACC_r}{1-ACC_r})}{\sum_1^rlog(\frac{ACC_r}{1-ACC_r})}, \]
Em seguida é utilizado o bagging: são criadas \(B\) amostras bootstrap, sendo o modelo \(h_r(x)\) utilizado em cada amostra escolhido de maneira ponderada com base nas probabilidades previamente calculadas.
Para cada amostra bootstrap, observações do conjunto de treino não escolhidas para fazerem parte da amostra, essas observações formam então uma amostra de teste Out of Bag;
O modelo treinado na amostra bootstrap será testado na respectiva amostra Out of Bag, tendo sua acurácia calculada. Essa acurácia, da mesma forma que foi usada anteriormente, será usada para atribuir um “peso” àquele modelo;
Ao final, é retornado os modelos e os respectivos pesos atribuídos a eles. Para gerar previsões, é utilizada a predição de cada modelo e a predição final é uma média ponderada desses valores, com base no “peso” atribuído a cada modelo.
Ara, Anderson (2021). Random machines: A bagged-weighted support vector model with free kernel choice. Journal of Data Science, 19(3), 409–428.
Vanbelle, Vanya (2011). Support vector methods for survival analysis: a comparison between ranking and regression approaches. Artificial Intelligence in Medicine, 53, 107–118.
Fouodo, Césaire J. K., König, Inke R., Weihs, Claus, Ziegler, Andreas, & Wright, Marvin N. (2018). **Support Vector Machines for Survival Analysis with R*. The R Journal, 10**(1), 412–423. Link
Breiman, Leo (1996). Bagging Predictors. Machine Learning, 24, 123–140.