Apresentação dos resultados da disciplina PROJETO FINAL II

Lyncoln Sousa

Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de mÔquina.

Introdução

  • SINASC e Anomalia congĆŖnita.
  • Aprendizado de mĆ”quina.
  • Comparação entre os modelos logit, probit e complemento log-log.

Objetivos

  • Realizar uma anĆ”lise comparativa do poder discriminatório dos modelos logit, probite complemento log-log utilizados para avaliar a associação entre caracterĆ­sticas da mĆ£e edo recĆ©m-nascido e o desfecho de anomalia congĆŖnita.
  • Ajustar modelos preditores com potencial de identificar possĆ­vel presenƧa de anomalia congĆŖnita em recĆ©m-nascidos utilizando dados da mĆ£e e do recĆ©m-nascido.
  • Comparar os desempenhos das mĆ©tricas de qualidade de ajuste dos modelos utilizando tĆ©cnicas de bootstrap e k-fold para verificar qual tĆ©cnica de reamostragemdeduz o modelo mais eficiente para o problema.

Tipos de aprendizado de mƔquina

  • Aprendizado supervisionado
  • Aprendizado nĆ£o supervisionado
  • Aprendizado por reforƧo

Treino e teste

  • Base de dados Treino (70%)
  • Base de dados Teste (30%)

Validação cruzada

  • Treinamento de modelos utilizando reamostragem
  • Evita overftting(sobreajuste)
  • Avaliação do modelo na base teste
  • Simula o comportamento do modelo com dados novos

Reamostragens

Bootstrap

  • Base treino e base teste
  • Tipo de reamostragem aleatória com reposição
  • NĆŗmero ideal de amostras Ć© entre 50 a 200
  • Geralmente possui piores estimativas entre valores observados e previsto pior do que o k-fold, porĆ©m a variabilidade Ć© menor.

K-fold

  • Base treino e base teste
  • DivisĆ£o da base de dados em k pedaƧos iguais.
  • Quanto maior o k, serĆ” obtida uma estimativa mais precisa entre valores observados e previsto mas terĆ” alta variabilidade.
  • Quanto menor o k, as estimativas para a variĆ”vel resposta nĆ£o serĆ£o tĆ£o precisas porĆ©m terĆ” menor variabilidade.

Avaliação de modelos por aprendizado de mÔquina

Matriz de confusão (Confusion Matrix)

  • Maneira de avaliar a qualidade de um classificador
  • Sensibilidade \[\begin{equation} \label{senbilidade} \hbox{S} = P(\hat{Y} = 1/Y = 1) = \frac{P(\hat{Y} = 1 , Y = 1)}{P(Y = 1)} = \frac{VP}{VP+FN} \end{equation}\]
  • Especificidade \[\begin{equation} \label{especificidade} \hbox{E} = P(\hat{Y} = 0/Y = 0) = \frac{P(\hat{Y} = 0 , Y = 0)}{P(Y = 0)} =\frac{VN}{FP+VN} \end{equation}\]
  • AcurĆ”cia \[\begin{equation} \label{acuracia} \hbox{A} = P(\hat{Y} = 0,{Y} = 0) + P(\hat{Y} = 1,{Y} = 1) =\frac{VN+VP}{FP+FN+VP+VN} \end{equation}\]

Curva ROC (Receiver Operating Characteristic Curve)

  • Plot dos pontos de taxa de verdadeiro positivo (sensibilidade) e taxa de falsos positivos (1 - especificidade).
  • MĆ©trica AUC (Area Under Curve).
  • Compreendida entre 0.5 e 1.

Tipos de erros

  • Erro na amostra (In sample Error)
  • Erro fora da amostra (Out of sample error)

Modelos lineares generalizados (MLGs)

  • NĆ£o Ć© necessĆ”rio que a variĆ”vel resposta Y tenha distribuição normal
  • Modelos para Desfecho binĆ”rio
  • FunƧƵes ligação: Logit, Probit e Complemento Log-Log

VariƔvel latente para o modelo probit

  • VariĆ”veis aleatórias contĆ­nuas
  • ƍndice de propensĆ£o para a variĆ”vel resposta binĆ”ria observada assumir o valor 1 (Y = 1)
  • \[ Y_i = \left\{ \begin{array}{ll} 1 & \hbox{, se } Y^*_i > 0\\ 0 & \hbox{, se } Y^*_i \leq 0 \end{array} \right. \]

  • \[ p_i = P(Y_i = 1) = P(Y^*_i > 0) \]
  • \[ Y^*_i = \boldsymbol{x}_i^T\boldsymbol{\beta} + \epsilon_i \]
  • \[ p_i = P(Y^*_i > 0) = P(\epsilon_i > -\boldsymbol{x}_i^T\boldsymbol{\beta}) = F_Z(\boldsymbol{x}_i^T\boldsymbol{\beta}) \]
  • \[ F^{-1}_Z(p_i) = \boldsymbol{x}_i^T\boldsymbol{\beta} \]

Teste de Wald de significância individual

  • O teste de Wald Ć© baseado numa estatĆ­stica obtida atravĆ©s da razĆ£o entre o estimador de mĆ”xima verossimilhanƧa de \(\beta_j\) e o estimador do desvio seu desvio padrĆ£o.
  • \[ \left\{ \begin{array}{ll} \operatorname{H_0}:& \beta_j = 0,\\ \operatorname{H_1}:& \beta_j\neq 0 \end{array} \right. \]


  • \(Z = {\frac{\hat{\beta_j}}{\sqrt[]{\widehat{VAR}(\widehat{\beta}_j)}}} \sim N(0,1)\),
  • \(RC = \{z \in \mathbb{R} ; z < - z_{\frac{\alpha}{2}}\ ou \ z > z_{\frac{\alpha}{2}}\}\)

Teste de Wald de significância geral

  • Avaliar mĆŗltiplos parĆ¢metros
  • \[ \left\{ \begin{array}{ll} \operatorname{H_0}:& \boldsymbol{\beta_r} = \boldsymbol{0},\\ \operatorname{H_1}:& \boldsymbol{\beta_r} \neq \boldsymbol{0},\\ \end{array} \right. \]
  • \(W = \hat{\boldsymbol{\beta_r}}^T\boldsymbol{\widehat{V_r}}^{-1} \hat{\boldsymbol{\beta_r}} \sim \chi^2_{r}\)
  • \(RC = \{w \in \mathbb{R} ; w > \chi_{\alpha,r}^2 \}\)

CritƩrio de escolha do subconjunto de variƔveis explicativas para ajuste final do modelo

  • Reamostragens (k-fold e bootstrap) geram k amostras
  • Selecionar o melhor modelo que se ajusta aos dados
  • Escolher o subcojunto de variĆ”veis explicativas de acordo com o teste de Wald de significĆ¢ncia geral

  • Fixar MĆ©trica AUC, pois seu cĆ”lculo nĆ£o leva em conta um Ćŗnico ponto de corte
  • Verificar valor estimado de coeficiente de variação (CV)
  • NĆ£o existe uma alta dependencia da amostra
  • Escolhe o conjunto de variĆ”veis que mais se aproxima a \(\overline{AUC}\)

VariƔveis de estudo

  • DN de 2017 e 2018
  • QuestionĆ”rio preenchido por profissionais
  • 61 variĆ”veis
  • 2.923.535 observaƧƵes para 2017
  • 2.944.932 observaƧƵes para 2018

VariƔveis explicativas inicialmente escolhidas

VariƔveis explicativas tratadas para ajuste dos modelos

VariƔvel de interesse

  • IDANOMAL

Resultados

Distribuição dos dados

  • O modelo probit apresentou valores mĆ©dios de especificidade e de acurĆ”cia ligeiramente maiores para ambas reamostragens
  • A estimativa do coeficiente de variação (CV) foi menor que 1%
  • SerĆ” escolhido o conjunto de variĆ”veis explicativas da amostra que mais se aproximou ao \(\overline{AUC}\)
  • SerĆ£o ajustados dois modelos
  • Conjunto treino (70%) para ajuste do modelo
  • Conjunto teste (30%) para avaliar o ajuste do modelo para dados novos

  • AcurĆ”cia em torno de 74%
  • Especificidade em torno de 74%
  • Sensibilidade em torno de 47%
  • AUC de 0,649

ConclusƵes

  • Favorecimento para o modelo probit em ambas tĆ©cnicas de reamostragem
  • VariĆ”veis explicativas diferentes selecionadas por cada reamostragem
  • Resultados do ajuste dos modelos e simulação com dados previamente nĆ£o rotulados foram bastante parecidas
  • A reamostragem k-fold foi a mais rĆ”pida para ser executada
  • Boas taxas de acurĆ”cia e sensibilidade
  • AUC um pouco menor que 0.7

Alternativas para melhorar capacidade discriminatória do modelo

  • Incluir mais variĆ”veis explicativas da base do SINASC
  • Adotar outros tipos de modelos que se ajustam bem a desfechos raros

OBRIGADO!