Apresentação dos resultados da disciplina PROJETO FINAL II
Lyncoln Sousa
Estudo sobre anomalia congênita no Brasil utilizando dados do SINASC 2017 e 2018 comparando os modelos logit, probit e complemento log-log com apoio de aprendizado de mÔquina.
- SINASC e Anomalia congĆŖnita.
- Aprendizado de mƔquina.
- Comparação entre os modelos logit, probit e complemento log-log.
- Realizar uma anĆ”lise comparativa do poder discriminatório dos modelos logit, probite complemento log-log utilizados para avaliar a associação entre caracterĆsticas da mĆ£e edo recĆ©m-nascido e o desfecho de anomalia congĆŖnita.
- Ajustar modelos preditores com potencial de identificar possĆvel presenƧa de anomalia congĆŖnita em recĆ©m-nascidos utilizando dados da mĆ£e e do recĆ©m-nascido.
- Comparar os desempenhos das mƩtricas de qualidade de ajuste dos modelos utilizando tƩcnicas de bootstrap e k-fold para verificar qual tƩcnica de reamostragemdeduz o modelo mais eficiente para o problema.
Tipos de aprendizado de mƔquina
- Aprendizado supervisionado
- Aprendizado não supervisionado
- Aprendizado por reforƧo
Treino e teste
- Base de dados Treino (70%)
- Base de dados Teste (30%)
Validação cruzada
- Treinamento de modelos utilizando reamostragem
- Evita overftting(sobreajuste)
- Avaliação do modelo na base teste
- Simula o comportamento do modelo com dados novos
- Base treino e base teste
- Tipo de reamostragem aleatória com reposição
- NĆŗmero ideal de amostras Ć© entre 50 a 200
- Geralmente possui piores estimativas entre valores observados e previsto pior do que o k-fold, porƩm a variabilidade Ʃ menor.
- Base treino e base teste
- Divisão da base de dados em k pedaços iguais.
- Quanto maior o k, serĆ” obtida uma estimativa mais precisa entre valores observados e previsto mas terĆ” alta variabilidade.
- Quanto menor o k, as estimativas para a variÔvel resposta não serão tão precisas porém terÔ menor variabilidade.
Avaliação de modelos por aprendizado de mÔquina
Matriz de confusão (Confusion Matrix)
![]()
- Maneira de avaliar a qualidade de um classificador
- Sensibilidade \[\begin{equation}
\label{senbilidade} \hbox{S} = P(\hat{Y} = 1/Y = 1) = \frac{P(\hat{Y} = 1 , Y = 1)}{P(Y = 1)} = \frac{VP}{VP+FN}
\end{equation}\]
- Especificidade \[\begin{equation}
\label{especificidade} \hbox{E} = P(\hat{Y} = 0/Y = 0) = \frac{P(\hat{Y} = 0 , Y = 0)}{P(Y = 0)} =\frac{VN}{FP+VN}
\end{equation}\]
- AcurƔcia \[\begin{equation}
\label{acuracia} \hbox{A} = P(\hat{Y} = 0,{Y} = 0) + P(\hat{Y} = 1,{Y} = 1)
=\frac{VN+VP}{FP+FN+VP+VN}
\end{equation}\]
Curva ROC (Receiver Operating Characteristic Curve)
- Plot dos pontos de taxa de verdadeiro positivo (sensibilidade) e taxa de falsos positivos (1 - especificidade).
- MƩtrica AUC (Area Under Curve).
- Compreendida entre 0.5 e 1.
Tipos de erros
- Erro na amostra (In sample Error)
- Erro fora da amostra (Out of sample error)
Modelos lineares generalizados (MLGs)
- Não é necessÔrio que a variÔvel resposta Y tenha distribuição normal
- Modelos para Desfecho binƔrio
- Funções ligação: Logit, Probit e Complemento Log-Log
VariƔvel latente para o modelo probit
- VariĆ”veis aleatórias contĆnuas
- Ćndice de propensĆ£o para a variĆ”vel resposta binĆ”ria observada assumir o valor 1 (Y = 1)
- \[
Y_i = \left\{
\begin{array}{ll}
1 & \hbox{, se } Y^*_i > 0\\
0 & \hbox{, se } Y^*_i \leq 0
\end{array}
\right.
\]
- \[
p_i = P(Y_i = 1) = P(Y^*_i > 0)
\]
- \[
Y^*_i = \boldsymbol{x}_i^T\boldsymbol{\beta} + \epsilon_i
\]
- \[
p_i = P(Y^*_i > 0) = P(\epsilon_i > -\boldsymbol{x}_i^T\boldsymbol{\beta}) = F_Z(\boldsymbol{x}_i^T\boldsymbol{\beta})
\]
- \[
F^{-1}_Z(p_i) = \boldsymbol{x}_i^T\boldsymbol{\beta}
\]
Teste de Wald de significância individual
- O teste de Wald Ć© baseado numa estatĆstica obtida atravĆ©s da razĆ£o entre o estimador de mĆ”xima verossimilhanƧa de \(\beta_j\) e o estimador do desvio seu desvio padrĆ£o.
- \[
\left\{
\begin{array}{ll}
\operatorname{H_0}:& \beta_j = 0,\\
\operatorname{H_1}:& \beta_j\neq 0
\end{array}
\right.
\]
- \(Z = {\frac{\hat{\beta_j}}{\sqrt[]{\widehat{VAR}(\widehat{\beta}_j)}}} \sim N(0,1)\),
- \(RC = \{z \in \mathbb{R} ; z < - z_{\frac{\alpha}{2}}\ ou \ z > z_{\frac{\alpha}{2}}\}\)
Teste de Wald de significância geral
- Avaliar múltiplos parâmetros
- \[
\left\{
\begin{array}{ll}
\operatorname{H_0}:& \boldsymbol{\beta_r} = \boldsymbol{0},\\
\operatorname{H_1}:& \boldsymbol{\beta_r} \neq \boldsymbol{0},\\
\end{array}
\right.
\]
- \(W = \hat{\boldsymbol{\beta_r}}^T\boldsymbol{\widehat{V_r}}^{-1} \hat{\boldsymbol{\beta_r}} \sim \chi^2_{r}\)
- \(RC = \{w \in \mathbb{R} ; w > \chi_{\alpha,r}^2 \}\)
CritƩrio de escolha do subconjunto de variƔveis explicativas para ajuste final do modelo
![]()
- Reamostragens (k-fold e bootstrap) geram k amostras
- Selecionar o melhor modelo que se ajusta aos dados
- Escolher o subcojunto de variÔveis explicativas de acordo com o teste de Wald de significância geral
- Fixar Métrica AUC, pois seu cÔlculo não leva em conta um único ponto de corte
- Verificar valor estimado de coeficiente de variação (CV)
- NĆ£o existe uma alta dependencia da amostra
- Escolhe o conjunto de variƔveis que mais se aproxima a \(\overline{AUC}\)
- DN de 2017 e 2018
- QuestionƔrio preenchido por profissionais
- 61 variƔveis
- 2.923.535 observaƧƵes para 2017
- 2.944.932 observaƧƵes para 2018
VariƔveis explicativas inicialmente escolhidas
VariƔveis explicativas tratadas para ajuste dos modelos
Distribuição dos dados
![]()
- O modelo probit apresentou valores mƩdios de especificidade e de acurƔcia ligeiramente maiores para ambas reamostragens
- A estimativa do coeficiente de variação (CV) foi menor que 1%
- SerƔ escolhido o conjunto de variƔveis explicativas da amostra que mais se aproximou ao \(\overline{AUC}\)
- Serão ajustados dois modelos
- Conjunto treino (70%) para ajuste do modelo
- Conjunto teste (30%) para avaliar o ajuste do modelo para dados novos
- AcurƔcia em torno de 74%
- Especificidade em torno de 74%
- Sensibilidade em torno de 47%
- AUC de 0,649
ConclusƵes
- Favorecimento para o modelo probit em ambas tƩcnicas de reamostragem
- VariƔveis explicativas diferentes selecionadas por cada reamostragem
- Resultados do ajuste dos modelos e simulação com dados previamente não rotulados foram bastante parecidas
- A reamostragem k-fold foi a mais rƔpida para ser executada
- Boas taxas de acurƔcia e sensibilidade
- AUC um pouco menor que 0.7
Alternativas para melhorar capacidade discriminatória do modelo
- Incluir mais variƔveis explicativas da base do SINASC
- Adotar outros tipos de modelos que se ajustam bem a desfechos raros