Método

Análise estatística de dados

As análises estatísticas foram realizadas sucessivamente. Inicialmente, a base foi investigada em busca de inconsistências ou erros. Um relatório anexo é inserido com o resultado detalhado. Em seguida, as características dos participantes foram sintetizadas por gráficos e tabelas. Variáveis contínuas foram apresentadas por suas médias e desvios-padrão, enquanto variáveis discretas e categóricas foram apresentadas por contagens e proporções. Dados ausentes foram analisados em busca de padrões e, na inexistência destes, tiveram seus valores imputados pela técnica de imputação múltipla Predictive Mean Matching (PMM) com 50 replicações. Essa é uma técnica robusta que toma como padrão os resultados de múltiplos “doadores” com médias previstas similares àqueles casos ausentes. Assim, pela utilização do PMM, é possível refinar as estimativas obtidas pelos estimadores (Morris, White, & Royston, 2014).

Para investigar as eventuais influências ou efeitos de variáveis sociodemográficas nas condições clínicas, optou-se por técnicas paramétricas lineares. Dessa maneira, ANOVAs/Modelos de regressão foram utilizados neste sentido. É importante atentar que a estrutura estatística da ANOVA é entendida como um caso particular de um modelo de regressão em que as variáveis independentes são categóricas (Judd, McClelland, & Ryan, 2009).

Para levantar aspectos relacionados à validade de critério acerca das estratégias de planejamento e organização do TDR, optou-se por modelar os dados com um teste Qui-quadrado, uma Regressão Logística Multinomial (RLM), técnicas de Aprendizagem de Máquina (Machine Learning) e Data Mining. O qui-quadrado foi ajustado quando as células de comparação tiveram 20% das observações inferiores a 5. A RLM utilizou técnicas iterativas com até 20 iterações de convergência, as técnicas de ML foram baseadas em modelos “Classification and regression trees” (CART). Esses modelos são importantes no auxílio a explorar a estrutura de uma base de dados e verificar os possíveis preditores com base em critérios de combinações possíveis (Gordon, Breiman, Friedman, Olshen, & Stone, 1984). Finalmente, para verificar intensamente a base de dados visando identificar padrões úteis, válidos e eficazes que permitam explorar os efeitos e relações entre as estratégias de planejamento e organização do TDR e as outras variáveis, modelos de inferência difusa foram utilizados no framework de Data Mining (A completar).

O nível de significância foi previamente eleito em 0.05 e o método de Bonferroni foi utilizado em caso de múltiplas comparações. As análises foram realizadas no R 3.6 (R core team, 2017)com os pacotes tidyverse (Wickham, 2016), caret , nnet, party e randomforest e no Python versão 3.6.9 (Anaconda), com a plataforma Orange 3.2.1.

Resultados iniciais

Por diferentes fontes acadêmicas, sabe-se hoje que a performance em baterias neuropsicológicas recebe efeito de variáveis demográficas, sociais e contextuais. Dessa maneira, sexo, idade, escolaridade e estado civil foram selecionadas para compor as análises, que também contou com como variáveis correlatas, tais como meem, lawtonpcte, fvanima, gds, pfeffer, mattistotal e soma_a1a5.

Dado que um objetivo principal do trabalho é verificar as estratégias utilizadas no TDR e sua relação com a condição clínica (diagnóstico), o nível mais básico destas estratégias também compuseram a base analítica (estr_seq_ger_categ, circnumcenpont, circnumpont, circcentronumpont, esg_atipico, esg_mista, estr_seq_num_cat, sequencial, quadrante, metade, esn_mista, esn_atipico)

Entre essas variáveis, apenas os resultados da Escala Pfeffer tiveram valores ausentes (23.44%), tal como apresentado no gráfico a seguir,

Entretanto, uma vez que a análise de seus padrões apontou que eles são MCAR, optou-se pelo processo de múltipla imputação para deixar as estimativas pontuais e intervalares mais acuradas.

A tabela a seguir apresenta cada uma das variáveis e suas principais estatísticas descritivas.

Data summary
Name Piped data
Number of rows 64
Number of columns 32
_______________________
Column type frequency:
factor 5
numeric 27
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
protocolo 0 1 FALSE 64 CCL: 1, CCL: 1, CCL: 1, CCL: 1
estr_seq_ger_categ 0 1 FALSE 5 cir: 28, Ati: 13, Mis: 9, cir: 8
estr_seq_num_cat 0 1 FALSE 5 Seq: 33, Qua: 19, Mis: 6, Met: 4
diagmedico 0 1 FALSE 3 Sau: 28, CCL: 23, D: 13
sexo_fct 0 1 FALSE 2 Mul: 50, Hom: 14

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
sexo 0 1 0.22 0.42 0 0.00 0.0 0.00 1 ▇▁▁▁▂
idade 0 1 73.69 7.32 60 68.00 73.5 80.00 87 ▃▇▆▇▅
escolaridade 0 1 11.95 5.50 4 6.75 12.0 17.00 24 ▇▇▃▆▂
estcivil 0 1 2.81 0.97 1 2.00 3.0 4.00 4 ▁▇▁▅▇
meem 0 1 24.28 4.47 13 22.00 25.5 27.25 30 ▂▂▅▇▇
lawtonpcte 0 1 19.48 2.45 9 19.00 20.0 21.00 21 ▁▁▁▁▇
fvanima 0 1 16.16 6.27 1 12.00 17.0 21.25 29 ▁▆▇▇▃
gds 0 1 3.19 2.38 0 1.00 3.0 4.25 9 ▆▇▃▂▂
pfeffer 0 1 3.83 7.31 0 0.00 0.0 3.25 27 ▇▁▁▁▁
mattistotal 0 1 125.84 19.47 62 115.75 133.5 140.00 144 ▁▁▂▂▇
soma_a1a5 0 1 37.48 14.05 7 26.75 37.5 47.25 65 ▃▅▇▇▃
tempo 0 1 71.70 50.71 21 41.25 54.0 85.75 247 ▇▃▁▁▁
estrategia_sequencia_geral 0 1 2.48 1.55 1 1.00 2.0 4.00 5 ▇▂▂▃▂
circnumcenpont 0 1 0.44 0.50 0 0.00 0.0 1.00 1 ▇▁▁▁▆
circnumpont 0 1 0.12 0.33 0 0.00 0.0 0.00 1 ▇▁▁▁▁
circcentronumpont 0 1 0.09 0.29 0 0.00 0.0 0.00 1 ▇▁▁▁▁
esg_atipico 0 1 0.20 0.41 0 0.00 0.0 0.00 1 ▇▁▁▁▂
esg_mista 0 1 0.14 0.35 0 0.00 0.0 0.00 1 ▇▁▁▁▁
estrategia_sequencia_numerica 0 1 1.83 1.11 1 1.00 1.0 2.00 5 ▇▅▁▂▁
sequencial 0 1 0.52 0.50 0 0.00 1.0 1.00 1 ▇▁▁▁▇
quadrante 0 1 0.30 0.46 0 0.00 0.0 1.00 1 ▇▁▁▁▃
metade 0 1 0.06 0.24 0 0.00 0.0 0.00 1 ▇▁▁▁▁
esn_mista 0 1 0.09 0.29 0 0.00 0.0 0.00 1 ▇▁▁▁▁
esn_atipico 0 1 0.03 0.18 0 0.00 0.0 0.00 1 ▇▁▁▁▁
diagmedico_num 0 1 0.77 0.77 0 0.00 1.0 1.00 2 ▇▁▆▁▃
cond_clinica 0 1 0.56 0.50 0 0.00 1.0 1.00 1 ▆▁▁▁▇
id 0 1 32.50 18.62 1 16.75 32.5 48.25 64 ▇▇▇▇▇

Em relação ao sexo dos participantes, é possível verificar que cerca de 80% dos participantes tem sexo feminino (X2(1) = 20.25, p < 0.01)

A idade média dos participantes foi de 73.7 (DP = 7.32). No entanto, a média etária de homens foi significativamente maior do que a de mulheres (M = 78, t(62) = -2.3, p = 0.03, IC 95% [-9.17,-0.59]). O gráfico a seguir apresenta o resultado.

## 
##  Two Sample t-test
## 
## data:  idade by sexo_fct
## t = -2.3, df = 62, p-value = 0.03
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -9.1659 -0.5941
## sample estimates:
## mean in group Mulher  mean in group Homem 
##                72.62                77.50

No que diz respeito à escolaridade, em média, os participantes estudaram por 12 anos (DP = 5.5). Não houve diferença em função do sexo (t(62) = -0.15, p = 0.9, IC 95% [-3.59,3.10])

## 
##  Two Sample t-test
## 
## data:  escolaridade by sexo_fct
## t = -0.15, df = 62, p-value = 0.9
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.591  3.105
## sample estimates:
## mean in group Mulher  mean in group Homem 
##                11.90                12.14

Já em relação ao estado civil, a maioria dos participantes apresentou categoria2, seguida pela categoria 4, categoria 3 e, finalmentem categoria 1 (X2(3) = 16, p < 0.01).

Condições clínicas

Nesta pesquisa, a maioria dos participantes era saudável (n = 28, 43.8%), seguido por participantes com diagnóstico de CCL (n = 23, 35.9%) e com algum tipo de demência (n = 13, 20.3%). A proporção de participantes em cada categoria não foi significativamente distinta (X2(2) = 5.5, p = 0.06).

A distribuição dos resultados (pontuação) obtidos no MEEM, Fluência verbal (animais), Escala Mattis, Lawton e Pfeffer, a soma A1-A5 do RAVLT e o tempo gasto para realizar o TDR encontra-se apresentada a seguir.

Neste sentido, a tabela abaixo detalha os resultados

## Descriptive Statistics  
## base_uso2  
## Group: diagmedico = CCL  
## N: 23  
## 
##                     fvanima      gds   lawtonpcte   mattistotal     meem   pfeffer   soma_a1a5    tempo
## ----------------- --------- -------- ------------ ------------- -------- --------- ----------- --------
##              Mean     15.57     3.09        20.09        125.35    24.87      1.00       35.09    57.09
##           Std.Dev      5.78     2.66         1.16         12.46     2.49      1.41        9.79    20.77
##               Min      7.00     0.00        17.00         98.00    22.00      0.00       15.00    30.00
##                Q1     11.00     1.00        20.00        115.00    22.00      0.00       27.00    42.00
##            Median     15.00     2.00        20.00        127.00    25.00      0.00       35.00    51.00
##                Q3     20.00     5.00        21.00        137.00    27.00      1.00       43.00    71.00
##               Max     26.00     9.00        21.00        143.00    29.00      5.00       55.00   114.00
##               MAD      5.93     1.48         1.48         14.83     2.97      0.00       11.86    17.79
##               IQR      8.00     3.50         1.00         20.50     4.50      1.00       15.50    26.50
##                CV      0.37     0.86         0.06          0.10     0.10      1.41        0.28     0.36
##          Skewness      0.25     0.80        -1.15         -0.44     0.21      1.29        0.05     0.94
##       SE.Skewness      0.48     0.48         0.48          0.48     0.48      0.48        0.48     0.48
##          Kurtosis     -1.17    -0.52         0.29         -0.86    -1.52      0.61       -0.75     0.38
##           N.Valid     23.00    23.00        23.00         23.00    23.00     23.00       23.00    23.00
##         Pct.Valid    100.00   100.00       100.00        100.00   100.00    100.00      100.00   100.00
## 
## Group: diagmedico = D  
## N: 13  
## 
##                     fvanima      gds   lawtonpcte   mattistotal     meem   pfeffer   soma_a1a5    tempo
## ----------------- --------- -------- ------------ ------------- -------- --------- ----------- --------
##              Mean     10.08     3.77        16.08         98.31    18.23     16.23       20.08   116.85
##           Std.Dev      5.75     1.92         3.50         21.03     4.85      7.95        7.39    70.74
##               Min      1.00     2.00         9.00         62.00    13.00      4.00        7.00    37.00
##                Q1      7.00     2.00        14.00         82.00    14.00      9.00       15.00    68.00
##            Median     10.00     3.00        16.00        100.00    18.00     17.00       21.00    90.00
##                Q3     12.00     5.00        19.00        109.00    21.00     23.00       24.00   179.00
##               Max     22.00     7.00        21.00        131.00    26.00     27.00       33.00   247.00
##               MAD      4.45     1.48         4.45         26.69     5.93     10.38        8.90    60.79
##               IQR      5.00     3.00         5.00         27.00     7.00     14.00        9.00   111.00
##                CV      0.57     0.51         0.22          0.21     0.27      0.49        0.37     0.61
##          Skewness      0.40     0.56        -0.39         -0.10     0.38     -0.23        0.14     0.60
##       SE.Skewness      0.62     0.62         0.62          0.62     0.62      0.62        0.62     0.62
##          Kurtosis     -0.61    -1.34        -1.00         -1.24    -1.42     -1.59       -1.03    -1.29
##           N.Valid     13.00    13.00        13.00         13.00    13.00     13.00       13.00    13.00
##         Pct.Valid    100.00   100.00       100.00        100.00   100.00    100.00      100.00   100.00
## 
## Group: diagmedico = Saudável  
## N: 28  
## 
##                     fvanima      gds   lawtonpcte   mattistotal     meem   pfeffer   soma_a1a5    tempo
## ----------------- --------- -------- ------------ ------------- -------- --------- ----------- --------
##              Mean     19.46     3.00        20.57        139.04    26.61      0.39       47.54    62.75
##           Std.Dev      4.53     2.36         0.57          3.97     2.74      1.31       10.12    46.67
##               Min     11.00     0.00        19.00        133.00    20.00      0.00       28.00    21.00
##                Q1     16.50     1.00        20.00        135.50    25.50      0.00       39.50    33.50
##            Median     19.50     3.00        21.00        139.50    26.50      0.00       47.50    46.00
##                Q3     22.00     4.00        21.00        143.00    29.00      0.00       54.50    71.00
##               Max     29.00     8.00        21.00        144.00    30.00      5.00       65.00   213.00
##               MAD      3.71     2.97         0.00          5.19     3.71      0.00       11.12    22.98
##               IQR      5.25     3.00         1.00          7.25     3.25      0.00       14.50    35.75
##                CV      0.23     0.79         0.03          0.03     0.10      3.35        0.21     0.74
##          Skewness      0.01     0.62        -0.84         -0.26    -0.67      3.05       -0.01     1.84
##       SE.Skewness      0.44     0.44         0.44          0.44     0.44      0.44        0.44     0.44
##          Kurtosis     -0.79    -0.58        -0.43         -1.46    -0.34      7.78       -1.10     2.83
##           N.Valid     28.00    28.00        28.00         28.00    28.00     28.00       28.00    28.00
##         Pct.Valid    100.00   100.00       100.00        100.00   100.00    100.00      100.00   100.00

Finalmente, a hipótese de iguldade de resultados entre os grupos foi testada por uma ANOVA, em testes realizados de forma independente para cada variável. os resultados estão dispostos na tabela a seguir.

## 
## --------Summary descriptives table by 'diagmedico'---------
## 
## _________________________________________________________ 
##                 CCL          D       Saudável   p.overall 
##                N=23        N=13        N=28               
## ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ 
## meem        24.9 (2.49) 18.2 (4.85) 26.6 (2.74)  <0.001   
## fvanima     15.6 (5.78) 10.1 (5.75) 19.5 (4.53)  <0.001   
## gds         3.09 (2.66) 3.77 (1.92) 3.00 (2.36)   0.615   
## mattistotal 125 (12.5)  98.3 (21.0) 139 (3.97)   <0.001   
## lawtonpcte  20.1 (1.16) 16.1 (3.50) 20.6 (0.57)  <0.001   
## pfeffer     1.00 (1.41) 16.2 (7.95) 0.39 (1.31)  <0.001   
## soma_a1a5   35.1 (9.79) 20.1 (7.39) 47.5 (10.1)  <0.001   
## tempo       57.1 (20.8) 117 (70.7)  62.8 (46.7)   0.001   
## ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

Entre as diferentes interpretações que os resultados significativos em uma avaliação neuropsicológica podem ter, quando eles são aplicados ao delineamento de uma pesquisa, eles indicam que o processo diagnóstico foi adequado e, consequentemente, as comparações possíveis entre os grupos apresentam validade empírica.

Validade de critério

Classificamente, a noção de validade de critério se refere a quanto os resultados de uma determinada avaliação estão de acordo com os resultados de outra que utiliza os mesmos critérios (ref). Nesse sentido, quão maior a validade de critério de uma forma de avaliação, maior o grau de eficácia dela em predizer o desempenho de um sujeito e, consequentemente, maior o poder preditivo para utilização dos resultados obtidos decorrentes da avaliação realizada para predizer outros desfechos (ref).

Muitas estratégias analíticas podem ser utilizadas para verificar se um determinado tipo de avaliação é preditora de outro. Inicialmente, optou-se por verificar a associação entre ambas as variáveis a partir de um teste Qui-quadrado, que mostrou-se não significativo (X2(8) = 15, p = 0.06). A tabela de contingência a seguir apresenta tal relacionamento.

estr_seq_ger_categ CCL D Saudável Total
Atipico 9% (2) 54% (7) 14% (4) 20% (13)
circulo-centro-numero-ponteiro 13% (3) 0% (0) 11% (3) 9% (6)
circulo-numero-centro-ponteiro 43% (10) 31% (4) 50% (14) 44% (28)
circulo-numero-ponteiro 22% (5) 0% (0) 11% (3) 13% (8)
Mista 13% (3) 15% (2) 14% (4) 14% (9)
Total 100% (23) 100% (13) 100% (28) 100% (64)
## 
##  Pearson's Chi-squared test
## 
## data:  base_uso2$estr_seq_ger_categ and base_uso2$diagmedico
## X-squared = 15, df = 8, p-value = 0.06
estr_seq_num_cat CCL D Saudável Total
Atipico 0% (0) 15% (2) 0% (0) 3% (2)
Metade 4% (1) 15% (2) 4% (1) 6% (4)
Mista 9% (2) 8% (1) 11% (3) 9% (6)
Quadrante 30% (7) 8% (1) 39% (11) 30% (19)
Sequencial 57% (13) 54% (7) 46% (13) 52% (33)
Total 100% (23) 100% (13) 100% (28) 100% (64)
## 
##  Pearson's Chi-squared test with simulated p-value (based on 2000
##  replicates)
## 
## data:  base_uso2$estr_seq_num_cat and base_uso2$diagmedico
## X-squared = 13, df = NA, p-value = 0.08

No entanto, uma vez que o qui-quadrado não modela o efeito de uma variável em outra, a regressão logística multinomial foi realizada para investigar o relacionamento entre os tipos de estratégias (geral e numérica) nos desfechos clínicos. Tomou-se como valor de referência participantes saudáveis no que diz respeito ao diagnóstico e participantes que tinha executado a estratégia atípica durante a avaliação.

## # weights:  18 (10 variable)
## initial  value 70.311186 
## iter  10 value 59.706122
## iter  20 value 59.574903
## final  value 59.574583 
## converged
## # weights:  18 (10 variable)
## initial  value 70.311186 
## iter  10 value 61.565233
## iter  20 value 61.248494
## final  value 61.248215 
## converged
## 
## =============================================================================
##                                                      Dependent variable:     
##                                                  ----------------------------
##                                                       CCL             D      
##                                                       (1)            (2)     
## -----------------------------------------------------------------------------
## estr_seq_ger_categMista                              0.404         -1.253    
##                                                    p = 0.727      p = 0.242  
##                                                                              
## estr_seq_ger_categcirculo-centro-numero-ponteiro     0.692         -12.040   
##                                                    p = 0.562      p = 0.947  
##                                                                              
## estr_seq_ger_categcirculo-numero-centro-ponteiro     0.356        -1.813**   
##                                                    p = 0.712      p = 0.032  
##                                                                              
## estr_seq_ger_categcirculo-numero-ponteiro            1.203         -11.460   
##                                                    p = 0.289      p = 0.932  
##                                                                              
## Constant                                             -0.692         0.560    
##                                                    p = 0.425      p = 0.372  
##                                                                              
## -----------------------------------------------------------------------------
## Akaike Inf. Crit.                                   139.100        139.100   
## =============================================================================
## Note:                                             *p<0.1; **p<0.05; ***p<0.01
## 
## =======================================================
##                                Dependent variable:     
##                            ----------------------------
##                                 CCL             D      
##                                 (1)            (2)     
## -------------------------------------------------------
## estr_seq_num_catMetade         3.946*        -9.366    
##                              p = 0.095      p = 0.931  
##                                                        
## estr_seq_num_catMista          3.543         -11.150   
##                              p = 0.109      p = 0.917  
##                                                        
## estr_seq_num_catQuadrante      3.496         -12.460   
##                              p = 0.101      p = 0.908  
##                                                        
## estr_seq_num_catSequencial     3.948*        -10.680   
##                              p = 0.063      p = 0.921  
##                                                        
## Constant                      -3.948*        10.060    
##                              p = 0.060      p = 0.926  
##                                                        
## -------------------------------------------------------
## Akaike Inf. Crit.             142.500        142.500   
## =======================================================
## Note:                       *p<0.1; **p<0.05; ***p<0.01

Machine Learning

Com os resultados obtidos até o momento, tecnicas de aprendizagem de máquina foram implemenadas. Inicialmente, investigou-se a capacidade de predição de cada estratégia utilizada nos quadros clínicos por uma árvore de probabilidade condicional. Este método utiliza critérios estatísticos para eleger as variáveis da árvore, bem como para dividi-las.

Em relação à estrategia geral vista em conjunto, não foi possível verificar sua relação preditiva com os desfechos clínicos. O diagrama a seguir apresenta o resultado.

Entretanto, divindindo por cada estratégia possível de maneira individualizada, aqueles participantes cuja estratégia foi considerada atipica tiveram uma maior probabiidade de se filiarem no grupo dos participantes com algum tipo de Demência. Por sua vez, aqueles participantes que não realizaram o TDR com uma estratégeia atípica podem se filiar, virutalmente com a mesma probabilidade, como portadores de CCL ou saudáveis.

## 
##   Conditional inference tree with 2 terminal nodes
## 
## Response:  diagmedico 
## Inputs:  circnumcenpont, circnumpont, circcentronumpont, esg_atipico, esg_mista 
## Number of observations:  64 
## 
## 1) esg_atipico == {1}; criterion = 0.983, statistic = 11.396
##   2)*  weights = 13 
## 1) esg_atipico == {0}
##   3)*  weights = 51

Em relação às estratégias de sequência numérica, nem o compilado delas, nem suas estratégias individuais foram relacionadas com os grupos clínicos.

Finalmente, para visualizar todas as possíveis variáveis que se associam (linearmente ou não) ao diagnóstico clínico, investigou-se a base completa.

É possível verificar que a pontuação na escala Pfeffer e na Mattis são as únicas variáveis relacionadas aos quadrados clínicos.

Data Mining

Utilizando o Sampling type “Stratified 10-fold Cross validation” e permitindo que o Target class fosse a média entre todas as classes.

O CA significa “Classification accuracy”.

O cross validation vai melhora a analise preditiva usando o metdo de arvore ? A acurácia que ele encntrou usando o cv é de 0.78 em média. Nesse caso, a CV não está melhorando a acurácia do modelo

Separando o grupo em duas partes (80% para treinar o modelo e 20% para testar o modelo).

O random forest roda o modelo e o explainer vai explicar o black-box (a caixa preta do modelo).

## 
## Call:
##  randomForest(formula = diagmedico ~ ., data = df, localImp = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 4
## 
##         OOB estimate of  error rate: 18.75%
## Confusion matrix:
##          CCL  D Saudável class.error
## CCL       16  1        6     0.30435
## D          3 10        0     0.23077
## Saudável   2  0       26     0.07143

Nessa matriz de confusão, havia 23 CCL e ele acertou 16.

Agora ele vai calcular, para este modelo, a importância de cada variável. Nesta tabela, há as variáveis (nome de cada variável), o mean_min_depth (profundidade da árvore), no_of_nodes (número de galhos da árvore), accuracy_decrease. O plot é uma média da floresta. Quanto mais vezes aquela variável apareceu na floresta, mais importante ela é pra detectar o diagnóstico.

No entanto, se eu quiser saber quantas vezes uma variável precisa aparecer para ele ter sua importancia no modelo, pode-se usar o min_depth_frame. Quanto menos árvores ele precisa para falar que uma variável é importante, isso é o iedal. Por exemplo, no eSN_atipico. Para sexo, ele precisou de 300 arvores. No caso, sexo não é uma variável tão imporatante para explicar o diagnóstico.

Para checar o modelo

Variable interactions

Conditional minimal depth After selecting a set of most important variables we can investigate interactions with respect to them, i.e. splits appearing in maximal subtrees with respect to one of the variables selected. To extract the names of 5 most important variables according to both the mean minimal depth and number of trees in which a variable appeared, we pass our importance_frame to the function important_variables as follows:

We pass the result together with or forest to the min_depth_interactions function to obtain a data frame containing information on mean conditional minimal depth of variables with respect to each element of vars (missing values are filled analogously as for unconditional minimal depth, in one of three ways specified by mean_sample). If we would not specify the vars argument then the vector of conditioning variables would be by default obtained using important_variables(measure_importance(forest)).