Tabelas normativas

Frequentemente, os pesquisadores têm o interesse de verificar o quanto um conjunto de variáveis pode explicar um determinado fenômeno. Esta iniciativa é feita para confeccionar as normas (iniciais) de um teste psicológico que, por sua vez, são fundamentais para posicionar os respondentes dentro de um continuum que o instrumento se propõe a medir. Evidentemente, para a construção de normas válidas, é preciso que a amostra avaliada seja representativa da população a quem o teste se refere.

Para exemplificar esta situação na área da Neuropsicologia clínica, imaginemos a situação do Trail Making Test. Está é uma atividade frequentemente utilizada em Neuropsicologia clínica e, em uma de suas etapas, os participantes devem ligar números a letras de forma sucessiva, o mais rápido possível, sem retirar o lápis do papel e sem cruzar as linhas.O tempo de resposta é medido em segundos e revela a performance do participante. Imaginemos que este teste foi aplicado a uma amostra representativa de 100 participantes e que agora queremos construir uma tabela normativa considerando as variáveis significativas na explicação da performance das pessoas.

Este modelo descrito pode ser apresentado a partir de uma regressão múltipla, onde o tempo de reação (y, variável dependente/prevista deste teste) pode ser explicado a partir de diversas variáveis independentes/preditoras dos participantes (x). Algebricamente:

\[ \hat{Y}_i = \hat{\beta}_0 + {\sum_{i=1}^n} \beta_iX_{ij}+ \hat{\epsilon}_i \] Onde:

\(\hat{Y}_i\) é o Valor previsto para o sujeito i

\(\hat{Y}_i\) é o Intercepto e representa o valor de \(\hat{Y}_i\) quando x é igual a 0

\(\hat\beta_1\) é a Inclinação parcial

\(\hat\epsilon_1\) Diferença do valor previsto \(\hat{Y}_i\) e o valor atual de \(Y_i\)

Nota: É importante mencionar que como estamos trabalhando com pesquisas estatísticas (em que não temos acesso à toda população), os símbolos ganham um “chapéu” para indicar que são estimativas.

Dada esta confecção incial, agora é preciso saber quais são as variáveis preditoras que devem ser mantidas nas normas e quais devem ser retiradas. Para que este processo seja capaz de gerar um modelo parcimonioso, ou seja, que combine a melhor capacidade explicativa com o menor conjunto de variáveis, será necessário combinar a teoria psicológica com a aplicação de testes de hipóteses. A teoria servirá para imputar as variáveis iniciais do modelo e o teste de hipóteses será utilizado para confirmar (ou não) a significância da variável.

Assim sendo, a revisão da literatura sobre este teste indica que “escolaridade” e a “idade” são preditores significativos para “performance”, mas ainda não há consenso em relação ao “sexo” do participante. Desta maneira, podemos criar um primeiro modelo em que todas as potenciais variáveis explicativas estejam incluídas e, dada esta condição, chamá-lo chamado de “irrestrito”. Algebricamente, ele pode ser escrito assim:

\[ \hat{Performance}_i = \hat{\beta}_0 + \hat\beta_1Escolaridade + \hat\beta_2Idade + \hat\beta_3Sexo + \hat{\epsilon}_i \]

Em seguida, estimar este modelo com os dados coletados e verificar se todos os pressupostos desta técnica foram alcançados. A tabela 1 descreve os resultados obtidos utiizando dados simulados e, por finalidade acadêmica, consideraremos os pressupostos cumpridos.


Tabela 1. Coeficientes do modelo de regressão múltipla (Modelo irrestrito)
===============================================
                        Dependent variable:    
                    ---------------------------
                               tempo           
-----------------------------------------------
Constant            41.162*** (36.301, 46.022) 
escolaridade        -0.332*** (-0.484, -0.180) 
idade                 0.197*** (0.111, 0.283)  
sexo                   0.484 (-1.168, 2.137)   
-----------------------------------------------
Observations                    100            
R2                             0.231           
Adjusted R2                    0.207           
Residual Std. Error       5.023 (df = 96)      
F Statistic            9.606*** (df = 3; 96)   
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

Pelo menos quatro conclusões podem ser obtidas desta tabela.

Neste exemplo, vemos que tanto a “escolaridade”, medida em anos de estudo, quanto a “idade” são variáveis significativas. Desta maneira, podemos interpretar tais resultados da seguinte forma: em média,

Apesar do intercepto ser significativo, ele não tem interpretação neste exemplo. Isto ocorre, pois o intercepto apresenta o valor de Y quando as variáveis X são iguais a 0, o que não é possível para estes dados. No entanto, pela análise da diferença entre o R2 e o R2 ajustado e pela variável “sexo” não ter sido significativa, podemos supor que haja variáveis excessivas no modelo. Isto ocorre pois cada nova variável adicionada a um modelo de regressão, espúria ou não, gera aumento do R2. Assim, o R2 ajustado é uma estatística mais confiável, já que aplica correções à complexidade do modelo. Seu cálculo se apresenta assim:

\[ R_{ajd}^2 = 1-\frac{SQR/(n-k-1)}{SQT/(n-1)} \]

Onde: SQR = Soma do quadrado dos resíduos n = Total de participantes k = Total de preditores do modelo (Lembre-se que este modelo tem 3 preditores e concorre com o modelo que usa apenas a média.) SQR = Soma do quadrado total

Diante da situação combinada da diferença entre o R2 e o R2ajustado e da variável “sexo” não ter sido significativa, torna-se importante construir um modelo restrito, em que apenas as variáveis significativas estejam presentes. Assim, se este modelo não for significativamente diferente do modelo irrestrito, teremos um alcançado a parcimônia que queremos. Desta vez, o modelos será:

\[ \hat{Performance}_i = \hat{\beta}_0 + \beta_1Escolaridade + \beta_2Idade + \hat{\epsilon}_i \]

Que gera os seguintes resultados:


Tabela 2. Coeficientes do modelo de regressão múltipla (Modelo restrito)
===============================================
                        Dependent variable:    
                    ---------------------------
                               tempo           
-----------------------------------------------
Constant            41.429*** (36.674, 46.184) 
escolaridade        -0.333*** (-0.484, -0.182) 
idade                 0.197*** (0.111, 0.282)  
-----------------------------------------------
Observations                    100            
R2                             0.229           
Adjusted R2                    0.213           
Residual Std. Error       5.003 (df = 97)      
F Statistic           14.407*** (df = 2; 97)   
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

Para facilitar a visualização, a tabela 3 apresenta ambos os modelos lado a lado.


Tabela 2. Coeficientes do modelo de regressão múltipla (Modelo restrito)
================================================================
                                Dependent variable:             
                    --------------------------------------------
                                       tempo                    
                             (1)                   (2)          
----------------------------------------------------------------
Constant                  41.162***             41.429***       
                      (36.301, 46.022)       (36.674, 46.184)   
                                                                
escolaridade              -0.332***             -0.333***       
                      (-0.484, -0.180)       (-0.484, -0.182)   
                                                                
idade                     0.197***               0.197***       
                       (0.111, 0.283)         (0.111, 0.282)    
                                                                
sexo                        0.484                               
                       (-1.168, 2.137)                          
                                                                
----------------------------------------------------------------
Observations                 100                   100          
R2                          0.231                 0.229         
Adjusted R2                 0.207                 0.213         
Residual Std. Error    5.023 (df = 96)       5.003 (df = 97)    
F Statistic         9.606*** (df = 3; 96) 14.407*** (df = 2; 97)
================================================================
Note:                                *p<0.1; **p<0.05; ***p<0.01

Podemos verificar que, apesar do R2 ter diminuído, o R2 ajustado aumentou. Além disso, o erro padrão do resíduo foi também menor no modelo restrito, o que aponta para superioridade deste último. Porém, para evitar erros de julgamento baseado em comparações visuais e aleatórias, é necessário comparar ambos os modelos por um teste de hipóteses. Este teste irá verificar se a influência de ter restrito o B2Sexo para 0 é significativa ou não. Desta maneira, temos:

\(H_0\) : \(\beta_3=0\)

\(H_1\) : \(\beta_3\neq0\)

Este teste é uma Análise da Variância entre ambos os modelos e pode pode ser escrita da seguinte forma:

\[ F = \frac{SQR(Restrito)-SQR(Irrestrito)/q}{SQR(Irrestrito)/(n-k-1)}\text{~}F_{q,n-k-1} \]

Os resultados estão expressos na tabela:


Tabela 3. Comparação entre Modelos
==================================================
Statistic N   Mean    St. Dev.    Min       Max   
--------------------------------------------------
Res.Df    2  96.500    0.707      96        97    
RSS       2 2,424.688  4.147   2,421.756 2,427.620
Df        1  -1.000               -1        -1    
Sum of Sq 1  -5.864             -5.864    -5.864  
F         1   0.232              0.232     0.232  
Pr(> F)   1   0.631              0.631     0.631  
--------------------------------------------------

O valor de p foi de 0.63 que é superior ao estipulado para significância (0,05) e, portanto, não se rejeita a Hipótese nula de que \(\beta_3\) pode ser restrito a 0. A interpretação é simples: apesar de termos “retirado” uma variável, este modelo não perdeu capacidade explicativa. Muito pelo contrário, a ausência de uma variável não significativa incrementou a parcimonia do modelo. Desta maneira, a conclusão é que a tabela normativa deve ser composta pelo modelo mais simples, formado pelo intercepto, idade e escolaridade do participante, em que os coeficientes sejam: 41.43 para o intercepto, -0.33 para escolaridade e 0.2 para idade.

É possível apresentar a relação entre as variáveis a partir de um plano gráfico, tal como exemplificado abaixo. Optamos por apresentar gráficos separados para facilitar a visualização de cada variável independentemente.

Tabelas baseadas em Regressão múltipla

Todas estas análises não são novas para os psicometristas. Testes de hipóteses e comparação entre modelos restritos e irrestritos fazem parte de aspectos básicos de estatística que, normalmente, são ensinados em bons cursos de graduação e pós-graduação. Porém, a forma de apresentação e interação da proposta de tabelas normativas baseadas em regressão é bastante inovadora na área. Em vez de termos diversas tabelas em que se conside apenas uma única variável, agora podemos equacionar todas as variáveis de uma única vez.

Em termos práticos, o que temos hoje são livros com tabelas normativas impressas em que, quase que de forma descuidada, o clínico seleciona a variável que acredita ser a mais importante. No exemplo citado, ele poderia comparar a “performance” de uma pessoa de 40 anos de “idade” e 12 de “escolaridade” tanto com as normas impressas na tabela de faixa etária (por exemplo, de pessoas entre 30 e 40), tanto com as normas da tabela de faixa de escolaridade (por exemplo, pessoas com ensino superior). Frequentemente,isto pode gerar resultados discrepantes, em que uma tabela considera a “performance” do participante abaixo do esperado, enquanto a outra considera adequada.

De fato, a saída desta armadilha vem pelo cálculo do valor previsto de um participante a partir dos coeficientes gerados pela regressão. Neste caso, temos os seguintes coeficientes como preditores da performance:

##  (Intercept) escolaridade        idade 
##   41.4290607   -0.3330191    0.1965988

que devem ser multiplicados tal como o exemplo abaixo:

Assim, o valor esperado para uma pessoa com 65 anos de idade e 12 de escolaridade é de 50.5 segundos. Caso ele tivesse apenas 5 anos de escolaridade, o valor esperado seria de 52.78. De posse de tais informações, o clínico poderá tomar uma decisão que seja adequada a seu caso.

É importante, no entanto, atentar que os valores previstos misturam informações válidas e uma quantidade de ruído. Isto ocorre pois é necessário computar também a quantidade de erro de cada estimativa no resultado, o que será futuramente possível em novos projetos que estão sendo já desenvolvidos. No entanto, os exemplos aqui ilustrados visam introduzir o tema e não esgotá-lo.

Posto isto, as tabelas construídas com base em modelos de regressão são mais informativas do que as que majoritariamente são utilizadas atualmente, já que permitem não somente a conjugação de múltiplas variáveis, mas equacioná-las de forma a estimar a parcela de contribuição que cada uma delas apresenta sobre o fenômeno de interesse.