Luis Anunciação Notas de aula (Psicometria - 2020, PUC-Rio)
Este handout traz algumas apresentações discutidas em sala de aula.
A Verificação de casos ausentes é sempre necessária. Na presença de valores ausentes em baixa proporção (cerca de 5%) e aleatórios, existem processos de substituição desses valores. Em aula, vimos três: média, moda, mediana.
Feito isso, a conferência de que os valores foram, de fato, substituídos é uma etapa importante relacionada ao controle.
Afetos postivos
Afetos negativos
Afetos positivos médios
Afetos positivos mediano
Afetos positivos modal
Após esse processo, frequentemente nos perguntamos se é mesmo necessário fazer essas substituições e qual das imputações utilizar. Em estatística e psicometria, as respostas a essas perguntas são feitas tanto por visualização gráfica como por testes formais de hipóteses. Uma vez que existe uma relação entre uma VI discreta (tipo de imputação, com 4 classes) e uma VD contínua (resultados médios obtidos na escala), o boxplot é indicado.
Repare que como estamos interessados nos escores compostos (somatórios dos itens), é facil notar que as diferenças, se ocorrem, são altamente sutis. No entato, é importante testar formalmente a hipótese de que os resultados podem ser diferentes em função da técnica de imputação. Formalmente, a escrita segue da seguinte maneira.
\[H_0: \mu_1 = \mu_2 = ... = \mu_n \\ H_1: c.c. \\ \alpha=0,05\]
Aqui, a hipotese nula (H0) indica que não há diferença entre as médias dos grupos e a Hipótese alternativa é o caso contrário (cc). O nível de significância foi estipulado em 0.05. Esse é o valor máximo de erro que estamos dispostos a cometer pela rejeição da hipótese nula quando ela não deveria ser rejeitada.
A análise estatística formal é uma ANOVA de medidas repetidas. Fique tranquilo(a) se você não souber como se calcula esse teste, bem como se tiver dúvidas em relação de onde essa proposta surgiu. Nesta matéria, isso não será cobrado.
## $ANOVA
## Effect DFn DFd SSn SSd F p
## 1 (Intercept) 1 17 70606.925221 4065.25817 295.2624 3.520302e-12
## 2 transformacao 3 51 2.559977 43.51961 1.0000 4.004515e-01
## p<.05 ges
## 1 * 0.9450078416
## 2 0.0006226628
Repare que o valor de p foi de 0.4. Essa situação leva à falha da rejeição da hipótese nula e, consequentemente, podemos escolher qualquer uam das substituições empregadas ou, simplesmente, considerar os resultados sem nenhuma substituição em específico. Pelo princípio da parcimonia, seria justificável deixar os dados como ausentes. Entretanto, para fins didáticos, vamos considerar os resultados com base nos valores subsituídos pela média.
A correlação entre duas variáveis é uma medida de associação. Os resultados apresentam informações sobre o formato, a direção e a força da associação. Assumindo por padrão que há uma relação linear, a direção sempre será indicada por um sinal (se +, a direção é proporcional e se - , a direção é inversamente proporcional). A força é vista pelo valor encontrado pelo coeficiente (r ou rho em nosso caso). Se 0.1, consideramos a associação fraca, se 0.3 consideramos a associação moderada e se 0.5 ou superior, consideramos a associação como forte. Atenção: esses valores são frequentes na Psicologia, mas não são universalmente aceitos em todas as outras áreas.
O gráfico a seguir apresenta este mesmo resultado, só que de forma visualmente mais confortável.
O gráfico é quase sempre apresentado pela densidade da distribuição
No entanto, é também possível veriifcar essa distribuição por histogramas:
e boxplots
Ambos os gráficos trazem as mesmas informações, só que de maneira visualmente distinta
É importante atentar que não há um único gráfico capaz de apresentar esta distribuição e, eventualmente, isso é uma escolha do pesquisador. Lembre-se que uma possível vantagem do boxplot consiste na sua relação com conceitos de estatística descritia, especialmente medidas de posição. A linha ao centro é sempre a mediana, a parte inferior da caixa é sempre o Q1, a parte superior da caixa é sempre o Q3. Os bigodes adicionam ou subtraem do Q1 e o Q3 o valor de (1.5* IQR). O IQR é formado por Q3-Q1.
É fácil provar isso.
## Descriptive Statistics
## ds_teorica$inteligencia
## N: 1000
##
## inteligencia
## ----------------- --------------
## Mean 101.28
## Std.Dev 15.35
## Min 52.93
## Q1 91.00
## Median 101.23
## Q3 111.24
## Max 152.24
## MAD 14.93
## IQR 20.22
## CV 0.15
## Skewness 0.04
## SE.Skewness 0.08
## Kurtosis -0.03
## N.Valid 1000.00
## Pct.Valid 100.00
No entanto, retornando ao gráfico mais característico para apresentar uma variável normalmente distribuída, temos algumas características:
A distribuição normal apresenta as seguintes características geométricas:
As características analíticas principais são:
4. é definida por dois paramétros, que são a média populacional (\(\mu\)) e a variância populacional (\(\sigma^2\))
5. a média fica exatamente ao centro e sue valor é o mesmo da mediana e da moda
6. o coeficiente de assimetria (3o momento) é igual a 0 e o coeficiente de curtose (4o momento) é igual a 3.
7. Aproximadamente, 68% dos valores fica entre -1,1 desvio-padrão, 95% fica entre -2,2 e 99.7% das observações entre -3,3. Essa característica é chamada de “Regra empírica”.
Em Psicologia, assumimos que os fenômenos são normalmente distribuídos.
Usando como exemplo os resultados obtidos por instrumentos da Escala Wechsler, segue abaixo uma distruição (teórica) normal, com intervalo de -1, 1 desvio-padrão.
Repare que dentro deste intervalo temos aproximadamente 68% dos dados. Os valores no teste que correspondem a este intervalo começam no 85 e vão até o 115.
Ao aumentar este intervalo, 95% dos dados estarão entre -2 e 2 desvios-padrão. isso corresponde ao escore 70 (100-30) e 130 (100+30).
Finalmente, 99.7% das observações estarão entre -3 e 3 desvios-padrão.
Evidentemente, se psicólogos trabalharem com testes de inteligência, fica fácil entender o que estes valores (100, 115) significam, mas estas métricas, em si, não guardam informações àqueles de outras áreas. O mesmo também acontece se psicólogos se depararem com resultados de outras ciências, como engenharia elétrica ou agronomia.
Com isto em mente, não apenas para conseguir entender os resultados obtidos por determinado instrumento, mas para conseguir comparar estes valores, informações adicionais são necessárias. Existem muitas técnicas que visam esta iniciativa, tal como exposto na figura a seguir.
Uma das maneiras de padronização dos resultados é o Escore Z. Basicamente, o que o Escore Z faz é pegar cada observação (xi) subtrair este valor da média do grupo e, em seguida, dividir este valor pelo desvio-padrão do grupo.
Repare que agora, por definição, valores iguais a média tornam-se 0 e os valores se afastam ou se aproximam da média em desvios-padrão. Nesse exemplo dos testes de inteligência, uma pessoa com resultado 100 estaria com Z-score = 0. Já uma pessoa com resultado 115 teria o z-score = 1. Uma pessoa com Z-score = -1 teria o valor de 85 neste instrumento.
Repare que, por definição, o aumento dos intervalos do desvios-padrão, aumenta a confiança da estimativa, apesar de reduzir sua precisão.
O z-score realiza uma padronização dos resultados e, por definição, transforma a média amostral em 0 e o desvio-padrão amostral em 1. Há ao menos quatro grandes propriedades vantajosas do Z-score:
Obviamente, é também possível arguir condições desvantajosas, como a pouca compreensão dessa medida para profissionais que trabalham em condições clínicas. O escore Z não normaliza uma distribuição. Não há nenhuma alteração no formato da distribuição.
A correlação entre os resultados brutos e padronizados é sempre = 1.
Como visto há pouco, o escore Z permite gera novas informações a um resultado que permite que se compare um determinado valor obtido com a média do grupo. Entretanto, essa não é a única forma de se fazer isso. É também possível comparar um valor obtido a partir de uma lógica relacionada à frequência relativa acumulada. Retornando à regra empírica apresentada, sabendo que 68% das observações estão entre -1 e +1 desvio-padrão, naturalmente, faltam 32% para que se complete a área da distribuição.
Agora fica claro perceber que existe uma relação entre o escore bruto, o escore Z e o percentil. Repare que se o Escore Z é igual a 0, o percentil é igual a 50.
Se o Escore Z é igual a +1, o percentil é igual a 84.
Se o Escore Z é igual a -1, o percentil é igual a 16.
Evidentemente, nem todas as distribuições são simétricas. Na verdade, é pouco provável encontrar empiricamente distribuições desta natureza. Imagine que haja pontos extremos ao lado direito da distribuição. Nesse caso, os resultados superam batante a média da distribuição, como 150 e 170.
Caso haja dúvida na visualização, talvez fo gráfico abaixo apresente melhor o conceito
Situações como essa, repare que a cauda vai se alargando para a direita e, em função disso, dá-se o nome de assimetria à direita ou positiva. Nesse caso, a média, moda e mediana já não estão mais no mesmo local. Agora, a média é o valor mais alto de todos. Assim, como regra: se a média for maior do que a mediana, trata-se de uma assimetria à direita.
É também possível que a cauda se arraste à esquerda. No exemplo até então, isso ocorreria quando algumas pessoas (mas não muitas) apresentam resultados super baixos.
Repare que agora a cauda se arrasta para esquerda.
A média agora é menor do que a mediana
Caso haja dúvida na visualização, talvez fo gráfico abaixo apresente melhor o conceito.
O relacionamento linear entre duas variáveis pode ser calculado por uma técnica chamada Produto Momento de Pearson. O coeficiente obtido varia de -1 a +1 e indica a direção da associação e a força do relacionamento. Frequentemente, os valores de corte são 0.1 (fraca), 0.3 (moderada) e 0.5 forte. O sinal indica a direção, que pode ser positiva (ou proporcional) ou negativa (inversamente proporcional). Abaixo exemplos ilustrativos.
Pode ser positiva:
Pode ser negativa:
Pode ser neutra