O conjunto de dados a seguir consiste nos resultados do teste de inteligência de Wechsler aplicado em \(n = 37\) adultos. O teste é dividido em 4 componentes:

Para cada componente uma pontuação é atribuída.

Carregando o conjunto de dados

wechsler <- read.csv("~/Documents/Cursos_GET_UFF/20241GET00126A1/Datasets/wechsler.csv")
# eliminamos a primeira coluna ID
wechsler_data <- wechsler[,-1]
wechsler_data

Medidas resumo

summary(wechsler_data)
      info            sim             arith      
 Min.   : 6.00   Min.   : 3.000   Min.   : 5.00  
 1st Qu.:10.00   1st Qu.: 7.000   1st Qu.: 9.00  
 Median :13.00   Median :10.000   Median :11.00  
 Mean   :12.57   Mean   : 9.568   Mean   :11.49  
 3rd Qu.:15.00   3rd Qu.:12.000   3rd Qu.:14.00  
 Max.   :19.00   Max.   :18.000   Max.   :17.00  
      pict       
 Min.   : 3.000  
 1st Qu.: 7.000  
 Median : 8.000  
 Mean   : 7.973  
 3rd Qu.: 9.000  
 Max.   :11.000  

Boxplots

boxplot(wechsler_data)

Gráfico de dispersão múltiplo

pairs(wechsler_data, pch = 19)

Gráfico de correlações

O gráfico de correlações (veja também a matriz de correlações) mostra uma correlação positiva entre todos os pares de variáveis, variando de fraca a moderada para quase todas as variáveis. Em particular, a variável sim e info apresentam uma correlação forte, ao passo que as variáveis sime pict a correlação é muito fraca.

# Gráfico de correlações
corrplot(cor(wechsler_data), method = "square", order = "hclust", tl.col='black', tl.cex=.75) 

Matriz de correlações

cor(wechsler_data)
           info        sim     arith       pict
info  1.0000000 0.77152974 0.5658260 0.31816370
sim   0.7715297 1.00000000 0.5129451 0.08135234
arith 0.5658260 0.51294508 1.0000000 0.27987766
pict  0.3181637 0.08135234 0.2798777 1.00000000

Gráficos de Densidades

par(mfrow=c(2,2))
nvar <- ncol(wechsler_data)
nomes<-names(wechsler_data)
for (i in 1:ncol(wechsler_data)) {
  plot(density(wechsler_data[,i]), main = paste("Densidade de",nomes[i]))
}

Verificando a normalidade univariada

Q-Q plots

par(mfrow=c(2,2))
for (j in 1:nvar)
{
  qqPlot(scale(wechsler_data[,j]),dist="norm",mean=0,sd=1,col.lines=1,grid="FALSE",
         xlab="quantil da N(0,1)",ylab=nomes[j],cex=1.2,pch=20,id=FALSE)
}

Para verificar a normalidade univariada usaremos os testes de de Shapiro-Wilks e Anderson-Darling. Ambos os testes não rejeitaram a suposição de normalidade de cada variável.

Teste de Shapiro-Wilks

# Shapiro Wilks Test
shapiro.test(wechsler_data$info)

    Shapiro-Wilk normality test

data:  wechsler_data$info
W = 0.96546, p-value = 0.299
shapiro.test(wechsler_data$sim)

    Shapiro-Wilk normality test

data:  wechsler_data$sim
W = 0.97208, p-value = 0.4677
shapiro.test(wechsler_data$arith)

    Shapiro-Wilk normality test

data:  wechsler_data$arith
W = 0.96511, p-value = 0.2917
shapiro.test(wechsler_data$pict)

    Shapiro-Wilk normality test

data:  wechsler_data$pict
W = 0.95116, p-value = 0.1051

Teste de Anderson-Darling

# Anderson-Darling Test 
ad.test(wechsler_data$info)

    Anderson-Darling normality test

data:  wechsler_data$info
A = 0.49948, p-value = 0.1967
ad.test(wechsler_data$sim)

    Anderson-Darling normality test

data:  wechsler_data$sim
A = 0.40481, p-value = 0.3367
ad.test(wechsler_data$arith)

    Anderson-Darling normality test

data:  wechsler_data$arith
A = 0.3597, p-value = 0.431
ad.test(wechsler_data$pict)

    Anderson-Darling normality test

data:  wechsler_data$pict
A = 0.65581, p-value = 0.08014

Verificando a normalidade multivariada

A fim de verificar a normalidade multivariada dos dados, usamos que a forma quadrática \(d_i^2 = n(\mathbf{X}_i - \bar{\mathbf{X}})^\top\mathbf{S}^{-1}(\mathbf{X}_i - \bar{\mathbf{X}})\) pode ser aproximada por uma \(\chi^2_p\) sob a suposição de normalidade multivariada e \((n-p)\) suficientemente grande. A continuação, apresentamos o Q-Q plot da forma quadrática \(d^2 = \{d_1^2,\ldots,d_{37}^2\}\) e uma \(\chi^2_{4}\). Observa-se no Q-Q plot um desvio da forma quadrática da distribuição \(\chi^2\).

n <- nrow(wechsler_data)
nvar <- ncol(wechsler_data)
vmu <- colMeans(wechsler_data)
mcov <- cov(wechsler_data)
# forma quadrática
d2 <- n*mahalanobis(wechsler_data,center=vmu,cov=mcov)
qqPlot(d2,dist="chisq",df=nvar,col.lines=1,grid="FALSE",
       xlab="quantil da distribuição qui-quadrado",
       ylab=TeX("$d^2$"),
       cex=1.2, 
       pch = 20,
       id = FALSE)

O teste de Kolmogorov-Smirnov, rejeitou a hipótese de que a forma quadrática provem de uma distribuição qui-quadrado, como sugerido pelo Q-Q plot. Contudo, isso pode se dever ao fato que temos um tamanho de amostra pequeno e \(p\) não muito grande, consequentemente teremos uma aproximação “pobre”. Neste caso, mais testes precisam ser realizados.

ks.test(d2,"pchisq",nvar)

    Exact one-sample Kolmogorov-Smirnov test

data:  d2
D = 0.97294, p-value < 2.2e-16
alternative hypothesis: two-sided

Teste de Mardia para normalidade multivariada

O teste de Mardia (1970) é uma generalização do teste univariado baseado em skewness e kurtosis. As estatísticas do teste são formuladas em termos de

\[skew = b_{1,p} = \frac{1}{n^2} \sum_{i=1}^n\sum_{j=1}^n [(\mathbf{X}_i - \bar{\mathbf{X}})^\top\hat{\mathbf{\Sigma}}(\mathbf{X}_j - \bar{\mathbf{X}})]^3;\]

\[kurt = b_{2,p} = \frac{1}{n} \sum_{i=1}^n [(\mathbf{X}_i - \bar{\mathbf{X}})^\top\hat{\mathbf{\Sigma}}(\mathbf{X}_i - \bar{\mathbf{X}})]^2,\]

em que \(\hat{\mathbf{\Sigma}} = \mathbf{S}_n\) é o estimador por máxima verossimilhança de \(\mathbf{\Sigma}\).

Pelos resultados obtidos, não rejeitamos a hipótese de normal multivariada nos dados.

Mardia_Test<-mardia(wechsler_data)
Mardia_Test$mv.test

Elipses de 95% de confiança

Para cada par de variáveies construímos elipses de 95% de confiança. Podemos usar essas elipses para testar se o vetor de médias populacional (de cada par de variáveis) é igual ou não a determinado valor a um nivel de significância do 5%.

Por exemplo, suponha que queremos testar a um nível de significância del 5% se \(\boldsymbol{\mu}^\top\) = [info = 10, sim = 15], “basta” plotar a observação \(\boldsymbol{\mu}_0^\top=[10,15]\) e verificar se “cai” dentro da primeira elipse de confiança no painel acima. Pode-se notar que neste caso, rejeitamos \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\).

mu0 = c(10,15) # (info,sim)
i=1;j=2
plot(ellipse::ellipse(x = rho[i,j],
                      scale = c(sqrt(var[i]),sqrt(var[j])),
                      centre = c(vmu[i],vmu[j]),
                      level = 0.95
                      ),
     type = "l",
     xlab = nomes[i],
     ylab = nomes[j])
lines(vmu[i],vmu[j], pch = 8, col = "red", type = "p")
lines(mu0[i],mu0[j], pch = 15, col = "blue", type = "p")
text(10,16,"mu0")

