1. Base de Dados

Os dados sitio.sav (HOOGH; DIETRICH, 1979), refere-se ao campo florestal, com informações sobre características ambientais e de solos de 21 sítios para araucaria angustifolia em povoamentos artificiais, localizados em diversos municípios de alguns estados das regiões sudeste e sul.

2. Objetivos

O objetivo do estudo consiste em realizar Análise Fatorial para avaliar a possibilidade de redução da dimensão da matriz de dados e verificar a relação entre o Índice de Sítio (IS) e as características do solo como fatores pelo uso da Análide de Regressão Míltipla.
Uma pré-visualização das variáveis é apresentada na Tabela 1.

Tabela 1: Forma do Banco de Dados com as Primeiras e Últimas Variáveis referentes aos Sítios para Araucaria Angustifolia.

 kable(head(sitio[,c(1:5, 24:28)], 10))
Perfil Localidade Tipo_de_Solo Latitude Longitude Argila_A Argila_B AlturaDominante ClasseSitio IS
SC 28 Três Barras - SC Latossolo Vermelho-escuro 26.20 50.32 82 82 15.7 2 15.7
SC 30 Três Barras - SC Latossolo Vermelho-amarelo 26.20 50.32 68 70 10.2 1 10.2
PR 32 Teixeira Soares - PR Latossolo Vermelho-amarelo 25.45 50.58 56 66 13.6 2 13.6
PR 37 Teixeira Soares - PR Latossolo Vermelho-escuro 25.45 50.58 62 62 19.5 3 19.5
PR 44 Ponta Grossa - PR Latossolo Vermelho-escuro 25.22 50.03 29 29 8.8 1 8.8
PR 68 Telêmaco Borba - PR Latossolo Vermelho-escuro 24.30 50.62 20 27 16.6 2 16.6
PR 73 Telêmaco Borba - PR Latossolo Vermelho-escuro 24.30 50.62 50 57 18.9 3 18.9
PR 83 Jussara - PR Latossolo Vermelho-escuro 23.62 52.47 17 25 19.8 3 19.8
RS 85 S. Frco. Paula - RS Cambissolo Húmico 29.35 50.32 44 58 16.0 2 16.3
RS 87 S. Frco. Paula - RS Laterítico Bruno 29.35 50.32 54 54 17.9 3 17.9

Tabela 2: Medidas Descritivas das Características Ambientais dos Sítios para Araucaria Angustifolia.

n Mean Variância Median Mínimo Máximo
Latitude 21 25.7600 3.7916 25.45 22.38 29.35
Longitude 21 50.4329 4.1661 50.58 44.97 53.35
Altitude 21 788.3333 22884.6400 790.00 398.00 1086.00
Precipitacao 21 1579.9524 83113.0268 1442.00 1271.00 2250.00
Temperatura 21 17.4714 2.2061 17.60 14.50 21.30
SiO2_A 21 11.6000 28.1791 10.80 4.70 24.80
SiO2_B 21 12.8714 32.4957 11.80 5.50 28.60
Al2O3_A 21 15.3571 26.3385 16.30 6.10 24.20
Al2O3_B 21 19.3000 26.6339 20.10 7.60 25.20
Fe2O3_A 21 10.5048 49.6997 9.40 2.60 28.20
Fe2O3_B 21 11.2333 45.6679 9.80 3.30 27.80
Ki_A 21 1.3333 0.2603 1.20 0.60 2.40
Ki_B 21 1.2000 0.3320 1.10 0.40 2.50
Kr_A 21 0.9619 0.1515 0.90 0.30 1.70
Kr_B 21 0.8762 0.1539 0.80 0.30 1.80
Prof.A 21 48.1905 402.7607 48.00 17.00 101.00
Areia_A 21 32.8571 424.5289 28.00 3.00 77.00
Areia_B 21 27.7619 403.2907 26.00 3.00 74.00
Silte_A 21 14.0000 29.2995 16.00 4.00 21.00
Silte_B 21 14.0952 39.1901 14.00 1.00 26.00
Argila_A 21 53.3333 393.1337 54.00 17.00 82.00
Argila_B 21 58.1905 379.9615 58.00 25.00 82.00
AlturaDominante 21 15.6714 15.3899 16.00 8.80 21.90
ClasseSitio 21 2.1429 0.6285 2.00 1.00 3.00
IS 21 15.6857 15.4041 16.30 8.80 21.90

3. Correlação

Para auxiliar no objetivo de verificar a relação entre a produtividade dos sítios, expressa pelo índice de Sítio, e as características do solo, foram selecionadas 13 variáveis (AlturaDominante, ClasseSitio, Longitude, Precipitacao, Al2O3_A, Fe2O3_A, Fe2O3_B, Ki_A, Ki_B, Kr_A, Kr_B, Silte_A e Silte_B), cujas correlações lineares com o IS foram maiores do que 0,3 ou menores que -0,3 (Figura 1).

Figura 1: Correlação entre o Índice de Sítio e Características do Solo dos Sítios para Araucaria Angustifolia.

3. Análise Fatorial

3.1. Matriz de Correlação

O primeiro passo de uma Análise Fatorial, consiste na computação da matriz de correlação para as variáveis originais que serão possivelmente transformadas em fatores. Observa-se na Figura 2, as correlaçoes entre as características ambientais dos sítios para araucaria angustifolia.

Figura 2: Correlação entre as Variáveis AlturaDominante, ClasseSitio, Longitude, Precipitacao, Al2O3_A, Fe2O3_A, Fe2O3_B, Ki_A, Ki_B, Kr_A, Kr_B, Silte_A e Silte_B, dos Sítios para Araucaria Angustifolia.

3.2. Teste de Esfericidade de Bartlett

O Teste de Bartlett avalia a hipótese de que a matriz de correlação pode ser a matriz identidade com determinante igual a 1 (Fávero et al., 2009). Logo, avalia se os componentes fora da diagonal principal são zero. Um resultado estatisticamente significativo indica a rejeição da hipótese nula, o que leva a concluir a existência de alguma relação entre as variáveis.
Bartlett.sphericity.test <- function(x)
{
  method <- "Teste de esfericidade de Bartlett"
  data.name <- deparse(substitute(x))
  x <- subset(x, complete.cases(x)) 
  n <- nrow(x)
  p <- ncol(x)
  chisq <- (1-n+(2*p+5)/6)*log(det(cor(x)))
  df <- p*(p-1)/2
  p.value <- pchisq(chisq, df, lower.tail=FALSE)
  names(chisq) <- "X-squared"
  names(df) <- "df"
  return(structure(list(statistic=chisq, parameter=df, p.value=p.value,
                        method=method, data.name = "sitio"), class="htest"))
}
Bartlett.sphericity.test(sitio[,c(5, 7, 11, 13:18, 22, 23, 26, 27)])
Supondo que as variáveis apresentam normalidade multivariada e fixando um nível de significância (alpha = 0,01), pode-se observar que, como o p-valor do Teste de Esfericidade de Bartlett é menor que alpha, ou seja, 0,001 < 0,01, rejeita-se H0. Portanto, existem algumas relações entre as variáveis, com confiança de 99% (Tabela 3).

Tabela 3: Teste de Esfericidade de Bartlett para a Matriz de Correlação das Características de Solo dos Sítios de Araucaria Angustifolia.

Bartlett.Test Resultado
Chi-squared 311,25
df 78
p-Value < 0,001

3.3. Teste KMO (Kaiser-Meyer-Olkin)

O Teste KMO, neste caso, tem a finalidade de avaliar a adequação da dimensão dos dados para a utilização da Análise Fatorial. Varia entre 0 e 1, onde: de 0, a < 0,5 indica inaceitável adequação para utilizar Análise Fatorial, de 0,5 a < 0,6 indica má, de 0,6 a < 0,7 razoável, de 0,7 a < 0,8 média, de 0,8 a < 0,9 indica boa e de 0,9 a < 1,0 indica ótima adequação para utilizar a Análise Fatorial.
Assim como o KMO, a Medida de Adequação da Amostra (MAA) para cada variável é calculada e interpretada de forma simililar à estatística KMO. Segundo HAIR et al. (2005), as variáveis com valores de MAA fora do domínio aceitável, devem ser excluídas da Análise.
Verifica-se abaixo, que as variáveis Longitude, Precipitacao, Fe2O3_B, Ki_A e Silte_A não devem ser incluídas na Análise Fatorial, pois seus valores MAA estão abaixo do domínio razoável de adequação.
##       Longitude    Precipitacao         Al2O3_A         Fe2O3_A 
##            0.40            0.35            0.72            0.73 
##         Fe2O3_B            Ki_A            Ki_B            Kr_A 
##            0.51            0.59            0.63            0.63 
##            Kr_B         Silte_A         Silte_B AlturaDominante 
##            0.64            0.52            0.66            0.74 
##     ClasseSitio 
##            0.63
Considerando apenas as variáveis Al2O3_A, Fe2O3_A, Ki_B, Kr_A, Kr_B, Silte_B, AlturaDominante e ClasseSitio, o valor da estatística do Teste KMO é igual à 0,61, assim, hà evidências de que a utilização da técnica Análise Fatorial é adequadamente razoável.
## [1] 0.61

3.4. Método dos Componentes Principais

Pode-se verificar na Tabela 4, que os 3 primeiros fatores respondem por aproximadamente 88% da variância total dos dados e apresentam variâncias maiores que 1.
A comunalidade expressa o quanto da variabilidade de cada variável é explicada pelo modelo. Identifica-se que a menor comunalidade é 0,75, dessa forma, os fatores comuns explicam boa parte da variância (Tabela 4).

Tabela 4: Comunalidades e fatores iniciais, extraídos pelo Método do Componente Principal.

Variáveis Comunalidade Fator Variância Proporção de Variação Proporção de Variação Acumulada
Al2O3_A 0.7951 1 4.1215 0.5152 0.5152
Fe2O3_A 0.8738 2 1.6668 0.2084 0.7235
Ki_B 0.9685 3 1.2903 0.1613 0.8848
Kr_A 0.9148 4 0.4939 0.0617 0.9466
Kr_B 0.9778 5 0.2741 0.0343 0.9808
Silte_B 0.7481 6 0.1114 0.0139 0.9948
AlturaDominante 0.8921 7 0.0319 0.0040 0.9987
ClasseSitio 0.9085 8 0.0101 0.0013 1.0000
Além da proporção de variação retida dos PCs, o número de componentes a reter é 3, pois a curva vai se estabilizando a partir desse valor (Figura 3).

Figura 3: Escarpa para os dados dos Sítios de Araucaria Angustifolia.

Dessa forma, a análise fatorial será baseada em 3 fatores:
k <- 3
carga.F <- acp$rotation[, 1:k] %*% diag(acp$sdev[1:k])
colnames(carga.F) <- paste("Fator", 1:k, sep = " ")
round(carga.F, digits = 4)
##                 Fator 1 Fator 2 Fator 3
## Al2O3_A         -0.6276  0.0291  0.6327
## Fe2O3_A         -0.6521  0.0730  0.6658
## Ki_B             0.7339  0.5160  0.4045
## Kr_A             0.8558  0.4190  0.0831
## Kr_B             0.8717  0.4052  0.2318
## Silte_B          0.2750 -0.6856  0.4500
## AlturaDominante -0.7668  0.5348 -0.1346
## ClasseSitio     -0.7798  0.5464 -0.0439

3.5. Rotação Varimax

Pode-se identificar na Figura 4, que o Fator 1 abriga as variáveis relacionadas com a parte química do solo (Ki_B e Kr A e B). O Fator 2 é contribuído com as variáveis AlturaDominante e ClasseSitio. Já o Fator 3 envolve as variáveis relacionadas com a minerologia do solo (Al2O3_A e Fe2O3_A). Porém, apesar da variável Silte_B ser mais propensa ao Fator 3, a sua carga é baixa, comparada com a carga do Fator para as outras 2 variáveis.
carga.F2 <- varimax(carga.F)
round(carga.F2$loadings[,1:3], digits = 4)
##                 Fator 1 Fator 2 Fator 3
## Al2O3_A         -0.1839  0.0896  0.8679
## Fe2O3_A         -0.1623  0.1240  0.9122
## Ki_B             0.9802 -0.0883 -0.0017
## Kr_A             0.8855 -0.1054 -0.3457
## Kr_B             0.9452 -0.1788 -0.2291
## Silte_B         -0.0451 -0.8440  0.1838
## AlturaDominante -0.2716  0.8424  0.3298
## ClasseSitio     -0.2393  0.8243  0.4144

Figura 4: Relação entre as Variáveis e os Fatores Após a Rotação Varimax.

3.6. Obtenção de Escores dos Fatores

rotacao <- principal(sitio1, nfactors = 3, rotate = "varimax")
df <- as.data.frame(rotacao$scores)
colnames(df) <- paste0("F", 1:k)
escore <- cbind(n = 1:dim(sitio1)[1], round(df, digits = 4))

kable(escore)

Tabela 5: Matriz de Escores dos Três Fatores Extraídos pelo Método do Componente Principal.

n F1 F2 F3
1 -0.2174 -0.2460 0.3484
2 1.4622 -1.4839 0.6341
3 -0.4089 -0.8098 0.2266
4 -0.7241 0.8590 0.2994
5 -0.8696 -1.5769 -1.0225
6 -0.9177 -0.0827 -1.5036
7 -0.8767 0.7661 0.0546
8 0.3248 2.1167 -1.6580
9 -0.5751 -0.9471 -0.0378
10 -0.2517 -0.0935 1.0197
11 -0.8499 0.3541 -0.2856
12 -0.6865 -0.0090 -0.0559
13 -0.7592 0.2943 2.0740
14 -1.2968 -0.5972 0.9430
15 2.1501 0.8309 1.4644
16 0.4269 -0.6397 -1.4984
17 2.1445 -0.5822 -0.3717
18 0.8054 0.4470 -0.8325
19 0.3187 1.7392 -0.5089
20 -0.0058 0.9678 1.1390
21 0.8066 -1.3071 -0.4286

3. Análise de Regressão Múltipla

A equação final ajustada, considerando os coeficientes estatisticamente significantes, ao nível de significância de 0,01, foi:

îS = -1,0771*(F1) + 3,2879(F2) + 1,2963(F3)

Onde o aumento dos fatores 2 ou 3 apresenta um impacto positivo no Índice de Sítio, já o aumento de 1 unidade do fator relacionado à química do solo, conduz a uma diminuição de aproximadamente -1,08 unidades do Índice do Solo.
O modelo linear obtido explicou 88.64% da variação do índice de Sítio (R2), com R2 ajustado de 86,64%.
## 
## Call:
## lm(formula = IS ~ F1 + F2 + F3, data = base.lm)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8185 -0.7763 -0.1779  0.9185  3.1648 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  15.6859     0.3130  50.108  < 2e-16 ***
## F1           -1.0771     0.3207  -3.359 0.003725 ** 
## F2            3.2879     0.3205  10.260 1.06e-08 ***
## F3            1.2963     0.3211   4.037 0.000855 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.435 on 17 degrees of freedom
## Multiple R-squared:  0.8864, Adjusted R-squared:  0.8664 
## F-statistic: 44.24 on 3 and 17 DF,  p-value: 3.031e-08
Pode-se notar na Tabela 6, que o maior valor médio do quadrado (MQR) é o do Fator 2, indicando a importância desse fator no modelo. Além disso, as contribuições individuais dos fatores são todas significativas ao nível de 5%, pelo teste F.

Tabela 6: Análise de Variância.

Df Sum Sq MQR F value P-Valor
F1 1 23.1170 23.1170 11.2332 0.0038
F2 1 216.4428 216.4428 105.1758 0.0000
F3 1 33.5414 33.5414 16.2988 0.0009
Residuals 17 34.9845 2.0579 NA NA
Com base nos resultados da Análise Fatorial e da Análise de Regressão Múltipla, pode-se concluir que o modelo fatorial apresentou bons resultados em discriminar as variáveis e permitiu o ajuste do modelo linear, sendo possível explicar a contribuição relativa de cada um dos fatores extraídos sobre o Índice de Solo dos sítios de araucaria angustifolia.