A produtividade dos povoamentos de Eucalyptus spp. em Portugal Continental resulta de uma interação complexa entre fatores edáficos (profundidade e pedregosidade do solo, entre outros) e condicionantes climáticas (precipitação, regime térmico e altitude). Embora esses determinantes sejam reconhecidamente críticos para o rendimento volumétrico anual médio (AMA), a literatura nacional ainda carece de estudos integrativos que quantifiquem, de forma multivariada, a contribuição relativa de cada variável e explorem a existência de macro-ambientes produtivos dentro do território.
Neste relatório aplicamos um pipeline estatístico completo — englobando estatística descritiva, testes não paramétricos, análise em componentes principais (ACP), clusterização hierárquica e regressão linear múltipla com rigoroso diagnóstico de resíduos — aos dados de 50 parcelas distribuídas por cinco grandes regiões (Norte, Centro, Lisboa e Vale do Tejo, Alentejo e Algarve). O objetivo central é:
Caracterizar o padrão espacial das variáveis edafoclimáticas e da produtividade;
Identificar quais fatores diferenciam significativamente as zonas geográficas;
Resumir a estrutura latente dos dados via ACP e verificar a formação de grupos homogêneos de parcelas;
Modelar quantitativamente o AMA em função dos fatores mais relevantes, avaliando a qualidade de ajuste e a capacidade preditiva.
Ao combinar métodos exploratórios e confirmatórios, o estudo fornece uma visão abrangente sobre como clima e solo moldam o crescimento dos eucaliptais portugueses, oferecendo subsídios técnicos para práticas silviculturais direcionadas — como seleção de material genético adequado, delineamento de regimes de manejo e definição de zonas prioritárias para investimento — e contribuindo para o planejamento florestal sustentável em face das variações climáticas regionais.
## Rows: 50
## Columns: 12
## $ profund <dbl> 80, 60, 15, 90, 80, 70, 50, 60, 25, 80, 25, 70, 40, 40, 60, 5…
## $ pedreg <dbl> 35, 70, 60, 15, 35, 25, 30, 40, 35, 15, 40, 10, 50, 20, 50, 3…
## $ pretotal <dbl> 2350, 1300, 1300, 2250, 2150, 1900, 2250, 1000, 1500, 1500, 1…
## $ predia <dbl> 145, 105, 130, 140, 125, 125, 130, 110, 120, 125, 110, 105, 9…
## $ tempmax <dbl> 27, 28, 30, 28, 25, 29, 28, 29, 28, 29, 26, 27, 29, 26, 27, 2…
## $ tempmed <dbl> 12.0, 12.0, 14.0, 15.0, 14.0, 14.0, 13.0, 15.0, 15.0, 16.0, 1…
## $ tempmin <dbl> 1, 3, 4, 7, 4, 1, 6, 3, 6, 4, 3, 5, 2, 5, 4, 1, 2, 2, 2, 4, 3…
## $ altitude <dbl> 557, 445, 147, 200, 68, 70, 250, 700, 140, 260, 461, 15, 320,…
## $ idade <dbl> 10, 11, 10, 11, 12, 12, 10, 12, 11, 12, 10, 10, 10, 10, 11, 1…
## $ ama <dbl> 21.87, 21.36, 15.99, 18.54, 23.67, 20.42, 18.99, 17.81, 15.95…
## $ zona_pt <chr> "Norte", "Norte", "Norte", "Norte", "Norte", "Norte", "Norte"…
## $ parcela <chr> "NT1", "NT2", "NT3", "NT4", "NT5", "NT6", "NT7", "NT8", "NT9"…
A base reúne 50 observações e 12 variáveis — dez numéricas e duas categóricas. Não existem valores ausentes, portanto a integridade é total, mas a etapa de imputação por mediana foi mantida para garantir robustez caso futuras atualizações do conjunto contenham lacunas. As variáveis apresentam escalas heterogêneas (milímetros, graus Celsius, centímetros e metros), indicando que a padronização é recomendável antes de aplicar técnicas multivariadas como a análise em componentes principais.
## Percentual de NA gerais: 0 %
Não foram detectados valores ausentes em nenhuma das doze variáveis analisadas, evidenciando completude total do conjunto de dados e dispensando estratégias elaboradas de tratamento de missing. Ainda assim, o pipeline preserva um passo de imputação pela mediana para todas as variáveis numéricas.
| Name | dados |
| Number of rows | 50 |
| Number of columns | 12 |
| _______________________ | |
| Column type frequency: | |
| character | 2 |
| numeric | 10 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| zona_pt | 0 | 1 | 3 | 8 | 0 | 5 | 0 |
| parcela | 0 | 1 | 3 | 5 | 0 | 49 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| profund | 0 | 1 | 47.20 | 20.48 | 15.00 | 35.00 | 45.00 | 60.00 | 90.00 | ▅▇▅▁▃ |
| pedreg | 0 | 1 | 37.06 | 18.09 | 3.00 | 21.25 | 40.00 | 50.00 | 70.00 | ▆▂▇▆▃ |
| pretotal | 0 | 1 | 1076.00 | 472.54 | 550.00 | 750.00 | 900.00 | 1300.00 | 2350.00 | ▇▃▃▁▁ |
| predia | 0 | 1 | 98.74 | 22.03 | 50.00 | 85.00 | 95.00 | 113.75 | 145.00 | ▂▅▇▅▂ |
| tempmax | 0 | 1 | 29.86 | 2.78 | 25.00 | 28.00 | 29.00 | 32.00 | 36.00 | ▅▇▃▆▂ |
| tempmed | 0 | 1 | 15.39 | 1.61 | 12.00 | 14.50 | 15.25 | 16.00 | 19.00 | ▂▂▇▂▂ |
| tempmin | 0 | 1 | 4.56 | 2.03 | 1.00 | 3.00 | 4.50 | 6.00 | 9.00 | ▅▇▃▇▂ |
| altitude | 0 | 1 | 242.04 | 164.38 | 15.00 | 128.50 | 197.00 | 338.75 | 700.00 | ▇▇▃▂▁ |
| idade | 0 | 1 | 10.90 | 0.79 | 10.00 | 10.00 | 11.00 | 11.75 | 12.00 | ▇▁▇▁▆ |
| ama | 0 | 1 | 13.75 | 5.01 | 4.54 | 10.14 | 13.76 | 17.81 | 23.67 | ▅▇▇▆▃ |
A precipitação total apresenta forte assimetria à direita, variando de 550 mm a 2 350 mm. A chuva diária média segue tendência semelhante. A temperatura mínima oscila entre 1 °C e 9 °C, sugerindo risco de geada em parte das parcelas, enquanto a profundidade do solo varia de 15 cm a 90 cm e a pedregosidade de 3 % a 70 %. A produtividade média (AMA) é de 13,8 m³ ha⁻¹ ano⁻¹ com desvio-padrão de 5,0, indicando alta variação. Esses números já sinalizam que clima e características de solo têm potencial para explicar diferenças de rendimento.
Os testes mostram diferenças estatísticas entre zonas geográficas para precipitação total e diária, todas as variáveis de temperatura, altitude e a própria produtividade. Variáveis puramente edáficas, como profundidade e pedregosidade, além da idade dos povoamentos, não diferiram de forma significativa. Conclui-se que a heterogeneidade entre zonas é sobretudo climática e topográfica, o que repercute diretamente no rendimento florestal.
Os boxplots das variáveis com diferença significativa resumem visualmente as disparidades regionais identificadas pelo teste de Kruskal-Wallis. Observa-se que as zonas Norte e Centro concentram medianas mais elevadas para precipitação total, precipitação diária e produtividade (AMA), sugerindo um regime hídrico mais favorável que se reflete no ganho volumétrico anual. Para temperatura máxima, temperatura média e altitude emerge um gradiente latitudinal e altimétrico bem definido: embora existam sobreposições nos intervalos interquartílicos, as medianas evidenciam perfis térmicos distintos entre regiões. Já a temperatura mínima apresenta variação menos pronunciada; a diferença é estatisticamente detectável, mas de magnitude prática modesta. Em síntese, os boxplots corroboram e quantificam a magnitude das divergências apontadas pelos resultados não paramétricos, destacando as variáveis hídricas e térmicas como principais eixos de contraste entre as zonas estudadas.
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = num)
## Overall MSA = 0.73
## MSA for each item =
## profund pedreg pretotal predia tempmax tempmed tempmin altitude
## 0.60 0.61 0.74 0.73 0.77 0.75 0.69 0.74
## idade ama
## 0.39 0.84
## $chisq
## [1] 216.6188
##
## $p.value
## [1] 2.660493e-24
##
## $df
## [1] 45
Antes de extrair as componentes principais avaliou-se a adequação da matriz de correlações. O índice Kaiser-Meyer-Olkin global foi 0,73, valor considerado “médio-bom” e suficiente para prosseguir com a ACP; oito das dez variáveis apresentaram MSA ≥ 0,60, reforçando a presença de estrutura latente a explorar. As exceções foram idade (0,39, indício de baixa comunalidade) e, em menor grau, profundidade do solo e pedregosidade (≈ 0,60), sinalizando que esses atributos se relacionam menos com o restante conjunto e poderão contribuir pouco para as componentes finais. O teste de esfericidade de Bartlett resultou em χ²(45) = 216,6 com p < 2,7 × 10⁻²⁴, rejeitando a hipótese de matriz identidade e confirmando correlações significativas entre as variáveis. Em síntese, os requisitos estatísticos para a aplicação da ACP foram atendidos, embora a variável idade deva ser interpretada com cautela ou até excluída em análises complementares devido ao seu baixo índice de adequação.
A análise em componentes principais confirma que os dados se organizam sobretudo em dois eixos latentes. A CP1 (≈ 44 % da variância) é governada pela precipitação—pretotal (0,91) e predia (0,86)—e apresenta cargas negativas nas temperaturas máximas e médias (-0,71; -0,70); por isso traduz um gradiente húmido versus quente, no qual produtividades (ama, 0,85) se associam a ambientes mais chuvosos e ligeiramente mais frescos. Já a CP2 (≈ 18 %) opõe áreas elevadas e pedregosas (altitude 0,64; pedreg 0,71) a zonas mais baixas/menos rochosas, acompanhada por carga negativa de tempmin (-0,58), reforçando o contraste altitude-frio. As comunalidades situam-se entre 0,74 e 0,96, indicando que as duas componentes capturam mais de 60 % da informação original com perda mínima de detalhe.
## *** : The Hubert index is a graphical method of determining the number of clusters.
## In the plot of Hubert index, we seek a significant knee that corresponds to a
## significant increase of the value of the measure i.e the significant peak in Hubert
## index second differences plot.
##
## *** : The D index is a graphical method of determining the number of clusters.
## In the plot of D index, we seek a significant knee (the significant peak in Dindex
## second differences plot) that corresponds to a significant increase of the value of
## the measure.
##
## *******************************************************************
## * Among all indices:
## * 7 proposed 2 as the best number of clusters
## * 2 proposed 3 as the best number of clusters
## * 2 proposed 4 as the best number of clusters
## * 5 proposed 5 as the best number of clusters
## * 1 proposed 7 as the best number of clusters
## * 1 proposed 8 as the best number of clusters
## * 1 proposed 13 as the best number of clusters
## * 4 proposed 15 as the best number of clusters
##
## ***** Conclusion *****
##
## * According to the majority rule, the best number of clusters is 2
##
##
## *******************************************************************
Os indicadores de adequação revelam correlações suficientes para a ACP (KMO global 0,73; teste de Bartlett altamente significativo). As cinco primeiras componentes explicam mais de 80 % da variabilidade total. A primeira componente descreve um gradiente húmido-frio, associado a maior produtividade, versus seco-quente. A segunda opõe altitude e pedregosidade às temperaturas médias. As comunalidades mantêm-se acima de 0,74, indicando perda mínima de informação. O agrupamento hierárquico, com dois grupos sugeridos pelo consenso de índices de validação, separa claramente regiões húmidas e elevadas de regiões quentes e secas, reforçando o peso do clima na organização do espaço produtivo.
##
## Call:
## lm(formula = ama ~ profund + pretotal + predia + tempmin, data = treino)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7314 -1.7025 0.4611 2.0481 4.7953
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.553883 3.323226 1.069 0.2934
## profund 0.046594 0.026986 1.727 0.0945 .
## pretotal 0.003988 0.002216 1.799 0.0820 .
## predia 0.061595 0.042731 1.441 0.1598
## tempmin -0.478940 0.244078 -1.962 0.0591 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.75 on 30 degrees of freedom
## Multiple R-squared: 0.6855, Adjusted R-squared: 0.6436
## F-statistic: 16.35 on 4 and 30 DF, p-value: 3.284e-07
O modelo final de regressão linear, selecionado por critério AIC, retém quatro preditores—profundidade do solo, precipitação total anual, precipitação média diária e temperatura mínima—e explica ≈ 68 % da variabilidade da produtividade (AMA), com R² ajustado de 0,64. O teste F global é altamente significativo (p ≈ 3 × 10⁻⁷), confirmando que o conjunto de regressões melhora substancialmente em relação a um modelo nulo. Entre os coeficientes, todos mantêm os sinais esperados: solos mais profundos (+0,047 m³ ha⁻¹ ano⁻¹ por cm) e maiores volumes de chuva—tanto anual (+0,004 m³ ha⁻¹ ano⁻¹ por mm) quanto diária (+0,062 m³ ha⁻¹ ano⁻¹ por mm)—aumentam a produtividade, enquanto temperaturas mínimas mais baixas a reduzem (-0,48 m³ ha⁻¹ ano⁻¹ por °C), refletindo o efeito limitante do frio. Apesar de os valores-p individuais ficarem no limiar da significância (0,06 – 0,16), a coerência dos sinais, a razoável magnitude dos coeficientes padronizados (β ≈ 0,20-0,39) e a ausência de multicolinearidade preocupante sustentam a relevância prática das variáveis. O erro-padrão residual de 2,75 m³ ha⁻¹ ano⁻¹ gera um RMSE externo de cerca de 4 m³ ha⁻¹ ano⁻¹, o que representa ~30 % da média observada e é aceitável para aplicações de planejamento silvicultural em escala regional.
diag <- broom::augment(modelo)
ggpubr::ggarrange(
ggplot(diag, aes(.fitted, .resid)) +
geom_point() + geom_smooth(se=F, col="red") +
labs(title="Resíduos vs Ajustados",
x="Ajustados", y="Resíduos") + theme_minimal(),
ggplot(diag, aes(sample=.std.resid)) +
stat_qq() + stat_qq_line() +
labs(title="Q-Q Resíduos",
x="Quantis teóricos", y="Resíduos padronizados") + theme_minimal(),
ggplot(diag, aes(.fitted, sqrt(abs(.std.resid)))) +
geom_point() + geom_smooth(se=F, col="red") +
labs(title="Escala-Localização",
x="Ajustados", y="√|Resíduos padronizados|") + theme_minimal(),
ggplot(diag, aes(.hat, .std.resid)) +
geom_point() + geom_smooth(se=F, col="red") +
geom_hline(yintercept=0, lty=2) +
labs(title="Resíduos vs Alavancagem",
x="Alavancagem", y="Resíduos padronizados") + theme_minimal(),
ncol=2, nrow=2
)## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.97438, p-value = 0.5742
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 0.30205, df = 4, p-value = 0.9897
## profund pretotal predia tempmin
## 1.234122 4.418948 3.925897 1.126172
## profund pretotal predia tempmin
## 0.1963892 0.3872823 0.2924216 -0.2132032
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.6001, p-value = 0.123
## alternative hypothesis: true autocorrelation is greater than 0
## RMSE (teste): 4.02
O modelo final, selecionado por critério de Akaike, inclui profundidade do solo, precipitação total, precipitação diária e temperatura mínima. Esses fatores explicam 69 % da variação da produtividade; o sinal dos coeficientes confirma que solos mais profundos e chuvas mais abundantes aumentam o AMA, enquanto temperaturas mínimas mais baixas o reduzem. Apesar de alguns coeficientes exibirem valores-p próximos da significância, o teste F global é altamente significativo, evidenciando boa qualidade global do ajuste.
Os diagnósticos de resíduos confirmam normalidade, homocedasticidade e independência razoável; os fatores de inflação da variância estão abaixo do limiar de preocupação, descartando multicolinearidade severa. A raiz do erro quadrático médio obtida em validação externa é de 4,0 m³ ha⁻¹ ano⁻¹, cerca de 29 % da produtividade média, o que é adequado para fins exploratórios.
A produtividade dos povoamentos de eucalipto em Portugal Continental é fortemente condicionada por variáveis climáticas, em especial precipitação e temperaturas mínimas, e em segundo plano pela profundidade do solo. A análise multivariada delineou dois macro-ambientes contrastantes — húmido-frio e seco-quente — que reaparecem tanto nos testes não paramétricos quanto nos agrupamentos hierárquicos. O modelo preditivo linear, embora simples, captura a maior parte da variabilidade observada sem violar pressupostos estatísticos essenciais. Recomenda-se, para planejamento silvicultural, priorizar áreas com maior disponibilidade hídrica e solos mais profundos, monitorar eventos de frio extremo e testar extensões do modelo que incorporem relações não lineares ou efeitos aleatórios de localidade para melhorar a extrapolação.