Resumo
Introdução
Dados
Cultivares: Informações sobre as diferentes variedades de soja utilizadas nos experimentos.
Localização: Características geográficas dos locais onde os experimentos foram conduzidos.
Dados Climáticos: Informações sobre precipitação, temperatura e outras condições climáticas durante o período dos experimentos.
Componentes Químicos do Solo: Dados sobre a composição química do solo, incluindo níveis de nutrientes e pH.
Terras: divididas em (Altas ou Baixas)Ambiente: dividido em (Sequeiro ou Irrigado)Cultura_Ant: (“arroz e pousio”,“aveia”, “aveia branca”, “aveia e centeio”, “aveia e ervilhaca”, “azevem”, “cevada”, nabo”)P_base: Quantidade de adubação de FósforoN_base: Quantidade de adubação de NitrogênioProdutividade: Produtividade de soja (Kg/ha)GMR: Grupo de maturação relativoEspacamento: Espaçamento entre linhas do plantio de sojaTemperatura_Max: média da temperatura máxima durante o périodoPH: PH do soloM.O.(%): Matéria orgânica (%)Epoca_de_semeadura: Data de plantio
Sendo as primeiras colunas e observações dadas por:
## Warning in gzfile(file, mode): não foi possível abrir o arquivo comprimido
## 'C:/Users/arthu/AppData/Local/Temp/RtmpEZXILR\file56181a324cd', motivo provável
## 'No such file or directory'
| X | Safra | COD_PROD | Local | Cod_Estacao_Met | Altitude | Terras | Ambiente | Cultivar | Cultura_Ant | Epoca_de_semeadura | N_base |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 390 | 2021/2022 | AG117 | ALEGRETE | A826 | 117 | BAIXAS | SEQUEIRO | AS 3595 I2X | azevem | 2021-11-23 | 13.5 |
| 391 | 2021/2022 | AG117 | ALEGRETE | A826 | 117 | BAIXAS | SEQUEIRO | AS 3615 I2X | azevem | 2021-11-23 | 13.5 |
| 392 | 2021/2022 | AG117 | ALEGRETE | A826 | 117 | BAIXAS | SEQUEIRO | BMX COMPACTA IPRO | azevem | 2021-11-23 | 13.5 |
| 393 | 2021/2022 | AG117 | ALEGRETE | A826 | 117 | BAIXAS | SEQUEIRO | BMX CROMO TF IPRO | azevem | 2021-11-23 | 13.5 |
| 394 | 2021/2022 | AG117 | ALEGRETE | A826 | 117 | BAIXAS | SEQUEIRO | BMX LOTUS IPRO | azevem | 2021-11-23 | 13.5 |
Análise Descritiva
| Name | dados |
| Number of rows | 1513 |
| Number of columns | 33 |
| _______________________ | |
| Column type frequency: | |
| character | 10 |
| numeric | 22 |
| POSIXct | 1 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|
| X | 0 | 3 | 4 | 0 | 1513 | 0 |
| Safra | 0 | 9 | 9 | 0 | 2 | 0 |
| COD_PROD | 0 | 5 | 5 | 0 | 34 | 0 |
| Local | 0 | 5 | 23 | 0 | 27 | 0 |
| Cod_Estacao_Met | 0 | 4 | 4 | 0 | 18 | 0 |
| Terras | 0 | 5 | 6 | 0 | 2 | 0 |
| Ambiente | 0 | 8 | 8 | 0 | 3 | 0 |
| Cultivar | 0 | 5 | 25 | 0 | 184 | 0 |
| Cultura_Ant | 0 | 2 | 17 | 0 | 13 | 0 |
| PRODUTOR/PARCEIRO | 0 | 3 | 26 | 0 | 32 | 0 |
Variable type: numeric
| skim_variable | n_missing | mean | sd | p0 | p25 | p50 | p75 | p100 |
|---|---|---|---|---|---|---|---|---|
| Altitude | 0 | 304.69 | 217.97 | 3.00 | 105.00 | 288.00 | 489.00 | 688.00 |
| N_base | 191 | 12.46 | 8.56 | 0.00 | 6.00 | 9.20 | 17.20 | 40.00 |
| P_base | 191 | 74.45 | 28.20 | 40.00 | 56.00 | 64.40 | 92.00 | 135.00 |
| K_base | 191 | 41.47 | 32.79 | 0.00 | 0.00 | 45.50 | 60.00 | 112.50 |
| Produtividade | 0 | 2630.00 | 1417.06 | 185.00 | 1512.70 | 2416.70 | 3622.57 | 6898.68 |
| GMR | 32 | 5.83 | 0.43 | 4.90 | 5.50 | 5.80 | 6.10 | 8.10 |
| N_Plantas | 474 | 77.28 | 25.36 | 12.00 | 59.75 | 74.50 | 92.25 | 172.00 |
| Espacamento | 53 | 0.47 | 0.04 | 0.40 | 0.45 | 0.45 | 0.45 | 0.58 |
| Area_colhida | 247 | 3.37 | 0.96 | 0.90 | 2.70 | 3.60 | 4.05 | 5.40 |
| Populacao | 247 | 18.12 | 9.21 | 0.00 | 15.25 | 20.30 | 24.07 | 43.98 |
| Temperatura_Max | 0 | 24.42 | 1.23 | 22.08 | 23.59 | 24.48 | 25.08 | 28.10 |
| Precipitacao_Total | 0 | 389.34 | 88.58 | 158.70 | 315.90 | 372.80 | 451.20 | 735.20 |
| Umidade_Med | 0 | 68.61 | 6.20 | 52.93 | 64.45 | 68.68 | 72.00 | 80.19 |
| Radiacao_Med | 0 | 24285.63 | 2940.83 | 20411.79 | 22770.84 | 23768.85 | 24520.27 | 38592.57 |
| PH | 0 | 5.18 | 0.35 | 4.50 | 5.00 | 5.10 | 5.30 | 6.30 |
| ARGILA | 18 | 43.19 | 20.31 | 4.00 | 27.00 | 44.00 | 59.00 | 85.00 |
| P(mg/L) | 0 | 26.14 | 41.91 | 2.50 | 9.00 | 19.00 | 27.00 | 359.20 |
| K(mg/L) | 0 | 130.42 | 109.59 | 28.00 | 72.00 | 88.00 | 180.00 | 636.00 |
| M.O.(%) | 0 | 2.51 | 0.83 | 1.00 | 1.90 | 2.50 | 2.90 | 5.90 |
| CTC PH7 | 0 | 14.09 | 4.21 | 6.90 | 11.40 | 14.00 | 15.40 | 35.50 |
| SATURACAO DE BASE(%) | 0 | 62.70 | 14.10 | 27.00 | 54.00 | 65.00 | 76.00 | 86.00 |
| SATURACAO Al(%) | 0 | 3.38 | 5.74 | 0.00 | 0.00 | 2.10 | 4.00 | 34.00 |
Variable type: POSIXct
| skim_variable | n_missing | min | max | median | n_unique |
|---|---|---|---|---|---|
| Epoca_de_semeadura | 0 | 2021-09-16 | 2022-12-14 | 2022-11-06 | 40 |
Média da produtividade: 2458
Desvio padrão da produtividade: 1434
O gráfico de boxplot mostra a relação entre os anos das safras com a produtividade
Safra
deveria ser significativa para a explicação da produtividade de soja, no
entanto ja tem relação com outras variáveis do modelo. Além disso, deve
explicar a alta variabilidade dos erros, conforme será apresentado nas
suposições do modelo.Ajustes dos Dados
1 - Inicialmente foi removida uma cultivar experimental e cultivares com grupos de maturação relativos maiores que 7
2 - Os locais Santa Rosa e Jacutinga apresentaram ser pontos influêntes para o modelo. Logo para o ajuste foi melhor remover essas observações
3 - Locais os quais não tiveram uma cultura antes do plantio de soja ou tiveram mix também foram pontos de alavancagem para o modelo.
4 - Criação da variável mês, relacionada a data de
plantio, ou seja, invés de ter dia e mês, tem se apenas o mês
5 - Foi alterado a variável Terras, em que Baixas recebe
0 e Altas recebe 1. A variável Ambiente, “irrigado” = 1 e
“sequeiro” = 0
Os dados depois de filtrados e selecionados as variáveis importantes para o modelo, é dado por:
## Warning in gzfile(file, mode): não foi possível abrir o arquivo comprimido
## 'C:/Users/arthu/AppData/Local/Temp/RtmpEZXILR\file5618612e339c', motivo
## provável 'No such file or directory'
| Terras | Ambiente | Cultura_Ant | P_base | N_base | Produtividade | GMR | Espacamento | Temperatura_Max | PH | M.O.(%) | mes |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | azevem | 135.0 | 9.0 | 4330.1250 | 6.1 | 0.50 | 23.26305 | 4.9 | 2.0 | nov |
| 1 | 0 | aveia | 69.0 | 6.0 | 2585.2788 | 5.8 | 0.45 | 24.59763 | 5.0 | 2.6 | nov |
| 1 | 1 | aveia | 43.0 | 17.2 | 4275.1000 | 5.4 | 0.45 | 24.76108 | 4.9 | 3.0 | out |
| 0 | 0 | azevem | 69.0 | 13.5 | 405.2235 | 5.7 | 0.45 | 25.07801 | 4.8 | 1.2 | nov |
| 1 | 1 | trigo | 40.0 | 16.0 | 3592.3250 | 5.8 | 0.45 | 25.35516 | 5.1 | 2.9 | nov |
| 1 | 0 | trigo | 40.0 | 16.0 | 906.2000 | 5.4 | 0.45 | 25.35516 | 5.1 | 2.9 | nov |
| 1 | 1 | aveia e ervilhaca | 57.5 | 5.0 | 2897.3250 | 6.4 | 0.45 | 24.47887 | 6.3 | 2.8 | out |
| 1 | 1 | aveia e ervilhaca | 57.5 | 5.0 | 2735.3250 | 5.9 | 0.45 | 24.47887 | 6.3 | 2.8 | out |
| 1 | 1 | aveia e ervilhaca | 57.5 | 5.0 | 1058.9250 | 4.9 | 0.45 | 23.69126 | 4.8 | 2.7 | nov |
| 0 | 0 | azevem | 56.0 | 6.0 | 3135.2500 | 5.2 | 0.45 | 23.68543 | 5.3 | 2.0 | dez |
Modelo Ajustado
Inicialmente, foi selecionada as variáveis do modelo pelo algoritmo de Stepwise, determinando aquele com menor AIC
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 34062.508754 | 908.227227 | 37.5043907 | 0.0000000 |
| Terras1 | -1494.382152 | 81.064383 | -18.4345098 | 0.0000000 |
| Ambiente0 | -2410.469323 | 60.900930 | -39.5801725 | 0.0000000 |
| Cultura_Antaveia | -222.616571 | 127.881313 | -1.7408061 | 0.0821773 |
| Cultura_Antaveia e centeio | -1633.721856 | 159.065955 | -10.2707198 | 0.0000000 |
| Cultura_Antaveia e ervilhaca | -3278.926009 | 145.752264 | -22.4965700 | 0.0000000 |
| Cultura_Antazevem | -1333.979455 | 99.802047 | -13.3662534 | 0.0000000 |
| Cultura_Antcevada | -314.252257 | 145.808254 | -2.1552433 | 0.0314989 |
| Cultura_Antnabo | -2098.207963 | 173.752054 | -12.0758743 | 0.0000000 |
| Cultura_Anttrigo | -74.332602 | 115.227491 | -0.6450943 | 0.5190872 |
| P_base | 5.817805 | 1.336358 | 4.3534770 | 0.0000155 |
| N_base | -36.833253 | 3.803653 | -9.6836523 | 0.0000000 |
| GMR | 177.136001 | 43.457706 | 4.0760551 | 0.0000513 |
| Espacamento | -13410.385353 | 969.980868 | -13.8254122 | 0.0000000 |
| Temperatura_Max | -1080.879735 | 29.997418 | -36.0324257 | 0.0000000 |
| PH | 589.197131 | 73.340645 | 8.0337053 | 0.0000000 |
M.O.(%) |
477.670294 | 33.857294 | 14.1083424 | 0.0000000 |
| mesnov | -646.319615 | 77.359217 | -8.3547848 | 0.0000000 |
| mesout | -486.693245 | 74.382306 | -6.5431319 | 0.0000000 |
O Modelo de regresssão linear múltipla, é expressado pela equação:
\[ Y= \beta_0 + \sum^{18}_{i=1} \beta_i X_{i} + \epsilon \]
Sendo:
\(Y = 34062.5 -1494.4 X_{1} -2410.5 X_{2} -222.6 X_{3} -1633.7 X_{4} -3278.9 X_{5} -1334 X_{6} -314.3 X_{7} \\ -2098.2 X_{8} -74.3 X_{9} + 5.8 X_{10} -36.8 X_{11} + 177.1 X_{12} -13410.4 X_{13} \\ -1080.9 X_{14} + 589.2 X_{15} + 477.7 X_{16} -646.3 X_{17} -486.7 X_{18} + \epsilon\)
Em que:
Interpretação dos betas:
\(\beta_1\), significa que terras altas produzem -1494.4 kg/ha a menos que terras baixas.
\(\beta_2\), significa que ambientes sequeiros produzem -2410.5 kg/ha a menos que ambientes irrigados
\(\beta_{3}, \cdots, \beta_9\) , quanto maior o beta maior é significante para o aumento de produtividade, ou seja, neste caso o plantio de trigo antes da soja melhora a protuvidade.
\(\beta_{10}\), a cada um 1 kg/ha de fósforo, dentro do intervalo de \(X_{10}\) estabelecido, aumenta 5.8 kg/ha na produtividade de soja.
\(\beta_{11}\) a cada um 1 kg/ha de nitrogênio, dentro do intervalo de \(X_{11}\) estabelecido, diminui -36.8 kg/ha na produtividade de soja.
\(\beta_{12}\), quanto maior for o GMR, maior será a produtividade
\(\beta_{13}\), espaçamentos menores tem mais incremento na produtividade
\(\beta_{14}\), temperaturas mais altas diminuem a produtividade.
\(\beta_{15}\), o PH do solo tem um fator positivo na produtividade
\(\beta_{16}\), a cada um 1% de matéria orgânica, aumenta em 477.7 kg/ha de soja
\(\beta_{17}\) e \(\beta_{18}\), o plantio no mês de outubro em relação ao mês de novembro tem um acréscimo de aproximadamente 160 kg/ha.
Analise de diagnóstico
As principais observações influentes podem ser visualizadas na tabela a seguir
## Warning in gzfile(file, mode): não foi possível abrir o arquivo comprimido
## 'C:/Users/arthu/AppData/Local/Temp/RtmpEZXILR\file561815833ea0', motivo
## provável 'No such file or directory'
| Terras | Ambiente | Cultura_Ant | P_base | N_base | Produtividade | GMR | Espacamento | Temperatura_Max | PH | M.O.(%) | mes |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | azevem | 135.0 | 9.0 | 4330.125 | 6.1 | 0.50 | 23.26305 | 4.9 | 2.0 | nov |
| 1 | 1 | aveia e ervilhaca | 57.5 | 5.0 | 1058.925 | 4.9 | 0.45 | 23.69126 | 4.8 | 2.7 | nov |
| 1 | 0 | aveia e centeio | 90.0 | 6.0 | 868.800 | 5.8 | 0.45 | 23.95177 | 4.9 | 1.4 | nov |
| 1 | 0 | azevem | 54.6 | 7.8 | 1907.925 | 5.2 | 0.45 | 22.68672 | 5.4 | 2.5 | nov |
| 1 | 0 | aveia e centeio | 90.0 | 6.0 | 750.800 | 5.3 | 0.45 | 23.95177 | 4.9 | 1.4 | nov |
| 1 | 0 | aveia e centeio | 90.0 | 6.0 | 694.150 | 5.0 | 0.45 | 23.95177 | 4.9 | 1.4 | nov |
| 1 | 0 | aveia e centeio | 90.0 | 6.0 | 1058.175 | 6.4 | 0.45 | 23.95177 | 4.9 | 1.4 | nov |
| 1 | 0 | aveia e centeio | 90.0 | 6.0 | 957.900 | 6.0 | 0.45 | 23.95177 | 4.9 | 1.4 | nov |
Apesar de ainda possuir pontos de influência não afetam no ajuste do modelo
Alavancagem
Como de esperado ficou alguns pontos de alavancagem, mas a retirada deles não afetaram o \(R^2\) do modelo
DFFIT
É possível observar que alguns pontos têm valores dos DFFITS acima da linha de referência, mas após análises, eles não apresentaram influência na regressão
Distância de Cook
Os mesmos pontos identificados anteriormente aparece no gráfico da distância de cook, mas a remoção dos mesmos não afeta significativamente nos coeficientes da regressão.
Resíduo
Como esperado, a distribuição dos resíduos tende a se aproximar de uma distribuição normal com média 0. Esta suposição será verificada a seguir através de testes de normalidade.
Envelope Simulado
Baseado nos resíduos studentizados para verificação de normalidade
A partir do gráfico podemos ver alguns pontos fora do intervalo, mas como n = 688, é esperado a 5% que até 34.4 pontos fiquem fora do intervale e após testes os resíduos seguem normalidade conforme é esperado.
Suposições do modelo
- [S0] O modelo esta corretamente específicado
- [S1] A média dos erros é zero
- [S2] Homoscedasticidade dos erros
- [S3] Não autocorrelacão
- [S4] Ausência de Multicolinearidade
- [S5] Normalidade dos erros
Teste RESET
\[ \begin{cases} H_0: \textrm{O modelo esta corretamente especificado}\\ H_1: \textrm{O modelo não esta corretamente especificado}. \end{cases} \]
##
## RESET test
##
## data: fit
## RESET = 3.8991, df1 = 2, df2 = 667, p-value = 0.02072
Conforme o tese RESET, utilizado para verificar se o modelo está corretamente específicado, não rejeita-se \(H_0\) devido p-valor = 0.0207244 > \(\alpha\) = 0.01, ou seja, O modelo esta corretamente especificado.
Teste t para a média dos errros
\[ \begin{cases} H_0: \textrm{ A média dos erros é igual a zero }\\ H_1: \textrm{média dos erros é diferente de zero}. \end{cases} \]
##
## One Sample t-test
##
## data: resid(fit)
## t = -1.9068e-15, df = 687, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -31.82613 31.82613
## sample estimates:
## mean of x
## -3.090807e-14
Conforme o teste T de Student, não rejeita-se \(H_0\) devido ao p-valor = 1 > \(\alpha\) = 0.01. Dessa forma, a média dos erros é igual a zero.
Teste de Bressch-Pagan
\[ \begin{cases} H_0: \textrm{ Os erros são homoscedasticos }\\ H_1: \textrm{Os erros não são homoscedasticos}. \end{cases} \]
##
## studentized Breusch-Pagan test
##
## data: fit
## BP = 100.22, df = 18, p-value = 2.016e-13
Conforme o teste de Breusch-Pagan, rejeita-se \(H_0\) devido p-valor = 2.0160966^{-13} < \(\alpha\) = 0.01. Dessa forma, os erros são heteroscedasticos, não seguindo a suposição \([S2]\). O ideal para seria modelar a variância junto, já que existe muita diferença de manejo dos produtores entre os locais dos experimentos.
Teste de Durbin-Watson
\[ \begin{cases} H_0: \textrm{Não há autocorrelação}\\ H_1: \textrm{Há autocorrelação}. \end{cases} \]
##
## Durbin-Watson test
##
## data: fit
## DW = 1.9708, p-value = 0.347
## alternative hypothesis: true autocorrelation is greater than 0
Conforme o teste de Durbin-Watson, não rejeita-se \(H_0\) devido p-valor = 0.3469988 > \(\alpha\) = 0.01. Ou seja, não existe multicolinealidade entre as variáveis explicativas
Fatores de Inflação de Variância
\[ \begin{cases} H_0: \textrm{Não há multicolinearidade}\\ H_1: \textrm{Há multicolinearidade}. \end{cases} \]
| GVIF | Df | GVIF^(1/(2*Df)) | |
|---|---|---|---|
| Terras | 5.036604 | 1 | 2.244238 |
| Ambiente | 3.174420 | 1 | 1.781690 |
| Cultura_Ant | 54.890862 | 7 | 1.331220 |
| P_base | 2.649398 | 1 | 1.627697 |
| N_base | 3.077642 | 1 | 1.754321 |
| GMR | 1.113293 | 1 | 1.055127 |
| Espacamento | 2.360238 | 1 | 1.536307 |
| Temperatura_Max | 3.029015 | 1 | 1.740407 |
| PH | 2.649733 | 1 | 1.627800 |
M.O.(%)
|
2.279752 | 1 | 1.509885 |
| mes | 6.295974 | 2 | 1.584038 |
Interpretação:
Dessa forma, todos os valores estão próximos de 1 indicando o indício de não multicolinearidade
Teste Jarque-Bera
\[ \begin{cases} H_0: \textrm{Os erros possuem distribuição normal}\\ H_1: \textrm{Os erros não possuem distribuição normal}. \end{cases} \]
##
## Jarque Bera Test
##
## data: resid(fit)
## X-squared = 7.3333, df = 2, p-value = 0.02556
Conforme o teste de Jarque-Bera, não rejeita-se \(H_0\) devido ao p-valor = 0.0255623$ > = 0.01$. Ou seja, os erros possuem distribuição normal
Predição
| Terras | Ambiente | Cultura_Ant | P_base | N_base | GMR | Espacamento | Temperatura_Max | PH | M.O.(%) | mes | Predicao |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 0 | aveia | 70 | 10 | 5.0 | 0.50 | 25 | 5 | 2 | nov | 387.4551 |
| 1 | 1 | cevada | 80 | 6 | 6.0 | 0.45 | 26 | 7 | 3 | out | 4494.2662 |
| 0 | 0 | aveia e ervilhaca | 75 | 7 | 5.5 | 0.45 | 26 | 8 | 4 | dez | 2012.5757 |
O gráfivo a seguir mostra a relação entre os valores reais de produtividade, com os valores preditos a partir do modelo de regressão.
Conclusão
Trabalhos futuros
Modelar a variância
Remover pelo menos uma safra, em locais que foi realizado os ensaios em mais de um ano, para assim, evitar possível dependência temporal.
Usar todos os blocos invés da média deles
Pensar em uma forma de definir todos os dias de plantio
Usar as coordenadas geográficas dos local como variáveis