Region - Região
Countries - PaÃses
Production - Prudução de Leite (t)
PropMix_TE - Representatividade do sistema de criação misto nas emissões
absolutas (%) TE – Emissões Totais (absolutas) (tCO2eq)
EI – Intensidade de Emissão (Emissão Relativa) (tCO2eq/ t Produto)
Byprod – Subprodutos (tMS)
CR – ResÃduos de Colheita (tMS)
FC – Forragem (tMS)
Grains – Grãos (tMS)
GL – Capim e Folhas (Pastagem) (tMS)
AFkg – Peso de Fêmeas Adultas (Kg)
DRFC – Taxa de Mortalidade de Bezerras (F) (%)
FR – Taxa de Fertilidade (%)
RAC – Taxa de Reposição de Fêmeas (%)
## tibble [180 × 15] (S3: tbl_df/tbl/data.frame)
## $ Region : chr [1:180] "SouthAsia" "WestEur" "WANA" "SSA" ...
## $ Countries : chr [1:180] "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ Production: num [1:180] 115717 963992 2932015 215574 2900 ...
## $ TE : num [1:180] 764986 969370 2829686 1022898 7010 ...
## $ PropMix_TE: num [1:180] 0.494 0.77 0.848 0.308 0.69 ...
## $ EI : num [1:180] 2.96 1.01 0.97 4.74 2.42 1.32 1.65 0.58 0.57 2.07 ...
## $ Byprod : num [1:180] 112545 106965 380158 20396 607 ...
## $ CR : num [1:180] 103959 57773 331148 23300 0 ...
## $ FC : num [1:180] 0 905128 0 0 0 ...
## $ Grains : num [1:180] 0 45753 197413 0 512 ...
## $ GL : num [1:180] 12324421 866612 4795781 5633376 11561 ...
## $ AFkg : num [1:180] 314 564 320 268 390 ...
## $ DRFC : num [1:180] 0.204 0.08 0.15 0.209 0.2 ...
## $ FR : num [1:180] 0.755 0.83 0.72 0.612 0.7 ...
## $ RAC : num [1:180] 0.21 0.2988 0.1 0.0928 0.15 ...
Antes de iniciar as análises de agrupamentos das observações é necessário realizar a padronização dos dados, pois estes apresentam escalam muito diferentes entre si.
A padronização coloca as variáveis todas em uma mesma escala, o que garante a comparabilidade entre elas e evita que aquelas com valores maiores dominem a análise. A padronização também é necessária para melhorar o desempenho de métodos estatÃsticos sensÃveis à escala, como o que usaremos nesta análise de agrupamentos.
##
## Médias das variáveis após o escalonamento devem ser próximas de 0:
## Production TE
## 0.000000000000000021953889 -0.000000000000000014436754
## PropMix_TE EI
## -0.000000000000000075971251 -0.000000000000000059211895
## Byprod CR
## -0.000000000000000020922693 0.000000000000000031485231
## FC Grains
## -0.000000000000000006476301 0.000000000000000010022847
## GL AFkg
## -0.000000000000000011567233 -0.000000000000000153388105
## DRFC FR
## -0.000000000000000024710172 0.000000000000000402600407
## RAC
## 0.000000000000000170554639
##
## Desvios padrão das variáveis após o escalonamento devem ser 1:
## Production TE PropMix_TE EI Byprod CR FC
## 1 1 1 1 1 1 1
## Grains GL AFkg DRFC FR RAC
## 1 1 1 1 1 1
O método empregado na presente clusterização será K-means.
O k-means é um método de agrupamento particional que divide os dados em
k grupos de forma que cada observação pertença ao cluster cujo centro
(centroide) é mais próximo dela. O algoritmo funciona atribuindo cada
ponto ao centroide mais próximo. e, em seguida, recalcula os centroides
com base nas observações atribuÃdas.
A escolha da quantidade de clusters foi feita de forma intuitiva com comparação entre as médias dos grupos (k = 10, k = 13*, k= 14, k= 15, k= 18), fundamentada tanto pela interpretação biológica dos grupos quanto pelo desempenho estatÃstico observado.
Ao final definimos a escolha de 15 clusters (k=15), já que demostraram maior interpretabilidade e correspondência com os perfis produtivos e ambientais que caracterizam os rebanhos.
Abaixo o dendograma baseado distancia euclidiana considerando corte de peso 7.5 separando as observações em 15 clusters
A distribuição dos grupos fica na seguinte configuração
##
## Distribuição dos paÃses por clusters:
## Clusters
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
## 38 25 15 18 6 17 3 6 9 1 16 21 3 1 1
##
## --- Tabela de Perfis dos Clusters (Médias) ---
##
## --- Análise Descritiva ---