Caracterização do Banco de Dados

Variáveis

Region - Região
Countries - Países
Production - Prudução de Leite (t)
PropMix_TE - Representatividade do sistema de criação misto nas emissões absolutas (%) TE – Emissões Totais (absolutas) (tCO2eq)
EI – Intensidade de Emissão (Emissão Relativa) (tCO2eq/ t Produto)
Byprod – Subprodutos (tMS)
CR – Resíduos de Colheita (tMS)
FC – Forragem (tMS)
Grains – Grãos (tMS)
GL – Capim e Folhas (Pastagem) (tMS)
AFkg – Peso de Fêmeas Adultas (Kg)
DRFC – Taxa de Mortalidade de Bezerras (F) (%)
FR – Taxa de Fertilidade (%)
RAC – Taxa de Reposição de Fêmeas (%)

## tibble [180 × 15] (S3: tbl_df/tbl/data.frame)
##  $ Region    : chr [1:180] "SouthAsia" "WestEur" "WANA" "SSA" ...
##  $ Countries : chr [1:180] "Afghanistan" "Albania" "Algeria" "Angola" ...
##  $ Production: num [1:180] 115717 963992 2932015 215574 2900 ...
##  $ TE        : num [1:180] 764986 969370 2829686 1022898 7010 ...
##  $ PropMix_TE: num [1:180] 0.494 0.77 0.848 0.308 0.69 ...
##  $ EI        : num [1:180] 2.96 1.01 0.97 4.74 2.42 1.32 1.65 0.58 0.57 2.07 ...
##  $ Byprod    : num [1:180] 112545 106965 380158 20396 607 ...
##  $ CR        : num [1:180] 103959 57773 331148 23300 0 ...
##  $ FC        : num [1:180] 0 905128 0 0 0 ...
##  $ Grains    : num [1:180] 0 45753 197413 0 512 ...
##  $ GL        : num [1:180] 12324421 866612 4795781 5633376 11561 ...
##  $ AFkg      : num [1:180] 314 564 320 268 390 ...
##  $ DRFC      : num [1:180] 0.204 0.08 0.15 0.209 0.2 ...
##  $ FR        : num [1:180] 0.755 0.83 0.72 0.612 0.7 ...
##  $ RAC       : num [1:180] 0.21 0.2988 0.1 0.0928 0.15 ...

Gráficos de Dispersão

Dispersão para Todas as variáveis

Dispersão das Principais Variáveis

Total Emission (TE), Production, Emission Intesity (EI), Grass and Leaves (GL)

Matriz de Correlação

p-valor para as correlações entre variáveis

Gráfico resumo - Correlação, Dispersão e Histograma

Análise de Agrupamentos

Antes de iniciar as análises de agrupamentos das observações é necessário realizar a padronização dos dados, pois estes apresentam escalam muito diferentes entre si.

A padronização coloca as variáveis todas em uma mesma escala, o que garante a comparabilidade entre elas e evita que aquelas com valores maiores dominem a análise. A padronização também é necessária para melhorar o desempenho de métodos estatísticos sensíveis à escala, como o que usaremos nesta análise de agrupamentos.

## 
## Médias das variáveis após o escalonamento devem ser próximas de 0:
##                  Production                          TE 
##  0.000000000000000021953889 -0.000000000000000014436754 
##                  PropMix_TE                          EI 
## -0.000000000000000075971251 -0.000000000000000059211895 
##                      Byprod                          CR 
## -0.000000000000000020922693  0.000000000000000031485231 
##                          FC                      Grains 
## -0.000000000000000006476301  0.000000000000000010022847 
##                          GL                        AFkg 
## -0.000000000000000011567233 -0.000000000000000153388105 
##                        DRFC                          FR 
## -0.000000000000000024710172  0.000000000000000402600407 
##                         RAC 
##  0.000000000000000170554639
## 
## Desvios padrão das variáveis após o escalonamento devem ser 1:
## Production         TE PropMix_TE         EI     Byprod         CR         FC 
##          1          1          1          1          1          1          1 
##     Grains         GL       AFkg       DRFC         FR        RAC 
##          1          1          1          1          1          1

O método empregado na presente clusterização será K-means.
O k-means é um método de agrupamento particional que divide os dados em k grupos de forma que cada observação pertença ao cluster cujo centro (centroide) é mais próximo dela. O algoritmo funciona atribuindo cada ponto ao centroide mais próximo. e, em seguida, recalcula os centroides com base nas observações atribuídas.

A escolha da quantidade de clusters foi feita de forma intuitiva com comparação entre as médias dos grupos (k = 10, k = 13*, k= 14, k= 15, k= 18), fundamentada tanto pela interpretação biológica dos grupos quanto pelo desempenho estatístico observado.

Ao final definimos a escolha de 15 clusters (k=15), já que demostraram maior interpretabilidade e correspondência com os perfis produtivos e ambientais que caracterizam os rebanhos.

Abaixo o dendograma baseado distancia euclidiana considerando corte de peso 7.5 separando as observações em 15 clusters

A distribuição dos grupos fica na seguinte configuração

## 
## Distribuição dos países por clusters:
## Clusters
##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 
## 38 25 15 18  6 17  3  6  9  1 16 21  3  1  1

Mapa de calor para países e variáveis de maior influência

Iniciando Clusterização com método k-means

## 
## --- Tabela de Perfis dos Clusters (Médias) ---

Análise Descritiva dos Clusters

## 
## --- Análise Descritiva ---

Países por clusters

Boxplots comparando variáveis por clusters

HEATMAP - Variáveis que mais afetam a formação de cada cluster

Gráfico de radar