Objectif:

L’analyse DAPC permet d’identifier de façon non paramétrique des groupes, en effectuant une recherche de cluster de points (K means) après une analyse ACP.

Analyse

ATTENTION: LES ANALYSES QUI SUIVENT SONT BASEES SUR LA MATRICE CENTREE REDUITE! (La comparaison est faite à la fin, en non centré réduit)

Recherche du nombre optimal de groupes:

L’algorithme DAPC (package ADEGENET sous R, Jombart 2010) parcours une gamme de nombre de groupes que l’on veut explorer, ici de 1 à 30, et il recherche les clusters correspondants dans l’espace multivarié, par “tatonnement”" (Kmeans), en ajoutant et enlevant des individus à des groupes jusqu’à ce qu’ils se stabilisent. Il procède à plusieurs itérations pour juger de la stabilité de l’assignations d’un individu à un groupe, et la stabilité des groupes. Il compare ensuite la qualité de ces différentes assignations grace au critère BIC: plus il est bas, mieux c’est!

Pour nos données:

plot of chunk unnamed-chunk-2

## Choose the number of clusters (>=2:

plot of chunk unnamed-chunk-2

## Choose the number of clusters (>=2:

Le nombre de groupes optimal est compris entre K=3 et K=6, et les deux répétitions de l’analyse montrent le côté stochastique de la définition des groupes. (en non centré non réduit, le nombre de groupe est de 6 à 10)

Projection des groupes par une analyse discriminante:

plot of chunk unnamed-chunk-3

On retrouve une certaine constance dans l’analyse discriminante, avec trois groupes de populations assez distants, qui se sous divisent au fur et a mesur que K augmente (les changements de couleurs, réatribuées à chaque analyse, perturbent un peu cette lecture).

Assignation des individus aux groupes:

Une illustration de l’attribution des individus aux groupes, avec K=5,répétée deux fois:

plot of chunk unnamed-chunk-4

Test de la cohérence des goupes quand on passe de K=6 à K=3:

plot of chunk unnamed-chunk-5

Une illustration de l’attribution des individus aux groupes, avec K=5,répétée quatre fois:

plot of chunk unnamed-chunk-6

Assignation en variables NON CENTREES REDUITES, avec K=5,répétée quatre fois:

plot of chunk unnamed-chunk-7