Réunion de restitution du PEPR AgroNum

#Juillet 2024 ici Documents/MTA >Data transfert agreement

##Présentation avancement Brief ###Intervention de Jacques Sainte Marie (INRIA) Enjeu de la qualité et de la tracabilité des données. Quelle place de l’IA dans l’annotation ? Quelle éthique/déontologie du chercheur ? redaction assistée par l’IA. Quelle prospective pour l’analyse des agrosystemes alternatifs ###intervention de Francois Sabot (présentation IRD) 5 dpt scientifiques 2700 chercheur et 805 support Labo mixte inter inter research network (~CNRS) tourner vers l’applicatif

##PGD/Gestion/devenir données Vanita ? guidelibes V1 dispo sur nextcloud flux de données quelle interop entre nas genotoul et meso centre pour récupérer les ID biosample ? cines collecte metadata Guidelines > nomenclature fichier génomiques .fa création d’un compte génotoul demande au support pour intégrer une liste

European variation archive > dépot de graph de pangenome modalités de réutilisation des données non publiées : PGD ? > indiquer une terme raisonnable comme 2 ans underline au terme duquel les données sont larguées dans le domaine publique. La date de dépot est spécifié en dernière colonne de la trame (excel)

faut-il importer dans le nas genotoul les metadonnées associées (ex: version de génome, N50, etc…) à des données externes publiques ou interne non publiées Ce terme peut etre rallongé avec close de revoyure

##Premiers résultats ###AgroDiv Ya t-il une diversité adapté à des conditions environnementales ? réduction de la diversité lié à la selection anthropique (quel niveau 3à% ? methode gene based 50% genome based) ~20000 accessions plantes acquises (geno/seq) ~7000 accessions animaux >identification de variété

Haplotiguage papillon ###WP1: ###Caracrtérisation de régions ciblées I.e: Région sous QTL Region en epistasie Cf travaux de cytogénomique et Olivier Coriton Stratégie a reflcihier selon la taille du génome envisagée. La balance qté info vs sous peut etre en faveur du WGS

underline microfuidique selection de région amplifiée et marquée par sonde fluo (ex: gene centrée) Puis extension de part et d’autres de ce gene >soumis au biais d’amplification underline par inversion de courant pas de biais PCR utile pour la bonne association des chromosomes d’un meme sous-genome ? enjeu = moment ou capturer les sous-génomes METAPHASE

underline hybridation de sonnde ADN concues par Twist biosciences lecture longue 12-96 echantillons underline diversité plus grande possible que les trois autres pas de biais PCR lecture courte illumina en PacBio

Kes ki explique la faible qualité des zones riches en GC et/ou TE en ONT ?

###WP4 Agrodiv (<>WP3 Brief) GA/CT rich Développement d’un pipeline par Adela pour identifier/quantifier les zones riches en GA/CT récupérer de données dans les failed data pour venir combler les trous/factures des contigs liés à la richesse de la zone en GA/CT Developpement d’un pipeline d’annotation structurale à base de braker 3 et fonctionnelle

Pan1c: création de pangénome à l’échelle chromosomique utilisant PGGB forgemia. Chr1.gfa Chrn.gfa ####transfert d’annotation dispo sur un génome vers les autres génomes via le graph de pangénome (Nina Marthe) approche sans alignement basé sur les coordonnées rapidite comparaison avec liftoff de genome a genome sans graph de variation résultat proche plus rapide 8 minutes versus 30 minutes perspectives permettre l’ajout de plusieurs annotations

####Caractérisation de la variation structurale (Siegfried Dubois) Etude comparative entre deux outils: Minigraph/PGGB différence de topologie des graph selon l’outil peut engager l’interprétation des resultats le choix de la reference est très importante si on travaille avec Minigraph. très lié aux sequences repétées (travail sur microsat) qui engagent des multiples boucles >masking ??

###SPARSE-seq (<3X) besoin d’une centaine de sequences individuelles algo d’imputation: glimpse necessite panl de ref Stitch +outil intégrer dans parsec nextflow pipeline

Quelle longueur de lecture ? 2*150 efficience de l’imputation est sensible à l’importance du déséquilibre de liaison. plus le LD est faible plus l’imputation sera complexe

Estimer cette efficience d’imputation voire avec les données de 2*300bp wichurana faire descendre la profondeur de 20X à 3X puis à 0,4X /! la quantité de données explose

###WP5 *presentation d’un dispositif Porc croisement tropique/indus 380 F1 né et elevé en environnement contrasté génotypage transcripto sur puce

L’abricotier et l’amandier Histoire evolutive des arbres ###WP6: genomique comparative reconstrcution du génomes des ancetres des familles de plantes angiosperme et de l’ancetre de tous. evenement de duplication par le nombre de gene en simple copie

##Brief Minimal Metadata cycle acquisition des données du CRB vers le labo en passant par la plateforme OK Cycle de traitement des données à discuter cahier de labo electronique : elabFTW Forge institutionnelle: gitlab forgemia.inra.fr/pepragrodiv comment mettre à disposition les données de geno depuis les interfaces inventoriant les accessions accessions au rawdata ? > SRA acces au table de genotypage >SRA acces à l’image de diversité des accessuibs de type ACP ? Intégration de la reglementation type MTA pour les accessions absforBRC absforBRC

#Groupe de discussion ##Groupe 1: Diversité inter comparaison de pangénome (def Jerome Salse) notion de N50 84 sequences génomiques de plantes angiospermes comparées representant 6 familles othologues 81000 orthogroupe dont 49000 avec au moins deux espèces

quelle données descriptives à assicier à l’analyse ID-Orthogroup information sur presence/absence de gene information sur différence de structure genique (ex: nb exon) table de minimum information about genomic data. si pas go, pas d’intégration du dit-genome dans l’analyse Inventaire de genes causaux (base biblio) >minimum information about genic data.

ID-synthénicgroup ID-Function lien vers base stable dans le temps ID-phenotype lien vers base stable ID-var (SNPeff ??) données de variation polymorhique intrapop de type SNP envoyer ds données publiques de variant SNP https://www.ebi.ac.uk/eva/

Protéiques

Simulation de l’expression phenotypique sur les variations nucléiques et peptidiques

carte de connaissance (knowledge graph) le Neo4graph peut-il etre considéré comme tel ?

comment rendre accessibles ?

##Groupe 2: Diversité intra production de pangénome (def Jerome Salse)

Necessité d’avoir des fondateurs T2T pour imputer des SV. Importance de génotyper ces SV par haplotiguage

Outil de génotypage développer par le laboratoire IRISA SVJedi-graph

Landscape genomics discussion sur l’accès aux données météorologiques via l’accord INRAE/meteoFrance Importance de récolter la données météo en temps reel que le prelevement pour genotypage. Pas facile depuis un an depuis le contexte complexe chez ce dernier. la frequence allélique varie selon le stade de developpement

outil d’evaluation de la qualité d’annotation BUSCO, SORON l’outil d’annotation Helixer: testé sur RW_Hap1: résultat en 15 heures (44 genes annotés versus 56000 avec Eugene) abp

##restitution: RAS

#Visite optionnelle de Get-Plage (par Cecile Donnadieu) Etude comparative des séquenceurs Illumina (séquenceur NOVASEQ6000), MGI (séquenceur T7) et Element Biosciences (séquenceur AVITI) sur trois applications. Suite à cette étude, le choix a été fait de s’équiper en AVITI Il permet également de faire du séquencage ciblé de longues lectures avec un workflow intégré nommé LoopSeq

Réunion de restitution du PEPR AgroNum

Julien Jeauffre

2024-07-23