Figuur 1: Verschillende pieper soorten (Gezondheid.be, 2019).

.

. .

.


.

Samenvatting

Aardappelen zijn familie van de nachtschade planten en slaan hun energie op in knollen in de grond. Aardappelen zijn genetisch erg complex, zo zijn deze vaak tetraploïd en bevatten gemiddeld per 20bp één SNP. Een SNP is een Single Nucleotide Polymorfism; een genetische variatie in het DNA.
In dit onderzoek is er een excelsheet aangeleverd door HZPC, een aardappelveredelingsbedrijf. Deze sheet is in het juiste format gezet en ingeladen in R, om vervolgens de GWASpoly vignette te doorlopen met eigen data. Met de data is er in R een K model gemaakt, waarin de significantie van de SNP’s te zien was, omdat hier niet op staat waar de SNP’s liggen is er ook een manhattan plot gemaakt en hier is een threshold opgesteld doormiddel van twee statistische toetsen, namelijk de M.eff toets en de Bonferroni test.
Er zijn significante SNP’s gevonden op chromosoom 3,4 en 5. Op elk van deze chromosomen zijn 7 SNP’s gevonden die betrokken zijn bij het verschil in rijptijd tussen de aardappelsoorten die onderzocht zijn in dit onderzoek. In vervolg onderzoek kan er gekeken worden naar de genen waar deze SNP’s op liggen en of de SNP’s op de chromosomen een verband met elkaar hebben voor de rijptijd.

Summary

Potatoes are related to the nightshade plants and store their energy in tubers in the ground. Potatoes are genetically very complex, often tetraploid and contain on average one SNP per 20bp. An SNP is a Single Nucleotide Polymorphism; a genetic variation in the DNA.
In this study, an excel sheet was supplied by HZPC, a potato breeding company. This sheet was put in the right format and loaded into R, to subsequently run through the GWASpoly vignette with our own data. With the data, a K model was created in R, in which the significance of the SNPs could be seen. Because this does not indicate where the SNPs lie, a Manhattan plot was also created and a threshold was set using two statistical tests, namely the M.eff test and the Bonferroni test.
Significant SNPs were found on chromosomes 3,4 and 5. On each of these chromosomes, 7 SNPs were found that are involved in the difference in ripening time between the potato species studied in this study. In follow-up research, the genes on which these SNPs are located can be examined and whether the SNPs on the chromosomes are related to each other for the maturity period.

.

Inhoudsopgave

  1. Inleiding
  2. Methoden
    2.1. GWASpoly
  3. Resultaten
    3.1. K model
    3.2. Treshold
    3.3. Manhattan plot
  4. Discussie & Conclusie
  5. Bibliografie
  6. Bijlagen: Script

.

1. Inleiding

De aardappel, ook wel Solanum tuberosum (S. tuberosum) is een plant die zich behoort tot de nachtschade planten en is hiermee familie van de tomaat en paprika. De aardappelplant slaat zijn energie op in de grond doormiddel van zetmeel in de knollen. Na rijst, tarwe en mais zijn aardappelen de belangrijkste voedselbron voor de mens. Oorspronkelijk komt de aardappel uit zuid Amerika. Uit DNA-onderzoek is gekomen dat alle aardappels afstammen van één plant uit zuid-Peru. De meeste aardappelplanten zijn auto-tetraploïd (2n=4x=48) en grotendeels heterozygoot. De aardappel is samen met de andere nachtschade planten een economisch belangrijke familie van tweezaadlobbige planten, welke 25% van bloemplant soorten vertegenwoordigt en waarbij de genoom sequentie nog niet volledig bekend is. Het wereldwijde belang van de aardappel groeit snel: waar er in het jaar 2009 nog 330 miljoen ton aardappelen geteeld is. Aardappelen bevatten belangrijke stoffen als zetmeel, eiwitten, antioxidanten en vitaminen. Ondanks dat knollen belangrijk zijn voor de plant, doordat ze dienen als opslag en voortplantingsorgaan, is er nog veel onbekend over de evolutie- en ontwikkelingsmechanismen van de initiatie en groei van knollen aan de plant (Xu, 2011).
In het genoom van de aardappel kan per aardappel verschil optreden. Zelfs aardappelen van dezelfde soort hebben verschillen in het DNA. Deze verschillen zijn Single Nucleotide Polymorfisms, ook wel SNPs. Dit zijn kleine veranderingen in het DNA, welke slechts één nucleotide betreffen. SNPs kunnen op verschillende manieren ontstaan en kunnen voor een individu nuttig, onmerkbaar of zelfs nadelig zijn. Het effect van een SNP hangt af van de plek in het genoom en welke base is vervangen voor welke base. Wanneer dit dicht bij een gen ligt heeft het meer kans op een merkbaar effect. (U.S. Department of Health and Human Services, 2020) Gemiddeld komt er per 20 nucleotiden één SNP voor (Meijer, 2021). De rijptijd van dezelfde aardappel kan dus verschillend zijn vanwege verschillende SNPs. In dit onderzoek is er een excel met gegevens over de rijptijd (fenotype) en welke SNPs (genotype) er per aardappel zijn gevonden, aangeleverd door HZPC.
Met deze data wordt in dit onderzoek vervolgens een Genome Wide Association Study (GWAS) uitgevoerd. In een GWAS wordt naar de genomen van alle individuen tegelijk gekeken. Er wordt van te voren geselecteerd op fenotype, om vervolgens van elk individu het genotype te verkrijgen. Over alle gevonden SNP’s wordt gekeken welke een significant verschil vertonen. Dit legt dan de basis voor vervolgonderzoek (Collins, sd).

.

2. Methoden

Vanuit HZPC is er een Excelsheet afgeleverd. Hierin stonden verscheidene fenotypen, tevens stond er in deze sheet ook informatie over de genotypen van de aardappelen. Deze Excelsheet is als eerste gescheiden tussen het fenotypische gedeelte en het genotypische gedeelte. Vervolgens zijn beide sheets in het voorbeeld-format (aangeleverd in Rstudio, bij het pakket ‘GWASpoly’) geformuleerd.
Zowel de genotype sheet, als de fenotype sheet zijn als tabel ingeladen in Rstudio. Hier is vervolgens met behulp van de vignette van GWASpoly, de GWAS mee uitgevoerd. Hierbij is een model gemaakt, het K model. Van dit model is een qq-plot gemaakt. Tevens is er een Manhattanplot gemaakt van het model en is er een statistische toets uitgevoerd. De gebruikte statistische toets betreft de misspecification effect toets. Het gebruikte script is na te lezen in de bijlagen.

2.1 GWASpoly

GWASpoly is een programma die gebruikt kan worden voor polyploïde organismen in RStudio. Om GWASpoly te installeren werd eerst Devtools geïnstalleerd. Vervolgens is het Excel bestand welke aangeleverd is omgezet worden tot een bestand welke door GWASpoly te herkennen was. De tabellen werden vervolgens ingeladen in R. Hierin staan de genotypes en fenotypes van de aardappelen, het chromosoom en de naam van de markers. De functie set.k is gebruikt om de kinship matrix te maken. Vervolgens zijn de tabellen vergeleken met dominante en recessieve eigenschappen modellen. Hierna is er een plot gemaakt van de verschillende datasets om de verschillende modellen te visualiseren. Voor de significantie wordt er gebruik gemaakt van de Bonferroni methode. Hiermee is vervolgens een QTL gemaakt.

.

3. Resultaten

3.1 K model

In dit onderzoek was er een GWAS uitgevoerd waar gekeken is naar de SNPs die te maken hebben met de fenotypes rijptijd en fictief. Dit is gedaan in R en daaruit is een K model gekomen. In het K model is op de X-as de verwachte lijn te zien, op de Y-as zijn de gemeten waardes van de SNPs te zien die zijn gemeten in R. Links in figuur 2 zijn de SNPs weergegeven die te maken hebben met de rijptijd en recht zijn de SNPs te zien die te maken hebben met het fictieve fenotype. De punten die afwijken van de verwachte lijn kunnen als significant verschillend worden beschouwen. Na het K model is er ook nog een manhattan-plot gemaakt die de SNPs op verschillende chromosomen laat zien.
.
.
.
.
.
.
.
.
.
.
.
.
Figuur 2: De verwachte tegen de geobserveerde SNPs gemeten in voor de rijptijd en de fictieve fenotypen van de aardappel.

3.2. Treshold

Om de threshold te berekenen zijn er twee statistische toetsen gebruikt, namelijk de bonferroni en de m.eff (misspecification effect) (zie figuur 3 & 4). De threshold voor de rijptijd en fictieve waarde is 5.39 gebleken met de berekening van Bonferroni en 4.91 met de m.eff berekening.

Figuur 3. De berekende threshold van de Bonferroni test.

.

figuur 4. De berekende threshold door de M.eff test.

.

3.3. Manhattan Plot

Aan de hand van deze waarden is de threshold in de Manhattan plot toegevoegd (figuur 5). In de Manhattan plot is bij de fictieve waarden een significant verschil te zien op chromosoom 6 en bij de rijptijd zijn er significante SNP’s gevonden op chromosoom 3, 4 en 5. Op elk van deze chromosomen liggen 7 SNP’s die betrokken zijn bij variatie in rijptijd.
figuur 5. De Manhattan plot met ingevoegde thresholds. In deze plot zijn de SNP’s verspreid over de verschillende chromosomen weergegeven. Op de X-as zijn de chromosomen te zien en op de Y-as zijn de P-waardes te zien.

.

.

4. Discussie & Conclusie

In dit onderzoek is er een GWAS uitgevoerd, waar vervolgens een K model en een Manhattan plot van is gemaakt. Tevens zijn er statistische toetsen uitgevoerd. In het K model is duidelijk te zien dat de rijptijd én de fictieve waarden erg afwijken van de lijn. Dit betekent dat er een groot verschil is tussen de voorspelde expressie en de daadwerkelijke expressie. Echter vertelt dit niks over de significantie hiervan.
Vervolgens zijn er twee statistische toetsen uitgevoerd. Hierbij is er verschil in de statistische waarden per toets. Dit is te verklaren door het feit dat deze statistische toetsen andere berekeningen gebruiken. Tevens heeft de m. eff toets een extra correctie. In verband met deze correctie is voor dit onderzoek de m. eff toets het meest relevant en tevens leidend in de gebruikte significantie threshold.
De Manhattan Plot vertelt de locatie van de SNPs. In de fictieve dataset is duidelijk te zien dat de significantere SNPs op het zesde chromosoom liggen. In de dataset van de rijptijd zijn minder hoge significante waarden te zien, maar wel op meerdere chromosomen. Zo is er in dit Manhattan Plot te zien dat er significantere SNPs gevonden zijn op de chromosomen 3, 4 en 5.
Uit dit onderzoek kan geconcludeerd worden dat de SNPs op chromosoom 3,4 en 5 liggen en dat die significant verschil maken in rijptijd tussen de aardappelsoorten. Op elk van deze drie chromosomen liggen 7 van deze SNP’s.
Als vervolgonderzoek kan er gekeken worden naar de genen waar de SNP’s op liggen en of de gevonden SNP’s op de chromosomen een verband met elkaar hebben voor de rijptijd.

.

5. Bibliografie

Collins, F. S. (sd). Genome-Wide Association Studies (GWAS). Opgehaald van National Human Genome Reasearch Institute: https://www.genome.gov/genetics-glossary/Genome-Wide-Association-Studies
Gezondheid.be. (2019, Juni). Zachtkokende of hardkokende aardappelen? Opgehaald van gezondheid.be: https://www.gezondheid.be/index.cfm?fuseaction=art&art_id=28689
Meijer, W. (2021, Juni 23). Applied CRISPR. Student congress ‘’Symphony of Life Sciences’’. Leeuwarden, Friesland, Nederland: HZPC Holland B.V.
U.S. Department of Health and Human Services. (2020, September 18). What are single nucleotide polymorphisms (SNPs)? Opgehaald van MedlinePlus: https://medlineplus.gov/genetics/understanding/genomicresearch/snp/
Xu, X. (2011). Genome sequence and analysis of the tuber crop potato. The Potato Genome Sequencing Consortium, 6.

.

Bijlagen

Script

setwd(“C:/Users/lunav/documents/R/LLS372/Casus/csv.wouter”)
install.packages(“devtools”)
devtools::install_github(“jendelman/GWASpoly”, build_vignettes=FALSE)
library(GWASpoly)
tabel1 <- read.GWASpoly(ploidy=4,pheno.file=(“C:/Users/lunav/documents/R/LLS372/Casus/csv.wouter/Phenotype.csv”), geno.file=(“C:/Users/lunav/documents/R/LLS372/Casus/csv.wouter/Genotype.csv”),format=“numeric”,n.traits=2,delim=“;”)
library(knitr)
library(rmarkdown)
library(ggplot2)
opts_chunk$set(echo = TRUE,collapse=FALSE,comment=“##”)
data.k <- set.K(tabel1)

k.model <- GWASpoly(data.k,models=c(“additive”,“1-dom”),
traits=c(“RIJPTIJD”,“Fictief”))
pk.model <- GWASpoly(data.k,models=c(“additive”,“1-dom”),
traits=c(“RIJPTIJD”,“Fictief”))

qq.plot(k.model) + ggtitle(label=“K model”)
qq.plot(pk.model) + ggtitle(label=“P+K model”)

manhattan.plot(k.model)

k.model <- set.threshold(k.model,method=“Bonferroni”,level=0.05)
#M.eff gebruiken iv Bonferroni
k.model <- set.threshold(k.model,method=“M.eff”,level=0.05)

get.QTL(data=k.model)