Science/Health Science/Data Science Module

Topic 8B: Big Data III (Gene Expression Analysis)

Example R code solutions for the Week 8 Science/Health Science/Data Science Computer Lab, which uses thale cress gene count data collected by Narsai et al. (2017), and functions from the Bioconductor (Bioconductor.org 2021) edgeR R package (see Robinson, McCarthy, and Smyth (2010), McCarthy, Chen, and Smyth (2012), and Chen et al. (2018)), are presented below.

This computer lab is designed to run alongside the content in the Introduction to Bioinformatics in R supplement. It might be helpful to have this material open as you look through these solutions.

1 Preparations

1.1 Bioinformatics Packages

The following R code should have been run:

install.packages("BiocManager")
BiocManager::install(version = "3.14")
BiocManager::install("edgeR")

library(edgeR)

1.2 Thale Cress Gene Count Data

No answer required.

1.2.1

The files

thale_cress_gene_count_data.RDS and
thale_cress_gene_exp_data.RDS

should have been downloaded from the LMS, and stored in your working directory.

1.2.2

Example R code is provided below:

thale_cress_gene_counts <- readRDS("thale_cress_gene_count_data.RDS")
thale_cress_data <- readRDS("thale_cress_gene_exp_data.RDS")

2 Gene Data Overview

2.1

Example R code is provided below:

head(thale_cress_gene_counts$counts)

##           X24hSL_1 X24hSL_2 X24hSL_3 X48hSL_1 X48hSL_2 X48hSL_3
## AT1G01010      282      136      315      646      622      610
## AT1G01020     1199      830     1341      768      769      888
## AT1G01030      264       79      267      266      218      333
## AT1G01040     1594      416      905     1640     1497     1893
## AT1G01050     4650     2976     4684     5350     5385     6000
## AT1G01060     8464     3007     8813     5066     5098     5923

2.1.1

No answer required.

2.2

thale_cress_data$samples

##           group lib.size norm.factors
## X24hSL_1 X24hSL 68573580    1.0061746
## X24hSL_2 X24hSL 35899251    0.9320893
## X24hSL_3 X24hSL 68625532    0.9933386
## X48hSL_1 X48hSL 67286822    1.0320906
## X48hSL_2 X48hSL 66044497    1.0141724
## X48hSL_3 X48hSL 75747390    1.0255154

2.2.1

We observe that the second replicate for the X24hSL timepoint, namely X24hSL_2, has a much smaller library size than the other replicates. We can see that this has been taken into account during the normalisation process, as its corresponding norm.factor is less than 1 (at 0.93, it is the smallest of the 6), signifying less weight is attached to this replicates’ results compared to the other replicates.

3 Identifying differentially expressed genes

3.1

head(thale_cress_data$table)

##                 logFC   logCPM         LR       PValue
## AT1G01010  1.04459593 2.723652 48.8911978 2.705622e-12
## AT1G01020 -0.86052305 3.994456 28.3069659 1.035228e-07
## AT1G01030  0.15519953 1.864742  0.4722892 4.919359e-01
## AT1G01040  0.52441104 4.317075  4.8488284 2.766492e-02
## AT1G01050  0.06154996 6.259886  0.1681752 6.817387e-01
## AT1G01060 -0.60201039 6.563097 13.3110537 2.638461e-04

Based on the output above, we conclude that:

Gene 1 (AT1G01010) has a very low \(p\)-value, and therefore is likely to be differentially expressed between the two time points.
In contrast, genes 3 (AT1G01030) and 5 (AT1G01050) have large \(p\)-values, and therefore are unlikely to be differentially expressed between the two time points.

3.2

No answer required.

3.2.1

Example R code is provided below:

thale_cress_bonferroni <- topTags(thale_cress_data, 
                                  adjust.method = "bonferroni", 
                                  n = 20000)$table

3.2.2

Example R code is provided below:

thale_cress_fdr <- topTags(thale_cress_data, 
                           adjust.method = "fdr", 
                           n = 20000)$table

3.3

Example R code is provided below:

thale_cress_bonferroni_filtered <- topTags(thale_cress_data, 
                                           adjust.method = "bonferroni", 
                                           n = 20000, p.value = 0.01)$table

thale_cress_fdr_filtered <- topTags(thale_cress_data, 
                                    adjust.method = "fdr", 
                                    n = 20000, p.value = 0.01)$table

3.3.1

dim(thale_cress_bonferroni_filtered)

## [1] 6689    5

dim(thale_cress_fdr_filtered)

## [1] 12063     5

Using a p.value cut-off of 0.01 and Bonferroni correction, we obtain 6689 significant genes. In contrast, using a p.value cut-off of 0.01 and false discovery rate correction, we obtain 12063 significant genes - almost double the Bonferroni correction results!

We can see that the FDR approach has been more lenient. As we learnt in Computer Lab 7B, controlling the false discovery rate is more powerful than controlling the family-wise error rate (via the Bonferroni correction approach). Therefore, we would conclude that in general, the FDR approach is preferable. If we wanted a smaller number of genes, we could simply specify n to be smaller than 12063, and this would help us identify the genes with the smallest \(p\)-values.

4 Volcano Plots

4.1

The R code below should have been run:

plot(thale_cress_data$table$logFC, 
     -log10(thale_cress_data$table$PValue), 
     pch = 20, cex = 0.5, col = "blue",
     main = "Volcano Plot for all Thale Cress Genes
     for the timepoints X24hSL and X48hSL",
     ylab="-log10(p-value)", xlab="logFC")

4.2

Example R code is provided below:

plot(thale_cress_bonferroni_filtered$logFC, 
     -log10(thale_cress_bonferroni_filtered$PValue), 
     pch = 20, cex = 0.5, col = "blue",
     main = "Volcano Plot for filtered Thale Cress Genes
     for the timepoints X24hSL and X48hSL,
     after Bonferroni correction",
     ylab="-log10(p-value)", xlab="logFC")

plot(thale_cress_fdr_filtered$logFC, 
     -log10(thale_cress_fdr_filtered$PValue), 
     pch = 20, cex = 0.5, col = "blue",
     main = "Volcano Plot for filtered Thale Cress Genes
     for the timepoints X24hSL and X48hSL,
     after FDR correction",
     ylab="-log10(p-value)", xlab="logFC")

4.3

We observe that the volcano plots using the adjusted \(p\)-values have less observations around the point \((0, 0)\). Such observations would be for genes that exhibited small log-fold-changes between the time points - these genes would therefore be unlikely to be differentially expressed between the two time points.

As a result, we can conclude that the \(p\)-value adjustments we performed were beneficial in identifying the genes most likely to be differentially expressed between the time points X24hSL and X48hSL.

There are some differences between the Bonferroni-corrected and FDR-corrected volcano plots. The Bonferroni-corrected volcano plot has less observations, particularly for values around x=0. However, there are also noticeably fewer points in the region x=2 to x=5, in comparison to the FDR-corrected volcano plot.

The FDR-corrected volcano plot also exhibits slightly more of a curve away from the point x=0 on the x-axis when looking at values close to y=0 on the y-axis - it seems that this approach is better at filtering out genes that have larger \(p\)-values despite having medium log-fold-change values.

Overall these results would not change our preference between the Bonferroni or FDR approach. As mentioned in 3.3.1 above, if we thought the FDR approach resulted in too few genes being filtered out, we could simply reduce the n value.

That’s everything covered, well done.

References

Bioconductor.org. 2021. “Bioconductor: Open Source Software for Bioinformatics.” 2021. https://bioconductor.org/.

Chen, Y., D. J. McCarthy, M. Ritchie, M. Robinson, and G. K. Smyth. 2018. edgeR: Differential Expression Analysis of Digital Gene Expression Data User’s Guide.

McCarthy, D. J., Y. Chen, and G. K. Smyth. 2012. “Differential Expression Analysis of Multifactor RNA-Seq Experiments with Respect to Biological Variation.” Nucleic Acids Research 40 (10): 4288–97.

Narsai, R., Q. Gouil, D. Secco, A. Srivastava, Y. V. Karpievitch, L. C. Liew, R. Lister, M. G. Lewsey, and J. Whelan. 2017. “Extensive Transcriptomic and Epigenomic Remodelling Occurs During Arabidopsis Thaliana Germination.” Genome Biology 18 (172): 1–18.

Robinson, M. D., D. J. McCarthy, and G. K. Smyth. 2010. “edgeR: A Bioconductor Package for Differential Expression Analysis of Digital Gene Expression Data.” Bioinformatics 26 (1): 139–40.

These notes have been prepared by Rupert Kuveke. The copyright for the material in these notes resides with the author named above, with the Department of Mathematics and Statistics and with La Trobe University. Copyright in this work is vested in La Trobe University including all La Trobe University branding and naming. Unless otherwise stated, material within this work is licensed under a Creative Commons Attribution-Non Commercial-Non Derivatives License BY-NC-ND.

LS0tDQp0aXRsZTogIlNUTTEwMDE6IENvbXB1dGVyIExhYiA4QiBTb2x1dGlvbnMiDQpvdXRwdXQ6DQogIGJvb2tkb3duOjpodG1sX2RvY3VtZW50MjogDQogICAgdG9jOiB0cnVlDQogICAgdG9jX2Zsb2F0OiB0cnVlDQogICAgY29kZV9kb3dubG9hZDogdHJ1ZQ0KICAgIHRoZW1lOiByZWFkYWJsZQ0KICAgIGNvZGVfZm9sZGluZzogc2hvdw0KYmlibGlvZ3JhcGh5OiBTVE0xMDAxX0RTX0NMX3JlZmVyZW5jZXMuYmliIA0KbGluay1jaXRhdGlvbnM6IHllcw0KLS0tDQoNCjxzdHlsZT4NCiNUT0Mgew0KICBiYWNrZ3JvdW5kOiB1cmwoImh0dHBzOi8vd3d3LmxhdHJvYmUuZWR1LmF1L19tZWRpYS9sYS10cm9iZS1hcGkvdjUvaW1nL2xvZ28uc3ZnIik7DQogIGJhY2tncm91bmQtc2l6ZTogY29udGFpbjsNCiAgcGFkZGluZy10b3A6IDgwcHggIWltcG9ydGFudDsNCiAgYmFja2dyb3VuZC1yZXBlYXQ6IG5vLXJlcGVhdDsNCn0NCjwvc3R5bGU+DQoNCiMjIyBTY2llbmNlL0hlYWx0aCBTY2llbmNlL0RhdGEgU2NpZW5jZSBNb2R1bGUgey19DQoNCiMjIyBUb3BpYyA4QjogQmlnIERhdGEgSUlJIChHZW5lIEV4cHJlc3Npb24gQW5hbHlzaXMpIHstfQ0KDQo8YnI+DQoNCkV4YW1wbGUgUiBjb2RlIHNvbHV0aW9ucyBmb3IgdGhlIFtXZWVrIDggU2NpZW5jZS9IZWFsdGggU2NpZW5jZS9EYXRhIFNjaWVuY2UgQ29tcHV0ZXIgTGFiXShodHRwczovL3JwdWJzLmNvbS9MVFVfU1RNMTAwMS9TTURTTUNMOCksIHdoaWNoIHVzZXMgdGhhbGUgY3Jlc3MgZ2VuZSBjb3VudCBkYXRhIGNvbGxlY3RlZCBieSBATmFyc2FpLCBhbmQgZnVuY3Rpb25zIGZyb20gdGhlIEJpb2NvbmR1Y3RvciBbQEJpb2NvbmR1Y3Rvcl0gYGVkZ2VSYCBSIHBhY2thZ2UgKHNlZSBAZWRnZVJiYXNlLCBAZWRnZVIsIGFuZCBAZWRnZVJwYWNrYWdlKSwgYXJlIHByZXNlbnRlZCBiZWxvdy4NCg0KVGhpcyBjb21wdXRlciBsYWIgaXMgZGVzaWduZWQgdG8gcnVuIGFsb25nc2lkZSB0aGUgY29udGVudCBpbiB0aGUgW0ludHJvZHVjdGlvbiB0byBCaW9pbmZvcm1hdGljcyBpbiBSIHN1cHBsZW1lbnRdKGh0dHBzOi8vYm9va2Rvd24ub3JnL3JlaGsvc3RtMTAwMV9kc21faW50cm9kdWN0aW9uX3RvX2Jpb2luZm9ybWF0aWNzX2luX3IvKS4gSXQgbWlnaHQgYmUgaGVscGZ1bCB0byBoYXZlIHRoaXMgbWF0ZXJpYWwgb3BlbiBhcyB5b3UgbG9vayB0aHJvdWdoIHRoZXNlIHNvbHV0aW9ucy4NCg0KDQojIFByZXBhcmF0aW9ucyB7I3ByZXB9DQoNCiMjIEJpb2luZm9ybWF0aWNzIFBhY2thZ2VzIA0KIA0KVGhlIGZvbGxvd2luZyBSIGNvZGUgc2hvdWxkIGhhdmUgYmVlbiBydW46DQoNCmBgYHtyIGV2YWwgPSBGLCBpbmNsdWRlID0gVH0NCmluc3RhbGwucGFja2FnZXMoIkJpb2NNYW5hZ2VyIikNCkJpb2NNYW5hZ2VyOjppbnN0YWxsKHZlcnNpb24gPSAiMy4xNCIpDQpCaW9jTWFuYWdlcjo6aW5zdGFsbCgiZWRnZVIiKQ0KDQpsaWJyYXJ5KGVkZ2VSKQ0KYGBgDQoNCmBgYHtyIGV2YWwgPSBULCBpbmNsdWRlID0gRn0NCmxpYnJhcnkoZWRnZVIpDQpgYGANCg0KIyMgVGhhbGUgQ3Jlc3MgR2VuZSBDb3VudCBEYXRhDQoNCk5vIGFuc3dlciByZXF1aXJlZC4NCg0KIyMjIA0KDQpUaGUgZmlsZXMNCg0KKiBgdGhhbGVfY3Jlc3NfZ2VuZV9jb3VudF9kYXRhLlJEU2AgYW5kDQoqIGB0aGFsZV9jcmVzc19nZW5lX2V4cF9kYXRhLlJEU2AgDQoNCnNob3VsZCBoYXZlIGJlZW4gZG93bmxvYWRlZCBmcm9tIHRoZSBMTVMsIGFuZCBzdG9yZWQgaW4geW91ciB3b3JraW5nIGRpcmVjdG9yeS4NCg0KIyMjIA0KDQpFeGFtcGxlIFIgY29kZSBpcyBwcm92aWRlZCBiZWxvdzoNCg0KYGBgIHtyLCBldmFsID0gVCwgaW5jbHVkZSA9IEZ9DQp0aGFsZV9jcmVzc19nZW5lX2NvdW50cyA8LSByZWFkUkRTKCJkYXRhL3RoYWxlX2NyZXNzX2dlbmVfY291bnRfZGF0YS5SRFMiKQ0KdGhhbGVfY3Jlc3NfZGF0YSA8LSByZWFkUkRTKCJkYXRhL3RoYWxlX2NyZXNzX2dlbmVfZXhwX2RhdGEuUkRTIikNCmBgYA0KDQpgYGAge3IsIGV2YWwgPSBGLCBpbmNsdWRlID0gVH0NCnRoYWxlX2NyZXNzX2dlbmVfY291bnRzIDwtIHJlYWRSRFMoInRoYWxlX2NyZXNzX2dlbmVfY291bnRfZGF0YS5SRFMiKQ0KdGhhbGVfY3Jlc3NfZGF0YSA8LSByZWFkUkRTKCJ0aGFsZV9jcmVzc19nZW5lX2V4cF9kYXRhLlJEUyIpDQpgYGANCg0KIyBHZW5lIERhdGEgT3ZlcnZpZXcgeyNzdW1tYXJ5fQ0KDQojIw0KDQpFeGFtcGxlIFIgY29kZSBpcyBwcm92aWRlZCBiZWxvdzoNCg0KYGBgIHtyLCBlY2hvID0gVCwgZXZhbCA9IFR9DQpoZWFkKHRoYWxlX2NyZXNzX2dlbmVfY291bnRzJGNvdW50cykNCmBgYA0KDQojIyMNCg0KTm8gYW5zd2VyIHJlcXVpcmVkLg0KDQojIw0KDQpgYGAge3IsIGVjaG8gPSBULCBldmFsID0gVH0NCnRoYWxlX2NyZXNzX2RhdGEkc2FtcGxlcw0KYGBgDQoNCiMjIw0KDQpXZSBvYnNlcnZlIHRoYXQgdGhlIHNlY29uZCByZXBsaWNhdGUgZm9yIHRoZSBgWDI0aFNMYCB0aW1lcG9pbnQsIG5hbWVseSBgWDI0aFNMXzJgLCBoYXMgYSBtdWNoIHNtYWxsZXIgbGlicmFyeSBzaXplIHRoYW4gdGhlIG90aGVyIHJlcGxpY2F0ZXMuIFdlIGNhbiBzZWUgdGhhdCB0aGlzIGhhcyBiZWVuIHRha2VuIGludG8gYWNjb3VudCBkdXJpbmcgdGhlIG5vcm1hbGlzYXRpb24gcHJvY2VzcywgYXMgaXRzIGNvcnJlc3BvbmRpbmcgYG5vcm0uZmFjdG9yYCBpcyBsZXNzIHRoYW4gMSAoYXQgMC45MywgaXQgaXMgdGhlIHNtYWxsZXN0IG9mIHRoZSA2KSwgc2lnbmlmeWluZyBsZXNzIHdlaWdodCBpcyBhdHRhY2hlZCB0byB0aGlzIHJlcGxpY2F0ZXMnIHJlc3VsdHMgY29tcGFyZWQgdG8gdGhlIG90aGVyIHJlcGxpY2F0ZXMuDQoNCiMJSWRlbnRpZnlpbmcgZGlmZmVyZW50aWFsbHkgZXhwcmVzc2VkIGdlbmVzIHsjZGVnZW5lc30NCg0KIyMgDQoNCmBgYCB7ciwgZWNobyA9IFQsIGV2YWwgPSBUfQ0KaGVhZCh0aGFsZV9jcmVzc19kYXRhJHRhYmxlKQ0KYGBgDQoNCkJhc2VkIG9uIHRoZSBvdXRwdXQgYWJvdmUsIHdlIGNvbmNsdWRlIHRoYXQ6DQoNCiogR2VuZSAxIChgQVQxRzAxMDEwYCkgaGFzIGEgdmVyeSBsb3cgJHAkLXZhbHVlLCBhbmQgdGhlcmVmb3JlIGlzIGxpa2VseSB0byBiZSBkaWZmZXJlbnRpYWxseSBleHByZXNzZWQgYmV0d2VlbiB0aGUgdHdvIHRpbWUgcG9pbnRzLg0KKiBJbiBjb250cmFzdCwgZ2VuZXMgMyAoYEFUMUcwMTAzMGApIGFuZCA1IChgQVQxRzAxMDUwYCkgaGF2ZSBsYXJnZSAkcCQtdmFsdWVzLCBhbmQgdGhlcmVmb3JlIGFyZSB1bmxpa2VseSB0byBiZSBkaWZmZXJlbnRpYWxseSBleHByZXNzZWQgYmV0d2VlbiB0aGUgdHdvIHRpbWUgcG9pbnRzLg0KDQoNCiMjIHsjcGFkanVzdH0NCg0KTm8gYW5zd2VyIHJlcXVpcmVkLg0KDQojIyMNCg0KRXhhbXBsZSBSIGNvZGUgaXMgcHJvdmlkZWQgYmVsb3c6DQoNCmBgYCB7ciwgZWNobyA9IFQsIGV2YWwgPSBUfQ0KdGhhbGVfY3Jlc3NfYm9uZmVycm9uaSA8LSB0b3BUYWdzKHRoYWxlX2NyZXNzX2RhdGEsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGFkanVzdC5tZXRob2QgPSAiYm9uZmVycm9uaSIsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG4gPSAyMDAwMCkkdGFibGUNCmBgYA0KDQojIyMNCg0KRXhhbXBsZSBSIGNvZGUgaXMgcHJvdmlkZWQgYmVsb3c6DQoNCmBgYCB7ciwgZWNobyA9IFQsIGV2YWwgPSBUfQ0KdGhhbGVfY3Jlc3NfZmRyIDwtIHRvcFRhZ3ModGhhbGVfY3Jlc3NfZGF0YSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICBhZGp1c3QubWV0aG9kID0gImZkciIsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgbiA9IDIwMDAwKSR0YWJsZQ0KYGBgDQoNCiMjIHsjZmlsdGVyfQ0KDQpFeGFtcGxlIFIgY29kZSBpcyBwcm92aWRlZCBiZWxvdzoNCg0KYGBgIHtyLCBlY2hvID0gVCwgZXZhbCA9IFR9DQp0aGFsZV9jcmVzc19ib25mZXJyb25pX2ZpbHRlcmVkIDwtIHRvcFRhZ3ModGhhbGVfY3Jlc3NfZGF0YSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgYWRqdXN0Lm1ldGhvZCA9ICJib25mZXJyb25pIiwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgbiA9IDIwMDAwLCBwLnZhbHVlID0gMC4wMSkkdGFibGUNCg0KdGhhbGVfY3Jlc3NfZmRyX2ZpbHRlcmVkIDwtIHRvcFRhZ3ModGhhbGVfY3Jlc3NfZGF0YSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBhZGp1c3QubWV0aG9kID0gImZkciIsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgbiA9IDIwMDAwLCBwLnZhbHVlID0gMC4wMSkkdGFibGUNCmBgYA0KDQojIyMgeyNmZHJ9DQoNCmBgYCB7ciwgZWNobyA9IFQsIGV2YWwgPSBUfQ0KZGltKHRoYWxlX2NyZXNzX2JvbmZlcnJvbmlfZmlsdGVyZWQpDQoNCmRpbSh0aGFsZV9jcmVzc19mZHJfZmlsdGVyZWQpDQpgYGANClVzaW5nIGEgYHAudmFsdWVgIGN1dC1vZmYgb2YgMC4wMSBhbmQgQm9uZmVycm9uaSBjb3JyZWN0aW9uLCB3ZSBvYnRhaW4gNjY4OSBzaWduaWZpY2FudCBnZW5lcy4NCkluIGNvbnRyYXN0LCB1c2luZyBhIGBwLnZhbHVlYCBjdXQtb2ZmIG9mIDAuMDEgYW5kIGZhbHNlIGRpc2NvdmVyeSByYXRlIGNvcnJlY3Rpb24sIHdlIG9idGFpbiAxMjA2MyBzaWduaWZpY2FudCBnZW5lcyAtIGFsbW9zdCBkb3VibGUgdGhlIEJvbmZlcnJvbmkgY29ycmVjdGlvbiByZXN1bHRzIQ0KDQpXZSBjYW4gc2VlIHRoYXQgdGhlIEZEUiBhcHByb2FjaCBoYXMgYmVlbiBtb3JlIGxlbmllbnQuIEFzIHdlIGxlYXJudCBpbiBDb21wdXRlciBMYWIgN0IsIGNvbnRyb2xsaW5nIHRoZSBmYWxzZSBkaXNjb3ZlcnkgcmF0ZSBpcyBtb3JlIHBvd2VyZnVsIHRoYW4gY29udHJvbGxpbmcgdGhlIGZhbWlseS13aXNlIGVycm9yIHJhdGUgKHZpYSB0aGUgQm9uZmVycm9uaSBjb3JyZWN0aW9uIGFwcHJvYWNoKS4gVGhlcmVmb3JlLCB3ZSB3b3VsZCBjb25jbHVkZSB0aGF0IGluIGdlbmVyYWwsIHRoZSBGRFIgYXBwcm9hY2ggaXMgcHJlZmVyYWJsZS4gSWYgd2Ugd2FudGVkIGEgc21hbGxlciBudW1iZXIgb2YgZ2VuZXMsIHdlIGNvdWxkIHNpbXBseSBzcGVjaWZ5IG4gdG8gYmUgc21hbGxlciB0aGFuIDEyMDYzLCBhbmQgdGhpcyB3b3VsZCBoZWxwIHVzIGlkZW50aWZ5IHRoZSBnZW5lcyB3aXRoIHRoZSBzbWFsbGVzdCAkcCQtdmFsdWVzLg0KDQojIFZvbGNhbm8gUGxvdHMNCg0KIyMgeyN2b2xjYW5vcGxvdH0NCg0KVGhlIFIgY29kZSBiZWxvdyBzaG91bGQgaGF2ZSBiZWVuIHJ1bjoNCg0KYGBgIHtyLCBldmFsID0gVCwgZWNobyA9IFQsIGZpZy5kaW0gPSBjKDgsNil9DQpwbG90KHRoYWxlX2NyZXNzX2RhdGEkdGFibGUkbG9nRkMsIA0KICAgICAtbG9nMTAodGhhbGVfY3Jlc3NfZGF0YSR0YWJsZSRQVmFsdWUpLCANCiAgICAgcGNoID0gMjAsIGNleCA9IDAuNSwgY29sID0gImJsdWUiLA0KICAgICBtYWluID0gIlZvbGNhbm8gUGxvdCBmb3IgYWxsIFRoYWxlIENyZXNzIEdlbmVzDQogICAgIGZvciB0aGUgdGltZXBvaW50cyBYMjRoU0wgYW5kIFg0OGhTTCIsDQogICAgIHlsYWI9Ii1sb2cxMChwLXZhbHVlKSIsIHhsYWI9ImxvZ0ZDIikNCmBgYA0KDQojIw0KDQpFeGFtcGxlIFIgY29kZSBpcyBwcm92aWRlZCBiZWxvdzoNCg0KYGBgIHtyLCBldmFsID0gVCwgZWNobyA9IFQsIGZpZy5kaW0gPSBjKDgsNil9DQpwbG90KHRoYWxlX2NyZXNzX2JvbmZlcnJvbmlfZmlsdGVyZWQkbG9nRkMsIA0KICAgICAtbG9nMTAodGhhbGVfY3Jlc3NfYm9uZmVycm9uaV9maWx0ZXJlZCRQVmFsdWUpLCANCiAgICAgcGNoID0gMjAsIGNleCA9IDAuNSwgY29sID0gImJsdWUiLA0KICAgICBtYWluID0gIlZvbGNhbm8gUGxvdCBmb3IgZmlsdGVyZWQgVGhhbGUgQ3Jlc3MgR2VuZXMNCiAgICAgZm9yIHRoZSB0aW1lcG9pbnRzIFgyNGhTTCBhbmQgWDQ4aFNMLA0KICAgICBhZnRlciBCb25mZXJyb25pIGNvcnJlY3Rpb24iLA0KICAgICB5bGFiPSItbG9nMTAocC12YWx1ZSkiLCB4bGFiPSJsb2dGQyIpDQpgYGANCg0KYGBgIHtyLCBldmFsID0gVCwgZWNobyA9IFQsIGZpZy5kaW0gPSBjKDgsNil9DQpwbG90KHRoYWxlX2NyZXNzX2Zkcl9maWx0ZXJlZCRsb2dGQywgDQogICAgIC1sb2cxMCh0aGFsZV9jcmVzc19mZHJfZmlsdGVyZWQkUFZhbHVlKSwgDQogICAgIHBjaCA9IDIwLCBjZXggPSAwLjUsIGNvbCA9ICJibHVlIiwNCiAgICAgbWFpbiA9ICJWb2xjYW5vIFBsb3QgZm9yIGZpbHRlcmVkIFRoYWxlIENyZXNzIEdlbmVzDQogICAgIGZvciB0aGUgdGltZXBvaW50cyBYMjRoU0wgYW5kIFg0OGhTTCwNCiAgICAgYWZ0ZXIgRkRSIGNvcnJlY3Rpb24iLA0KICAgICB5bGFiPSItbG9nMTAocC12YWx1ZSkiLCB4bGFiPSJsb2dGQyIpDQpgYGANCg0KIyMNCg0KV2Ugb2JzZXJ2ZSB0aGF0IHRoZSB2b2xjYW5vIHBsb3RzIHVzaW5nIHRoZSBhZGp1c3RlZCAkcCQtdmFsdWVzIGhhdmUgbGVzcyBvYnNlcnZhdGlvbnMgYXJvdW5kIHRoZSBwb2ludCAkKDAsIDApJC4gU3VjaCBvYnNlcnZhdGlvbnMgd291bGQgYmUgZm9yIGdlbmVzIHRoYXQgZXhoaWJpdGVkIHNtYWxsIGxvZy1mb2xkLWNoYW5nZXMgYmV0d2VlbiB0aGUgdGltZSBwb2ludHMgLSB0aGVzZSBnZW5lcyB3b3VsZCB0aGVyZWZvcmUgYmUgdW5saWtlbHkgdG8gYmUgZGlmZmVyZW50aWFsbHkgZXhwcmVzc2VkIGJldHdlZW4gdGhlIHR3byB0aW1lIHBvaW50cy4gDQoNCkFzIGEgcmVzdWx0LCB3ZSBjYW4gY29uY2x1ZGUgdGhhdCB0aGUgJHAkLXZhbHVlIGFkanVzdG1lbnRzIHdlIHBlcmZvcm1lZCB3ZXJlIGJlbmVmaWNpYWwgaW4gaWRlbnRpZnlpbmcgdGhlIGdlbmVzIG1vc3QgbGlrZWx5IHRvIGJlIGRpZmZlcmVudGlhbGx5IGV4cHJlc3NlZCBiZXR3ZWVuIHRoZSB0aW1lIHBvaW50cyBgWDI0aFNMYCBhbmQgYFg0OGhTTGAuDQoNClRoZXJlIGFyZSBzb21lIGRpZmZlcmVuY2VzIGJldHdlZW4gdGhlIEJvbmZlcnJvbmktY29ycmVjdGVkIGFuZCBGRFItY29ycmVjdGVkIHZvbGNhbm8gcGxvdHMuIFRoZSBCb25mZXJyb25pLWNvcnJlY3RlZCB2b2xjYW5vIHBsb3QgaGFzIGxlc3Mgb2JzZXJ2YXRpb25zLCBwYXJ0aWN1bGFybHkgZm9yIHZhbHVlcyBhcm91bmQgYHg9MGAuIEhvd2V2ZXIsIHRoZXJlIGFyZSBhbHNvIG5vdGljZWFibHkgZmV3ZXIgcG9pbnRzIGluIHRoZSByZWdpb24gYHg9MmAgdG8gYHg9NWAsIGluIGNvbXBhcmlzb24gdG8gdGhlIEZEUi1jb3JyZWN0ZWQgdm9sY2FubyBwbG90Lg0KDQpUaGUgRkRSLWNvcnJlY3RlZCB2b2xjYW5vIHBsb3QgYWxzbyBleGhpYml0cyBzbGlnaHRseSBtb3JlIG9mIGEgY3VydmUgYXdheSBmcm9tIHRoZSBwb2ludCBgeD0wYCBvbiB0aGUgeC1heGlzIHdoZW4gbG9va2luZyBhdCB2YWx1ZXMgY2xvc2UgdG8gYHk9MGAgb24gdGhlIHktYXhpcyAtIGl0IHNlZW1zIHRoYXQgdGhpcyBhcHByb2FjaCBpcyBiZXR0ZXIgYXQgZmlsdGVyaW5nIG91dCBnZW5lcyB0aGF0IGhhdmUgbGFyZ2VyICRwJC12YWx1ZXMgZGVzcGl0ZSBoYXZpbmcgbWVkaXVtIGxvZy1mb2xkLWNoYW5nZSB2YWx1ZXMuDQoNCk92ZXJhbGwgdGhlc2UgcmVzdWx0cyB3b3VsZCBub3QgY2hhbmdlIG91ciBwcmVmZXJlbmNlIGJldHdlZW4gdGhlIEJvbmZlcnJvbmkgb3IgRkRSIGFwcHJvYWNoLiBBcyBtZW50aW9uZWQgaW4gXEByZWYoZmRyKSBhYm92ZSwgaWYgd2UgdGhvdWdodCB0aGUgRkRSIGFwcHJvYWNoIHJlc3VsdGVkIGluIHRvbyBmZXcgZ2VuZXMgYmVpbmcgZmlsdGVyZWQgb3V0LCB3ZSBjb3VsZCBzaW1wbHkgcmVkdWNlIHRoZSBgbmAgdmFsdWUuDQoNCjxicj4NCg0KIyMjIyBUaGF0J3MgZXZlcnl0aGluZyBjb3ZlcmVkLCB3ZWxsIGRvbmUuICMjIyMgey19DQoNCjxicj4NCg0KIyBSZWZlcmVuY2VzIHstICNSZWZ9DQo8ZGl2IGlkPSJyZWZzIj48L2Rpdj4NCg0KPGJyPg0KDQo8Zm9udCBjb2xvciA9ICJncmV5Ij4NClRoZXNlIG5vdGVzIGhhdmUgYmVlbiBwcmVwYXJlZCBieSBSdXBlcnQgS3V2ZWtlLiBUaGUgY29weXJpZ2h0IGZvciB0aGUgbWF0ZXJpYWwgaW4gdGhlc2Ugbm90ZXMgcmVzaWRlcyB3aXRoIHRoZSBhdXRob3IgbmFtZWQgYWJvdmUsIHdpdGggdGhlIERlcGFydG1lbnQgb2YgTWF0aGVtYXRpY3MgYW5kIFN0YXRpc3RpY3MgYW5kIHdpdGggTGEgVHJvYmUgVW5pdmVyc2l0eS4gQ29weXJpZ2h0IGluIHRoaXMgd29yayBpcyB2ZXN0ZWQgaW4gTGEgVHJvYmUgVW5pdmVyc2l0eSBpbmNsdWRpbmcgYWxsIExhIFRyb2JlIFVuaXZlcnNpdHkgYnJhbmRpbmcgYW5kIG5hbWluZy4gVW5sZXNzIG90aGVyd2lzZSBzdGF0ZWQsIG1hdGVyaWFsIHdpdGhpbiB0aGlzIHdvcmsgaXMgbGljZW5zZWQgdW5kZXIgYSBDcmVhdGl2ZSBDb21tb25zIEF0dHJpYnV0aW9uLU5vbiBDb21tZXJjaWFsLU5vbiBEZXJpdmF0aXZlcyBMaWNlbnNlIA0KPGEgaHJlZiA9ICJodHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wL0NDIiB0YXJnZXQ9Il9ibGFuayI+IEJZLU5DLU5ELiA8L2E+DQo8L2ZvbnQ+

STM1001: Computer Lab 8B Solutions

Science/Health Science/Data Science Module

Topic 8B: Big Data III (Gene Expression Analysis)

1 Preparations

1.1 Bioinformatics Packages

1.2 Thale Cress Gene Count Data

1.2.1

1.2.2

2 Gene Data Overview

2.1

2.1.1

2.2

2.2.1

3 Identifying differentially expressed genes

3.1

3.2

3.2.1

3.2.2

3.3

3.3.1

4 Volcano Plots

4.1

4.2

4.3

That’s everything covered, well done.

References