La Saccharomyces cerevisiae es una levadura (organismo unicelular) que obtiene la energía a partir de la glucosa y tiene una elevada capacidad fermentativa. Puede aislarse con facilidad en plantas y tierra, así como del tracto gastrointestinal y genital humano [1].
En la industria alimentaria la levadura cumple un papel importante en la elaboración de pan, creación de la cerveza (dado que esta produce un fermentado alcohólico), sidras de manzana y la industria vitivinícola [2].
El artículo seleccionado llamado “Comparision of Phylogenetic Tree Topologies for Nitrogen Associated Genes Partially Reconstruct the Evolutionary History of Saccharomyces cerevisiae” donde sus autores son: Manuel Villalobos-Cid, Francisco Salinas, Eduardo Kessi-Pérez, Mattero de Chiara, Gianni Liti, Mario Inostroza-Ponta y Claudio Martínez. Este artículo es del año 2019 y se encuentra en revistas tales como MDPI y NCBI.
El artículo explora la historia evolutiva de la cepa Saccharomyces cerevisiae. Para esto, se utilizó el proyecto “1002 genomas de levadura”, siendo actualmente el catálogo más completo de la diversidad de esta especie. El estudio se centra en 22 genes y analiza la información de la secuencia de 1011 cepas, donde los genes seleccionados están asociados a fenotipos vinculados al nitrógeno en la fermentación, validados por mapeo QTL y análisis de hemicigosidad recíproca. Para esto se utilizó archivo VCF para transformar la información genética en secuencias lineales, y se extrajo la información del servidor SGRP2 Blast. Para el análisis bioinformático se utilizó un script personalizado para procesar las variables de los genes donde se generó un árbol filogenético integrado (TE) mediante concatenación de las secuencias, empleando el paradigma de evidencia total, y árboles individuales evaluando la congruencia entre sí con la métrica CADM (Congruencia entre la Matriz de Distancias). De los árboles anteriores se construye una matriz de similitud entre ellos, y se comparan gráficamente las topologías, además de comparaciones entre TE, los 22 árboles individuales, el árbol de referencia (REF) y un árbol aleatorio. También se utilizó árboles podados para comparar subárboles asociados a clusters descritos en estudios anteriores y cepas representativas de linajes limpios. Se concluye en el estudio que los árboles filogenéticos reconstruyeron parcialmente la historia evolutiva de la especie en un 27%, en los árboles individuales se encontraron 3 grupos de genes con topologías similares, por lo tanto historias evolutivas similares, y se encontró que las topologías de los árboles de evidencia total (TE) y de los genes individuales coincidieron al 100% con el árbol de referencia (REF), respaldando la idea de que las cuatro cepas representativas (WE, WA, NA, SA) reflejan la historia evolutiva global de la especie [3].
El objetivo de este informe es realizar el alineamiento de secuencias y comparar los resultados obtenidos en R con los resultados obtenidos en el paper.
Se utilizaron los datos de 4 genes descargados del servidor SGRP2 blast (http://www.moseslab. csb.utoronto.ca/sgrp/) del “proyecto genoma de levadura 1002”.
De esta base de datos, se utilizaron 4 genes representativos de 1011 cepas, los cuales corresponden a: DBVPG6765 (WE), DBVPG6044 (WA), YPS128 (NA) e Y12 (SA). Sin embargo, la cepa DBVPG6765 (WE) se debió reemplazar por DBVPG1106 ya que no se encuentra en el “proyecto genoma de levadura 1002”.
Los alineamientos de secuencias se realizaron utilizando R version 4.3.1 y RStudio version 2023.06.2 Build 561 en una CPU AMD Ryzen 5 3500U, 4 núcleos y 8GB de RAM.
Para poder realizar el alineamiento de las secuencias seleccionaron 7 secuencias del mismo largo en cada gen para que así no se presentaran problemas al momento de procesarlas en R. El largo de las secuencias seleccionadas fue de 200 bases nitrogenadasótidos. La ventaja de asignar un largo de 200 es que no es necesario tener que editar el largo, sino solo seleccionarlas.
Las secuencias seleccionadas se deben comparar con el árbol de referencia pero con las características del computador usado no es posible generarlo.
Realizar el alineamiento de secuencias fue posible gracias al siguiente código, ejecutado en R, utilizando las librerías BioStrings, APE y MSA.
library(ape)
library(Biostrings)
library(msa)
# Cambia el directorio de trabajo
setwd("C:/Users/nicol/OneDrive/Escritorio/USACH/Bioinformatica")
# Luego, especifica solo el nombre del archivo en read.dna
archivo_fasta <- "todas.fasta"
# Lee las secuencias desde el archivo FASTA
secuencias <- read.dna(archivo_fasta, format = "fasta")
# Muestra las primeras líneas de las secuencias
head(secuencias)
## 6 DNA sequences in binary format stored in a matrix.
##
## All sequences of same length: 200
##
## Labels:
## scaffold1157_size200
## scaffold1158_size200
## scaffold1159_size200
## scaffold1160_size200
## scaffold1161_size200
## scaffold1162_size200
##
## Base composition:
## a c g t
## 0.314 0.189 0.190 0.307
## (Total: 1.2 kb)
# Lee las secuencias desde el archivo FASTA
secuencias <- readDNAStringSet(archivo_fasta, format = "fasta")
# Muestra las secuencias
print(secuencias)
## DNAStringSet object of length 28:
## width seq names
## [1] 200 GTAGAAGAGTCGAGAAGTTTTCT...ATAATTGCTAAAGTCAACAAGC scaffold1157_size200
## [2] 200 CATAAACAGCGTCGAATTGCCAA...AATTTTAGCCGCTTCTTTGGTT scaffold1158_size200
## [3] 200 TTACTTATCCTATATATTATATA...GTTTTATGAACGTTTAGGATGA scaffold1159_size200
## [4] 200 GTCACTAGCTCTTCCTGGTCGTC...CTGCCGCAAACTACACTAGCTC scaffold1160_size200
## [5] 200 TTACCATATAATGAATAGAGAAA...GTTCCGCTGTTTCAGAACTAGG scaffold1161_size200
## ... ... ...
## [24] 200 AATGCGGCGCACGTTGCTTATTA...CGAAGTTGCATATATAACATAA scaffold1283_size200
## [25] 200 AATTATAATAATAATAATTTTTA...TTAATATATTTGTTAATTAAAT scaffold1284_size200
## [26] 200 AACGAGTAGCCGATAGACCAATA...GCAGGTTCGAGTCCTGCAGTTG scaffold1285_size200
## [27] 200 TGACGCATGATTAAACGAACAAT...GTGACACCAAGCATAAGGATAA scaffold1286_size200
## [28] 200 AGTAACCTGTTTAATGTCTGTAT...TGTATCGAAAGAGTAGATCTAT scaffold1287_size200
# Realiza el alineamiento múltiple
alineamiento <- msa(secuencias)
## use default substitution matrix
# Muestra las primeras líneas de las secuencias
print(alineamiento)
## CLUSTAL 2.1
##
## Call:
## msa(secuencias)
##
## MsaDNAMultipleAlignment with 28 rows and 236 columns
## aln names
## [1] ---------ATATATTATTATCTTA...TAT-ATATTATT------------- scaffold683_size200
## [2] --------ATTATTCAATTAATTAT...TA--ATCCTATTTA----------- scaffold1281_size200
## [3] -------TAAAAAATAATTAAATAA...AGC-AGACTATT------------- scaffold685_size200
## [4] -----------------------AA...TATTAATATATTTGTTAATTAAAT- scaffold1284_size200
## [5] --TTTCTCATCATTTGCGTCATCTT...AG----------------------- scaffold796_size200
## [6] ----------AAAAAGAAAAAAAAA...AT----------------------- scaffold1162_size200
## [7] --------------CTCTGCACTGT...GAAATAACAGC-------------- scaffold797_size200
## [8] -------------------------...GAAGTTCCGCTGTTTCAGAACTAGG scaffold1161_size200
## [9] TTTTGCGTATCGAAGAGGAACTGGG...------------------------- scaffold686_size200
## ... ...
## [21] ---------------GACAACAATG...CTGTGG------------------- scaffold681_size200
## [22] ------------ACGAAGTTCATTT...ATA---------------------- scaffold798_size200
## [23] -----------AACGAGTAGCCGAT...G------------------------ scaffold1285_size200
## [24] ----------------GTAGAAGAG...CAACAAGC----------------- scaffold1157_size200
## [25] ----------------------TTG...ACTACGCCCTT-------------- scaffold799_size200
## [26] --------------------AATTA...TTAAACGTG---------------- scaffold687_size200
## [27] -----------------AATGCGGC...TATAACATAA--------------- scaffold1283_size200
## [28] -------------------TCTGAT...GGCCTTTAA---------------- scaffold682_size200
## Con -----------------????????...??????????--------------- Consensus
Los resultados de alineamiento múltiple obtenido teniendo como base el artículo mencionado son los siguientes:
En el alineamiento, en general en las secuencias de los genes, se obtuvo porcentajes de presencia de bases nitrogenadas, las cuales corresponden a 31.4% para A, 18.9% para C, 19% para G, y 30.7% para T.
La línea de “Consensus” encontrada en las figuras corresponde a la base nitrogenada con más frecuencia en esa posición entre las secuencias.
El dato más importante obtenido de los resultados, es la secuencia consenso. Esta muestra la base nitrogenada con mayor frecuencia en la posición correspondiente en la comparación de las secuencias. Como es posible observar en la Figura 2, las únicas bases que se repitieron fueron A y T. Los símbolos “-” y “?” son gaps, y que no hay una base con mayor significancia, respectivamente.
Haciendo una comparación con los resultados que se observan en el artículo y teniendo en consideración que utiliza las cepas DBVPG1106 (WE), DBVPG6044 (WA), YPS128 (NA) e Y12 (SA) al igual que en el presente trabajo, se puede extraer por medio del árbol y el análisis que se presentó en el trabajo basado en filogenia, que las cepas representativas son clave para entender la historia evolutiva de la especie [4].
Por otro lado, el análisis de este informe sólo contempla la alineación de dichas cepas, y solo secciones pequeñas de ellas. Por ende, el análisis de la secuencia consensus no es de gran relevancia debido a que la cantidad de bases nitrogenadas utilizadas (200 de aproximadamente 150.000) no son representativas del genoma completo, como es el caso del análisis que se realizó en el paper.
Es por esto, y por los resultados evidenciados, que se puede decir que las secuencias utilizadas de las cepas representativas tienen un bajo nivel de conservación de bases nitrogenadas, siendo del 16.5%, lo que se puede traducir en una baja similitud entre ellas, teniendo en cuenta que este porcentaje corresponde a las bases presentes en el análisis presente, que fue limitado por lo mencionado anteriormente.
Además, se debe tener en cuenta que el alineamiento no se pudo realizar de la misma manera que en el artículo, ya que, como se comenta anteriormente, no se contaban con las herramientas capaces de realizar un alineamiento de tal dimensión, por la capacidad de procesamiento y velocidad del hardware, en analizar la secuencia total, la cual fue usada como árbol de referencia en el paper.
Como recapitulación del trabajo comparativo se pueden recolectar bastantes consideraciones para posteriores aplicaciones del mismo tipo. Como primer punto, está la comparación entre el alineamiento múltiple y los árboles de filogenética. Si bien estos dos tienen una cierta relación, se entiende que para elaborar una estructura más compleja, como lo puede ser un árbol de ese estilo, es necesario seguir una serie de pasos para llegar a hacer un análisis mucho más profundo y contundente.
Como segunda consideración, se tiene el manejo de los archivos FASTA, ya que es un formato únicamente utilizado para la lectura de secuencias genéticas, por ende, se necesita un previo conocimiento para hacer uso de él y conocer también cómo es que se organiza la información.
Además, es importante enfatizar en la diferencia que existe entre las herramientas utilizadas en el artículo y las utilizadas para desarrollar este informe, ya que, los componentes utilizados difieren, tanto como en herramientas físicas, y el acceso a software mucho más sofisticado utilizado para la realización del articulo, al alinear grandes secuencias de genes y la creación y comparación de árboles. De todos modos, en este trabajo se pudieron haber utilizado otras herramientas para lograr un código y alineamiento más eficiente.
En conclusión, es notorio que existen muchas limitantes para hacer un correcto análisis y comparación de lo propuesto por los autores del artículo. No obstante, se pudo cumplir con el objetivo y utilizar nuevas herramientas en R aportando información valiosa sobre el uso de herramientas para realizar alineamientos múltiples y comprender su relación con la filogenia.
[1] Suárez-Machín, “Levadura Saccharomyces cerevisiae .” Available: https://www.redalyc.org/pdf/2231/223148420004.pdf (accessed Sep. 12, 2023).
[2] “Uso de microorganismos vivos en la industria alimentaria,” Mundo Agropecuario BET, Jul. 04, 2020. https://mundoagropecuario.net/uso-de-microorganismos-vivos-en-la-industria-alimentaria/ (accessed Sep. 12. 2023).
[3] M. Villalobos-Cid et al., “Comparison of Phylogenetic Tree Topologies for Nitrogen Associated Genes Partially Reconstruct the Evolutionary History of Saccharomyces cerevisiae,” Microorganisms, vol. 8, no. 1, pp. 32–32, Dec. 2019, doi: https://doi.org/10.3390/microorganisms8010032.
[4] “Sci-Hub | Population genomics of domestic and wild yeasts. Nature Precedings | 10.1038/npre.2008.1988.1,” Sci-hub.se, 2019. https://sci-hub.se/10.1038/npre.2008.1988.1 (accessed Nov. 19, 2023).