La Saccharomyces cerevisiae es un organismo unicelular conocido por su capacidad fermentativa utilizada en una variedad de entornos de diferentes industrias, pasando por las plantas hasta el cuerpo humano, pero principalmente tiene un papel indispensable en la industria alimentaria.
Por la riqueza que presenta esta levadura, el estudio “Comparision of Phylogenetic Tree Topologies for Nitrogen Associated Genes Partially Reconstruct the Evolutionary History of Saccharomyces cerevisiae”, se sumerge en el análisis profundo de la evolución filogenética de esta. Los autores, incluyendo a Manuel Villalobos-Cid, Francisco Salinas, Eduardo Kessi-Pérez, Mattero de Chiara, Gianni Liti, Mario Inostroza-Ponta y Claudio Martínez, buscaron comprender la historia evolutiva de la Saccharomyces cerevisiae utilizando el proyecto “1002 genomas de levadura” siendo actualmente el catálogo más completo de la diversidad de esta especie.
El estudio se centra en 22 genes y analiza la información de la secuencia de 1011 cepas, donde los genes seleccionados están asociados a fenotipos vinculados al nitrógeno en la fermentación, validados por mapeo QTL y análisis de hemicigosidad recíproca. Para esto se utilizó archivo VCF para transformar la información genética en secuencias lineales, y se extrajo la información del servidor SGRP2 Blast. Para el análisis bioinformático se utilizó un script personalizado para procesar las variables de los genes donde se generó un árbol filogenético integrado (TE) mediante concatenación de las secuencias, empleando el paradigma de evidencia total, y árboles individuales evaluando la congruencia entre sí con la métrica CADM (Congruencia entre la Matriz de Distancias). De los árboles anteriores se construye una matriz de similitud entre ellos, y se comparan gráficamente las topologías, además de comparaciones entre TE, los 22 árboles individuales, el árbol de referencia (REF) y un árbol aleatorio. También se utilizó árboles podados para comparar subárboles asociados a clusters descritos en estudios anteriores y cepas representativas de linajes limpios. Se concluye en el estudio que los árboles filogenéticos reconstruyeron parcialmente la historia evolutiva de la especie en un 27%, en los árboles individuales se encontraron 3 grupos de genes con topologías similares, por lo tanto historias evolutivas similares, y se encontró que las topologías de los árboles de evidencia total (TE) y de los genes individuales coincidieron al 100% con el árbol de referencia (REF), respaldando la idea de que las cuatro cepas representativas (WE, WA, NA, SA) reflejan la historia evolutiva global de la especie [3].
Con referencia a lo estipulado, el objetivo de este informe es realizar un análisis filogenético de la Saccharomyces cerevisiae basándonos en el paper antes mencionado para posteriormente comparar y aplicar los conocimientos adquiridos.
Se utilizaron los datos de 4 genes descargados del servidor SGRP2 blast (http://www.moseslab. csb.utoronto.ca/sgrp/) del “proyecto genoma de levadura 1002”.
De esta base de datos, se utilizaron 4 genes representativos de 1011 cepas, los cuales corresponden a: DBVPG6765 (WE), DBVPG6044 (WA), YPS128 (NA) e Y12 (SA). Sin embargo, la cepa DBVPG6765 (WE) se debió reemplazar por DBVPG1106 ya que no se encuentra en el “proyecto genoma de levadura 1002”.
Los alineamientos de secuencias se realizaron utilizando R versión 4.3.1 y R Studio versión 2023.06.2 Build 561 en una CPU AMD Ryzen 5 3500U, 4 núcleos y 8GB de RAM.
Para realizar el alineamiento múltiple de secuencias se seleccionaron 7 secuencias del mismo largo en cada gen de las 4 cepas representativas para que así no se presentaran problemas al momento de procesarlas en R. El largo de las secuencias seleccionadas fue de 200 nucleótidos. La ventaja de asignar un largo de 200 es que no es necesario tener que editar el largo, sino solo seleccionarlas, ya que se encuentran en el archivo fasta.
Las secuencias seleccionadas se deben comparar con el árbol de referencia señalado en el paper mencionado, sin embargo, debido a las características del computador usado no es posible generarlo.
Realizar el alineamiento de secuencias fue posible gracias al siguiente código, ejecutado en R, utilizando las librerías APE y MSA.
Posterior al alineamiento múltiple de secuencias se realizó la matriz de distancias con distancias de pares y finalmente, con el método neighbour joining (NJ), se creó el árbol filogenético (al igual que en el paper) y herramientas en R tales como: readDNAStringSet, as.DNAbin, dist.dna y nj. Cada una de ellas utilizada para distintas etapas del procesamiento de estas secuencias.
# Instala e carga los paquetes si aún no están instalados
if (!requireNamespace("ape", quietly = TRUE)) {
install.packages("ape")
}
if (!requireNamespace("msa", quietly = TRUE)) {
install.packages("msa")
}
library(ape)
library(msa)
# Cambia el directorio de trabajo
setwd("C:/Users/nicol/OneDrive/Escritorio/USACH/Bioinformatica")
# Especifica el nombre del archivo FASTA
archivo_fasta <- "todas.fasta"
# Lee las secuencias desde el archivo FASTA
secuencias <- readDNAStringSet(archivo_fasta, format = "fasta")
# Realiza el alineamiento múltiple
alineamiento <- msa(secuencias)
## use default substitution matrix
# Convierte las secuencias a un objeto DNAbin
secuencias_DNAbin <- as.DNAbin(alineamiento)
# Calcula la matriz de distancias usando el método de p-distancias
distancias_p <- dist.dna(secuencias_DNAbin, model = "raw")
# Crea el árbol con el método Neighbor-Joining usando las nuevas distancias
arbol_nj_p <- nj(distancias_p)
Los resultados del alineamiento múltiple obtenido de la interpretación del artículo guía se ve en primera instancia como la Figura 1, en donde el programa lee las secuencias en el orden ingresado y reconoce las letras que corresponden a los nucleótidos para cada una de las secuencias, separándolas por colores como se puede observar.
Comenzado con el alineamiento múltiple, como el programa ya reconoció las posiciones de los nucleótidos para cada secuencia procede a ordenar las secuencias según su parentesco como se puede observar en en la Figura 2. Esto se realizó mediante el alineamiento múltiple de secuencias (msa) que ofrece la librería MSA de R.
Para observar la cadena evolutiva de los genes utilizados en la alineación de la Figura 2, se realizó la creación de la matriz de distancia utilizando las distancias para así posteriormente crear el árbol filogenético con el método NJ (Figura 3).
Finalmente, el árbol obtenido se compara con el árbol presentado en el paper (Figura 4).
La correcta interpretación de los resultados obtenidos es esencial para la comprensión de las relaciones evolutivas existentes, se analiza de forma detallada y crítica los hallazgos de mayor relevancia
Para comenzar desde la sección de resultados se expone que en este informe no se pudieron tomar los 22 genes asociados a la fermentación y el consumo de nitrógeno, los cuales fueron identificados utilizando poblaciones derivadas de las cuatro cepas representativas WE, NA, WA y SA, si no que solo se utilizaron estas cuatro cepas representativas de linajes limpios, donde estas se alinearon con un alineamiento global.
Se puede destacar las diferencias de alineamiento entre el paper y el trabajo,y esta diferencia radica en la dimensión del procesado de datos. En el artículo se realizó para cada gen un alineamiento múltiples de secuencias usando la información de las 1011 cepas tras la concatenación de los 22 genes (super-gen) para analizar la completitud de los datos , en cambio en el trabajo realizado se hizo un alineamiento global típico, donde se alinean y comparan todas las secuencias del conjunto de datos. Se realizó de esta manera debido a la baja capacidad de procesamiento del PC utilizado. Sin embargo, el alineamiento múltiple de secuencias utilizado representa una comparación entre cada una de las cepas donde se puede visualizar la interacción genética y posterior a ellos lograr crear la matriz de distancia p.
En el artículo se concatenan las secuencias de los 22 genes y se utilizó inferencia filogenética para construir el árbol TE, y tomando en cuenta el CADM se dice que los resultados son congruentes apoyando el paradigma de evidencia total (TE), luego se comparó el árbol TE con el árbol de referencia, utilizando toda la secuencia genómica, encontrando una similitud del 27% entre sí y mostrando una reconstrucción parcial de la historia evolutiva de la especie. Este último paso no fue posible de realizar en el presente informe ya que: no se encontró la secuencia utilizada para referencia, no se contaba con la capacidad en el computador para correr el código y no se obtuvo acceso a licencias para trabajar con herramientas más sofisticadas que lo hicieran online.
De estas comparaciones de árboles se obtienen las imágenes de los árboles mostrados en la Figura 4, sacadas del paper.
En el artículo, después se generaron árboles individuales para cada gen seleccionado, luego comparando las distancias topológicas usando como control el árbol TE y el de referencia, además de un árbol generado aleatoriamente (OUT). De esto se observó grupos de genes con tipologías similares. En esto, puede tener relevancia que no se utilizaron genes completos, sino sitios polimórficos, lo que puede influir en el resultado de la conservación genética. En el trabajo presente, se utilizó una metodología similar, ya que no se tomó la longitud real de los genes, si no que se tomaron trozos de 200 bases de largo, y fueron comparadas entre sí en un árbol filogenético, utilizando el método de Neighbor Joining, pero en este caso de las cuatro cepas representativas, no de árboles de cada gen.
Como se puede observar en la Figura 4 los genes más cercanos a la referencia son BII que corresponde a DBVPG1106 (WE); AKI que corresponde a DBVPG6044 (WA); AKN que corresponde a YPS128 (NA) y ADQ que corresponde a K12 (SA) respectivamente, pero esto en contraste al árbol entregado por el código originado en el programa de RStudio con los 4 genes representativos separados en siete secuencias de 200 nucleótidos cada uno entregan resultados diferentes, pero se debe tener en consideración que no se utilizó la secuencia de referencia porque no se encontró en el repositorio entregado por el artículo.
Al referirnos al método de inferencia empleado en nuestro procesamiento para la construcción del árbol filogenético, cabe mencionar las ventajas encontradas tales como que es eficiente para el manejo de gran cantidad de datos por lo que también se empleó en el artículo, además cuenta con la robustez ante la desviación del modelo por lo que puede proporcionar resultados razonables, con ello agregar que los árboles generados con NJ son fáciles en cuanto a su interpretación, como se puede ver en resultados. Además, el método NJ se destaca para este tipo de estudios ya que su objetivo fundamental es poder identificar individuos cuando se desconoce la especie a la que pertenecen, además, entrega la posibilidad de descubrir especies crípticas en grupos de morfología compleja o inaccesible [5].
En la última parte del artículo se seleccionaron las cuatro cepas representativas, al igual que en nuestro trabajo, comparando las topologías entre ellas por distintos métodos, y utilizando los árboles podados de los genes individuales, TE y REF. Se encontró que la información del árbol TE y 15 árboles individuales eran 100% similares al árbol de referencia, por lo que se puede aseverar que las cuatro cepas reflejan la historia evolutiva de la especie. Además se utilizaron genes chilenos que tuvieron un 0% de similitud al árbol de referencia.
Sin embargo, en este trabajo, a pesar de seleccionar en lo posible una muestra ejemplar de 7 segmentos de cada de cada una de las 4 cepas representativas con la finalidad de llegar a la creación de un árbol que comparta en la mayor medida posible su similitud con el árbol TE procesado en el artículo. La topología resultante de ambos se ve afectada pues la diferencia en la cantidad de datos analizados en comparación al árbol (TE) no es menor, pues TE al contar con la completitud de la información se espera una topología más compleja y detallada con nodos más específicos a diferencia del que fue procesado con información limitada. El árbol obtenido (Figura 3) presenta nodos menos definidos y grupos menos diferenciados además de perder algunos aspectos de la diversidad genética.
La dimensión del procesamiento presenta influencia topológica en los árboles, pues una mayor cantidad de datos permite representar de forma más fidedigna la diversidad evolutiva
Cabe destacar que según la Figura 3 se puede deducir que las cepas SA1284 y NA685 son similares en comparación a las demás, al igual que las cepas SA 1281 y NA683. Ademas, destacar igualmente que las cepas WE1163, WE1159, WE 1157 y WE1160 son similares ya que se encuentran dentro de la misma rama del árbol.
Como último punto cabe mencionar la evaluación en cuanto a la calidad de los resultados obtenidos pues es imprescindible para la veracidad de sus conclusiones
En el artículo la calidad del árbol se evaluó de distintas maneras entre ellas la base de datos empleada se construyó usando información genómica total de 22 genes y se contrastó con uno de referencia basada en la secuenciación completa del genoma de 1011 cepas ejemplar estructura filogenética de las cepas de levaduras, además se crearon árboles individuales y se compararon entre sí indicando un compartimiento de historia evolutiva
Se usó RF robinson-Foulds Distance para cuantificar las diferencias topológicas y se encontró un 27% de diferencia entre ambos, además para descartar coincidencias azarosas en este artículo se usó un arbol de control (aleatorio) OUT para asegurar que las similitudes encontradas no eran propias de la casualidad.
En nuestro árbol estudiado se usó un segmento mucho menor para la reconstrucción del mismo a pesar de no contar con la completitud del material se intentó simular en lo posible una muestra de la base de datos en estudio, a pesar de el objetivo cumplido, no fue posible la aplicación de la métrica RF robinson-Foulds empleada en el artículo que permitió cuantificar la similitud de ambos árboles en un 27%
Pues procesar el REF en nuestro trabajo se vio imposibilitado debido a las limitaciones tecnológicas existentes.
En cuanto a los resultados obtenidos como el alineamiento de secuencias y la creación del árbol filogenético, es necesario destacar que a pesar del esfuerzo enfocado en que sean en su mayor medida representativos hay discrepancias no menores en relación a los resultados obtenidos en el paper debido a la alta diferencia en términos de dimensiones propias de cada base de datos utilizada.
Por lo que los resultados obtenidos se contrastan con los resultados que se presentan en el artículo, y se alude a varios factores, como se mencionó el árbol (TE) que generan en el artículo tiene gran variedad de genes involucrados a diferencia de nuestro análisis. También mencionar que en el artículo se realizó el alineamiento múltiple de la completitud de genes gracias a facilidades tecnológicas, tales como: el procesador o la memoria del PC utilizado. Además, el árbol de referencia no se logró generar debido a que no conseguimos los datos genómicos utilizados para la realización de este y de haberlo encontrado, no se logra la expresión completa debido a limitaciones tecnológicas nombradas anteriormente.
Sin embargo, a pesar de que se logró usar herramientas similares, hacer una comparación directa con lo que entrega este artículo es de mayor complejidad, y a fin de maximizar la utilidad de las herramientas y capacidades informáticas a disposición se le consideró dar mayor relevancia a los 4 genes representativos con mayor similitud del genoma objetivo por lo que se puede obtener un análisis comparativo de modo cualitativo, y se infiere debido a esto una mayor precisión en la similitud buscada.
Se debe tener en consideración la escalabilidad de herramientas usadas para un correcto estudio, como la tecnología necesaria, y también tener una debida actualización tanto de la base de datos como de las herramientas y algoritmos empleados para no tener limitantes en cuanto a estrategia usada.
Finalmente, este trabajo ha proporcionado una valiosa experiencia en el análisis bioinformático, profundizando nuestro entendimiento sobre la manipulación de datos en este campo. Reconocemos el impacto informativo significativo que ha fortalecido nuestra competencia en este ámbito. En vista de futuras investigaciones, destacamos la importancia de tener en cuenta ciertos criterios para garantizar la relevancia y contribución real a la comunidad científica. Nos proponemos que nuestras investigaciones futuras no solo avancen en el conocimiento, sino que también se traduzcan en artículos que aporten de manera significativa al panorama científico, mejorando así la calidad de vida humana. Cabe mencionar que se cumplió con el objetivo, pues se profundizó sobre el procesamiento del análisis filogenético empleando diversas herramientas y aún cuando se presentaron limitaciones tecnológicas se logró satisfactoriamente el entendimiento de este debido al paper como base de estudio.
[1] Suárez-Machín, “Levadura Saccharomyces cerevisiae .” Available: https://www.redalyc.org/pdf/2231/223148420004.pdf (accessed Sep. 12, 2023).
[2] “Uso de microorganismos vivos en la industria alimentaria,” Mundo Agropecuario BET, Jul. 04, 2020. https://mundoagropecuario.net/uso-de-microorganismos-vivos-en-la-industria-alimentaria/ (accessed Sep. 12. 2023).
[3] M. Villalobos-Cid et al., “Comparison of Phylogenetic Tree Topologies for Nitrogen Associated Genes Partially Reconstruct the Evolutionary History of Saccharomyces cerevisiae,” Microorganisms, vol. 8, no. 1, pp. 32–32, Dec. 2019, doi: https://doi.org/10.3390/microorganisms8010032.
[4] J. Peter et al., “Genome evolution across 1,011 Saccharomyces cerevisiae isolates,” Nature, vol. 556, no. 7701, pp. 339–344, Apr. 2018, doi: https://doi.org/10.1038/s41586-018-0030-5.
[5] C. Peña, “Métodos de inferencia filogenética,” Revista Peruana de Biología, vol. 18, no. 2, Aug. 2011, doi: https://doi.org/10.15381/rpb.v18i2.243.