Introducción

En la bioinformática la alineación de secuencias trata de crear métodos informáticos que permitan localizar y comparar secuencias de ADN, ARN o aminoácidos. Se puede utilizar en variados contextos como en el ensamblaje de secuencias, predicciones estructurales y funcionales de genes y proteínas, filogenia, etc. Existen diferentes métodos tal como la alineación local y global los cuales funcionan el análisis de dos secuencias y además, existe el alineamiento múltiple el cual se utiliza para analizar más de dos secuencias. Cada método utiliza matrices de puntuación para cuantificar la probabilidad de que un residuo sea sustituido por otro en el alineamiento.

El alineamiento local es una de las técnicas más sencillas para la comparación de dos secuencias ya que su enfoque no emplea demasiadas suposiciones acerca de cómo buscar la similitud entre ambas. Esta técnica se usa generalmente cuando se conoce que las secuencias tienen patrones similares ya que aquellas que no coinciden son eliminadas y no se alinean, por lo tanto, esto asegura que al momento de ver los resultados solo estarán alineadas las partes coincidentes de las secuencias. En cuanto al alineamiento global, este se utiliza para secuencias con mayor complejidad y de longitudes similares ya que de esta manera se pueden identificar las zonas similares. Una de las técnicas más comunes para realizar el alineamiento global es el algoritmo Needleman-Wunsch. Algunas ventajas de este es que se realiza un emparejamiento completo de las secuencias por lo tanto se pueden observar las variaciones que existen a lo largo de esta. [1]

El alineamiento múltiple (MSA) busca realizar el análisis en más de dos secuencias para determinar relaciones evolutivas entre organismos y además, se pueden identificar las regiones funcionales y conservadas en una familia de secuencias permitiendo conocer la historia evolutiva. Este tipo de alineamiento considera para la comparación los reordenamientos, inserciones, deleciones o mutaciones. A lo largo del tiempo se han desarrollado diversos algoritmos o estrategias tales como:

  • CLUSTALW el cual utiliza alineamiento progesivo lo que significa que comienza la alineación con aquellas secuencias que son más similares, luego con las menos similares para obtener el MSA.

  • Alineación de secuencias por algoritmo genéticos (SAGA) utiliza un esquema de programación automática para gestionar las combinaciones o mutar alineaciones entre generaciones lo cual produce una forma similar a la evolución.

  • Multiple Alignment using Fast Fourier Transform (MAFFT) aplica enfoquesprogresivos e iterativos proporcionando un reconocimiento rápido de las secciones homólogas y además, aumenta la precisión de la alineación en secuencias que están distantemente relacionadas o con grandes inserciones.

  • Multiple Sequence Comparison by Log-Expectation (MUSCLE) este algoritmo comienza con el cálculo de las distancias entre secuencias, creando un alineamiento progresivo, posteriormente se calcula nuevamente la distancia entre cada par de secuencias alineadas obtenidas anteriormente.

Para el presente trabajo se utiliza un paper que busca comparar y elegir la mejor herramienta para el alineamiento múltiple de secuencias comparando los tres métodos definidos anteriormente, se realizó una comparación de los recursos que utiliza, tal como, mediante la consistencia, la columna con brecha y la suma de puntuaciones de pares con conjuntos de datos de BAliBASE. Los datos se trabajaron en formato FASTA para poder utilizar las herramientas de software. [2]

Metodología

Descripción detallada del conjunto de datos utilizado

El conjunto de datos utilizado en esta experiencia fue extraído desde el set de datos “BAliBASE” (http://www.lbgi.fr/balibase/), aquí, se utiliza la referencia 4: Extensiones y posteriormente se selecciona la sección BB40001, tal y como se realiza en el paper, se seleccionan secuencias al azar para generar el alineamiento. En específico se hace uso de las secuencias SOX15_HUMAN (https://www.uniprot.org/uniprotkb/O60248/entry), SOX15_MOUSE (https://www.uniprot.org/uniprotkb/O60248/entry) y SOX15_DROME (https://www.uniprot.org/uniprotkb/P40657/entry), los cuales corresponden a las secuencias de las proteínas SOX15 que regulan la pluripotencialidad de las células madre y promueven su destino neural durante la diferenciación, activando el gen neurogénico Hes5. Estas secuencias se extrajeron en formato FASTA para posteriormente ser utilizados en la plataforma R Studio.

Explicación paso a paso del análisis de alineamiento de secuencias repetido, incluyendo las decisiones tomadas y los métodos empleados

Para el alineamiento de las secuencias se utilizaron los paquetes BiocManager, msa y Biostrings, de aquí, se utilizó ClustalW y Muscle para realizar el análisis comparativo del alineamiento múltiple de las secuencias. Al finalizar el alineamiento por cada método se realizó un cálculo de la consistencia final, por medio de la siguiente fórmula

\(P_c=\frac{\text {nº de lugares con datos no nulos}}{\text{largo mayor de las secuencias alineadas}}\)

Por otra parte, mediante la matriz de penalización BLOSUM62 se realizó el cálculo de los puntajes de conservación de los alineamientos, tanto como para ClustalW como para Muslce,

Figura 1. Matriz de penalización de BLOSUM62 (https://www.labxchange.org/library/items/lb:LabXchange:24d0ec21:lx_image:1).

Resultados y discusión

Así, se obtuvieron los siguientes resultados,

Figura 2. Resultados obtenidos por las métricas establecidas anteriormente.
Figura 2. Resultados obtenidos por las métricas establecidas anteriormente.

En base a los porcentajes de consistencia obtenidos se puede ver la clara diferencia entre el alineamiento haciendo uso de MUSCLE y ClustalW en nuestro caso y el alineamiento del paper escogido, en este, para ClustalW fué de 15.591% en media, mientras que la media entre ambos de nuestros métodos fue de 24.62%, este resultado se le atribuye al criterio de selección de las secuencias a alinear y a la baja cantidad de número de secuencias utilizado (n=3), esto en consecuencia a que se escogen proteínas que cumplen a grandes rasgos la misma función pero en especies distintas, en el caso de uso de MUSCLE, humano, ratón y mosca de la fruta. Mientras que en el paper se realizó un análisis a gran escala sobre el alineamiento de distintos tipos de secuencias, lo que eventualmente puede llevar a un cambio en la consistencia del alineamiento.

Posteriormente, en base a ambos métodos se encontró que Muscle se comporta de mejor manera al realizar los alineamientos, consiguiendo tanto consistencia como puntajes de conservación ponderado mayores, por lo que se puede concluir que para n pequeños (n=3) y para secuencias de aminoácidos Muscle tendría una tendencia a ser mejor.

Conclusiones

ClustalW resulta ser una herramienta útil para el alineamiento de secuencias múltiples, no obstante, al ser de tipo progresivo demora una cantidad mayor de tiempo siendo menos óptimo al momento de contar con una alta cantidad de datos. Por otro lado, el algoritmo de MUSCLE presenta un mayor requerimiento de espacio en memoria a medida que se tienen mayor cantidad de secuencias o más largas. Los resultados obtenidos indican que MUSCLE presenta un mejor alineamiento ya que es más consistente y presenta un mayor puntaje de conservación, por lo tanto, se recomienda el uso de esta metodología por sobre ClustalW en aminoácidos.

Se debe tener en consideración que para este procedimiento experimental se consideraron sólo tres secuencias a diferencia del artículo guía que usa una base de datos con más de mil secuencias. Por otro lado, las secuencias seleccionadas corresponden a proteínas que cumplen la misma función pero en diferentes organismos, lo cual no se considera en el artículo guía donde se alinean secuencias de proteínas que cumplen diversas funciones en diversos organismos. Teniendo en cuenta estas consideraciones se concluye que el método utilizado en este procedimiento experimental puede presentar sesgos que desestiman los resultados presentados.

Bibliografía

[1] All About Bioinformatics: From Begginer to Expert (5.a ed.). (2013).

[2] THREE MSA TOOLS ANALYSIS IN DNA AND PROTEIN DATASETS. (2021). Middle East Journal of Science. https://acikerisim.dicle.edu.tr/xmlui/bitstream/handle/11468/11438/THREE%20MSA%20TOOLS%20ANALYSIS%20IN%20DNA%20AND%20PROTEIN%20DATASETS.pdf?sequence=1&isAllowed=y