Tercera_Clase

2023-02-22

Introducción a la secuenciación

Historia de la secuenciación

Secuenciación de próxima generación

Primera generación

Uso de didesoxinucleótidos (ddNTP)

Aprox. 100 pb

Técnica Manual de Sanger

Secuenciación de próxima generación

Primera generación

~ 500 pb

Técnica automatizada de Sanger

Secuenciación de próxima generación

Primera generación

Advances primera generación

Secuenciación de próxima generación

Términos usados:	Secuenciadores
“Massively paralell” sequencing	2005: 452 Roche
“High- Throughput” sequencing	2006: Solexa
“Ultra hugh-throughput” sequencing	2007: ABI/SOLID
“Next Generation” sequencing	2011: Pacific Bioscience
“Second/third generation” sequencing	2010: Ion Torrent
	2015: Oxford Nanopore Technology

Secuenciación de próxima generación

Secuenciadores en uso

Illumina: MiniSeq, MiSeq, NextSeq, HiSeq

PacBio: Sequel

Oxford Nanopore Technology: MinION

Secuenciación de próxima generación

DNA polimerasa

Secuenciación de próxima generación

Ilumina

Toma una muestra de ADN, que incluya muchas copias, la fragmenta (plantillas)
Adjunta las plantillas a la superficie
Hace muchas copias de cada template (cluster de clones)

Ilumina

Secuenciación de próxima generación

Ilumina

4) Por cada grupo individual se leerá una señal florescente. Cada nucleotido tendrá un color. Cuando un nucleotido es añadido al cluster, el color correspondiente se ilumina y es emitido. Capturando una imagen mientras sucede.

Ilumina

Secuenciación de próxima generación

Ilumina

Ilumina

Secuenciación de próxima generación

Ilumina

5)Por cada cluster se genera señales luminicas, dando una serie de nucleotidos

Ilumina

Secuenciación de próxima generación

Ilumina

Los errores pueden ocurrir al momento de saltarse un nucleotido o insertar hasta dos o más

Los errores son más comunes en ciclos más avanzados de la secuenciación

Ilumina

Secuenciación de próxima generación

Ilumina Read Pairs

Ilumina puede secuenciar ambos lados del fragmento a secuenciar, conocidos como read pairs (lecturas en pares). Estos ayudan a resolver problemas de repetición

Ilumina

Secuenciación de próxima generación

Ilumina Read Pairs

Ventajas:

Tiene un buen nivel de cálidad de secuenciación (menor probabilidad de errores)

Es rápido y las librerias de prepraración robusta

Desventajas:

Tiene limite de lectura (150 pb)

3,8 millones de paired read

10.000 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||## Introducción a la secuenciación de próxima generación | ¿cómo funcionan los secuenciadores? Un secuenciador típico mide un fragmento de ADN de una sola cadena y a partir de ese fragmento produce una “lectura de secuenciación” de cierta longitud

Supongamos que el siguiente fragmento:

AAAACCCC

TTTTGGGG

Al ponerle adaptadores( XXXX e YYYY).

XXXXAAAACCCCYYYY

la direccionalidad de la cadena inversa se invierte, por lo que se formará:

XXXXGGGGTTTTYYYY

¿cómo funcionan los secuenciadores?

ilumina

Problema “read-through”, en la que la secuenciación es más larga que el fragmento

Suponiendo una lectura de 5 bases	Cuando la lectura es larga
—->	———–>
AAAAT	AAAACCCCYYYY
AAAATGGG	YYYYTTTTGGG
TTTTAGGGG	<———–
AGGGG
<—-

Secuenciación de próxima generación

pacbio

Una Molecula de ADN y una polimerasa en cada pozo

Cuatro flash de colores en tiempo real mientras que la polimerasa actúa

Sin limite por fragmentación

PacBio

Secuenciación de próxima generación

PACBIO

Ventajas:

Lecturas largas. Pocos errores del sistema. Detecta modificaciones de bases.

Desventajas:

Elevado grado de error

Elevado costo fig:

PacBio

Secuenciación de próxima generación

nanopore

nanopore

Secuenciación de próxima generación

nanopore

nanopore

Secuenciación de próxima generación

nanopore

Secuenciación de próxima generación

nanopore

nanopore

Secuenciación de próxima generación

Resumen

Illumina: MiniSeq, MiSeq, NextSeq, HiSeq

Hasta 300 millones de lecturas (HiSeq 2500)

IonTorrent:: PGM, Proton

Lecturas largas de hasta 400 pb
Hasta 12 GB por serie

PacBio

Lecturas pareadas de hasta 12.000 pb de longitud
Hasta 4 GB por serie

MinION (Nanopore) - Hasta 10.000 lecturas largas

Errores de los secuenciadores

• Illumina: 0.1% rango de error (1/1000)

• PacBio: 10% rango de error (1/10)

• MinION: 20% rango de error (1/5)

Preparación de librerias

1) Los secuenciadores secuencian fragmentos de ADN esquilados y purificados. La fragmentación puede hacerse por: Enzimas de restricción, fragmentación mecánica o química

Preparación de librerias

2)La adición de secuencias adaptadoras (oligos) específicas de la tecnología crea “bibliotecas listas para la secuenciación”.

Preparación de librerias

3)La amplificación controlada (PCR) es necesaria con la mayoría de los métodos de preparación

Preparación de librerias

4)La detección de la síntesis se realiza mediante métodos luminosos (Illumina, PacBio) o no luminosos (Oxford Nanopore, Ion). Medición (cuantificación) por: qPCR o fluorometría

Preparación de librerias

5)Normalización de datos y validación. Posteriormente, para generar la secuencia real es necesario el posprocesamiento de los datos “en bruto”.

Alineamientos

La forma de identificar las similitudes y diferencias de secuencias evolutivas se denomina alineamiento de secuencias.

En palabras sencillas, la comparación de secuencias se denomina alineamiento

Secuencias homologas

Cuando las secuencias comparten suficiente parecido, se dice que son homólogas y este fenómeno se denomina homología.

Hasta el 40 % de Identidad es una Zona segura

Entre el 20 % y el 40 % Zona crepuscular

Menos del 20 % Zona de medianoche

Identidad vs similitud

Las secuencias homólogas proceden de un ancestro común

En las proteínas, los conceptos de identidad y similitud son diferentes.

En el ADN, los conceptos de identidad y similitud son los mismos.

Tipos de alineamientos

Pairwise Sequence Alignment (por pares)
Multiple Sequence Alignment (multiple)

Pairwise Sequence Alignment (por pares)

1- Alineación global de secuencias por pares: La alineación global de secuencias se realiza entre secuencias relacionadas

2-Alineación local de secuencias por pares: La alineación local de secuencias por pares se realiza entre secuencias no relacionadas.

¿Cómo saber si están relacionadas las secuencias?

1- Observe la longitud de las secuencias.

2- Las secuencias relacionadas tienen una longitud comparable

Algoritmos para Pairwise Sequence Alignment

Dot Matrix (Matriz de Puntos): comparación de Secuencias de tipo Cualitativo
Programación Dinámica: realiza la comparación de secuencias de forma cuantitativa.
Método de palabras: realiza la comparación de secuencias de forma cuantitativa, pero se utiliza sobre todo en la búsqueda de bases de datos.

Matriz de puntos

Repeticiones

Matriz de puntos

Ventajas

Proporciona un análisis visual de la comparación de secuencias

Nos informa sobre secuencias repetidas

Al mismo tiempo nos informa sobre el alineamiento local y global

Matriz de puntos

Desventajas

Es un tipo cualitativo de comparación de secuencias

No representa toda la historia evolutiva

Matriz de puntos

ejemplo

Emboss: dotmatcher

Porgramación dinámica

También puede haber muchas otras formas

Tiene que ser la diagonal máxima

Intenta tener una puntuación alta

La diagonal no debe comprometer la puntuación

Porgramación dinámica

Recordar

Los huecos se insertan en la alineación cuando se rompe la diagonal, esto se conoce como penalización de hueco

Cuando se rompe la diagonal y se asigna una penalización, esto se conoce como apertura de huecos

Cuando se reanuda la línea diagonal, esto se conoce como cierre de huecos

Cada hueco representa una supresión o inserción

Porgramación dinámica

Se utilizan diferentes matrices de puntuación para las secuencias de proteínas y nucleótidos, como BLOSUM y PAM.

En especial hay dos algoritmos para programación dinámica

Para alinemiento de secuencias globales por pares: Algoritmo Needleman
Para alineamiento de secuencias locales por pares: Water-Smith Algorithm

Diferencia clave:

Algoritmo Needleman: La línea diagonal se traza del último al primer residuo en las secuencias

Algoritmo Water-Smith: La línea diagonal no se traza cuando el número de espacios en blanco supera un determinado umbral.

Diferencias

Programación dinámica

ejemplo

EMBL-EBI

Método de palabras

Comparará su secuencia de consulta con millones de secuencias presentes en la base de datos en pocos minutos.

Caracteristicas: alta sensibilidad, alta especificidad y que sea en poco tiempo

Hay dos algoritmos para ello:

Algoritmo exhaustivo Alta sensibilidad y alta especificidad, gran cantidad de tiempo

Algoritmo heurístico Baja sensibilidad y baja especificidad, poco tiempo

Método de palabras

Basado en el Algoritmo de Palabras Tenemos una herramienta que se conoce como Herramienta de Búsqueda de Alineamiento Local Básico (BLAST)

BLAST

Estadisticos importantes:

Query_coverage

E-Value

Percentage identity

BLAST

Query Coverage

El número de residuos de la secuencia de consulta que se alinea correctamente con la secuencia de la base de datos se conoce como cobertura de la consulta.

BLAST

E-Value

Uno de los estadisticos más importantes de BLAST

                      E = m x n x P

m = Número total de residuos presentes en la base de datos en el momento de la búsqueda

n = Número de residuos presentes en la consulta buscada en la base de datos

P = Probabilidad de HSP formado durante la alineación

              E = 10^10 x 100 x 10-18   =  10-6

BLAST

Maxima similitud

Cuántas coincidencias exactas se encuentran durante la alineación

En el caso de las proteínas, este valor es importante

BLAST

Interpretación

La cobertura debe ser alta

El E-value debe ser bajo

La Identidad máxima debe ser alta

nota: solo preocuparse por el e-Value puede ser fatal

BLAST

tipos de BLAST

1.Nucleotide BLAST

La consulta es un nucleótido y se busca en la base de datos de nucleótidos

2.Protein BLAST

La consulta es una proteína y se busca en la base de datos de proteínas

3.Blastx

La consulta es un nucleótido y se busca en la base de datos de proteínas.

Blastn

La consulta es una proteína y se busca en la base de datos de nucleótidos

Uso de BLAST

Ejemplo

BLAST puede ser usado desde la terminal de comandos con la herramienta blast de conda o desde su página web.

Pasos para usar blast

Tener una secuencia de consulta
Tener una base de datos o en su caso crearla
Realizar el alineamiento

Uso de BLAST

Ejemplo

Descarguemos secuencias de consulta con el software entrez.

En este ejemplo vamos a obtener genes de resistencia a antibioticos de salmonella

esearch -db nucleotide -query "antibiotic resistance" | efilter -organism salmonella | efetch -format fasta > samonella.fasta

Uso de BLAST

Ejemplo

Descarguemos la base de datos.

Usaremos el genoma en formato fasta de salmonella bongori https://www.ncbi.nlm.nih.gov/genome/browse/

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/439/255/GCF_000439255.1_ASM43925v1/GCF_000439255.1_ASM43925v1_genomic.fna.gz

Uso de BLAST

Ejemplo

Creamos la base de datos

makeblastdb -in secuencias.fasta -dbtype nucl -out mi_base_de_datos

Uso de BLAST

Ejemplo

Alineamos las secuencias con la base de datos que creamos

blastn -db salmonella -query salmonella.fasta  -out resultados.txt

Multiple Sequence Aligment (MSA)

La alineación de secuencias múltiples es más informativa que la alineación de secuencias por pares.

Multiple Sequence Aligment (MSA)

Algoritmos

Pueden ser Globales y locales

Recaen en ser algoritmos heuristicos

Globales:

1.Alineación progresiva de secuencias

2.Alineación iterativa de secuencias

Locales:

1.Método por bloques

Multiple Sequence Aligment (MSA)

progresivo

Cuanto mayor sea la puntuación, mayor será la distancia de la secuencia, lo que significa que es más divergente.

Multiple Sequence Aligment (MSA)

progresivo

Multiple Sequence Aligment (MSA)

progresivo

Multiple Sequence Aligment (MSA)

Ejemplos

T-Coffe
Clustalw
Muscle

4.Diamond

Instalando Diamond

Diamond utiliza un algoritmo heurístico para generar alineamientos de alta calidad entre secuencias, lo que lo hace más preciso que BLAST en algunos casos.

Diamond tiene la capacidad de generar resultados en diferentes formatos de salida, incluyendo formatos compatibles con BLAST, lo que facilita la comparación y el análisis de resultados entre diferentes herramientas.

conda install -c bioconda diamond
conda install -c "bioconda/label/cf201901" diamond

Uso de Diamond

Para hacer un alineamiento con diamond es necesario

Instalar diamond
Descargar la base de datos
Preprocesar la base de datos con diamond makedb
Ejecutar diamond

Uso de Diamond

instalación

conda install -c bioconda diamond
conda install -c "bioconda/label/cf201901" diamond

Uso de Diamond

Descarga de bases de datos

Estas puedes descargarse desde uniprot https://www.uniprot.org/downloads o desde NCBI https://www.ncbi.nlm.nih.gov/genome/browse/

Procesa la base de datos

diamond makedb --in nombre_de_la_base_de_datos.fasta --db 
nombre_de_la_base_de_datos

Uso de Diamond

Ejecuta diamond

Para hacer un blastx

diamond blastx -d nombre_de_la_base_de_datos -q secuencias.fasta -o 
resultados.txt

Para hacer un blastp:

diamond blastp -d nombre_de_la_base_de_datos -q secuencias.fasta -o 
resultados.txt

Uso de Diamond

Ejecuta diamond

Para hacer un tblastn

diamond blastn -d nombre_de_la_base_de_datos -q secuencias.fasta -o 
resultados.txt

Para hacer un blastn

diamond blastn -d nombre_de_la_base_de_datos -q secuencias.fasta -o 
resultados.txt

Uso de Diamond

Ejemplo

Descargaremos la base de datos uniprot

https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz

Tambíen secuencias en formato fasta del organismo, usando la herramientas entrez

esearch -db protein -query "catalase" | 
efilter -organism Arabidopsis thailana | 
efetch -format fasta > Arabidopsis_protein.fasta

Uso de Diamond

Ejemplo

Creamos la base de datos que será el genoma del organismo

diamond makedb --in uniprot_sprot.fasta --db uniprot

Hacemos el bast, en este caso un blastx

diamond blastp -d uniprot -q Arabidopsis_protein.fasta -o resultados.txt

Uso de Muscle

Ejemplo

Con el resultado que acabamos de obtener de blastp, haremos un alineamiento de secuencias con muscle:

Instalemos muscle

conda install -c bioconda muscle
conda install -c "bioconda/label/cf201901" muscle

Hagamos el alineamiento

muscle -in resultados.txt -out alineamiento.fasta

Bioinformática evolutiva

La bioinformática evolutiva es una rama de la bioinformática que se enfoca en el análisis de datos moleculares para entender mejor la evolución biológica.

¿Qué es la evolución?

Desde el punto de vista biológico, el desarrollo de una nueva característica biológica a partir de una preexistente mediante el proceso de selección natural y modificación se conoce como evolución.

Bioinformática evolutiva

Bases

La evolución molecular es el resultado de la acumulación de mutaciones en los genes en forma de sustitución, inserción/deleción, recombinación y conversión génica
Esto genera variantes: Polimorfismos
Hay dos fuerzas evolutivas: a) La selección natural y b) La deriva génica

Bioinformática evolutiva

La evolución es determinista y estocastica

Bioinformática evolutiva

El concepto de homología

El término homología se refiere a la relación evolutiva entre rasgos de diversos organismos.

Existen diferentes tipos de homología:

ortólogos
Paralogos
Xenologos

Bioinformática evolutiva

El concepto de homología

Los genes ortólogos y paralogos deben ser para el análisis filogenético con el fin de comprender la especiación y la duplicación

Bioinformática evolutiva

El concepto de homología

Bioinformática evolutiva

Los taxones existentes están representados por las hojas terminales o nodos y se conocen comúnmente como unidad taxonómica operativa (UTO).

Los nodos internos se conocen como unidades taxonómicas (HTU).

Bioinformática evolutiva

Un árbol filogenético sin raíces sólo proporciona detalles sobre la topología y la longitud de las ramas. Sin embargo, carece de información vital sobre la historia evolutiva de las secuencias estudiadas

Bioinformática evolutiva

Pasos para constuir un árbol filogenetico

Elegir el marcador molecular
Realizar el alineamiento
Seleccionar el modelo evolutivo
Construcción del árbol
Evaluación de la correción del árbol

Bioinformática evolutiva

1.Marcador molecular

ADN o Proteinas

¿Cúando usar uno u otro?

Bioinformática evolutiva

2.Realizar el alineamiento (MSA)

3.Seleccionar el modelo evolutivo (Distancias geneticas):

La tasa de sustitución es directamente proporcional a la distancia evolutiva
El número de sustituciones observado puede ser distinto del real
Esto puede oscurecer nuestra capacidad de observar la verdadera distancia evolutiva. Esto se conoce como homoplasia

Bioinformática evolutiva

Existen dos modelos evolutivos:

Jukes-Cantor Model
Kimura Model

Bioinformática evolutiva

Jukes-Cantor Model

Bioinformática evolutiva

Kimura Model

Bioinformática evolutiva

Kimura Model

Bioinformática evolutiva

4) Construcción del árbol

Bioinformática evolutiva

Métodos basados en distancias

El número de sustituciones ocurridas en las secuencias se estiman utilizando un modelo evolutivo específico que mejor se ajuste a los datos

Bioinformática evolutiva

Métodos basados en caracteres |Máxima pasimonia

*No se basa en un modelo explícito de evolución.

*Este método busca un árbol o una colección de un árbol asumiendo un número mínimo de cambios genéticos desde un ancestro común a sus descendientes.

Bioinformática evolutiva

Métodos basados en caracteres |Máxima pasimonia

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

*La máxima verosimilitud busca el mejor árbol entre un conjunto de hipótesis que compiten entre sí.

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Métodos basados en caracteres | Maximum Likelihood Methods

Bioinformática evolutiva

Herramientas bioinformáticas

Instalando Clustal Omega

conda install -c bioconda clustalo
conda install -c "bioconda/label/cf201901" clustalo

Crear un árbol filogenetico con Clustal Omega

## Creamos un archivo de alineamiento 
##Tenga en cuenta que si las secuencias son de ADN, debe especificar --seqtype=dna 
### en lugar de --seqtype=protein

clustalo -i archivo.fasta --outfmt=clustal --seqtype=protein -o alineamiento.aln

## Creamos el arbol filogenetico con el alineamiento 
clustalo -i alineamiento.aln --guidetree-out=arbol.dnd --force

Instalando phyml

PhyML es un software de inferencia filogenética que utiliza métodos de máxima verosimilitud (ML) para construir árboles filogenéticos a partir de MSA. Es rápido, fácil de usar y puede manejar grandes conjuntos de datos.

Instalando phyml:

conda install -c bioconda phyml
conda install -c "bioconda/label/cf201901" phyml

Usando phyml

Este comando ejecuta PhyML en el archivo de secuencia especificado (-i), especifica que las secuencias son nucleótidos (-d nucleotide), y usa el modelo de sustitución GTR (-m GTR). Puede elegir otros modelos de sustitución según sus necesidades.

phyml -i archivo_de_secuencia.fasta -d nucleotide -m JC69

Visualizando los árboles filogeneticos

Una vez que PhyML haya terminado de ejecutarse, se generará un archivo de salida con el árbol filogenético. Puede abrir este archivo con un visor de árboles filogenéticos, como FigTree http://tree.bio.ed.ac.uk/software/figtree/ o iTool https://itol.embl.de/, para visualizar el árbol.

Ejercicio

Problema:

Existen algunas familias de genes que se sabe que están relacionados con el cáncer tanto en perros como en humanos. El cáncer es una enfermedad compleja y multifactorial que puede ser causada por una combinación de factores genéticos y ambientales. Los estudios han demostrado que algunos tipos de cáncer en perros tienen una base genética similar a los humanos, lo que sugiere que las mutaciones en ciertos genes pueden contribuir al desarrollo del cáncer en ambas especies.

Ejercicio

Realiza una busqueda en pubmed y averigua el nombre de algunas familias de genes asociados al cáncer de ambas especies
Descarga en formato fasta todas las secuencias relacionadas a esa familia de genes.
Realiza un alineamiento multiple de secuencias con las secuencias descargadas (Incluye especies relacionadas o diferentes razas de perros)
Crea un árbol filogenetico con organismos que compartan esa familia de genes (incluyendo el del perro y humano)
Interpreta como a evolucionado esa familia de genes.

Ejercicio

Este ejercicio se entregará el miércoles 5 de abril. Dentro del documento se deberá responder ciertas preguntas clave.