Historia de la secuenciación
2023-02-22
Historia de la secuenciación
Uso de didesoxinucleótidos (ddNTP)
Aprox. 100 pb
Técnica Manual de Sanger
~ 500 pb
Técnica automatizada de Sanger
Advances primera generación
| Términos usados: | Secuenciadores |
|---|---|
| “Massively paralell” sequencing | 2005: 452 Roche |
| “High- Throughput” sequencing | 2006: Solexa |
| “Ultra hugh-throughput” sequencing | 2007: ABI/SOLID |
| “Next Generation” sequencing | 2011: Pacific Bioscience |
| “Second/third generation” sequencing | 2010: Ion Torrent |
| 2015: Oxford Nanopore Technology |
Illumina: MiniSeq, MiSeq, NextSeq, HiSeq
PacBio: Sequel
Oxford Nanopore Technology: MinION
DNA polimerasa
Toma una muestra de ADN, que incluya muchas copias, la fragmenta (plantillas)
Adjunta las plantillas a la superficie
Hace muchas copias de cada template (cluster de clones)
Ilumina
4) Por cada grupo individual se leerá una señal florescente. Cada nucleotido tendrá un color. Cuando un nucleotido es añadido al cluster, el color correspondiente se ilumina y es emitido. Capturando una imagen mientras sucede.
Ilumina
Ilumina
5)Por cada cluster se genera señales luminicas, dando una serie de nucleotidos
Ilumina
Los errores pueden ocurrir al momento de saltarse un nucleotido o insertar hasta dos o más
Los errores son más comunes en ciclos más avanzados de la secuenciación
Ilumina
Ilumina puede secuenciar ambos lados del fragmento a secuenciar, conocidos como read pairs (lecturas en pares). Estos ayudan a resolver problemas de repetición
Ilumina
Ventajas:
Tiene un buen nivel de cálidad de secuenciación (menor probabilidad de errores)
Es rápido y las librerias de prepraración robusta
Desventajas:
Tiene limite de lectura (150 pb)
3,8 millones de paired read
10.000 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||## Introducción a la secuenciación de próxima generación | ¿cómo funcionan los secuenciadores? Un secuenciador típico mide un fragmento de ADN de una sola cadena y a partir de ese fragmento produce una “lectura de secuenciación” de cierta longitud
Supongamos que el siguiente fragmento:
AAAACCCC
TTTTGGGG
Al ponerle adaptadores( XXXX e YYYY).
XXXXAAAACCCCYYYY
la direccionalidad de la cadena inversa se invierte, por lo que se formará:
XXXXGGGGTTTTYYYY
Problema “read-through”, en la que la secuenciación es más larga que el fragmento
| Suponiendo una lectura de 5 bases | Cuando la lectura es larga |
|---|---|
| —-> | ———–> |
| AAAAT | AAAACCCCYYYY |
| AAAATGGG | YYYYTTTTGGG |
| TTTTAGGGG | <———– |
| AGGGG | |
| <—- |
Una Molecula de ADN y una polimerasa en cada pozo
Cuatro flash de colores en tiempo real mientras que la polimerasa actúa
Sin limite por fragmentación
PacBio
Ventajas:
Lecturas largas. Pocos errores del sistema. Detecta modificaciones de bases.
Desventajas:
Elevado grado de error
Elevado costoPacBio
nanopore
nanopore
nanopore
nanopore
Illumina: MiniSeq, MiSeq, NextSeq, HiSeq
IonTorrent:: PGM, Proton
Lecturas largas de hasta 400 pb
Hasta 12 GB por serie
PacBio
Lecturas pareadas de hasta 12.000 pb de longitud
Hasta 4 GB por serie
MinION (Nanopore) - Hasta 10.000 lecturas largas
• Illumina: 0.1% rango de error (1/1000)
• PacBio: 10% rango de error (1/10)
• MinION: 20% rango de error (1/5)
2)La adición de secuencias adaptadoras (oligos) específicas de la tecnología crea “bibliotecas listas para la secuenciación”.
3)La amplificación controlada (PCR) es necesaria con la mayoría de los métodos de preparación
4)La detección de la síntesis se realiza mediante métodos luminosos (Illumina, PacBio) o no luminosos (Oxford Nanopore, Ion). Medición (cuantificación) por: qPCR o fluorometría
5)Normalización de datos y validación. Posteriormente, para generar la secuencia real es necesario el posprocesamiento de los datos “en bruto”.
La forma de identificar las similitudes y diferencias de secuencias evolutivas se denomina alineamiento de secuencias.
En palabras sencillas, la comparación de secuencias se denomina alineamiento
Cuando las secuencias comparten suficiente parecido, se dice que son homólogas y este fenómeno se denomina homología.
Hasta el 40 % de Identidad es una Zona segura
Entre el 20 % y el 40 % Zona crepuscular
Menos del 20 % Zona de medianoche
Las secuencias homólogas proceden de un ancestro común
En las proteínas, los conceptos de identidad y similitud son diferentes.
En el ADN, los conceptos de identidad y similitud son los mismos.
Pairwise Sequence Alignment (por pares)
Multiple Sequence Alignment (multiple)
1- Alineación global de secuencias por pares: La alineación global de secuencias se realiza entre secuencias relacionadas
2-Alineación local de secuencias por pares: La alineación local de secuencias por pares se realiza entre secuencias no relacionadas.
1- Observe la longitud de las secuencias.
2- Las secuencias relacionadas tienen una longitud comparable
Dot Matrix (Matriz de Puntos): comparación de Secuencias de tipo Cualitativo
Programación Dinámica: realiza la comparación de secuencias de forma cuantitativa.
Método de palabras: realiza la comparación de secuencias de forma cuantitativa, pero se utiliza sobre todo en la búsqueda de bases de datos.
Proporciona un análisis visual de la comparación de secuencias
Nos informa sobre secuencias repetidas
Al mismo tiempo nos informa sobre el alineamiento local y global
Es un tipo cualitativo de comparación de secuencias
No representa toda la historia evolutiva
Emboss: dotmatcher
También puede haber muchas otras formas
Tiene que ser la diagonal máxima
Intenta tener una puntuación alta
La diagonal no debe comprometer la puntuación
Los huecos se insertan en la alineación cuando se rompe la diagonal, esto se conoce como penalización de hueco
Cuando se rompe la diagonal y se asigna una penalización, esto se conoce como apertura de huecos
Cuando se reanuda la línea diagonal, esto se conoce como cierre de huecos
Cada hueco representa una supresión o inserción
Se utilizan diferentes matrices de puntuación para las secuencias de proteínas y nucleótidos, como BLOSUM y PAM.
En especial hay dos algoritmos para programación dinámica
Para alinemiento de secuencias globales por pares: Algoritmo Needleman
Para alineamiento de secuencias locales por pares: Water-Smith Algorithm
Diferencia clave:
Algoritmo Needleman: La línea diagonal se traza del último al primer residuo en las secuencias
Algoritmo Water-Smith: La línea diagonal no se traza cuando el número de espacios en blanco supera un determinado umbral.
EMBL-EBI
Comparará su secuencia de consulta con millones de secuencias presentes en la base de datos en pocos minutos.
Caracteristicas: alta sensibilidad, alta especificidad y que sea en poco tiempo
Hay dos algoritmos para ello:
Algoritmo exhaustivo Alta sensibilidad y alta especificidad, gran cantidad de tiempo
Algoritmo heurístico Baja sensibilidad y baja especificidad, poco tiempo
Basado en el Algoritmo de Palabras Tenemos una herramienta que se conoce como Herramienta de Búsqueda de Alineamiento Local Básico (BLAST)
Estadisticos importantes:
Query_coverage
E-Value
Percentage identity
El número de residuos de la secuencia de consulta que se alinea correctamente con la secuencia de la base de datos se conoce como cobertura de la consulta.
Uno de los estadisticos más importantes de BLAST
E = m x n x P
m = Número total de residuos presentes en la base de datos en el momento de la búsqueda
n = Número de residuos presentes en la consulta buscada en la base de datos
P = Probabilidad de HSP formado durante la alineación
E = 10^10 x 100 x 10-18 = 10-6
Cuántas coincidencias exactas se encuentran durante la alineación
En el caso de las proteínas, este valor es importante
La cobertura debe ser alta
El E-value debe ser bajo
La Identidad máxima debe ser alta
nota: solo preocuparse por el e-Value puede ser fatal
1.Nucleotide BLAST
La consulta es un nucleótido y se busca en la base de datos de nucleótidos
2.Protein BLAST
La consulta es una proteína y se busca en la base de datos de proteínas
3.Blastx
La consulta es un nucleótido y se busca en la base de datos de proteínas.
La consulta es una proteína y se busca en la base de datos de nucleótidos
BLAST puede ser usado desde la terminal de comandos con la herramienta blast de conda o desde su página web.
Pasos para usar blast
Tener una secuencia de consulta
Tener una base de datos o en su caso crearla
Realizar el alineamiento
En este ejemplo vamos a obtener genes de resistencia a antibioticos de salmonella
esearch -db nucleotide -query "antibiotic resistance" | efilter -organism salmonella | efetch -format fasta > samonella.fasta
Usaremos el genoma en formato fasta de salmonella bongori https://www.ncbi.nlm.nih.gov/genome/browse/
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/439/255/GCF_000439255.1_ASM43925v1/GCF_000439255.1_ASM43925v1_genomic.fna.gz
makeblastdb -in secuencias.fasta -dbtype nucl -out mi_base_de_datos
blastn -db salmonella -query salmonella.fasta -out resultados.txt
Pueden ser Globales y locales
Recaen en ser algoritmos heuristicos
Globales:
1.Alineación progresiva de secuencias
2.Alineación iterativa de secuencias
Locales:
1.Método por bloques
Cuanto mayor sea la puntuación, mayor será la distancia de la secuencia, lo que significa que es más divergente.
T-Coffe
Clustalw
Muscle
4.Diamond
Diamond utiliza un algoritmo heurístico para generar alineamientos de alta calidad entre secuencias, lo que lo hace más preciso que BLAST en algunos casos.
Diamond tiene la capacidad de generar resultados en diferentes formatos de salida, incluyendo formatos compatibles con BLAST, lo que facilita la comparación y el análisis de resultados entre diferentes herramientas.
conda install -c bioconda diamond conda install -c "bioconda/label/cf201901" diamond
Para hacer un alineamiento con diamond es necesario
Instalar diamond
Descargar la base de datos
Preprocesar la base de datos con diamond makedb
Ejecutar diamond
conda install -c bioconda diamond conda install -c "bioconda/label/cf201901" diamond
Estas puedes descargarse desde uniprot https://www.uniprot.org/downloads o desde NCBI https://www.ncbi.nlm.nih.gov/genome/browse/
Procesa la base de datos
diamond makedb --in nombre_de_la_base_de_datos.fasta --db nombre_de_la_base_de_datos
Para hacer un blastx
diamond blastx -d nombre_de_la_base_de_datos -q secuencias.fasta -o resultados.txt
Para hacer un blastp:
diamond blastp -d nombre_de_la_base_de_datos -q secuencias.fasta -o resultados.txt
Para hacer un tblastn
diamond blastn -d nombre_de_la_base_de_datos -q secuencias.fasta -o resultados.txt
Para hacer un blastn
diamond blastn -d nombre_de_la_base_de_datos -q secuencias.fasta -o resultados.txt
Descargaremos la base de datos uniprot
Tambíen secuencias en formato fasta del organismo, usando la herramientas entrez
esearch -db protein -query "catalase" | efilter -organism Arabidopsis thailana | efetch -format fasta > Arabidopsis_protein.fasta
Creamos la base de datos que será el genoma del organismo
diamond makedb --in uniprot_sprot.fasta --db uniprot
Hacemos el bast, en este caso un blastx
diamond blastp -d uniprot -q Arabidopsis_protein.fasta -o resultados.txt
Con el resultado que acabamos de obtener de blastp, haremos un alineamiento de secuencias con muscle:
conda install -c bioconda muscle conda install -c "bioconda/label/cf201901" muscle
muscle -in resultados.txt -out alineamiento.fasta
La bioinformática evolutiva es una rama de la bioinformática que se enfoca en el análisis de datos moleculares para entender mejor la evolución biológica.
¿Qué es la evolución?
Desde el punto de vista biológico, el desarrollo de una nueva característica biológica a partir de una preexistente mediante el proceso de selección natural y modificación se conoce como evolución.
Bases
La evolución molecular es el resultado de la acumulación de mutaciones en los genes en forma de sustitución, inserción/deleción, recombinación y conversión génica
Esto genera variantes: Polimorfismos
Hay dos fuerzas evolutivas: a) La selección natural y b) La deriva génica
El término homología se refiere a la relación evolutiva entre rasgos de diversos organismos.
Existen diferentes tipos de homología:
ortólogos
Paralogos
Xenologos
Los genes ortólogos y paralogos deben ser para el análisis filogenético con el fin de comprender la especiación y la duplicación
Los taxones existentes están representados por las hojas terminales o nodos y se conocen comúnmente como unidad taxonómica operativa (UTO).
Los nodos internos se conocen como unidades taxonómicas (HTU).
Un árbol filogenético sin raíces sólo proporciona detalles sobre la topología y la longitud de las ramas. Sin embargo, carece de información vital sobre la historia evolutiva de las secuencias estudiadas
Elegir el marcador molecular
Realizar el alineamiento
Seleccionar el modelo evolutivo
Construcción del árbol
Evaluación de la correción del árbol
1.Marcador molecular
ADN o Proteinas
¿Cúando usar uno u otro?
2.Realizar el alineamiento (MSA)
3.Seleccionar el modelo evolutivo (Distancias geneticas):
La tasa de sustitución es directamente proporcional a la distancia evolutiva
El número de sustituciones observado puede ser distinto del real
Esto puede oscurecer nuestra capacidad de observar la verdadera distancia evolutiva. Esto se conoce como homoplasia
Existen dos modelos evolutivos:
Jukes-Cantor Model
Kimura Model
El número de sustituciones ocurridas en las secuencias se estiman utilizando un modelo evolutivo específico que mejor se ajuste a los datos
*No se basa en un modelo explícito de evolución.
*Este método busca un árbol o una colección de un árbol asumiendo un número mínimo de cambios genéticos desde un ancestro común a sus descendientes.
*La máxima verosimilitud busca el mejor árbol entre un conjunto de hipótesis que compiten entre sí.
conda install -c bioconda clustalo conda install -c "bioconda/label/cf201901" clustalo
## Creamos un archivo de alineamiento ##Tenga en cuenta que si las secuencias son de ADN, debe especificar --seqtype=dna ### en lugar de --seqtype=protein clustalo -i archivo.fasta --outfmt=clustal --seqtype=protein -o alineamiento.aln ## Creamos el arbol filogenetico con el alineamiento clustalo -i alineamiento.aln --guidetree-out=arbol.dnd --force
PhyML es un software de inferencia filogenética que utiliza métodos de máxima verosimilitud (ML) para construir árboles filogenéticos a partir de MSA. Es rápido, fácil de usar y puede manejar grandes conjuntos de datos.
Instalando phyml:
conda install -c bioconda phyml conda install -c "bioconda/label/cf201901" phyml
Este comando ejecuta PhyML en el archivo de secuencia especificado (-i), especifica que las secuencias son nucleótidos (-d nucleotide), y usa el modelo de sustitución GTR (-m GTR). Puede elegir otros modelos de sustitución según sus necesidades.
phyml -i archivo_de_secuencia.fasta -d nucleotide -m JC69
Una vez que PhyML haya terminado de ejecutarse, se generará un archivo de salida con el árbol filogenético. Puede abrir este archivo con un visor de árboles filogenéticos, como FigTree http://tree.bio.ed.ac.uk/software/figtree/ o iTool https://itol.embl.de/, para visualizar el árbol.
Problema:
Existen algunas familias de genes que se sabe que están relacionados con el cáncer tanto en perros como en humanos. El cáncer es una enfermedad compleja y multifactorial que puede ser causada por una combinación de factores genéticos y ambientales. Los estudios han demostrado que algunos tipos de cáncer en perros tienen una base genética similar a los humanos, lo que sugiere que las mutaciones en ciertos genes pueden contribuir al desarrollo del cáncer en ambas especies.
Realiza una busqueda en pubmed y averigua el nombre de algunas familias de genes asociados al cáncer de ambas especies
Descarga en formato fasta todas las secuencias relacionadas a esa familia de genes.
Realiza un alineamiento multiple de secuencias con las secuencias descargadas (Incluye especies relacionadas o diferentes razas de perros)
Crea un árbol filogenetico con organismos que compartan esa familia de genes (incluyendo el del perro y humano)
Interpreta como a evolucionado esa familia de genes.
Este ejercicio se entregará el miércoles 5 de abril. Dentro del documento se deberá responder ciertas preguntas clave.