Read - Sequências obtidas pelas máquinas de sequenciação.
Sequencing Depth - Número de vezes que obtivemos uma read para um dado nucleotido. A partir daqui podemos também obter a coverage, que é calculada através da seguinte expressão:
\[ coverage = \frac{Total\ bases\ geradas}{Tamanho\ total\ da\ amostra\ sequenciada} \]
Contig - Sequência consensus obtida através do alinhamento de todas as reads.
De forma a conseguirmos ter uma melhor perceção do que são reads e contigs, instalamos o programa Tablet (https://ics.hutton.ac.uk/tablet/) e utilizamos uma built-in Assembly de forma a visualizarmos estes conceitos.
Figura 1: Visualização no programa Tablet, destacando o contig (realçado a preto) e as reads correspondentes (realçadas a azul).
Single-End - a leitura do fragmento é realizada apenas uma vez e num único sentido
Pair-End - a leitura do fragmento é realizada em
ambos os sentidos
Em ambos os protocolos de sequenciação, temos a adição de um INDEX
(barcode) aos fragmentos que, posteriormente, vai possibilitar verificar
quais as reads que pertencem ao fragmento template.
Atualmente, devido aos baixos custos de sequenciação, o protocolo
pair-end é o mais comum.
Mate-pair - protocolo que permite relacionarmos contigs e, em consequencia, contruirmos Scaffolds. Este envolve a circularização de grandes porções de DNA que depois vão ser fragmentadas. Dos fragmentos gerados apenas nos interessa os que contém a junção dos dois extremos da molecula inicial. Como sabemos a priori a quantos pares de bases estas duas extremidades se encontram, podemos utilizar os fagmentos de contacto para relacionar contigs que pertencam à mesma zonda do genoma.
O objectivo final em cada projeto de sequenciação é obtermos um Scaffold para cada cromossoma.
Após a realização da sequenciação através de tecnologias de short-reads ou long-reads, os dados podem ser armazenados em diferentes tipos de ficheiros, tais como, o formato Fasta e/ou FastQ.
Fasta - formato de texto simples utilizado para a representação de sequencias de nucleótidos ou de aminoacidos. Num único ficheiro fasta podemos ter informação sobre varias sequencias; assim, a primeira linha de cada sequencia inicia-se com “>” e contem a identificação da amostra e as linhas seguintes representam as sequencias obtidas. Sempre que se verifique um “>” temos a indicação de uma nova sequencia.
Figura 2: Exemplo de um ficheiro Fasta visto em aula. Nesta imagem temos duas sequências, onde a primeira linha de cada sequência inicia-se com ‘>’, seguido da identificação da amostra. Nas linhas subsequentes encontramos a sequência de nucleótidos respetiva.
FastQ - formato também baseado em texto que fornece informação sobre a qualidade da sequencia. Neste tipo de formato vamos encontrar quatro linhas para cada amostra. A primeira linha incia-se com o caracter “@” seguido pela identificação da amostra e, a segunda linha apresenta a sequencia obtida para essa amostra. A terceira linha começa com “+” e pode incluir novamente a identificação da amostra (opcional). Por fim, a quarta linha contém uma série de caracters ASCII que correspondem à qualidade de cada base, conhecida como PhredScore (Q).
Figura 3: Exemplo de um ficheiro FastQ visto em aula. Nesta imagem temos a representação de quartro sequencias com as respetivas qualidades. Por exemplo, para a primeira amostra, associado à primeira base ‘C’ temos um ‘@’, que segundo a tabela ASCII reprensenta uma Q=31.